Páginas

Aviso

Este blog lleva inactivo desde el año 2011. Para ver mi actual web personal, entra en emilio.org.es.

domingo, 16 de enero de 2011

Se buscan copistas

A todos nos han contado la historia de la Biblioteca de Alejandría, que fue arrasada (quizás hasta en varias ocasiones y de formas distintas), a lo largo de los muchos años de vida que tuvo, hasta finalmente desaparecer. Nosotros que hacemos vida en Internet, si nos preguntasen qué es lo más parecido a la Biblioteca de Alejandría existente hoy día, seguramente contestaríamos que Wikipedia.

La Biblioteca de Alejandría tenía un fallo enorme: su contenido estaba en un único lugar. Si hubiera habido una copia de la biblioteca en otro lugar del mundo, la destrucción de la copia de Alejandría habría quedado como una mera anécdota histórica, en vez de como lo que fue, una verdadera catástrofe para la humanidad.

La revolución de la informática ha traido consigo el acceso a gran velocidad a ingentes cantidades de información, novedad convertida en rutina que aun estamos tratando de asimilar. Pero esta fiebre por la información ha venido acompañada de una falsa sensación de seguridad de nuestros datos frente a catástrofes. Nunca antes había sido tan fácil crear, copiar y destruir información. Sin embargo nos mostramos muy tranquilos frente a ello. ¿Quién no ha perdido alguna foto o documento, incluso teniendo una copia de seguridad, por haber fallado esta? No solo nos enfrentamos a la pérdida de datos valiosos por errores de hardware, sino también por el uso de formato no abiertos o por la propia obsolescencia digital.

Regresando al tema Wikipedia y más en general al de los wikis, herramientas de generación colectiva de conocimiento, me gustaría llamar la atención sobre un tema que me parece fundamental: cómo asegurar la continuidad de ese conocimiento, evitar que se pierda con el paso del tiempo y los reveses del destino. La respuesta es sencilla, manteniendo copias de seguridad actualizadas y diseminadas en varios lugares, cuantos más mejor.

La Fundación Wikimedia, responsable de Wikipedia y sus proyectos hermanos, además de tener un sistema RAID en sus servidores de base de datos para la versión en vivo de Wikipedia, dispone de otro desde donde ofrece en descarga directa las copias de seguridad de los proyectos, con todos sus artículos e historiales completos (cada uno de los commits). Casi todas las copias de seguridad son actualizadas quincenalmente, pero existe una excepción, el backup más reciente de Wikipedia en inglés, la mayor Wikipedia de todas, es de enero de 2010. Tiene exactamente un año de antigüedad. La causa de ello es que el proceso de backup es súmamente lento para este caso, debido a que genera más de 5 TB de texto bruto (aunque comprimiéndolo en 7zip posteriormente queda en ~30 GB), y generalmente acaba fallando, de modo que hay que relanzarlo hasta que por fin tiene éxito (como tuvo a comienzos del año pasado; no se sabe cuándo será la próxima). De modo que nadie en el mundo puede descargarse ahora mismo una copia actualizada (que contenga las modificaciones realizadas en el último año) de Wikipedia en inglés, a menos que haga un script que se baje la versión en línea de los artículos. Este problema siempre ha acuciado a Wikipedia en inglés, y los administradores piensan continuamente formas de optimizar el proceso de backup, aunque no siempre con éxito. Para el resto de idiomas sí es posible bajar una copia de seguridad actualizada, todo sea dicho.

La intención de este artículo no es la de criticar el encomiable trabajo de los administradores de Wikipedia (u otros proyectos que comentaré luego), ya que ellos hacen todo lo posible con los medios de los que disponen, sino de llamar la atención acerca de una situación de la que posiblemente muchos no hayan caido en la cuenta. Creo que es nuestro deber, si disponemos de los recursos suficientes, el mantener una copia de todo este conocimiento en nuestros ordenadores. Una copia de Wikipedia en cada continente, en cada país del mundo, en cada hogar. Tal y como hemos venido haciendo con las enciclopedias de papel.

Quizás creais que mantengo una posición exagerada, pero el desastre puede llegar en cualquier momento, un error hardware, un acceso no autorizado al sistema, un incendio, un terremoto, o un huracán. El 13 de agosto de 2004 estaba previsto que el Huracán Charley pasara por Tampa, Florida, donde por aquel entonces Wikipedia tenía sus servidores. Se preparó un plan de emergencia para evitar cualquier posible pérdida de datos. Afortunadamente, los administradores respondieron rápido, y finalmente el huracán tampoco llegó a casar ningún daño.

Desde hace algún tiempo vengo solicitando que se hagan mirrors de los backups de Wikipedia de forma similar a como lo hacen las distribuciones GNU/Linux, en múltiples servidores en diversas localizaciones. Si conoces alguna universidad o entidad interesada en hacer de mirror de manera voluntaria, tienes más datos en esta página acerca de los recursos necesarios.

Es curioso como en esta sociedad, la gente duplica con alegría otro tipo de obras como películas o música, mientras que el compendio del saber humano (disponible con licencia libre por cierto) es descargado por muy pocos, casi nadie.

También es muy curioso como cada vez que alguiente entrevista a Jimmy Wales, el fundador de Wikipedia, le preguntan qué relación hay entre Wikipedia y WikiLeaks (que aclaro yo, por si alguien no lo sabe, que no existe ninguna relación, más alla de las 4 primeras letras de cada palabra), mientras que ningún periodista le pregunta qué mecanismos se están empleando para salvaguardar los millones de páginas de conocimiento que la humanidad está depositando altruistamente en los servidores. Que ya digo yo que la Fundación Wikimedia se lo toma muy en serio. Pero parece que es algo de poco interés mediático.

Proyectos de enciclopedia similares a Wikipedia pero a menor escala son Enciclopedia Libre Universal en Español y Wikanda (la enciclopedia de Andalucía). Seguramente (o eso espero) estos proyectos cuentan con un sistema de copias de seguridad interno, pero no he encontrado la posibilidad de descargar un backup público a mi ordenador. Creo que es nuestra reponsabilidad solicitarlos. Lo mismo ocurre con el resto de locapedias.

De momento dispongo de una copia de todas las Wikipedias, Wikcionarios, etc, en todos los idiomas en un disco duro externo. Ocupan tan solo 100 GB en conjunto. Muy poco espacio para lo que representan: la suma del conocimiento humano. El asunto de las imágenes es más complejo, son casi 8 TB, y no existe la posibilidad de bajárselas en paquetes, a menos que hagas un script.

Hoy está de nuestra mano evitar que vuelva a suceder lo ocurrido con la Biblioteca de Alejandría. Mañana quizás sea tarde.

¿Quieres descargar Wikipedia? Sigue este enlace http://download.wikimedia.org/backup-index.html (el fichero que contiene el texto e historiales de cada artículo es pages-meta-history.xml.7z; cada proyecto en cada idioma tiene un fichero de ese tipo). Los ficheros van desde pocos megas hasta varios gigas, en función del tamaño de cada Wikipedia. Por ejemplo, el más reciente de Wikipedia en inglés de 31 GB (2010-01-30) o el más reciente de Wikipedia en español con 3.5 GB (2010-10-23).

Aclaración: estas copias de seguridad son texto plano en formato XML comprimidas en 7zip o Bzip (no incluye imágenes). Es decir, no son directamente leibles en un navegador o un procesador de textos. Si lo que quieres es una copia offline de Wikipedia para consultarla, tienes lectores como Kiwix u Okawix. Más información en http://en.wikipedia.org/wiki/User:Emijrp/Wikipedia_Archive. Existe una versión en CD/DVD de Wikipedia en español, llamada CDPedia.

¿Conoces alguna universidad o entidad interesada en hacer de mirror de manera voluntaria? Tienes más datos en esta página, puedes dejar un mensaje en la página de discusión.

Si quieres hacer un backup de tu wiki, puedes usar las herramientas del WikiTeam.

Licencia

Unless stated otherwise, the text of the blog posts is published under this Creative Commons license.
A menos que se indique otra cosa, el texto de las entradas del blog se publica bajo esta licencia Creative Commons.
Licencia de Creative Commons