jueves, 28 de abril de 2016

Wikidata: la nueva piedra de Rosetta

Con más de 15 millones de elementos compilados en tan solo tres años, Wikidata está llamada a convertirse en el repositorio central de datos abiertos a nivel mundial. La esperada promesa del linked open data parece ser que por fin ha llegado: una base de datos multilingüe, completamente abierta, de dominio público, que puede ser leída y actualizada tanto por humanos como por máquinas. Mucha más información gratuita y al alcance de mucha más gente, en su idioma. Gracias a su sistema de información estructurada y en formato abierto, nos permite hacerle preguntas dinámicas, como, por ejemplo, cuáles son las ciudades más grandes del mundo con una alcaldesa o cuántos ministros son a su vez hijos de ministros, entre otras muchas. Con Wikidata estamos ante un nuevo paso adelante en la democratización del acceso a la información. Es por ello que lo más importante ahora son las preguntas que nos hacemos. ¿Qué información queremos documentar? ¿Cómo podemos llegar a contextualizarla? ¿Cómo afecta esta nueva herramienta a la gestión del conocimiento?
Con la llegada de Internet, hemos asumido que toda la información está a un clic de distancia. Miles de personas de todo el mundo cuelgan sus creaciones de forma desinteresada. Guías, manuales, fotos, vídeos, tutoriales, enciclopedias y bases de datos. Toda la información al alcance. La Fundación Wikimedia promueve varios proyectos con el objetivo de que la suma de todo el conocimiento llegue a toda la humanidad de forma gratuita en su lengua, y la Wikipedia es uno de los proyectos más exitosos. Su versión en inglés alcanzó los cinco millones de entradas en octubre de 2015. Pero esta versión está culturalmente sesgada, con una sobrerrepresentación de la cultura occidental. De hecho, solo considera un 30 por ciento de los epígrafes existentes en el resto de los 287 idiomas que forman el proyecto Wikipedia, con más de 34 millones de artículos en total. Muchos de los artículos sobre una cultura determinada solo existen en su lengua. Solo hay que mirar los mapas de elementos geoposicionados. Hay mucho que hacer: se ha llegado a estimar que una enciclopedia completa hoy en día debería tener unos cien millones de artículos. Ahora que sabemos que se puede hacer y que todo está a un simple clic, queremos tener la biografía de todos los escritores húngaros disponible en una lengua que entendamos, y lo queremos ahora. Las diferentes comunidades wiki locales en todo el mundo intentan compilar de la mejor forma posible su cultura en su lengua, pero a menudo tienen poca capacidad de incidencia en el corpus global del proyecto. Hay miles de artículos sobre catalanes en catalán en Wikipedia, pero no tantos sobre cultura catalana en castellano, menos en francés y muchos menos en inglés. ¿Cómo podemos difundir nuestra cultura a nivel internacional si todavía estamos intentando compilarla en nuestra propia lengua? ¿Cómo podemos acceder a información que no está escrita en ninguna de las lenguas que dominamos? La defensa del multilingüismo en línea abre tantas oportunidades como retos.

Los datos son bonitos. Los datos son información

Por esta y muchas otras razones, en 2012 se creó Wikidata, una base de datos colaborativa y multilingüe cuyo objetivo es proporcionar una fuente común para ciertos tipos de datos, como fechas de nacimiento, coordenadas, nombres, registros de autoridades, gestionada de forma colaborativa por voluntarios de todo el mundo. Así, cuando se da un cambio de gobierno, solo hay que actualizar el elemento correspondiente de Wikidata y automáticamente se actualizará en todas aquellas aplicaciones que estén vinculadas, sea Wikipedia o cualquier aplicación de terceros. No hay que inventar la rueda cada vez. Este modelo de colaboración ayuda a reducir la diglosia cultural existente, ya que comunidades pequeñas pueden tener un impacto global mayor de un modo mucho más eficiente. A medio plazo, toda consulta a Wikidata incluye los datos de todas partes, no solo de aquellas culturas o comunidades históricas con capacidad de influencia. Si, por ejemplo, realizamos una consulta sobre «doctores licenciados antes de los 20 años», no solo nos mostrará a los doctores franceses o ingleses, sino que también nos podrá mostrar a taiwaneses o andorranos.
Este proyecto abre todo un nuevo mundo de posibilidades tanto para colaborar como para hacer uso de sus datos: Wikidata game nos permite realizar miles de pequeñas contribuciones jugando, incluso desde el móvil, mientras esperamos el autobús. Inventaire permite a la gente compartir sus libros favoritos, histropedia nos muestra una representación gráfica de la historia. Científicos de todo el mundo cargan sus bases de datos de búsqueda y el sector cultural está construyendo una base de datos con todas las pinturas del mundo. Todos estos proyectos funcionan con el motor de Wikidata, que se está convirtiendo en un nuevo estándar a nivel mundial.
¿Y por qué Wikidata y no otro? A menudo en Internet los estándares no se dan por su capacidad de generar autoridad, sino por su capacidad de generar tráfico y por su capacidad de actualización. No gana el mejor, sino el que concentra a más gente y se actualiza más rápido, y este es uno de los puntos fuertes del proyecto, que hay miles de voluntarios actualizando constantemente la información. El resultado es que cualquier aplicación o proyecto relacionado con los grandes datos o big data ya puede aprovechar todo ese conocimiento estructurado, y de forma gratuita. Asumiendo eso, hay que replantearnos qué papel quieren desempeñar los agentes de conocimiento clásicos (universidades, centros de investigación, instituciones culturales) y cuál es o será el rol de los repositorios de autoridades a nivel mundial, cuando las nuevas herramientas los están mapeando e interconectando, creando una nueva centralidad. Uno de los retos con los que se encuentran las instituciones culturales es la falta de coincidencia de criterios estandarizados a la hora de documentar una obra de arte dentro de su catálogo, por ejemplo: medidas con marco, sin marco, con passepartout o sin él, descripciones en formato texto en campos número… Hay que ordenar los propios datos antes de abrirse al mundo: ser abierto significa ser interoperable. Muchas instituciones ya se están adaptando: gestoras de autoridades como VIAF ya colaboran abiertamente con Wikidata. El MoMA también lo incorpora en su catálogo. En Cataluña, la Universidad de Barcelona, en colaboración con Amical Wikimedia, lidera uno de los proyectos pioneros en este campo, con el objetivo de crear una base de datos en abierto de todo el modernismo catalán.

Los datos no son conocimiento. Los datos no son objetivos

Los datos por sí solos no son conocimiento. Son información. Con la aparición de una nueva ecología muy densa de datos al alcance de todos corremos el riesgo de intentar simplificar excesivamente el mundo: simplemente describiéndolo, aunque sea de forma muy detallada, no tenemos por qué entenderlo. Sabiendo que Dostoyevski nació en 1821, murió en 1881 y que era existencialista no entendemos ni a Dostoyevski ni el existencialismo. Ahora más que nunca necesitamos herramientas que nos ayuden a contextualizar la información, a tener un criterio propio, a generar conocimiento basándonos en esta información, y que fomenten una sociedad con un fuerte espíritu crítico. Tampoco hay que olvidar que ‒por sí mismos‒ los datos no son objetivos, aunque aparenten una supuesta neutralidad. La selección de datos a documentar es un sesgo en sí mismo. Analizar o no el sexo, origen, religión, altura, color de ojos, posicionamiento político, nacionalidad de un grupo humano puede condicionar el análisis posterior. La codificación o no de un dato en particular dentro de un conjunto puede informar y camuflar una realidad a la vez. Sin interpretación los datos no sirven de nada.
Todo el mundo conoce el efecto que tuvo la aparición de Wikipedia sobre las enciclopedias clásicas en papel. ¿Qué efectos va a tener Wikidata? Siguiendo la filosofía wiki, el trabajo se va haciendo de forma colaborativa, asimétrica, pero de modo continuado. Cualquiera puede colaborar en la creación y el mantenimiento de los contenidos, pero también de los vocabularios, de las propiedades de los elementos y de las taxonomías con que se clasifica la información. Estamos decidiendo cómo organizamos la información del mundo y lo estamos haciendo de una forma abierta y participativa, como un ejemplo de lo que se puede llegar a hacer con la tecnología. Sabemos que el conocimiento humano evoluciona por acumulación, que la cultura occidental es esencialmente heredada. Nuestra realidad es de una manera determinada gracias a los avances tecnológicos, sociales, políticos y filosóficos de quienes nos precedieron. Es por ello que las generaciones de hoy no tenemos que descubrir la electricidad, aprovechamos los esfuerzos de nuestros antepasados. En cambio, con Internet por primera vez podemos ser partícipes de uno de los fenómenos que marcará la historia de la humanidad: estamos definiendo y generando un nuevo ecosistema informativo sobre el que se basará una posible nueva revolución cognitiva, con la suerte de que podemos participar en él, cuestionarlo y mejorarlo mientras se genera. Entre todos podemos participar en un proyecto histórico a la altura de los grandes avances de la humanidad. Podemos crear una nueva piedra de Rosetta que sirva de llave abierta y transparente para descifrar el mundo de hoy en día y quién sabe si como fuente documental para generaciones o civilizaciones futuras. Vamos a hacernos responsables de ello.
F.CCCLAB

No hay comentarios:

Publicar un comentario