16 de Noviembre de 2016
S. Grados, Leganés

THOR Bootcamp y Open Data: infinitas posibilidades

La idea de ciencia abierta, Open Science, gana relevancia a nivel institucional, pero sigue siendo esa gran desconocida para muchos investigadores; especialmente en un país, el nuestro, que no consigue quitarse de encima la vieja idea de que la información, toda ella, es un activo cuyo valor depende directamente del nivel de confidencialidad con el que se maneje. Sin embargo, nadie podrá argüir que, desde nuestra Universidad, no se estén poniendo todos los medios posibles para tratar de darle visibilidad y hacer que vaya formando parte, progresivamente, de la cultura científica de sus miembros; empezando por nosotros, los doctorandos.

Es el segundo año consecutivo que tengo la oportunidad de asistir a un evento relacionado con este tema, después de la experiencia del pasado año con el seminario Winning Horizon2020 with OpenScience. Y, antes de proseguir, quiero agradecer a los organizadores de estos seminarios su iniciativa porque, en mi opinión, encajan perfectamente con los objetivos de la formación transversal prevista en nuestros programas de doctorado. Se trata de competencias necesarias pero, paradójicamente, ninguneadas de forma sistemática a lo largo de nuestra carrera en la universidad. Además, el formato de charlas cortas elegido en esta ocasión me parece muy acertado, porque logró mantener el interés de un público poco familiarizado, en general, con el tema.

Mi opinión sobre el concepto general de Open Science ya quedó reflejada en el post que escribí el pasado año con motivo del citado seminario. Dieciocho meses después, comparto el grueso de las opiniones que allí plasmé; de hecho, si algo ha cambiado desde entonces en mi punto de vista, ha sido en el sentido de incrementar el valor que concedo a las posibilidades ofrecidas por la publicación de conocimiento científico en abierto.

Este año, el THOR Bootcamp objeto de este blog se ha centrado en la problemática particular de la compartición de los datos, yendo un paso más allá de las publicaciones, que son las que, habitualmente, concentran toda la atención. Es el concepto de Open Data, una particularización de la idea genérica de Open Science. En el post que enlazo en el párrafo anterior, ya expresaba mis dudas sobre dos cuestiones que se pueden plantear a la hora de compartir datos. La primera era el valor que aporta al investigador dedicar sus recursos a la tarea de compartir sus datos; evidentemente, el primer requisito para que éste no sea nulo es que esté bien establecido el mecanismo de atribución. El segundo aspecto que me resultaba dubitativo eran los instrumentos que serían necesarios, principalmente desde el punto de vista técnico, para generalizar la compartición de datos de distintas características y disciplinas en repositorios de acceso público. Mi asistencia a este seminario me ha permitido adquirir una visión más amplia sobre estos aspectos, complementando los conceptos ya adquiridos el año pasado, y ofreciendo respuestas a las cuestiones que entonces me planteaba.

El mundo de los datos abiertos

En resumen, el seminario nos introdujo el concepto de Open Data dentro del contexto general de Open Science, y después nos presentó toda una panoplia de herramientas que están a disposición de los investigadores para compartir el material que se genera durante la labor científica, y también para identificarlo correctamente. La cuestión, como vimos, no está solo en facilitar su uso por parte de personas ajenas a nuestro trabajo, sino también, especialmente, de garantizar que el material pueda ser citado correctamente y pase a formar parte de nuestro acervo investigador.

Voy a tratar de resumir, de forma poco precisa y, desde luego, nada exhaustiva, las que, para mí, fueron las ideas generales del seminario: los investigadores tenemos la opción de crearnos un identificador único, el ORCID, que tiene la capacidad de contener todo lo que «hemos hecho» en investigación hasta el momento y que podemos utilizar como credencial de nuestro trabajo. Cada uno de los productos que se generan durante la labor investigadora, incluyendo literatura (artículos), datos, etc. puede identificarse, también de forma única, con un DOI (aunque también puede usarse PURL, LSID, ARK, etc.). Los datos en sí pueden alojarse en páginas como Github (aunque podríamos citar también BitBucket o GitLab) si se trata de código fuente, o bien en repositorios preparados para aceptar todo tipo de datos, como Zenodo (o Dataverse, o Figshare, …). Hay servicios que intentan facilitar la tarea de encontrar estos datos, que no es precisamente baladí, como re3data. Y DataCite (y Crossref en el caso de los artículos) ayuda a mantener todo en orden, vinculado y actualizado.

Todos estos conceptos conforman un panorama, ciertamente, algo abrumador. Sin haber manejado anteriormente ninguno de estos servicios, salvo Github, la duda que me surgió fue si no resulta ineficiente tener que navegar en este maremágnum de logotipos, siglas y nombres para llegar a lo verdaderamente importante que son, conviene no olvidarlo, los datos. Afortundamente, muchos de estos servicios pueden conectarse entre sí con un golpe de clic, y, de hecho, en ello reside, al menos en parte, la potencia de ORCID, pero… ¿están realmente todos conectados? ¿cuál de las alternativas me conviene utilizar? ¿qué gano y qué pierdo en cada caso?

Decidí hacer un experimento: intentar encontrar en re3data los datos que utilizamos diariamente miles de investigadores de visión por computador para aplicaciones en vehículos: el KITTI Benchmark Suite, del Karlsruhe Institute of Technology (KIT) y Toyota Technological Institute. Casualmente, uno de los promotores de este servicio es la biblioteca del KIT, así que todo parecía indicar que resultaría fácil, ¿verdad? Pues no. No hay ni rastro. El problema, por supuesto, no está en re3data, sino en que los autores de la base de datos del KITTI no le asignaron un DOI ni se preocuparon por indexarla correctamente. La cuestión, no obstante, es que no parece posible que, a día de hoy, uno pueda limitarse a utilizar un subconjunto de estos servicios, sino que probablemente se vea abocado a manejarlos todos, si no quiere arriesgarse a perderse los últimos avances de su línea de investigación. Utilizando el mismo recurso que Laura Rueda en su presentación, mi impresión al respecto queda resumida en esta famosa viñeta de xkcd.

Esta variedad de herramientas supone algo más: cada uno de los citados servicios está gestionado, y financiado, por una entidad distinta. Según la información que he ido recopilando, la mayoría de ellas son sin ánimo de lucro (ORCID, Inc., International DOI Foundation, etc.), pero no tiene por qué ser siempre así (p. ej., Github, Inc.). No hay motivo para desconfiar de estas organizaciones, que realizan un trabajo encomiable, pero es difícil tener garantía de que los objetivos de todas ellas van a estar permanentemente alineados con las necesidades de sus usuarios.

Con todo esto, quiero poner de manifiesto la decepción que me produce ver cómo estamos perdiendo una oportunidad única, ahora que la idea de Open Data se encuentra todavía en sus primeras etapas, para unificar nuestros esfuerzos a nivel global; en lugar de eso, parece que estamos replicando algunos de los errores del modelo clásico de difusión de literatura científica.

Una primera aproximación

Todo lo anterior no ha sido óbice para que, como investigador que cree en la Open Science, haya aprovechado la oportunidad para recuperar y actualizar mi ORCID (que me creó automáticamente la Universidad en 2014) y usarlo para crear una cuenta de Zenodo, asociándola a mi ya existente Github. Por supuesto, activé también la característica de actualización automática del ORCID que ofrece DataCite.

Es evidente que poner datos a disposición del público implica, siempre que se desee hacer correctamente, dedicar tiempo a completar, organizar y documentar esos datos de forma que sea factible su utilización práctica. En mi caso, disponía de contenido relevante desde el punto de vista de mi investigación, pero no del tiempo necesario para aplicarles el tratamiento adecuado. Coincido plenamente, en este sentido, con la primera ponente cuando afirmaba que publicar los datos puede ayudar a ser más organizado, si se adopta la decisión desde el principio. Por otro lado, en Github tengo únicamente, por ahora, forks de proyectos de otros autores. Por ello, decidí publicar simplemente una presentación que utilicé hace unos meses en los encuentros doctorales que se organizan anualmente en mi grupo de investigación. La intención era aprender el procedimiento para poder aplicarlo, en ocasiones posteriores, a material de mayor enjundia. Este es el DOI de la presentación alojada en Zenodo:

DOI

El proceso, en su conjunto, resulta muy sencillo. Zenodo funciona muy bien y deja muy claro como rellenar los metadatos. En cambio, no he conseguido que me ofrezca una lista con mis publicaciones, para recopilar, en el futuro, los distintos objetos que he ido subiendo. El buscador de DataCite ha tardado un día en indexar el objeto y, en el momento en que escribo estas líneas, aún no se ha incorporado a mi perfil de ORCID, que aprovecho para dejar aquí:

Sin duda, después de esta experiencia, tengo claro que voy a utilizar estas herramientas a partir de ahora; en primer lugar, porque son cómodas y útiles… especialmente para el que publica el material. Y porque abrir nuestros datos no es solo un requisito para acceder a proyectos europeos; es también una forma de poner en valor todo lo que hacemos, que no siempre puede traducirse en publicaciones. Si, además, somos capaces de mirar más lejos, las ventajas van mucho más allá. Probablemente, saber utilizar esta filosofía a nuestro favor no es una opción, sino una necesidad en un mundo cada vez más competitivo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Secured By miniOrange