Ir al contenido principal

Datos de investigación

¿Qué son los datos de investigación? La importancia de crear un plan de gestión de datos y la difusión de los datos de investigación

Repositorios

Recomendaciones

Muchas agencias de financiación, instituciones y revistas académicas tienen mandatos y políticas sobre la publicación en acceso abierto de los datos de investigación. El cumplimiento de estos mandatos y políticas se suele realizar a través del depósito de los datos de investigación en un repositorio de datos.

A la hora de elegir un repositorio hay tener en cuenta algunos aspectos:

  • Área temática.
  • Capacidad de almacenamiento.
  • Facilidad de recuperación de datos.
  • Asignación de un identificador único y persistente para cada conjunto de datos (DOI).
  • Establecimiento de un periodo de embargo para los datos.
  • Selección de la licencia de uso de los datos.
  • Preservación a largo plazo de los datos.
  • Cumplimiento con la certificación CoreTrustSeal.

Science Europe ha publicado la Practical Guide to the International Alignment of Research Data donde se explican fácilmente los criterios para seleccionar un repositorio de datos.

Según el OpenAIRE Research Data Management Briefing Paper, los datos deben depositarse en un repositorio de datos según el siguiente orden de preferencia:

  1. Repositorio temático de datos consolidado para esa disciplina.
  2. Repositorio institucional de datos.
  3. Repositorio multidisciplinar de datos.
  4. Otros repositorios de datos.

El Consorci de Serveis Universitaris de Catalunya (CSUC) publicó unas Recomendaciones para seleccionar un repositorio donde depositar datos de investigación, con una tabla comparativa de repositorios Este enlace se abre en una nueva ventana

1. Repositorios temáticos

A continuación, se muestran varios repositorios temáticos de datos para algunas disciplinas:

  • Agricultura:
    • Ag Data Commons: amplia variedad de datos abiertos pertinentes para la investigación agrícola.
  • Biología:
    • BioModels: modelos matemáticos de sistemas biológicos y biomédicos.
    • GenBank: secuencias de nucleótidos a disposición del público para casi 260.000 especies formalmente descritas.
    • UniProt: recopilación de información funcional sobre las proteínas, con una anotación precisa, consistente y completa.
    • Worldwide Protein Data Bank: estructuras tridimensionales de macromoléculas biológicas determinadas experimentalmente.
  • Ciencias ambientales y de la Tierra:
    • EarthChem: centrado en la preservación, el descubrimiento, el acceso y el análisis de los datos geoquímicos.
    • Environmental Data Initiative Repository: datos que proporcionan un contexto para evaluar la naturaleza y el ritmo del cambio ecológico, interpretar sus efectos y prever respuestas biológicas futuras al cambio.
    • NERC Earth Observation Data Centre: adquisición, archivo y acceso a los datos de teledetección de la superficie de la Tierra adquiridos por satélite y sensores aerotransportados.
    • PANGAEA: archivo, publicación y distribución de datos georeferenciados del sistema terrestre.
  • Física:
    • HEPData: repositorio para la difusión de datos de la física experimental de partículas.
  • Materiales:
  • Química:
    • Cambridge Structural Database (CSD): repositorio para pequeñas moléculas orgánicas y estructuras de cristales metal-orgánicos ofreciendo una representación en 3D.
    • PubChem: estructuras químicas, identificadores, propiedades químicas y físicas, actividades biológicas, patentes, salud, seguridad, datos de toxicidad, etc.
    • Strenda DB: datos de enzimas funcionales.
2. Repositorio Institucional (RiuNet)

En RiuNet, el repositorio institucional de la UPV, existe la colección Dataset, donde se permite el depósito de datos de investigación provenientes de entidades y/o servicios de la UPV, así como proyectos en los que participen investigadores de la UPV.

La redacción de un Plan de Gestión de Datos va a permitir planificar las actividades relativas a los datos de investigación durante todas las etapas de su ciclo de vida. Una de estas etapas es el depósito de los datos en un repositorio. En general, se permite el depósito en RiuNet de los datos derivados de investigaciones en las que participan investigadores de la Universitat Politècnica de València.

 
Beneficios
  • Cumplimiento con las políticas y mandatos sobre datos de investigación impuestos por agencias de financiación de la investigación y revistas académicas.
  • Asignación de un Digital Object Identifier (DOI) para los datos.
  • Presencia de RiuNet en el directorio de repositorios de datos de investigación r3data.org, gracias al cumplimiento de los requisitos para el registro en este directorio.
  • Descripción de los datos cumpliendo los estándares internacionales, lo que hace que los datos puedan ser encontrados, accesibles, interoperables y reusables (FAIR).
  • Establecimiento de diferentes tipos de licencias Creative Commons para especificar el uso de los datos.
  • Posibilidad de restringir el acceso a los datos durante un tiempo determinado. Durante este periodo de embargo, cualquier persona puede solicitar al autor el acceso a los datos a través de la opción “Solicitar una copia al autor”.
  • Almacenamiento y preservación de los datos, facilitando su difusión a lo largo del tiempo.
 
Acciones previas

Según el OpenAIRE Research Data Management Briefing Paper, los datos deben depositarse preferentemente en un repositorio temático de datos consolidado para esa disciplina. Recursos como re3data.org y FAIRsharing.org permiten localizar repositorios temáticos de datos

Por otra parte, también se debe comprobar la política sobre datos de investigación de la revista donde se publica el trabajo relacionado con los datos que se quieren depositar.

 En caso de no localizar un repositorio de datos que cumpla con los criterios expresados en los párrafos anteriores, los datos podrán ser depositados en RiuNet.

 

Condiciones de aceptación:

  • Los datos deben haber sido producidos:
    • Dentro de proyectos en los que participen investigadores de la UPV.
    • Entidades y/o servicios de la UPV.
  • Los autores de los datos deben estar en condiciones de conceder los derechos necesarios a la UPV para asegurar la correcta distribución y preservación de los datos a través de RiuNet.
  • Si el conjunto de datos contiene datos personales, se debe tener en cuenta lo expresado en la normativa nacional e internacional sobre protección de datos personales.
  • Se debe indicar el tipo de versión de los datos que se quiere depositar: datos en bruto, datos procesados, versión final, etc.
  • Los datos deben estar debidamente organizados para facilitar su comprensión y reutilización. Para ello, se seguirán las siguientes recomendaciones:
    • Nombre de los ficheros.
    • Formatos de los ficheros de datos.
    • Documentación de los ficheros de datos.
  • Aunque se pueden depositar varios ficheros con datos de investigación, cada uno de los ficheros no debe superar los 2 GB de tamaño.
 
Proceso de depósito
  • Los investigadores de la UPV podrán realizar el depósito de los datos de investigación en la colección Datasets que se encuentra en RiuNet.
  • Si los datos se han obtenido/procesado dentro de un proyecto de investigación con financiación (H2020, MINECO, GVA, etc.) deberá reflejarse en RiuNet durante el depósito, indicando por una parte, el agente financiador y por otra el código del proyecto. De esta forma se facilita la justificación del cumplimiento de la política o mandato del agente financiador.
  • La fecha de publicación de los datos de investigación deberá introducirse de forma completa, es decir, año/mes/día.
  • Los datos depositados deberán cumplir con las condiciones descritas anteriormente. Especialmente, además de los ficheros con los datos, se deberá depositar un fichero README.txt donde se describan los datos de investigación.
  • La publicación de los datos en RiuNet no es inmediata, ya que la biblioteca debe realizar un proceso de validación. Durante este proceso se comprobará el cumplimiento de las condiciones para la aceptación, así como el nivel de descripción de los datos.
  • Contacta con la Biblioteca para cualquier duda sobre el depósito de los datos de investigación en RiuNet.
3. Repositorios multidisciplinares

Existen múltiples repositorios multidisciplinares de datos, algunos de los más representativos son:

  • Zenodo: repositorio financiado por el proyecto OpenAIRE que se puede utilizar si no se encuentra un repositorio adecuado que encaje con los datos de investigación.                                                             
  • La Biblioteca ha creado, para el depósito de sus investigadores, la comunidad "Universitat Politècnica de València (UPV). Research Data".
  • Para ampliar la información y realizar el depósito consultad el Manual de depósito en Zenodo.
  • Dataverse: aplicación web de código abierto desarrollada en el marco del proyecto del Institute for Quantitative Social Science (IQSS) y Harvard Library para poner datos de investigación a disposición de investigadores y recolectores de datos en todo el mundo.
  • EUDAT B2SHARE (European Data Infrastructure): proyecto del H2020 que ofrece un repositorio de datos multidisciplinar.
  • Dryad: repositorio multidisciplinar de datos. Tiene costes de depósito del dataset.
  • Figshare: repositorio multidisciplinar de datos.
4. Otros repositorios

Además de los repositorios de datos enumerados anteriormente, es posible localizar otros repositorios a través de directorios como re3data.org y FAIRsharing.org.

Data journals

Además de la difusión en Acceso Abierto de los datos de investigación a través de los repositorios, también es posible publicar estos datos en data journals. Estas revistas publican data papers, que son artículos centrados en los datos en sí mismos (descripción, metodología, motivación, etc.) y no en las hipótesis, análisis y conclusiones extraídas a partir de estos datos.

La publicación de los datos de investigación en data journals ofrece múltiples beneficios a los investigadores:

  • Proceso de revisión por pares que garantiza la calidad de los datos.
  • Publicación de datos de investigación con un alto potencial de reutilización.
  • Facilita la cita y reconocimiento académico.
  • Difusión en Acceso Abierto respetando el reconocimiento a los autores.
  • Mejora la transparencia en la investigación.
  • Asignación de un DOI (Digital Object Identifier) a los datos de investigación.

Existen múltiples data journals, tanto disciplinares como multidisciplinares, donde es posible publicar los datos de investigación. La Biblioteca de la Universidade da Coruña y la Biblioteca de la UPV hemos realizado una recopilación con más de 50 data journals. Para cada data journal se ofrece información, entre la que destaca:

  • Temática.
  • Saber si está indexada en el Directory of Open Access Journals (DOAJ).
  • Saber si está indexada en las Web of Science Core Collections (WOS).
  • Cuartil que ocupa en el Scimago Journal and Country Rank (SJR).
  • Tipos de trabajos que publica: data papers, software papers, etc.

Propiedad intelectual

La Ley de Propiedad Intelectual, que ha sido adaptada a la normativa europea, recoge dos aspectos muy importantes aplicables a los datos de investigación:

  • Son objeto de propiedad intelectual las creaciones originales literarias, artísticas o científicas expresadas por cualquier medio o soporte, tangible o intangible, actualmente conocido o que se invente en el futuro (artículo 10).
  • Las bases de datos donde figuran los datos de investigación sí son objeto de propiedad intelectual (artículo 12) mediante el derecho “sui generis” (título VIII).

El derecho sui generis” sobre una base de datos tiene las siguientes características:

  • Protege la inversión sustancial, evaluada cualitativa o cuantitativamente, que realiza el fabricante de la base de datos ya sea de medios financieros, empleo de tiempo, esfuerzo, energía u otros de similar naturaleza, para la obtención, verificación o presentación de su contenido.
  • El fabricante de una base de datos puede prohibir la extracción y/o reutilización de la totalidad o de una parte sustancial del contenido de la base de datos, evaluada cualitativa o cuantitativamente, siempre que la obtención, la verificación o la presentación de dicho contenido representen una inversión sustancial desde el punto de vista cuantitativo o cualitativo. Este derecho podrá transferirse, cederse o darse en licencia contractual.
  • No estarán autorizadas la extracción y/o reutilización repetidas o sistemáticas de partes no sustanciales del contenido de una base de datos que supongan actos contrarios a una explotación normal de dicha base o que causen un perjuicio injustificado a los intereses legítimos del fabricante de la base.
  • La protección de las bases de datos se entenderá sin perjuicio de los derechos existentes sobre su contenido.
  • El plazo de protección expirará quince años después del 1 de enero del año siguiente a la fecha en que haya terminado el proceso de fabricación de la base de datos. En los casos de bases de datos puestas a disposición del público antes de la expiración del período descrito anteriormente, el plazo de protección expirará a los quince años, contados desde el 1 de enero siguiente a la fecha en que la base de datos hubiese sido puesta a disposición del público por primera vez.

Para más información, se puede consultar la webinar sobre información legal organizado por OpenAIRE, con información práctica sobre la protección de los datos de investigación dentro de la legislación europea:

Licencias

Tal y como se recoge en las Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020, es conveniente añadir licencias de uso a los sets de datos que se generen.

Para indicar el tipo de uso permitido, se pueden utilizar licencias Creative Commons 4.0, como las CC0 y CC-BY. También es posible utilizar licencias específicas para datos Open Data Commons:

  • Attribution License (ODC-By) — “Attribution for data/databases” permite a terceros copiar, distribuir y usar la base de datos, así como utilizarla para crear nuevos contenidos, bases de datos o colecciones de bases de datos (siempre y cuando se cite la base de datos original).
  • Open Database License (ODC-ODbL) — “Attribution Share-Alike for data/databases” permite a terceros copiar, distribuir y usar la base de datos, así como utilizarla para crear nuevos contenidos, bases de datos o colecciones de bases de datos, siempre y cuando que a las bases de datos derivadas se les otorgue la misma licencia que a la base de datos original.
  • Public Domain Dedication and License (ODC-PDDL). No impone restricción alguna, permite copiar, distribuir y utilizar la base de datos, así como crear nuevos productos y adaptaciones. 

Para programas informáticos se recomienda el uso de licencias de la Free Software Foundation y la Open Source Iniciative, que se pueden localizar desde https://tldrlegal.com.

Para la selección de licencias, tanto de datos como de programas informáticos, se recomienda la utilización de la herramienta License selector.

No hay que olvidar la idea general “Tan abierto como sea posible, tan cerrado como sea necesario” que se declara en las Guidelines on FAIR Data Management in Horizon 2020. Cumpliendo esta premisa, no se difundirán en abierto los datos de investigación en determinadas situaciones: existencia de cláusulas de confidencialidad, posible explotación comercial o industrial, etc.

Costes

La preparación, el almacenamiento y la difusión de los datos de investigación siguiendo los principios FAIR, puede conllevar una serie de costes económicos y en recursos humanos. Sin embargo, existen agencias de financiación que permiten contabilizar estos costes dentro del proyecto de investigación.

La Comisión Europea, en el marco del H2020, podrá cubrir costes técnicos y profesionales asociados a la gestión y difusión de los datos de investigación. Para ayudar a contabilizar y justificar estos gastos dentro del proyecto de investigación, se puede utilizar la herramienta de estimación de costes de gestión de datos de investigación desarrollada por OpenAIRE.

Puede consultar la infografía creada por OpenAIRE sobre diferentes aspectos relacionados con los costes de gestión y difusión de los datos de investigación.

También existen otras herramientas para ayudar a contabilizar los diferentes gastos de gestión de datos de investigación, como la Data Management Cost Guide desarrollada por la Universidad de Utrecht.

Cita

Citar los datos de investigación es una práctica que debe ser realizada por los siguientes motivos:

  • Los datos de investigación deben ser considerados como un output más de la investigación.
  • Pueden incorporarse en el CV y en el registro ORCID del investigador.
  • Mejoran la transparencia de la investigación.
  • Pueden realizarse medidas de impacto de los datos de investigación citados.

Para realizar una correcta citación de los datos de investigación se recomienda:

  • Incluir una serie de datos mínimos: Autor, Fecha, Título, Tipo de recurso e Identificador único persistente.
  • Identificar unívocamente de los datos de investigación mediante un identificador único persistente (DOI).
  • Citar cada conjunto de datos de forma independiente.
  • Utilizar DOI Citation Formatter: servicio que genera las referencias bibliográficas con diferentes estilos de citación a partir del DOI de los datos de investigación.

Ejemplos de citas de datos de investigación:

  • Sallstrom, Nathalie; Goulas, Thanos; Martin, Simon; Engstrom, Daniel (2020): Additive Manufacturing of Highly Elastic Nanoclay-crosslinked Hydrogel with Self-healing Abilities. figshare. Dataset. https://doi.org/10.17028/rd.lboro.11793948.v1.
  • Herrera, Carlos M. (2019), Complex long-term dynamics of pollinator abundance in undisturbed Mediterranean montane habitats over two decades, v2, Dryad, Dataset, https://doi.org/10.5061/dryad.5hq26p1.

Fuente: REBIUN. Cita tus datos de investigación