Cada vez existen más políticas y mandatos de agencias de financiación, instituciones y revistas que obligan o recomiendan el depósito en acceso abierto de los datos de investigación en repositorios de datos. La localización y reutilización de estos datos presenta múltiples beneficios.
Existen diferentes herramientas para encontrar de datos de investigación que pueden ser reutilizados:
El nombre y la estructura de los ficheros que contienen los datos de investigación facilitan la comprensión y futuro uso de los datos. Por ello, se pueden seguir las siguientes recomendaciones:
Existen herramientas que permiten renombrar en bloque múltiples ficheros:
Es recomendable utilizar formatos abiertos en los ficheros que contienen los datos de investigación para así asegurar que la mayoría del software sea capaz de interpretar los datos contenidos. De todas formas, no hay que olvidar que existen disciplinas que utilizan ciertos formatos propietarios de forma generalizada.
A continuación, se muestran una serie de formatos de ficheros recomendados en función del tipo de datos que contiene:
Para más información sobre formatos recomendados en ficheros que contienen datos de investigación se puede consultar el UK Data Service.
Como los formatos de ficheros con tabulados (CSV, TSV, XLS, XLSX, etc.) son unos de los más habituales que contienen datos de investigación, la Iniciativa de datos abiertos del Gobierno de España (datos.gob.es) ha elaborado una Guía práctica para la publicación de datos tabulares en archivos CSV.
Fuente: Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Asuntos Económicos y Transformación Digital. https://datos.gob.es/sites/default/files/doc/file/cheat_sheet_csv_vf.pdf
El formato de los ficheros que contienen los datos de investigación resulta fundamental para su futura reutilización. Tim Berners-Lee, el creador de la Web, propuso un esquema de 5 estrellas para clasificar los formatos de los ficheros en función de su grado de apertura, dando además una serie de beneficios que se alcanzan en cada una de las estrellas:
Fuente: https://5stardata.info/es/
Para una correcta compresión y utilización de los datos de investigación, se recomienda que se cree un fichero llamado “README” en formato txt. Dicho fichero estará ubicado junto con el resto de ficheros que contienen los datos de investigación y contendrá la siguiente información (en inglés):
Para facilitar la creación del fichero README se ha creado una plantilla a partir de la realizada por la Universidad de Cornell.
Los datos de investigación deben cumplir con los principios FAIR (Findable, Accesible, Interoperable, Reusable), por lo que resulta imprescindible adjuntar a los datos de investigación, los metadatos que los describen de una forma completa y normalizada.
Normalmente cada disciplina académica tiene iniciativas donde se describen los esquemas de metadatos que deben ser utilizados para una correcta descripción, interpretación y reutilización de los datos de investigación. En el caso de que no existan esquemas de metadatos específicos para una disciplina, también se pueden usar otros esquemas genéricos de datos de investigación
Además de los esquemas de metadatos, en muchos casos se han desarrollado herramientas que facilitan la creación y/o captura de metadatos para cada esquema de metadatos.
El Digital Curation Center (DCC) dispone de un directorio sobre metadatos para datos de investigación con las siguientes características:
A lo largo de cualquier investigación se van generando documentos que se crean y modifican por una o varias personas. Esto hace que se generen diferentes versiones de un mismo documento. Si las versiones no se gestionan correctamente, pueden producirse situaciones negativas: pérdida de datos, replicación de trabajos, pérdida de tiempo, etc.
Para afrontar estos problemas, siguiendo las recomendaciones de OpenAIRE, existen varias soluciones que van desde un nombrado normalizado de los ficheros hasta la utilización de sistemas de control de versiones
Los sistemas de control de versiones, especialmente utilizados en el desarrollo de software, presentan varias características:
El funcionamiento básico de estos sistemas es:
Existen diferentes herramientas para el control de versiones, entre las que destacan:
Para más información sobre la utilización de sistemas de control de versiones se recomienda contactar con el ASIC.
Durante el proceso de investigación se recopilan, generan y tratan múltiples datos que serán fundamentales para la investigación. Un almacenamiento incorrecto de estos datos puede provocar que se pierdan de forma permanente, lo que implica múltiples consecuencias negativas.
Siguiendo las recomendaciones de OpenAIRE, la UPV ofrece a su comunidad universitaria dos servicios gratuitos para almacenar los datos de investigación de forma segura:
Discos para grupos
OneDrive
Puedes consultar más información sobre los servicios de almacenamiento de datos en la wiki que mantiene el ASIC.
Antes de la finalización del proyecto de investigación es muy probable que existan tres tipos de datos:
Siguiendo las recomendaciones de la Universidad de Utrecht, la elección de los datos a preservar va a depender de principalmente de la finalidad que se persiga:
En ambos casos, la documentación que acompaña a los datos debe ser lo suficientemente clara para cumplir con los criterios anteriores
El Digital Curation Center tiene un checklist para ayudar a los investigadores a decidir qué datos deben preservarse, en el que se describen cinco pasos a seguir para facilitar la toma de decisión. Se recomienda que el almacenamiento de los datos para asegurar la preservación se realice:
Durante el proceso de investigación es posible que se tenga que trabajar con datos de carácter personal. En estos casos hay varias normas básicas que se deben tener en cuenta:
Algunos de los principios que rigen estas normas son:
Teniendo en cuenta estos principios, la protección de los datos personales debe planificarse desde el diseño y por defecto. De hecho, es uno de los apartados que figura en el Plan de Gestión de Datos.
Para más información, pueden consultar la Webinar sobre información legal organizado por OpenAIRE, con consejos prácticos sobre la utilización de datos personales en la investigación en el contexto del GDPR.
En la normativa nacional y europea sobre datos personales se nombra explícitamente la seudonimización para tratar datos personales con fines de investigación.
El Reglamento (UE) 2016/679 define la seudonimización como el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable.
Hay que señalar las diferencias entre seudonimización y la anonimización:
Algunos beneficios de la seudonimización son:
En diferentes guías se ofrecen técnicas para la seudonimización de los datos:
También existen diferentes técnicas para la anonimización de los datos:
El cifrado hace que los datos personales sean ininteligibles para cualquier persona que no esté autorizada a acceder a ellos.
Se recomienda que el almacenamiento de los datos personales se realice en cualquiera de los servicios de almacenamiento para datos que ofrece la UPV. Estos servicios proporcionan control de acceso a los datos, copias de seguridad, etc.