Ir al contenido principal

Datos de investigación

¿Qué son los datos de investigación? La importancia de crear un plan de gestión de datos y la difusión de los datos de investigación

Encontrar datos

Cada vez existen más políticas y mandatos de agencias de financiación, instituciones y revistas que obligan o recomiendan el depósito en acceso abierto de los datos de investigación en repositorios de datos. La localización y reutilización de estos datos presenta múltiples beneficios.

Existen diferentes herramientas para encontrar de datos de investigación que pueden ser reutilizados:

  • Dimensions: contiene más de 8 millones de datasets de Figshare, Dryad, Zenodo, Pangaea, Mendeley y más de 900 repositorios de DataCite.
  • DataCite: proporciona una interfaz donde es posible buscar, filtrar y extraer información sobre miles de datos de investigación.
  • Scholexplorer: recolecta información sobre datos de investigación a partir de diversas fuentes como CrossRef, DataCite y OpenAIRE. En muchos casos enlaza los datos de investigación con las publicaciones científicas que han usado estos datos.
  • Google Dataset Search: ofrece datos de investigación de diferentes fuentes. Es posible filtrar los resultados por derechos de uso, formato de descarga, etc.
  • Directorios de repositorios de datos: permiten localizar repositorios de datos temáticos o multidisciplinares. Por ejemplo, re3data.org y Fairsharing.org.
  • EUDAT B2FIND: herramienta de descubrimiento que da acceso a los datos de investigación depositados, entre otros, en EUDAT B2SHARE.
  • Mendeley Data: proporciona acceso a datos de investigación publicados en repositorios de datos como Dryad o Zenodo y también en publicaciones de la editorial Elsevier.

Ficheros con datos

Nombre y estructura

El nombre y la estructura de los ficheros que contienen los datos de investigación facilitan la comprensión y futuro uso de los datos. Por ello, se pueden seguir las siguientes recomendaciones:

  • Realizar una estructura jerárquica sencilla de comprender, con directorios que agrupen los ficheros de datos.
  • Utilizar un sistema descriptivo y consistente que se seguirá para nombrar todos los ficheros.
  • No utilizar nombres de ficheros demasiado largos, ya que pueden existir problemas con determinados programas.
  • Evitar el uso de caracteres especiales ~ ¡ ! @ # $ % ^ & * ( ) ` ; < > ¿ ? , [ ] { } ' " |.
  • Evitar el uso del espacio en blanco, en su lugar es mejor usar el guion bajo _.
  • Para registros que tienen varias versiones, es aconsejable marcar al final del nombre el número de versión, por ejemplo, v01, v02, etc. Para la versión final se puede finalizar el nombre del fichero con el texto FINAL.

Existen herramientas que permiten renombrar en bloque múltiples ficheros:

Formatos

Es recomendable utilizar formatos abiertos en los ficheros que contienen los datos de investigación para así asegurar que la mayoría del software sea capaz de interpretar los datos contenidos. De todas formas, no hay que olvidar que existen disciplinas que utilizan ciertos formatos propietarios de forma generalizada.

A continuación, se muestran una serie de formatos de ficheros recomendados en función del tipo de datos que contiene:

  • Bases de datos: XML, CSV.
  • Texto: TXT, ODT, RTF, XML.
  • Estadísticas: ASCII, DTA, POR, SAS, SAV.
  • Datos tabulados: CSV, TSV.
  • Geospaciales: SHP, DBF, GeoTIFF, NetCDF.
  • Vídeo: OGG, MP4.
  • Sonido: FLAC, WAV, AIFF, MP3.
  • Imágenes: TIFF, BMP.
  • Ficheros comprimidos: no se recomienda el uso de ficheros comprimidos.

Para más información sobre formatos recomendados en ficheros que contienen datos de investigación se puede consultar el UK Data Service.

Como los formatos de ficheros con tabulados (CSV, TSV, XLS, XLSX, etc.) son unos de los más habituales que contienen datos de investigación, la Iniciativa de datos abiertos del Gobierno de España (datos.gob.es) ha elaborado una Guía práctica para la publicación de datos tabulares en archivos CSV.

Datos tabulares

 

Fuente: Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Asuntos Económicos y Transformación Digital. https://datos.gob.es/sites/default/files/doc/file/cheat_sheet_csv_vf.pdf

 

El formato de los ficheros que contienen los datos de investigación resulta fundamental para su futura reutilización. Tim Berners-Lee, el creador de la Web, propuso un esquema de 5 estrellas para clasificar los formatos de los ficheros en función de su grado de apertura, dando además una serie de beneficios que se alcanzan en cada una de las estrellas:

  • 1 estrella: publica tus datos en la Web (con cualquier formato) y bajo una licencia abierta
  • 2 estrellas: publícalos como datos estructurados, por ejemplo, Excel en vez de una imagen de una tabla escaneada
  • 3 estrellas: usa formatos no propietarios, por ejemplo, CSV en vez de Excel
  • 4 estrellas: usa URIs para identificar cosas, así la gente puede apuntar a estas, una forma de representar los datos es utilizar RDF.
  • 5 estrellas: enlaza tus datos a otros datos para proveerlos de contexto, facilitando la reutilización y optimizando las búsquedas.

 

Clasificar formatos 5 estrellas

 

Fuente: https://5stardata.info/es/

Documentación

Para una correcta compresión y utilización de los datos de investigación, se recomienda que se cree un fichero llamado “README” en formato txt. Dicho fichero estará ubicado junto con el resto de ficheros que contienen los datos de investigación y contendrá la siguiente información (en inglés):

  • Información general:
    • Título del dataset.
    • Nombre, afiliación, dirección y email del investigador principal y los coautores.
    • Fecha de creación y localización de los datos.
    • Información sobre fuentes de financiación.
    • Breve descripción del conjunto de datos.
    • Palabras clave.
  • Licencias y restricciones de uso de los datos.
  • Información sobre los archivos: nombre y descripción de los archivos, versión, tamaño del conjunto de datos, etc.
  • Información sobre la metodología: descripción de la metodología para la creación y procesamiento de los datos.
  • Información específica sobre los datos:
    • Listado de variables: nombres completos y encabezamientos en las columnas para datos tabulados.
    • Unidades de medida.
    • Definición de códigos o símbolos usados para registrar datos faltantes.

Para facilitar la creación del fichero README se ha creado una plantilla a partir de la realizada por la Universidad de Cornell.

Metadatos

Los datos de investigación deben cumplir con los principios FAIR (Findable, Accesible, Interoperable, Reusable), por lo que resulta imprescindible adjuntar a los datos de investigación, los metadatos que los describen de una forma completa y normalizada.

Normalmente cada disciplina académica tiene iniciativas donde se describen los esquemas de metadatos que deben ser utilizados para una correcta descripción, interpretación y reutilización de los datos de investigación. En el caso de que no existan esquemas de metadatos específicos para una disciplina, también se pueden usar otros esquemas genéricos de datos de investigación

Además de los esquemas de metadatos, en muchos casos se han desarrollado herramientas que facilitan la creación y/o captura de metadatos para cada esquema de metadatos.

El Digital Curation Center (DCC) dispone de un directorio sobre metadatos para datos de investigación con las siguientes características:

  • Esquemas de metadatos por disciplina académica: biología, ciencias de la tierra, ciencias sociales y humanidades, física y multidisciplinares.
  • Perfiles y extensiones: esquemas que han sido adaptados para el uso de tipos de datos específicos o para el uso en determinados tipos de repositorios.
  • Casos de uso: especificaciones de los metadatos que deben depositarse en determinados repositorios de datos.
  • Herramientas: programas desarrollados para la captura o almacenamiento de metadatos de un determinado esquema.

Control de versiones

A lo largo de cualquier investigación se van generando documentos que se crean y modifican por una o varias personas. Esto hace que se generen diferentes versiones de un mismo documento. Si las versiones no se gestionan correctamente, pueden producirse situaciones negativas: pérdida de datos, replicación de trabajos, pérdida de tiempo, etc.

Para afrontar estos problemas, siguiendo las recomendaciones de OpenAIRE, existen varias soluciones que van desde un nombrado normalizado de los ficheros hasta la utilización de sistemas de control de versiones

Los sistemas de control de versiones, especialmente utilizados en el desarrollo de software, presentan varias características:

  • Trabajar con versiones en desarrollo.
  • Mantenimiento de versiones estables.
  • Participación de diferentes personas de forma concurrente.
  • Detectar cambios realizados en las diferentes versiones, así como quién y cuándo se realizaron.
  • Documentación en las versiones.

El funcionamiento básico de estos sistemas es:

  • Código estable ubicado en un repositorio.
  • Creación de una copia del código desde el repositorio al equipo local.
  • Desarrollo y testeo del nuevo código en el equipo local.
  • Subida al repositorio desde el equipo local del nuevo código estable.
  • Fusión en el repositorio de la versión original del código y la nueva versión estable, registrando los cambios producidos.

Existen diferentes herramientas para el control de versiones, entre las que destacan:

  • Subversion (SVN): sistema centralizado en el que todos los ficheros y los datos históricos son almacenados en un repositorio central y en el que los desarrolladores suben los cambios a este servidor.
  • GIT: sistema distribuido en el que existe un repositorio central y copias de este repositorio en los diferentes equipos locales de los desarrolladores.

Para más información sobre la utilización de sistemas de control de versiones se recomienda contactar con el ASIC.

Almacenamiento y preservación

Servicios de almacenamiento

Durante el proceso de investigación se recopilan, generan y tratan múltiples datos que serán fundamentales para la investigación. Un almacenamiento incorrecto de estos datos puede provocar que se pierdan de forma permanente, lo que implica múltiples consecuencias negativas.

Siguiendo las recomendaciones de OpenAIRE, la UPV ofrece a su comunidad universitaria dos servicios gratuitos para almacenar los datos de investigación de forma segura:

Discos para grupos

  • Posibilidad de que varios investigadores compartan el mismo disco virtual.
  • Almacenamiento de 2 GB por persona, ampliable hasta 30 GB previa solicitud en la intranet (Herramientas > Utilidades > Gestión de cuotas). Si se necesita una capacidad de almacenamiento superior a 30 GB debe solicitarse vía Gregal.
  • Acceso al disco virtual desde un dispositivo situado:
    • Dentro de la UPV: se conecta como una unidad de red con la ruta \\nasupv.upv.es\grupos.
    • Fuera de la UPV: se accede vía VPN y posteriormente se conecta como una unidad de red con la ruta \\nasupv.upv.es\grupos
  • Solicitud/Modificación de grupo de trabajo: debe usarse la aplicación Gregal, indicando el grupo (si ya se conoce) o unas iniciales que lo puedan identificar, una ligera descripción del grupo (si se quiere crear uno nuevo) y los usuarios que deben añadirse o eliminarse del grupo.
  • Copia de seguridad automática que permite recuperar los últimos cambios realizados en los ficheros.
  • Tanto los datos como la copia de seguridad están en discos ubicados en diferentes edificios de la UPV.
  • Cumplimiento con la normativa española de protección de datos (LOPD) y seguridad en los servicios (ENS).
  • Posibilidad de creación de listas de distribución para la comunicación dentro del grupo.

OneDrive

  • Posibilidad de que varios investigadores creen un grupo para compartir información.
  • Servicio de Microsoft suscrito por la UPV.
  • 1 TB de almacenamiento por persona, aunque no acepta archivos mayores de 15 GB.
  • Acceso desde el portal Office 365.
  • Es necesario, en la primera ocasión, solicitar el acceso a Office 365 por la Intranet (Herramientas > Office 365 > Alta del servicio). Una vez aceptadas las condiciones y solicitado el acceso se activará el servicio tras un breve lapso, y permanecerá activo en tanto continúe la relación contractual (profesores, investigadores y PAS) o la matrícula oficial (estudiantes de grado, máster oficial o doctorado).
  • Se pueden seleccionar las carpetas del equipo local que se quieren sincronizar en OneDrive.
  • Almacenamiento en la nube en servidores europeos.
  • Cumplimiento con la normativa española de protección de datos (LOPD) y seguridad en los servicios (ENS).

Puedes consultar más información sobre los servicios de almacenamiento de datos en la wiki que mantiene el ASIC.

 

Qué datos hay que preservar

Antes de la finalización del proyecto de investigación es muy probable que existan tres tipos de datos:

  • Datos en bruto: datos obtenidos y/o creados durante la investigación.
  • Datos procesados: datos extraídos o derivados de los datos en bruto.
  • Datos referenciados: subconjunto de los datos procesados que se trabajan para realizar el análisis y extraer conclusiones.


Siguiendo las recomendaciones de la Universidad de Utrecht, la elección de los datos a preservar va a depender de principalmente de la finalidad que se persiga:

  • Verificación de los resultados: los datos se utilizan para facilitar la transparencia y la replicación de la investigación. En este caso, se recomienda preservar tanto los datos procesados como los referenciados.
  • Reutilización de los datos: los datos se pueden utilizar en futuras investigaciones, tanto por el mismo investigador como por distintos investigadores. En este caso, se recomienda preservar los datos en bruto.

En ambos casos, la documentación que acompaña a los datos debe ser lo suficientemente clara para cumplir con los criterios anteriores

El Digital Curation Center tiene un checklist para ayudar a los investigadores a decidir qué datos deben preservarse, en el que se describen cinco pasos a seguir para facilitar la toma de decisión. Se recomienda que el almacenamiento de los datos para asegurar la preservación se realice:

  • Durante la investigación: en los servicios de almacenamiento que ofrece la UPV.
  • Investigación finalizada: en el repositorio de datos adecuado a la investigación.

Datos personales y aspectos éticos

Normativa

Durante el proceso de investigación es posible que se tenga que trabajar con datos de carácter personal. En estos casos hay varias normas básicas que se deben tener en cuenta:

Algunos de los principios que rigen estas normas son:

  • Licitud, lealtad y transparencia: los datos deben ser tratados de manera lícita, leal y transparente en relación con el interesado.
  • Limitación de la finalidad: los datos deben ser recogidos con fines determinados, explícitos y legítimos.
  • Minimización de datos: los datos deben ser adecuados, pertinentes y limitados a lo necesario en relación con los fines para los que son tratados.
  • Integridad y confidencialidad: se debe garantizar una seguridad adecuada de los datos personales, incluida la protección contra el tratamiento no autorizado o ilícito y contra su pérdida, destrucción o daño accidental.
  • Responsabilidad proactiva: el responsable del tratamiento de los datos será el responsable de cumplir con lo establecido en la legislación y ser capaz de demostrarlo.

Teniendo en cuenta estos principios, la protección de los datos personales debe planificarse desde el diseño y por defecto. De hecho, es uno de los apartados que figura en el Plan de Gestión de Datos.

Para más información, pueden consultar la Webinar sobre información legal organizado por OpenAIRE, con consejos prácticos sobre la utilización de datos personales en la investigación en el contexto del GDPR.

Buenas prácticas

Seudonimización

En la normativa nacional y europea sobre datos personales se nombra explícitamente la seudonimización para tratar datos personales con fines de investigación.

El Reglamento (UE) 2016/679 define la seudonimización como el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable.

Hay que señalar las diferencias entre seudonimización y la anonimización:

  • La seudonimización está relacionada con la existencia de una asociación entre identificadores personales y seudónimos, mientras que en la anonimización esa asociación no debería estar disponible en ningún caso.
  • La seudonimización permite, si fuera necesario, la reidentificación de las personas por parte del responsable de los datos, mientras que en la anonimización no es posible.
  • En la seudonimización se gestionan dos tipos de datos: los seudonimizados y la información adicional que permite la reidentificación de las personas.
  • Los datos seudonimizados deben ser considerados aún como datos personales mientras que los datos anonimizados no se consideran datos personales.

Algunos beneficios de la seudonimización son:

  • Oculta la identidad de las personas mejorando la seguridad y la protección de la privacidad.
  • Gestión separada de los datos seudonimizados y la información adicional que permite la reidentificación de las personas y mejora la exactitud de los datos.
  • Facilita la minimización de la información almacenada durante el tratamiento de los datos.

En diferentes guías se ofrecen técnicas para la seudonimización de los datos:

También existen diferentes técnicas para la anonimización de los datos:

  • Orientaciones y garantías en los procedimientos de anonimización de datos personales. Editado por la Agencia Española de Protección de Datos
  • Amnesia: herramienta financiada por OpenAIRE para la anonimización de datos. Utilizando k-anonimización y km anonimización, permite eliminar los identificadores directos (nombre, DNI, etc.) y transforma los identificadores secundarios (fecha de nacimiento, código postal, etc.) de manera que las personas no puedan ser identificadas. Para más información sobre Amnesia, se puede consultar la presentación y el vídeo de un webinar organizado por OpenAIRE en junio 2020.

 

Cifrado

El cifrado hace que los datos personales sean ininteligibles para cualquier persona que no esté autorizada a acceder a ellos.

 

Almacenamiento

Se recomienda que el almacenamiento de los datos personales se realice en cualquiera de los servicios de almacenamiento para datos que ofrece la UPV. Estos servicios proporcionan control de acceso a los datos, copias de seguridad, etc.

Servicios de apoyo en la UPV

  • Delegación de Protección de Datos (DPD_UPV): es la unidad que tiene encomendadas la supervisión del cumplimiento del Reglamento General de Protección de Datos y de la Ley Orgánica de Protección de Datos Personales y garantía de los derechos digitales en el ámbito de la Universitat Politècnica de València.
  • Comité de Ética en Investigación de la UPV: cualquier actividad llevada a cabo en la UPV bien a iniciativa de algún miembro de un Departamento, Instituto, Centro, bien bajo subcontratación o incluso liderada por otras instituciones pero con participación de la UPV y cuya experimentación esté afectada por alguna normativa, por incluir aspectos con implicaciones éticas o de bioseguridad, debe ser previamente autorizada por el Comité de Ética en Investigación de la UPV. Para ello el investigador principal debe seguir el procedimiento y cumplimentar el formulario correspondiente para solicitar la evaluación por parte del comité.