Los autores de datos deben tener en cuenta los siguientes aspectos para gestionarlos y difundirlos adecuadamente:
¿Qué tipos de datos se van a difundir en acceso abierto: resultados de encuestas, de observaciones, entrevistas, simulaciones, datos recogidos automáticamente, muestras, modelos...?
Es importante asegurarse de que los datos científicos que se desea difundir no están sujetos a ningún tipo de restricción por cuestiones de confidencialidad, privacidad o de copyright.
¿En qué formatos se encuentran los datos?
La calidad y la resolución de los datos son fundamentales para su accesibilidad y reutilización a corto y a largo plazo.
¿Qué estructura y qué dimensión tienen los datos: número y tamaño de los ficheros y del total del conjunto, un solo conjunto de datos/ítem o múltiples conjuntos de datos/ítems? ¿Qué organización y qué nivel de detalle tienen los datos? ¿Existen ficheros secundarios?
La Oficina Técnica de DIGITAL.CSIC ofrece diversas soluciones según las exigencias de visualización y organización de los datos científicos. Algunas veces los datos estarán organizados en multitud de ficheros dentro de un solo conjunto de datos y en otras será necesario organizar los datos en varios conjuntos diferentes. La documentación adjunta en estos casos debe dejar claro el sistema de relaciones entre los distintos componentes del conjunto de datos.
Si el conjunto de datos tiene una identidad específica muy concreta y su estructura se organiza en una multiplicidad de registros, la Oficina Técnica del repositorio puede ofrecer la apertura de una colección ad hoc.
¿Los datos se han estructurado y se han etiquetado de modo consistente para que su difusión y su reutilización sean posibles?
Es muy importante que los ficheros se nombren del modo más consistente posible para facilitar su acceso. Es también recomendable que no dependan de software propietario, para asegurar su accesibilidad en el futuro, por lo que DIGITAL.CSIC sugiere usar formatos como por ejemplo, csv. .txt, xml, tiff, mp4.
¿Qué formato(s) elegir para facilitar la mayor accesibilidad posible por otros usuarios ahora y en el futuro?
El formato y el software en que se crean los datos de investigación dependen en general del modo en que los investigadores deciden recoger y analizar los datos.
Esta elección a menudo está determinada por las normas específicas de la disciplina y sus hábitos de investigación. Existen disciplinas que recomiendan formatos específicos para los datos. Varias herramientas permiten identificar los estándares más usados, como por ejemplo:
Por su parte, la Biblioteca del Congreso de los Estados Unidos también mantiene un listado actualizado de formatos recomendados para objetos analógicos y digitales con fines de preservación.
Si los autores de los datos desean depositarlos en DIGITAL.CSIC, es también importante comprobar si el repositorio institucional soporta estos formatos específicos. DSpace Format Reference Collection
Una vez se haya completado el análisis de datos y los datos están preparados para el almacenamiento, los autores deben considerar la conversión de sus datos a formatos estándar, intercambiables y de mayor duración.
Los formatos estándar deben ser considerados también para las copias de seguridad.
¿Los datos han sido creados, editados o comprimidos con un software específico?
Si los datos han sufrido algún proceso de transformación, es importante indicar la versión del software con el que se han creado los datos resultantes, incluyendo a ser posible, detalles sobre la compresión, codificación y bit rate.
¿Los ficheros incluyen documentación sobre los datos?
Es conveniente empezar a preparar la documentación de los datos al inicio del proyecto de investigación, incluso antes de iniciar la recogida de datos.
En la preparación de la documentación es muy importante incluir información sobre la metodología utilizada y otra información relevante, sobre los acrónimos usados y sobre las etiquetas de las variables y de los valores de los datos.
DIGITAL.CSIC recomienda el depósito de un fichero readme.txt con toda la documentación junto con los conjuntos de datos.