Introdução aos metadados


O que são (ou são) metadados?

Simplificando, metadados são dados sobre os dados. Parece confuso? Vamos esclarecer: metadados são a descrição dos dados. Permite uma compreensão mais profunda dos dados e fornece insights para sua interpretação. Portanto, seus metadados devem ser considerados tão importantes quanto seus dados. Além disso, os metadados desempenham um papel muito importante para tornar seus dados JUSTOS. Ele deve ser continuamente adicionado aos seus dados de pesquisa (não apenas no início ou no final de um projeto!). Os metadados podem ser produzidos de forma automatizada (por exemplo, quando você captura uma imagem de microscopia, geralmente o software que a acompanha salva metadados como parte dela) ou manualmente.

Vejamos um exemplo:

Esta é uma imagem de microscopia confocal de uma cepa de nematoide de C. elegans usada como modelo de proteostase (Bonito! Não é?). A imagem faz parte dos dados brutos associado a Goya et al., 2020, que foi depositado em um conjunto de Projeto
Omero Server
Public1

nematode_confocal_microscopy_image

Créditos da figura: María Eugenia Goya

. Que informações você pode obter da imagem, sem a descrição associada (metadados)?

Vamos ver os metadados associados da imagem e o conjunto de dados ao qual ela pertence:

Metadados da imagem

Nome: OP50 D10Ad_06.czi ID da imagem: 3485 Proprietário: Maria Eugenia Goya FONTE: 0000-0002-5031-2470

Data de aquisição: 2018-12-12 17:53:55 Data de importação: 2020-04-30 22:38:59 Dimensões (XY): 1344 x 1024 Tipo de pixels: uint16 Tamanho dos pixels (XYZ) (μm): 0,16 x 0,16 x 1,00 Seções Z/Timepoints: 56 x 1 Canais: TL DIC, TagYFP Contagem de ROI: 0

Tags: curso de tempo; dia 10; Adultos; troca de alimentos; E. coli OP50; NL5901; C. elegans

Metadados do conjunto de dados

Nome: Figure2_Figure2B ID do conjunto de dados: 263 Proprietário: Maria Eugenia Goya FONTE: 0000-0002-5031-2470

Descrição: __________: Os conjuntos de dados contém um curso de tempo de agregação α-syn em NL5901 C. vermes elegans após uma troca de alimento no estágio L4:

E. coli OP50 a OP50 Dia 01 adultos Dia 03 adultos Dia 05 adultos Dia 07 adultos Dia 10 adultos Dia 13 adultos

E. coli OP50 a B. subtilis PXN21 Dia 01 adultos Dia 03 adultos Dia 05 adultos Dia 07 adultos Dia 10 adultos Dia 13 adultos

As imagens foram obtidas em 6 momentos de desenvolvimento (D1Ad, D3Ad, D5Ad, D7Ad, D10Ad, D13Ad)

* Algumas imagens contêm mais de um nematoide.

Cada imagem contém ~30 (ou mais) seções Z, separadas por 1 μmetro. O O canal TagYFP é usado para seguir as partículas de alfa-sinucleína. O TL O canal DIC é usado para obter imagens de toda a cabeça do nematoide.

Essas imagens foram utilizadas para a construção da Figura 2B dos Relatórios Celulares papel (https://doi.org/10.1016/j.celrep.2019.12.078).

Data de criação: 2020-04-30 22:16:39

Tags: agregação de proteínas; curso temporal; E. coli OP50 a B. subtilis PXN21; troca de alimentos; E. coli OP50; 10.1016/j.celrep.2019.12.078; NL5901; C. elegans

É muita informação!

Tipos de metadados

De acordo com How to FAIR podemos distinguir entre três tipos principais de metadados:

  • Metadados administrativos: dados sobre um projeto ou recurso que sejam relevantes para a sua gestão; Por exemplo, proprietário do projeto/recurso, investigador principal, colaboradores do projecto, financiador, período do projecto, etc. Eles geralmente são atribuídos aos dados, antes de você coletar ou criar eles.
  • Metadados descritivos ou de citação: dados sobre um conjunto de dados ou recursos que permitam às pessoas descobri-lo e identificá-lo; Por exemplo, autores, título, resumo, palavras-chave, identificador persistente, relacionados publicações, etc.
  • Metadados estruturais: dados sobre como um conjunto de dados ou recurso surgiu, mas também como é estruturado internamente. Por exemplo, a unidade de análise, método de coleta, procedimento de amostragem, tamanho da amostra, categorias, variáveis, etc. Os metadados estruturais devem ser reunidos por os pesquisadores de acordo com as melhores práticas em sua comunidade de pesquisa e serão publicados juntamente com os dados.

Metadados descritivos e estruturais devem ser adicionados continuamente durante todo o projeto.

Exercício 1: Identificando tipos de metadados (4 min)

Aqui temos uma planilha do Excel que contém metadados do projeto para um experimento inventado de metabólitos vegetais Créditos da figura: Tomasz Zielinski e Andrés Romanowski

Em grupos, identifique diferentes tipos de metadados (administrativos, descritivo, estrutural) presente neste exemplo.

Exemplo de metadados em tabela de dados

Solução

(6 min de ensino)

Onde terminam os dados e começam os metadados?

O que é "dados" e o que é "metadados" pode ser uma questão de Perspectiva: Os metadados de alguns pesquisadores podem ser de outros pesquisadores dados.

Por exemplo, um organismo de financiamento é classificado como metadados administrativos típicos, no entanto, ele pode ser usado para calcular números de conjuntos de dados públicos por financiador e, em seguida, usado para comparar os efeitos das políticas de diferentes financiadores sobre as práticas abertas.

Adicionando metadados aos seus experimentos

Bons metadados são cruciais para garantir a reutilização de seus resultados. Adicionar metadados também é um processo muito demorado se feito manualmente, Portanto, a coleta de metadados deve ser feita de forma incremental durante o experimento.

Como vimos, os metadados podem assumir muitas formas: de tão simples como incluir um arquivo Leia-me.txt, incorporando-os dentro dos arquivos do Excel, ao uso de padrões e formatos de metadados específicos do domínio.

Mas

  • O que deve ser incluído nos metadados?
  • Quais termos devem ser usados nas descrições?

Para muitos métodos de ensaio e tipos de experimentos, há recomendações definidas e diretrizes denominadas Padrões Mínimos de Informação.

Padrão mínimo de informações

O padrão mínimo de informações é um conjunto de diretrizes para relatar dados derivadas por métodos relevantes em biociências. Se seguido, garante que os dados possam ser facilmente verificados, analisado e claramente interpretado pela comunidade científica em geral. Manter essas recomendações também facilita a fundamentação de bases de dados, repositórios públicos e desenvolvimento de ferramentas de análise de dados. Padrões mínimos individuais de informação são trazidos pelas comunidades transdisciplinares especialistas focados em questões do método específico usado em biologia experimental.

Minimum Information for Biological and Biomedical Investigations (MIBBI) é a coleção dos padrões mais conhecidos.

FAIRSharing oferece excelente serviço de pesquisa para encontrar padrões

Exercício 2: Exemplo padrão de informação mínima (5 min)

Veja as Informações Mínimas sobre uma Investigação em Neurociências (MINI) Eletrofisiologia Gibson, F. et al., Nat Prec (2008). que contém recomendações para relatar o uso da eletrofisiologia em um estudo de neurociência.
(Neurociência (ou neurobiologia) é o estudo científico do sistema nervoso).

Role até Requisito de relatório e decida quais dos pontos 1 a 8 são:

  • a) importante para a compreensão e reutilização dos dados
  • b) importante para a replicação técnica
  • c) poderia ser aplicado a outros experimentos em neurociência

Solução

E se não houver padrões de metadados definidos para seus dados/campo de pesquisa?

Pense nas informações mínimas que outra pessoa (do seu laboratório ou de qualquer outra pessoa outro laboratório no mundo) precisaria saber para poder trabalhar com seu conjunto de dados sem qualquer outra contribuição sua.

Pense como consumidor de seus dados e não como produtor!

Exercício 3: O que incluir - discussão (4 minutos)

Pense nos dados que você gera em seus projetos, e imagine que você vai compartilhá-los.

Quais informações outro pesquisador precisaria para entender ou reproduzir seus dados (os metadados estruturais)?

Por exemplo, acreditamos que qualquer conjunto de dados deve ter:

  • um nome/título
  • seu propósito ou hipótese experimental

Anote e compare suas propostas, podemos encontrar alguns elementos comuns?

Solução

Metadados e diretrizes FAIR

Os metadados fornecem informações extremamente valiosas para nós e outras pessoas serem capazes de interpretar, processar, reutilizar e reproduzir os dados de pesquisa que acompanha.

Como os metadados são dados sobre dados, todos os princípios da FAIR, ou seja, Localizabilidade, Acessível, Interoperável e Reutilizável aplicam-se aos metadados.

Idealmente, os metadados não devem ser apenas legíveis por máquina, mas também interoperáveis para que possam interligar-se ou ser fundamentados por sistemas informáticos.


Did you find this article useful?