Graças aos avanços nas técnicas de sequenciação de ADN, o número de repositórios públicos que contêm dados genéticos está a crescer a um ritmo significativo. Investigadores na Suíça estão a trabalhar numa forma prática de pesquisar todas estas sequências genéticas há alguns anos, e os primeiros resultados já estão online.
Mikhail Karasikov e os seus colegas da ETH Zurich estão a desenvolver o MetaGraph, um motor de busca desenhado para bases de dados genómicas que contêm enormes quantidades de sequências de ADN e ARN. O projecto já permite o acesso a milhões de sequências genéticas únicas e poderá, um dia, abrir as portas a utilizadores em geral para pesquisas genéticas personalizadas.
O estudo publicado recentemente apresenta o MetaGraph como um quadro metodológico para construir um índice escalável de grandes conjuntos de dados genéticos, incluindo sequências de ADN, ARN e proteínas. A ferramenta pode fornecer uma forma mais fácil de procurar através de dados genéticos em bruto e sequências de ácidos nucleicos, enquanto os métodos de pesquisa anteriores se baseavam apenas em metadados descritivos.
O MetaGraph funciona como um motor de busca tradicional e não exige que os investigadores descarreguem enormes conjuntos de dados. As pesquisas baseadas em metadados forneciam resultados incompletos e acarretavam custos significativos, explicaram os investigadores, enquanto o MetaGraph oferece uma solução muito mais económica. Os investigadores podem armazenar todas as sequências genéticas públicas em apenas alguns discos rígidos, com pesquisas maiores a custar não mais que $0,74 por megabase.
O MetaGraph indexa os dados genéticos e apresenta-os em forma comprimida. De acordo com um dos autores do estudo, a estrutura resultante forma uma matriz gigante com milhões de colunas e biliões de linhas. A compressão é uma prática padrão no tratamento de grandes conjuntos de dados, e a equipa suíça alcançou um factor de compressão de 300, um feito sem precedentes.
“Estamos a alargar os limites do que é possível, de forma a manter os conjuntos de dados o mais compactos possível, sem perder a informação necessária”, explicou o Dr. André Kahles do Grupo de Informática Biomédica da ETH Zurich.
O trabalho no MetaGraph começou em 2020, e a equipa tem continuado a refinar o projecto ao longo dos últimos anos. A ferramenta oferece agora capacidades de pesquisa limitadas a visitantes públicos. Por outro lado, os programadores e investigadores podem explorar o código open-source no repositório oficial do GitHub.
O MetaGraph está actualmente a indexar cerca de metade dos conjuntos de dados de sequências genéticas de todo o mundo e visa completar a outra metade até ao final do ano. Os cientistas da ETH esperam que as empresas farmacêuticas adoptem o motor para dados de pesquisa internos. A longo prazo, prevêem que utilizadores privados aproveitem esta tecnologia para realizar pesquisas personalizadas de ADN.