Evo 2: Sistema de Inteligência Artificial de Código Aberto Treinado em Trilhões de Bases de DNA em Todos os Domínios da Vida
Contexto e Motivação
Coberturas anteriores destacaram um sistema de inteligência artificial chamado Evo, que foi treinado em um enorme número de genomas bacterianos. O sistema podia, quando dado sequências de um cluster de genes relacionados, identificar corretamente o próximo gene ou sugerir uma proteína completamente nova. Esse sucesso dependia da organização relativamente simples dos genomas bacterianos, onde genes relacionados estão frequentemente agrupados juntos e elementos regulatórios são compactos.
Desafios com Genomas Complexos
A reportagem original notou incerteza sobre se a mesma abordagem funcionaria com genomas mais complexos, como os de eucariotos. O DNA eucariótico contém intrões - segmentos não codificantes que interrompem regiões codificantes - e sequências regulatórias que podem estar dispersas em vastas extensões de DNA. Esses recursos são fracamente definidos, com apenas algumas bases sendo estritamente necessárias e muitas mostrando tendências probabilísticas. Além disso, os genomas eucarióticos incluem grandes quantidades de DNA que foram rotuladas como "lixo", compreendendo vírus inativos e genes danificados.
Evo 2: Extendendo o Modelo
Indiferentes a esses desafios, a equipe por trás do Evo decidiu criar o Evo 2, um sistema de inteligência artificial de código aberto treinado em genomas de todos os três domínios da vida: bactérias, arcaea e eucariotos. Ao ingerir trilhões de pares de bases de DNA, o Evo 2 desenvolveu representações internas de recursos genômicos-chave que são difíceis para humanos identificar, incluindo motivos de DNA regulatório e limites de sítios de splicing.
Capacidades Principais
O treinamento do Evo 2 permite que ele reconheça padrões em todo o espectro de complexidade genômica. Em genomas bacterianos, ele continua a aproveitar a organização direta de genes contíguos e sistemas regulatórios compactos. Em genomas eucarióticos, ele pode analisar genes que contêm intrões, localizar sítios regulatórios fracamente definidos e diferenciar sequências funcionais do extenso DNA não funcional que as rodeia.
Implicações para Pesquisas
A emergência do Evo 2 sugere que modelos de inteligência artificial em larga escala podem preencher a lacuna entre arquiteturas genômicas simples e complexas. Ao aprender com conjuntos de dados vastos e diversificados, tais modelos podem auxiliar cientistas na identificação de elementos regulatórios, previsão de estruturas de genes e descoberta de novas proteínas em uma ampla gama de organismos. A natureza de código aberto do Evo 2 também convida à colaboração e desenvolvimento adicional dentro da comunidade de bioinformática.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas