Atrás

Evo 2: Sistema de inteligencia artificial de código abierto entrenado en trillones de bases de ADN en todos los dominios de la vida

Antecedentes y motivación

La cobertura anterior destacó un sistema de inteligencia artificial llamado Evo que fue entrenado en un número enorme de genomas bacterianos. El sistema podía, cuando se le daban secuencias de un cluster de genes relacionados, identificar correctamente el siguiente gen o sugerir una proteína completamente nueva. Este éxito se basó en la organización relativamente simple de los genomas bacterianos, donde los genes relacionados suelen estar agrupados juntos y los elementos reguladores son compactos.

Desafíos con genomas complejos

La informática original notó la incertidumbre sobre si el mismo enfoque funcionaría con genomas más complejos, como los de los eucariotas. El ADN eucariota contiene intrones - segmentos no codificantes que interrumpen las regiones codificantes - y secuencias reguladoras que pueden estar dispersas a lo largo de vastas extensiones de ADN. Estas características están débilmente definidas, con solo unas pocas bases siendo estrictamente requeridas y muchas mostrando tendencias probabilísticas. Además, los genomas eucariotas incluyen grandes cantidades de ADN que han sido etiquetados como "basura", que comprenden virus inactivos y genes dañados.

Evo 2: Extendiendo el modelo

Sin dejarse intimidar por estos desafíos, el equipo detrás de Evo se propuso crear Evo 2, un sistema de inteligencia artificial de código abierto entrenado en genomas de los tres dominios de la vida: bacterias, arqueas y eucariotas. Al ingerir trillones de pares de bases de ADN, Evo 2 desarrolló representaciones internas de características genómicas clave que son difíciles de detectar para los humanos, incluyendo motivos de ADN regulador y límites de sitios de empalme.

Capacidades clave

La capacitación de Evo 2 le permite reconocer patrones en todo el espectro de la complejidad genómica. En genomas bacterianos, sigue aprovechando la organización directa de genes contiguos y sistemas reguladores compactos. En genomas eucariotas, puede analizar genes que contienen intrones, localizar sitios reguladores débilmente definidos y diferenciar secuencias funcionales del ADN no funcional extenso que las rodea.

Implicaciones para la investigación

La emergencia de Evo 2 sugiere que los modelos de inteligencia artificial a gran escala pueden salvar la brecha entre las arquitecturas genómicas simples y complejas. Al aprender de conjuntos de datos vastos y diversos, dichos modelos pueden ayudar a los científicos a identificar elementos reguladores, predecir estructuras de genes y descubrir proteínas nuevas en una amplia gama de organismos. La naturaleza de código abierto de Evo 2 también invita a la colaboración y el desarrollo posterior dentro de la comunidad de bioinformática.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: