La optimización mediante IA abre la puerta a la transcriptómica genómica en sistemas sin células

Durante años, los sistemas sin células han sido una herramienta poderosa pero limitada en la biología sintética. Permiten a los investigadores realizar la transcripción y traducción fuera de una célula viva, lo que los hace ideales para la creación de prototipos de circuitos genéticos, la producción de proteínas difíciles y la construcción de biosensores. Pero existía una compensación: el rendimiento de ARN mensajero (ARNm) de estos sistemas era generalmente demasiado bajo para la perfilación transcriptómica de todo el genoma.

Un equipo de INRAE y la Universidad Paris-Saclay ha logrado superar esa barrera. Utilizando la optimización bayesiana para explorar un espacio combinatorio de 1.6 millones de composiciones de tampón posibles, aumentaron el rendimiento de ARNm 20 veces en un sistema sin células estándar de E. coli, suficiente, por primera vez, para realizar la secuenciación completa del transcriptoma y revelar capas progresivas de regulación génica. El trabajo fue publicado el 27 de junio en Nature Communications.

Enseñando nuevos trucos a un sistema antiguo

El punto de partida fue un sistema de lisado de E. coli BL21(DE3) impulsado por la ARN polimerasa T7, una de las plataformas más utilizadas en la biología sintética sin células. El equipo, liderado por Matthieu Jules y Olivier Borkowski en el Instituto Micalis, necesitaba superar un problema fundamental: la formulación estándar del tampón fue optimizada hace décadas para la producción de proteínas, no para el rendimiento de ARNm.

Identificaron ocho componentes del tampón, incluidos magnesio, potasio, aminoácidos, NTP y PEG-8000, y variaron cada uno en seis niveles de concentración. El espacio combinatorio total era de 1,679,616 composiciones posibles. Probar incluso una fracción por fuerza bruta habría sido prohibitivo.

Por ello, el equipo recurrió al aprendizaje activo. Un algoritmo de optimización bayesiana, partiendo de 100 composiciones elegidas mediante muestreo de hipercubo latino, exploró el panorama de 1.6 millones de posibilidades probando solo 653 composiciones en el laboratorio. Después de diez ciclos de aprendizaje activo, identificó una formulación que aumentaba el rendimiento de ARNm 20 veces en comparación con el tampón de referencia.

“El aprendizaje activo nos guió hacia una región del espacio de composiciones que habría sido extremadamente improbable encontrar mediante prueba y error”, señalan los autores. El ajuste clave: concentraciones más altas de magnesio y NTP, y más bajas de potasio, aminoácidos y PEG-8000.

De la optimización al transcriptoma

La mejora de 20 veces en el rendimiento hizo posible algo que había eludido a los sistemas sin células: la secuenciación directa de ARN en todo el genoma. El equipo se centró en el bacteriófago T7, un virus bien caracterizado con un genoma compacto, y realizó la secuenciación directa de ARN utilizando la plataforma MinION de Oxford Nanopore en tres sistemas de complejidad biológica creciente.

El primer sistema utilizó solo ARN polimerasa T7 purificada, molde de ADN y nucleótidos, la configuración minimalista. Capturó las jerarquías de fuerza de los promotores: qué promotores T7 son fuertes o débiles en su contexto genómico nativo. Pero sin la maquinaria de degradación de ARN presente, la cobertura estaba fuertemente sesgada hacia los extremos 5′ de los transcritos.

El segundo sistema utilizó el extracto sin células optimizado con su complemento completo de proteínas de E. coli. Esto restauró la actividad de la RNasa III, evidenciada por los sitios de maduración del ARNm en el transcrito T7, y produjo una cobertura uniforme en todos los transcritos, una verdadera instantánea del estado estacionario. Proporcionó una estimación precisa de los niveles de expresión in vivo.

El tercer sistema fue el contexto celular completo, E. coli sometida a infección por T7. Esto añadió una capa de regulación ausente en los lisados sin células: cobertura sesgada hacia el extremo 3′ causada por la RNasa E asociada a la membrana.

La comparación reveló lo que los autores denominan “capas progresivas de regulación”: fuerza del promotor, degradación del ARNm, maduración del ARNm mediante RNasa III y degradación específica del extremo 3′ mediante RNasa E. Cada sistema añadió una o más capas, creando un gradiente de complejidad biológica que permitió al equipo diseccionar cada proceso de forma individual.

La importancia más amplia

El estudio demuestra que los sistemas sin células, durante mucho tiempo considerados inadecuados para la transcriptómica, ahora pueden perfilar transcriptomas bacterianos completos. “La transcriptómica sin células podría permitir la exploración de los paisajes transcripcionales de bacterias no cultivables”, señalan los investigadores, organismos que siguen estando mal caracterizados simplemente porque su ARN es inaccesible en condiciones de laboratorio.

El proceso de aprendizaje activo en sí mismo es generalizable más allá de la optimización de tampones. Cualquier problema de optimización biológica de múltiples parámetros, formulación de medios, condiciones de purificación de proteínas, ingeniería metabólica, podría beneficiarse del mismo enfoque de explorar el 0.04 % de un espacio combinatorio para encontrar condiciones casi óptimas.

Quedan limitaciones. El estudio se realizó exclusivamente en lisado de E. coli BL21(DE3) con ARN polimerasa T7. El tampón optimizado no ha sido validado para la ARN polimerasa endógena de E. coli ni para otros organismos. El sistema sin células captura la transcripción y la degradación, pero no la degradación específica del extremo 3′ mediada por la RNasa E asociada a la membrana, que se pierde durante la preparación del lisado. Además, el artículo se publica como una versión avanzada que aún no ha sido sometida a refinamiento editorial.

Aun así, el trabajo marca un punto de inflexión para la biología sin células. Al añadir la transcriptómica a las capacidades de los sistemas sin células, abre una puerta al estudio de la regulación génica en organismos que no pueden cultivarse, la creación de prototipos de circuitos sintéticos a nivel de ARN y la aceleración del ciclo de diseño-construcción-prueba en biología sintética.

El artículo, “Active-learning-guided optimization of cell-free systems for genome-wide transcriptomic profiling reveals progressive layers of regulation”, se publica en Nature Communications (DOI: 10.1038/s41467-026-74559-y) por Lea Wagner, An Hoang, Olivier Rue y sus colegas de INRAE, la Universidad Paris-Saclay y AgroParisTech.

Traducido por Alessandra