L’optimisation par IA ouvre la voie à la transcriptomique génomique dans les systèmes acellulaires

Depuis des années, les systèmes acellulaires constituent un outil puissant mais limité en biologie synthétique. Ils permettent aux chercheurs d’effectuer la transcription et la traduction en dehors d’une cellule vivante, ce qui les rend idéaux pour le prototypage de circuits génétiques, la production de protéines difficiles et la construction de biocapteurs. Mais il existait un compromis : le rendement en ARN messager (ARNm) de ces systèmes était généralement trop faible pour le profilage transcriptomique à l’échelle du génome.

Une équipe de l’INRAE et de l’Université Paris-Saclay vient de franchir cette barrière. En utilisant l’optimisation bayésienne pour explorer un espace combinatoire de 1,6 million de compositions de tampon possibles, elle a multiplié par 20 le rendement en ARNm dans un système acellulaire standard E. coli, suffisamment pour effectuer pour la première fois un séquençage complet du transcriptome et révéler les couches progressives de la régulation génique. Les travaux ont été publiés le 27 juin dans Nature Communications.

Enseigner de nouveaux trucs à un vieux système

Le point de départ était un système de lysat E. coli BL21(DE3) piloté par l’ARN polymérase T7, l’une des plateformes les plus utilisées en biologie synthétique acellulaire. L’équipe, dirigée par Matthieu Jules et Olivier Borkowski à l’Institut Micalis, devait surmonter un problème fondamental : la formulation de tampon standard avait été optimisée il y a des décennies pour la production de protéines, et non pour le rendement en ARNm.

Les chercheurs ont identifié huit composants du tampon, notamment le magnésium, le potassium, les acides aminés, les NTP et le PEG-8000, et ont fait varier chacun d’entre eux sur six niveaux de concentration. L’espace combinatoire total était de 1 679 616 compositions possibles. Tester ne serait-ce qu’une fraction par force brute aurait été prohibitif.

L’équipe s’est donc tournée vers l’apprentissage actif. Un algorithme d’optimisation bayésienne, partant de 100 compositions choisies par échantillonnage hypercube latin, a exploré le paysage des 1,6 million de possibilités en testant seulement 653 compositions en laboratoire. Après dix cycles d’apprentissage actif, il a identifié une formulation qui multipliait par 20 le rendement en ARNm par rapport au tampon de référence.

« L’apprentissage actif nous a guidés vers une région de l’espace de composition qu’il aurait été extrêmement improbable de trouver par essais et erreurs », notent les auteurs. L’ajustement clé : des concentrations plus élevées en magnésium et en NTP, et plus faibles en potassium, acides aminés et PEG-8000.

De l’optimisation au transcriptome

L’amélioration du rendement par 20 a rendu possible ce qui échappait aux systèmes acellulaires : le séquençage direct de l’ARN à l’échelle du génome. L’équipe s’est tournée vers le bactériophage T7, un virus bien caractérisé au génome compact, et a effectué un séquençage direct d’ARN (RNA-seq) à l’aide de la plateforme MinION d’Oxford Nanopore sur trois systèmes de complexité biologique croissante.

Le premier système utilisait uniquement l’ARN polymérase T7 purifiée, la matrice d’ADN et les nucléotides, la configuration minimaliste. Il a permis de saisir les hiérarchies de force des promoteurs : les promoteurs T7 forts ou faibles dans leur contexte génomique natif. Mais en l’absence de machinerie de dégradation de l’ARN, la couverture était fortement biaisée vers les extrémités 5′ des transcrits.

Le second système utilisait l’extrait acellulaire optimisé avec l’ensemble des protéines E. coli. Cela a restauré l’activité de la RNase III, comme en témoignent les sites de maturation de l’ARNm dans le transcrit T7, et a produit une couverture uniforme sur l’ensemble des transcrits, une véritable photographie de l’état stationnaire. Il a fourni une estimation précise des niveaux d’expression in vivo.

Le troisième système était le contexte cellulaire complet, E. coli subissant une infection par T7. Celui-ci ajoutait une couche de régulation absente dans les lysats acellulaires : un biais vers l’extrémité 3′ causé par la RNase E associée à la membrane.

La comparaison a révélé ce que les auteurs appellent des « couches progressives de régulation » : la force du promoteur, la dégradation de l’ARNm, la maturation de l’ARNm via la RNase III et la dégradation spécifique à l’extrémité 3′ via la RNase E. Chaque système ajoutait une ou plusieurs couches, créant un gradient de complexité biologique qui a permis à l’équipe de disséquer chaque processus individuellement.

La portée plus large

L’étude démontre que les systèmes acellulaires, longtemps considérés comme inadaptés à la transcriptomique, peuvent désormais profiler des transcriptomes bactériens entiers. « La transcriptomique acellulaire pourrait permettre l’exploration des paysages transcriptionnels de bactéries non cultivables », notent les chercheurs, des organismes qui restent mal caractérisés simplement parce que leur ARN est inaccessible dans des conditions de laboratoire.

Le pipeline d’apprentissage actif lui-même est généralisable au-delà de l’optimisation des tampons. Tout problème d’optimisation biologique multi-paramètres (formulation de milieu, conditions de purification des protéines, ingénierie métabolique) pourrait bénéficier de la même approche consistant à sonder 0,04 % d’un espace combinatoire pour trouver des conditions quasi optimales.

Des limites subsistent. L’étude a été réalisée exclusivement dans un lysat E. coli BL21(DE3) avec l’ARN polymérase T7. Le tampon optimisé n’a pas été validé pour l’ARN polymérase endogène d’E. coli ni pour d’autres organismes. Le système acellulaire capture la transcription et la dégradation, mais pas la dégradation spécifique à l’extrémité 3′ médiée par la RNase E associée à la membrane, qui est perdue lors de la préparation du lysat. Et l’article est publié comme une version avancée qui n’a pas encore subi de révision éditoriale.

Néanmoins, ces travaux marquent un tournant pour la biologie acellulaire. En ajoutant la transcriptomique aux capacités des systèmes acellulaires, ils ouvrent une porte à l’étude de la régulation génique chez les organismes non cultivables, au prototypage de circuits synthétiques au niveau de l’ARN et à l’accélération du cycle conception-construction-test en biologie synthétique.

L’article, « Active-learning-guided optimization of cell-free systems for genome-wide transcriptomic profiling reveals progressive layers of regulation », est publié dans Nature Communications (DOI : 10.1038/s41467-026-74559-y) par Lea Wagner, An Hoang, Olivier Rue, et leurs collègues de l’INRAE, de l’Université Paris-Saclay et d’AgroParisTech.

Traduit par Lydie