Naukowcy z Uniwersytetu Stanforda opracowali Evo, model języka genomowego wyszkolony na genomach bakterii, zdolny do projektowania nowych białek i sekwencji kwasów nukleinowych. Rozwój Evo wykorzystuje wspólną bakteryjną cechę genomową genów z powiązanymi funkcjami skupiającymi się razem. Te skupiska genów często ulegają transkrypcji do pojedynczego informacyjnego RNA, umożliwiając bakteriom skuteczną regulację całych szlaków biochemicznych. Naukowcy przeszkolili Evo, korzystając z obszernej kolekcji genomów bakteryjnych. Podobnie jak w przypadku dużych modeli językowych, Evo otrzymał zadanie przewidzenia następnej zasady w sekwencji i został nagrodzony za dokładne przewidywania. Ten model generatywny może tworzyć nowe sekwencje na podstawie podpowiedzi, wprowadzając stopień losowości do wyników. Taka konfiguracja pozwala Evo łączyć wzorce na poziomie nukleotydów z kontekstem genomowym w skali kilozasad. Po wyświetleniu monitu o podanie dużego segmentu genomowego DNA Evo interpretuje go i generuje odpowiedni wynik genomowy. Zespół postawił hipotezę, że dostarczenie Evo znanego genu jako zachęty doprowadzi do uzyskania wyników kodujących białka o powiązanych funkcjach. Kluczowym pytaniem było, czy Evo wygeneruje sekwencje już znanych białek, czy też wytworzy mniej przewidywalne, nowe produkty. Wstępne testy polegały na podaniu Evo fragmentów znanych genów białkowych. Biorąc pod uwagę 30 procent znanej sekwencji genu białka, Evo ukończył 85 procent pozostałej części. Mając 80 procent sekwencji, przywrócił całą brakującą sekwencję. Kiedy pojedynczy gen został usunięty z klastra funkcjonalnego, Evo dokładnie zidentyfikował i przywrócił brakujący gen. Obszerne dane szkoleniowe projektu Evo pozwoliły zidentyfikować krytyczne regiony białkowe. Zmiany sekwencji zwykle występowały na obszarach, gdzie tolerowana jest zmienność, co wskazuje, że system uwzględnia ewolucyjne ograniczenia zmian genetycznych. Aby przetestować zdolność Evo do generowania nowych produktów, badacze wykorzystali toksyny bakteryjne, które często są współkodowane z antytoksynami. Dostarczyli Evo toksynę tylko w niewielkim stopniu spokrewnioną ze znanymi, pozbawioną znanej antytoksyny i odfiltrowali reakcje przypominające znane geny antytoksyny. Testując 10 produktów Evo, pięć uratowało część toksyczności, a dwa w pełni przywróciły wzrost bakterii wytwarzających toksynę. Te dwie antytoksyny wykazały jedynie około 25 procent identyczności sekwencji ze znanymi antytoksynami. Składały się z części od 15 do 20 pojedynczych białek; jeden przykład wymagał łatania 40 znanych białek. Możliwości Evo wykraczały poza białka. Po zastosowaniu do toksyny z inhibitorem na bazie RNA, system wygenerował DNA kodujący RNA o prawidłowych cechach strukturalnych, pomimo sekwencji niepowiązanych ze znanymi inhibitorami RNA. Podobny test dotyczył inhibitorów układu CRISPR. Zespół przefiltrował wyniki, tak aby zawierały jedynie sekwencje kodujące białka odmienne od znanych białek. Spośród nich 17 procent hamowało funkcję CRISPR. Dwa z tych inhibitorów nie wykazywały podobieństwa do żadnych znanych białek, co powodowało zamieszanie w oprogramowaniu zaprojektowanym do przewidywania struktury białek w 3D. Wydaje się, że Evo jest w stanie wygenerować całkowicie nowe, funkcjonalne białka bez uwzględnienia struktury białka. Naukowcy wyposażyli Evo w 1,7 miliona pojedynczych genów bakterii i ich wirusów, co dało 120 miliardów par zasad DNA wygenerowanego przez sztuczną inteligencję, w tym zarówno znany, jak i potencjalnie nowy materiał genetyczny. Takie podejście może nie przekładać się na bardziej złożone genomy, takie jak kręgowce, które zazwyczaj nie skupiają genów o powiązanych funkcjach i posiadają bardziej skomplikowane struktury genów. Metoda ta rozwiązuje inne problemy niż ukierunkowane wysiłki projektowe, takie jak opracowanie enzymów trawiących tworzywa sztuczne. Wyniki opublikowano w Natura w 2025 roku.





