Intelligenza artificiale e chimica farmaceutica

Uno studio dimostra che i modelli linguistici chimici basati su transformer possono trasformare core e sostituenti molecolari in composti nuovi e diversificati. Le molecole generate mostrano buona accessibilità sintetica e potenziale rilevanza biologica, con implicazioni per il drug design.

0
64

L’uso dell’intelligenza artificiale nella scoperta di nuovi farmaci sta vivendo una fase di maturazione: non più soltanto supporto alla gestione dei dati o alla predizione delle proprietà, ma vero e proprio strumento generativo. Un recente studio pubblicato sull’European Journal of Medicinal Chemistry da Lisa Piazza, Sanjana Srinivasan, Tiziano Tuccinardi e Jürgen Bajorath dimostra come i modelli linguistici chimici (CLMs, Chemical Language Models) possano trasformare frammenti molecolari in composti strutturalmente e topologicamente nuovi, con un grado di diversificazione che sfida i metodi convenzionali.

Dal linguaggio naturale alla chimica

Alla base di questa ricerca vi è un’idea semplice e potente: se i transformer hanno rivoluzionato il trattamento del linguaggio naturale, perché non applicarli al “linguaggio delle molecole”? I composti chimici possono essere rappresentati come stringhe (SMILES), ovvero sequenze di simboli che codificano atomi e legami. Come le parole di una frase, anche i frammenti molecolari possono essere appresi, combinati e trasformati.

Gli autori hanno sviluppato tre modelli:

  • C model, addestrato sui soli core (scaffold centrali delle molecole);

  • S model, addestrato sui sostituenti (R-groups);

  • CS model, il più ambizioso, capace di integrare core e due sostituenti, senza alcuna informazione preventiva sulla loro connessione.

Oltre i limiti delle regole tradizionali

Nei tradizionali approcci di de novo design, i vincoli chimici e le regole di legame giocano un ruolo fondamentale. Qui, invece, i modelli sono stati istruiti senza regole esplicite di collegamento, imparando direttamente dalle associazioni tra frammenti e composti bioattivi estratti dal database ChEMBL.

I risultati sono sorprendenti. Il modello CS ha raggiunto una validità dell’80% nella generazione di composti contenenti le combinazioni di frammenti in input, con una capacità di diversificazione elevata e inattesa. Anche i modelli più semplici hanno mostrato un comportamento degno di nota: il C model, pur meno produttivo, ha generato oltre il 70% di scaffolds mai incontrati nei dati di training, dimostrando una creatività chimica che va oltre l’imitazione.

Novità strutturale e diversificazione chimica

Uno degli aspetti più delicati della generazione molecolare è distinguere tra mera riproduzione e vera innovazione. Qui, i ricercatori hanno dimostrato che la maggior parte dei composti generati erano nuovi, con strutture non presenti nel set di addestramento.

L’analisi secondo la gerarchia di Bemis-Murcko ha rivelato che più del 50% degli scaffolds e il 30-40% degli scheletri carboniosi erano originali. Non si tratta quindi soltanto di variazioni cosmetiche, ma di nuove topologie molecolari che ampliano concretamente lo spazio chimico esplorabile.

Rilevanza biologica e spazio bioattivo

Una domanda inevitabile è se questa creatività sia utile dal punto di vista farmacologico. I dati indicano di sì: confrontando i composti generati con quelli bioattivi presenti in ChEMBL, sono emersi migliaia di analoghi strutturali di molecole attive su oltre 1300-1600 target differenti. In altre parole, i modelli non solo inventano nuove molecole, ma lo fanno in una direzione che ha elevate probabilità di rilevanza biologica.

Esemplare il caso di inibitori enzimatici riprodotti quasi esattamente dal modello CS, prova della capacità dell’algoritmo di catturare regole chimiche implicite non fornite esplicitamente.

Accessibilità sintetica e drug-likeness

Un punto critico dei modelli generativi riguarda la realizzabilità pratica delle molecole prodotte. Non avrebbe senso proporre strutture che, pur teoricamente plausibili, siano irrealizzabili in laboratorio. A questo proposito, i ricercatori hanno calcolato punteggi di synthetic accessibility (SA) e di drug-likeness (QED), confrontandoli con composti reali di ChEMBL.

Il risultato è rassicurante: i nuovi candidati hanno mostrato valori di SA e QED sovrapponibili a quelli dei farmaci noti, con medie di 2,44 per la sintesi (contro 2,73 dei composti reali) e di 0,56 per la “bellezza chimica” (contro 0,53). In altri termini, i composti generati non solo sono nuovi e diversificati, ma anche credibili come potenziali farmaci.

Punti di forza e criticità

Il lavoro presenta alcuni punti di forza evidenti:

  • dimostra la possibilità di generare nuove molecole senza vincoli di legame predefiniti, affidandosi solo all’apprendimento statistico;

  • produce risultati rilevanti per il fragment-based drug design, ampliando lo spettro delle opzioni per l’hit expansion e l’ottimizzazione di lead;

  • rende disponibili codice e dataset, un contributo significativo per la comunità scientifica.

Tuttavia, restano alcune criticità. La validità più bassa del C model suggerisce che non tutti gli approcci frammentali siano equivalenti, e che la combinazione di più indizi strutturali sia cruciale. Inoltre, la reale attività biologica dei composti generati resta da dimostrare sperimentalmente: il fatto che siano analoghi di molecole note è incoraggiante, ma non sufficiente.

Implicazioni per la ricerca farmaceutica

In un settore dove il costo medio di sviluppo di un farmaco supera i due miliardi di dollari e i tempi sono sempre più stretti, strumenti in grado di navigare chimicamente “spazi vuoti” hanno un potenziale strategico enorme. L’approccio proposto da Piazza e colleghi non sostituisce la chimica sintetica né le valutazioni farmacologiche, ma riduce drasticamente la distanza tra dati esistenti e nuove ipotesi molecolari.

La disponibilità di modelli open source e dataset pubblici apre inoltre la strada a una democratizzazione degli strumenti di AI for drug discovery, con implicazioni etiche e industriali rilevanti: dall’accelerazione della ricerca accademica fino alla possibilità per piccole biotech di accedere a tecnologie prima appannaggio delle big pharma.

Conclusione

Lo studio rappresenta un tassello importante nella convergenza tra intelligenza artificiale e chimica farmaceutica. Se la creatività molecolare dei modelli linguistici sarà confermata anche in fase sperimentale, potremmo trovarci di fronte a un cambiamento di paradigma: non più la chimica che detta regole all’AI, ma l’AI che suggerisce nuove chimiche alla ricerca.

Come sottolineano gli autori, il metodo si presta non solo all’espansione di scaffold esistenti, ma anche a una lead optimization guidata da frammenti, con prospettive di impatto immediato sulla progettazione di librerie e sull’innovazione farmaceutica. La sfida, ora, è trasformare queste stringhe generate dal computer in molecole reali, in laboratorio e, un giorno, in clinica.

Fonte: Lisa Piazza, Sanjana Srinivasan, Tiziano Tuccinardi, Jürgen Bajorath,
Transforming molecular cores, substituents, and combinations into structurally diverse compounds using chemical language models, European Journal of Medicinal Chemistry,
Volume 291, 2025, 117615, ISSN 0223-5234.