OpenAI propone un benchmark per il lifescience e un “chimico AI” quasi autonomo

OpenAI sta provando a spostare l’intelligenza artificiale da strumento di supporto linguistico a infrastruttura concreta per la ricerca scientifica e due recenti annunci lo mostrano chiaramente. Da una parte c’è LifeSciBench, benchmark pensato per misurare l’utilità reale dei modelli nei flussi di lavoro delle scienze della vita, mentre dall’altra emerge il racconto di un “AI chemist” capace di contribuire al miglioramento di una reazione complessa impiegata in chimica farmaceutica, in collaborazione con Molecule.one e con un laboratorio automatizzato.
La notizia interessante è che OpenAI sta cercando di costruire una filiera completa fatta di valutazione rigorosa delle capacità, impiego in un contesto operativo e validazione tramite risultati sperimentali fisici. In altre parole, meno chatbot da conferenza e più sistemi che devono reggere il confronto con vincoli, dati imperfetti, tempi di laboratorio e giudizi di specialisti.
LifeSciBench nasce proprio da questa esigenza. Secondo OpenAI, i benchmark tradizionali catturano solo una porzione limitata del lavoro scientifico, perché si concentrano spesso su domande pulite, risposte formalizzate e compiti troppo ordinati rispetto alla realtà di un team R&D. La ricerca vera, al contrario, impone di interpretare evidenze incomplete, riconciliare risultati in conflitto, progettare esperimenti, capire dove un protocollo rischia di fallire e decidere come muoversi quando i dati non dicono tutto.
Per questo il nuovo benchmark è stato costruito con un’impostazione che ricorda più una simulazione professionale che un test accademico classico. OpenAI dichiara 750 task redatti da esperti, distribuiti su sette workflow e sette domini biologici, con 173 scienziati coinvolti nella scrittura e 453 revisori indipendenti nella validazione. Il materiale comprende 1.062 artefatti tra figure, PDF, tabelle, file di sequenza, strutture chimiche e riferimenti web, mentre le rubriche di valutazione arrivano a 19.020 criteri complessivi.
Sono numeri che contano, ma conta ancora di più la filosofia sottostante. LifeSciBench vuole infatti verificare se sappia essere utile a un ricercatore quando il compito richiede giudizio, contestualizzazione, gestione dell’incertezza e una risposta spendibile davvero dentro una pipeline industriale. È una differenza sostanziale, paragonabile a quella che esiste tra misurare la luminosità teorica di un televisore in laboratorio e valutarne la resa percepita in un soggiorno reale con contenuti, riflessi ambientali e preset non ideali.
Anche i risultati pubblicati meritano attenzione. OpenAI riporta che GPT‑Rosalind, modello di ragionamento di frontiera progettato per supportare la ricerca in biologia, nella scoperta di farmaci e nella medicina traslazionale, migliora il pass rate complessivo rispetto a GPT‑5.5, passando dal 25,7% al 36,1%, con progressi più marcati nelle aree della comunicazione scientifica e della traduzione bench-to-bedside. Restano invece più deboli i compiti legati a design, ottimizzazione, predizione e gestione di materiali complessi allegati ai prompt.
Questo passaggio è probabilmente il più serio dell’intero annuncio, perché evita il trionfalismo facile. Quando i task richiedono di lavorare su artefatti, il rendimento cala sensibilmente; GPT‑Rosalind scende dal 45,1% nei compiti solo testuali al 28,1% in quelli con file o URL, mentre GPT‑5.5 passa dal 29,9% al 21,9%. Ancora più severi i dati sui compiti che pretendono output esatti, come strutture, sequenze o risultati numerici, dove le percentuali rimangono molto basse.
È qui che il secondo annuncio, quello sull’AI chemist, assume un valore strategico. Se LifeSciBench serve a misurare la distanza tra promessa e utilità pratica, il progetto condotto con Molecule.one prova a dimostrare che quella distanza in alcuni casi può essere ridotta. Le informazioni disponibili descrivono un sistema basato su GPT‑5.4 integrato con Maria AI e con una piattaforma di high-throughput experimentation miniaturizzata, capace di esplorare molte condizioni reattive e di arrivare a un miglioramento sperimentale nella Chan-Lam coupling applicata alla sintesi di sulfonamidi, una trasformazione rilevante per la chimica medicinale.
Il dettaglio che colpisce di più è la capacità del modello di proporre un additivo inatteso come TEMPO, poi accompagnato anche da un analogo meno costoso, con effetti positivi sulle rese medie di diversi substrati. Secondo le sintesi disponibili, il flusso ha portato all’esecuzione di oltre diecimila reazioni in due cicli nel laboratorio automatizzato, mentre chimici umani hanno successivamente riprodotto condizioni rappresentative su scala convenzionale osservando miglioramenti in 11 casi su 14.
Naturalmente bisogna essere prudenti. Un singolo caso di successo, anche se notevole, non autorizza a parlare di autonomia scientifica generalizzata. Quello che però si può dire è che il paradigma sta cambiando, con l’AI che sta ormai diventando un nodo decisionale dentro sistemi fisici composti da software, robotica, sensori e protocolli sperimentali.
OpenAI, pubblicando nello stesso momento un benchmark severo e un caso applicativo concreto, sta anche cercando di governare la narrativa sul proprio ruolo nella ricerca. Il messaggio implicito è che i modelli vanno giudicati con metriche difficili, ma quando trovano l’integrazione giusta possono produrre risultati che escono dal recinto del testo e toccano il mondo materiale.
Per il settore biotech e farmaceutico, questo significa iniziare a ragionare su piattaforme miste in cui il modello linguistico diventa un layer di coordinamento tra letteratura scientifica, dati interni, progettazione sperimentale e automazione di laboratorio. Ecco perché LifeSciBench è forse la novità più importante anche oltre la chimica.
Se un benchmark ben costruito riesce davvero a misurare quanto un sistema sia utile nei processi professionali complessi, allora il suo impatto va ben oltre le scienze della vita. È un modello di valutazione che potrebbe ispirare benchmark più maturi anche in altri domini tecnici, dall’ingegneria ai media professionali, dove la qualità coincide con la capacità di leggere contesto, vincoli e obiettivi reali.


