Il progetto ‘Parla Chiaro’, sviluppato dall’Università Federico II, è stato selezionato tra i 16 vincitori della Lingua Open Call, un’iniziativa dell’AI for Good Lab di Microsoft in Europa per promuovere l’inclusione digitale per le lingue europee a basse risorse. Si tratta di lingue con contenuti e collezioni di dati online limitati e come tali sottorappresentati nell’ambito delle tecnologie di AI rispetto a lingue ad alte risorse come l’inglese, lo spagnolo, il francese o il tedesco. Lingua si propone di colmare questo divario, sostenendo progetti innovativi che raccolgono dataset vocali e testuali di alta qualità per le lingue europee sottorappresentate.
Il prof. Vincenzo Moscato, Ordinario di Sistemi di Elaborazione delle Informazioni e Coordinatore del Corso di Studio Magistrale di Data Science dell’Ateneo federiciano, responsabile scientifico del progetto, ne ripercorre la genesi. “Tutto è nato – racconta – da un altro progetto che portavo avanti, insieme ad altri colleghi in collaborazione con il Centro per l’ipertensione del Policlinico federiciano ed in particolare con i professori Giovanni Esposito e Raffaele Pizzo.
Avevamo realizzato un’applicazione che catturava il vocale del colloquio tra il medico e il paziente e generava in automatico sul computer del medico il referto. Intendiamoci, la diagnosi era del medico. Semplicemente, attraverso la cattura del vocale, si generava in automatico il referto, che poteva poi essere anche stampato”. Il progetto era stato finanziato da Accenture tramite il Cesma, il Centro Servizi Metrologici e Tecnologici Avanzati di Ateneo. Da quella iniziativa è gemmata quella che è stata recentemente finanziata da Microsoft – 20.000 euro per utilizzare il loro modello computazionale e la loro potenza di calcolo e 50.000 euro spendibili in assegni di ricerca e borse di studio – relativa al dialetto napoletano.
Racconta il prof. Moscato: “L’esperienza con il Policlinico ha evidenziato che circa il 60% dei pazienti si esprimeva in napoletano durante il colloquio con i medici. Poiché non esiste un data set del dialetto napoletano, si generavano allucinazioni. L’intelligenza artificiale, nel compilare il referto attraverso la cattura del vocale, cambiava i nomi e si verificavano errori e falsi. Quando abbiamo letto la call di Microsoft abbiamo dunque valutato che potesse essere una buona opportunità per creare una collezione di dati on line in napoletano, alla quale l’intelligenza artificiale avrebbe potuto attingere per catturare i vocali e trasformarli in referti senza commettere errori”.
Prosegue: “Abbiamo scaricato un dataset di modelli di domande e risposte in inglese relativi a colloqui tra medico e paziente. Chiederemo poi di recitarli in napoletano e per questo abbiamo intenzione di coinvolgere i nostri studenti e i loro familiari. Quando avremo raggiunto l’obiettivo di circa 100 ore di colloqui in napoletano, li trascriveremo con l’aiuto del gruppo dei linguisti dell’Ateneo, tra i quali Francesco Montuori, Michela Cennamo, Francesca Maria Dovetto.
Il dataset sarà poi condiviso con Microsoft affinché sia realizzato un modello il quale possa emettere un segnale di allerta qualora la traduzione del referto, alla fine del colloquio tra il medico e il paziente, non sia adeguata”. Si chiamerà Dialect-Aware Warning System e sarà in grado di individuare automaticamente le espressioni dialettali potenzialmente ambigue o a rischio di interpretazione errata, suggerendo chiarimenti all’utente o avviando una traduzione semiautomatica.
“Il progetto – conclude il prof. Moscato – proseguirà fino a marzo 2027 e prevede la possibilità di realizzare un database anche per altri dialetti, per esempio il palermitano e il romanesco. Siamo stati già contattati dall’Università di Palermo”.
Fabrizio Geremicca
Scarica gratis il nuovo numero di Ateneapoli
Ateneapoli – n.6 – 2026 – Pagina 5








