Un analizzatore sintattico in italiano, il tema della tesi di Anita

Nel campo della linguistica computazionale sono stati ideati molti analizzatori sintattici, quasi tutti per la lingua inglese. Un gruppo di ricerca della Federico II, coordinato dalla prof.ssa Anna Corazza, in collaborazione con l’Istituto Trentino di Cultura, ne sta realizzando uno per l’italiano. Anita Alicante, 24 anni, napoletana, si è laureata a dicembre in Informatica con 110 e lode, realizzando una tesi sperimentale proprio su questo argomento. “Abbiamo iniziato il nostro lavoro studiando le differenze tra l’inglese e l’italiano. Utilizzando dei programmi opportunamente modificati, abbiamo osservato le basse prestazioni di una macchina tarata per un’altra lingua” dice la neo laureata che per proseguire questo lavoro di ricerca appassionante, dovrà compiere nel suo futuro delle scelte importanti ed ha già rinunciato all’offerta di lavoro di un’azienda del Nord. “Mi piacerebbe fare il dottorato e proseguire su questa strada. Il campo di ricerca del quale mi sono occupata in questi mesi è molto bello, ma in Italia è poco sviluppato e ci sono anche altre cose interessanti da seguire” riflette Anita, che si è iscritta alla Facoltà di Scienze per amore della matematica. “Il primo anno mi sono iscritta per gioco, volevo fare Matematica, perché al liceo avevo bei voti, ma, viste le prospettive occupazionali, ho provato Informatica perché il biennio era molto simile. Allora non avevo neanche il computer a casa ma mi sono appassionata lo stesso” racconta con entusiasmo. La risoluzione e lo sviluppo degli algoritmi matematici e la progettazione dei programmi, sono gli argomenti che la appassionano di più. “Molti ci considerano dei programmatori ma il nostro ruolo è un altro” puntualizza Anita che è riuscita a laurearsi in tempi abbastanza rapidi. “Sono stata fortunata, perché sono riuscita a dare molti esami in poco tempo”. La vita di relazione è quello che ricorda con più piacere del suo percorso universitario: “l’ambiente che ho trovato qui è pulito e molto amichevole. Ho trovato tanti colleghi con cui ho lavorato bene e dei docenti con i quali, fin da subito, è stato possibile instaurare un buon rapporto. Spero in futuro di essere soddisfatta di quello che farò e di riuscire a non accontentarmi mai”.
Ma vediamo in cosa è consistito il suo lavoro.
Gli analizzatori sintattici sono utilizzati, in primo luogo, come strumento per reperire informazioni sulla rete, migliorare le prestazioni dei motori di ricerca. “Qualunque cosa si voglia cercare, c’è bisogno di un’analisi approfondita della frase, per estrarre le informazioni che servono dai documenti disponibili. Può essere utile nella fase preliminare della traduzione automatica perché le lingue hanno strutture sintattiche differenti e le parole vengono posizionate in punti diversi della frase” spiega Anita. In primo luogo, bisogna valutare la portabilità con l’inglese, ovvero la reale corrispondenza della struttura sintattica tra le due lingue. Si parte da raccolte di frasi già archiviate, organizzate in strutture denominate alberi sintattici.  Ad ogni frase viene associato un albero. Le foglie sono le parole della frase, in seguito accorpate in strutture più generali, (i nodi preterminali), all’interno delle quali le varie parti del discorso vengono associate a pezzi di frase. “In effetti, si fa una sorta di analisi grammaticale” sottolinea Anita. L’insieme di tutti gli alberi già analizzati con un determinato metodo, costituisce la banca di informazioni con la quale addestrare le macchine. “In questo modo speriamo di creare una macchina in grado di associare a qualunque testo un albero sintattico” spiega ancora.  Nella seconda parte del progetto, si è cercato di creare, ex-novo, un analizzatore sintattico, applicando due differenti tecniche di ricerca. “In questa fase abbiamo applicato delle soluzioni originali ricorrendo a due diversi tipi di analizzatori sintattici, uno per l’inglese ed uno sviluppato apposta per l’italiano”. I principali quotidiani nazionali, costituiscono le fonti dalle quali attingere frasi complete, brevi, corrette e di senso compiuto per costruire degli alberi sintattici attendibili. Le frasi scelte non devono superare le 40 parole, perché la memoria dei computer è limitata. Il progetto è durato otto mesi, ma gli esiti sono ancora parziali, adesso bisognerà proseguire su questa strada e migliorare i risultati fino ad ora ottenuti. 
Simona Pasquale 
- Advertisement -
spot_img

Articoli Correlati