Il Centro Interdipartimentale AI Research and Innovation (AIRI) e il Laboratorio AImagleab del Dipartimento di Ingegneria “Enzo Ferrari” dell’Università di Modena e Reggio Emilia organizzano a Modena il 5 Febbraio 2024 il Workshop “Italian Visual and Language models: Challenges and Activities”, presso AGO Modena Fabbriche Culturali.

Il workshop presenta la ricerca italiana nello sviluppo di grandi modelli multimodali (Large Multimodal Models – LMM), in grado di integrare oltre alla interazione linguistica, in Italiano, anche immagini, video e dati da più sorgenti sensoriali ed archivi documentali.

Il workshop è organizzato dalla Fondazione FAIR che coordina il progetto PNRR FAIR (Future AI Research), finanziato nell’ambito dei Partneriati Estesi, PE1 – Intelligenza Artificiale. La Fondazione FAIR coordinata dal CNR, coinvolge 13 università, tra cui Unimore, diversi istituti di ricerca come l’IIT, l’FBK ed aziende nazionali di rilievo come Leonardo, Intesa San Paolo, Bracco. Il progetto FAIR è stato finanziato dal PNRR con più di 100 milioni di euro per la ricerca fondazionale in Intelligenza Artificiale.

Il workshop presenterà i risultati del Progetto Trasversale di FAIR “Vision, Language, and Multimodal Challenges”  coordinato dai Proff. Rita Cucchiara (Università di Modena e Reggio Emilia, CNR) e Roberto Navigli (Sapienza Università di Roma) e si concentra sulle future realizzazioni degli LMM, i modelli fondazionali di Intelligenza Artificiale che si occupano di integrare Large Language Models ed elaborazione di immagini, video, audio e dati multimodali, e che rappresentano la frontiera della ricerca in AI.

Dopo i saluti del Magnifico Rettore, Prof. Carlo A. Porro e del presidente della Fondazione FAIR, Dr. Giuseppe De Pietro, inizieranno i lavori del workshop – ad inviti – a cui  parteciperanno più di sessanta accademici oltre ad invited speakers di alto profilo, tra cui Massimo Sideri del Corriere della Sera, che presenterà il suo libro “Il visconte cibernetico”, sul connubio tra umanesimo e tecnologia e Jenia Jitsev e Mehdi Cherti di LAION “Large-scale Artificial Intelligence Open Network”, un’organizzazione no-profit tedesca che realizza modelli e set di dati di intelligenza artificiale open source.

L’aspetto più importante del Workshop, poi, riguarderà la presentazione dei risultati sui modelli fondazionali in lingua italiana e la possibilità di interrogare e recuperare dati visuali interagendo nella nostra lingua con archivi multimodali. Verranno presentati il primo language model in italiano, “LLaMAantino”, sviluppato in FAIR dall’Università di Bari; il grande sforzo di raccolta di dati multimodali e video “egocentrici” fatto dall’Università di Catania, e il modello “MORE” – Multimodal mOdel and REtrieval, sviluppato da UNIMORE per la interazione multilingue tra immagini e testo e il recupero di dati multimodali. Il modello MORE è stato addestrato grazie ad un grant ISCRA-B sul supercalcolatore Leonardo di CINECA e impiegando dati pubblici, tra cui quelli di LAION.

Secondo Lorenzo Baraldi, ricercatore del Dipartimento di ingegneria “Enzo Ferrari”, Vicedirettore del Centro DHMORE e ideatore di MORE “Il modello MORE integrerà capacità di dialogo, analisi di dati multimodali, tecniche di retrieval e validazione per ottenere un modello capace di interagire in italiano su contenuti visuali, recuperare conoscenza accurata da fonti di dati esterne e giustificare le proprie risposte indicandone le fonti”.

“Il fatto di poter ospitare questo workshop a Modena – afferma Rita Cucchiara, Direttore del Centro AI Research and Innovation di Unimore – è la testimonianza dell’impegno dell’Ateneo per la ricerca scientifica in Intelligenza Artificiale. La ricerca su Vision and Language è al centro delle attività del laboratorio AImageLab da quasi 10 anni, e ha visto i primi risultati nel 2015 all’interno del progetto nazionale Cultmedia. Ora le stesse attività sono finanziate dalla Fondazione di Modena, dal PNRR ma soprattutto dai progetti Europei ELSA ed ELIAS, nell’ambito del quale coordiniamo le attività sull’AI sostenibile per l’individuo e per la personalizzazione dei modelli visuali e linguistici”.

L’obiettivo dell’evento è avviare a una discussione all’interno della comunità italiana sulle sfide future della progettazione, sviluppo, e valutazione di grandi modelli linguistici, sui grandi modelli visivi e la loro combinazione e i diversi settori applicativi come la salute o l’industria manifatturiera. FAIR si occupa di tecnologia e di come coniugarle con i vincoli etici e legali per costruire sistemi di Intelligenza Artificiale capaci di interagire e collaborare con gli umani, di percepire ed agire all’interno di contesti in continua evoluzione, di essere coscienti dei propri limiti e capaci di adattarsi a nuove situazioni, di essere consapevoli dei perimetri di sicurezza e fiducia, e di essere attenti all’impatto ambientale e sociale che la loro realizzazione ed esecuzione può comportare.

Si continuerà alle 16.00 con la presentazione di alcuni risultati delle attività di ricerca del progetto FAIR, a cura dei ricercatori Giovanni Maria Farinella, Lorenzo Baraldi e Piergrancesco Basile, seguite da discussioni tra i partecipanti per definire le prossime attività del progetto FAIR assieme al centro di supercalcolo Leonardo del CINECA grazie alla convenzione siglata tra CINECA e FAIR a supporto di tutta la accademia italiana nella ricerca fondazionale in AI.