Il progetto PAPYRUS, Cultural and Historical Digital Libraries Dynamically Mined from News (FP7-ICT-215874), approvato nel 7° Programma Quadro, nell'ambito dell'obiettivo ICT-2007.4.3: Digital libraries and technology-enhanced learning si pone come obiettivo la creazione di una digital library dinamica ed interdisciplinare, in grado di interpretare le interrogazioni di un utente nel contesto di una disciplina specifica, cercare il contenuto in un diverso dominio e restituire i risultati in una modalità utile e facilmente comprensibile per l'utente stesso.
Il progetto intende mostrare la validità dell'approccio proposto attraverso un caso di studio relativo all'estrazione di contenuto di tipo storico a partire da news in formato digitale. Le news si differenziano rispetto alle "referenze storiche" pur avendo entrambe un "evento" come punto centrale. Le news, infatti, riportano le modalità ed i protagonisti di un evento, anche da punti di vista conflittuali, mentre le referenze storiche sono maggiormente incentrate sulle motivazioni e le conseguenze del medesimo evento. L'interpretazione delle news nel linguaggio della Storia richiede una modellazione di entrambi i domini, l'analisi semantica del contenuto delle news e delle interrogazioni degli utenti, un'appropriata modellazione delle corrispondenze tra esse e la presentazione dei risultati nel contesto delle discipline storiche. Grazie agli strumenti sviluppati in Papyrus, gli storici potranno interrogare le news contenute nella digital library con il proprio "linguaggio" ed ottenere il risultato nel dominio della "Storia". Il dipartimento "Servizi per la Gestione dell'Informazione e della Conoscenza" partecipa al WP4, Targeted Multimedia Content Analysis, che prevede lo sviluppo di tecniche per l'estrazione, l'annotazione e l'analisi semantica di contenuto multimediale da notiziari, la creazione di metadati e lo sviluppo di tecniche di NLP e speech recognition per l'analisi del contenuto. Verranno in questo contesto applicate le tecniche di data e text mining con lo scopo di riconoscere e classificare il contenuto multimediale.
Salvatore Rago
Roberta Turra
Giorgio Pedrazzi
Il consorzio raggruppa tre Università (University of Athens, Università di Trento, Queen Mary University of London), oltre al CINECA, con competenze specifiche di knowledge management, intelligenza artificiale e analisi semantica e multimediale, due centri di ricerca con competenze in storia della scienza (Foundation for the History of Technology, University of Athens), due leader mondiali nella diffusione di news (Agence France-Presse, Deutsche Welle), un leader mondiale nel mercato dei motori di ricerca (Autonomy) e un coordinatore esperto nella conduzione di progetti di ricerca e commerciali (Athens Technology Center).
Avvio, 1 marzo 2008 con un'estensione temporale di 30 mesi
Il progetto è stato finanziato per un totale complessivo di 2,2 ME