Tu sei qui

Text Mining

Il Text Mining consiste nell'applicazione di tecniche di Data Mining a testi non strutturati (agenzie stampa, pagine web, e-mail, ecc.) e più in generale a qualsiasi corpus di documenti, allo scopo di:

  • individuare i principali gruppi tematici
  • classificare i documenti in categorie predefinite
  • scoprire associazioni nascoste (legami tra argomenti, o tra autori, trend temporali, ...)
  • estrarre informazioni specifiche (es: nomi di geni, nomi di aziende, ...)
  • addestrare motori di ricerca
  • estrarre concetti per la creazione di ontologie (ontology learning).

Il Cineca si trova in una posizione privilegiata per offrire servizi di Text Mining in quanto integra in un solo centro le diverse funzioni e competenze necessarie.

Per maggiori informazioni: mining@cineca.it

Come si struttura un processo di Text Mining

Un processo di Text Mining si struttura generalmente in tre fasi:

  • indicizzazione
  • mining
  • valutazione.

Nella fase di indicizzazione viene effettuata la parte di analisi linguistica e tutto ciò che serve per arrivare ad una rappresentazione vettoriale del documento. In particolare l'identificazione (POS tagging) e la selezione dei termini, la lemmatizzazione, la ponderazione, la definizione delle stop-words, l'eventuale riduzione di dimensionalità , l'integrazione con eventuale meta-informazione.

Ai documenti così trasformati, nella fase di "mining" viene applicato un algoritmo di Data Mining specifico per l'obiettivo da raggiungere. Generalmente si tratta di un algoritmo di clustering (per il raggruppamento tematico), oppure di un algoritmo di machine learning (per la classificazione automatica).

Infine la fase di valutazione consiste nel calcolo di misure di efficacia e/o nell'interpretazione dei risultati ottenuti.

Raggruppamento tematico

Il raggruppamento tematico consente di organizzare i documenti in gruppi tematici, fornendo una panoramica dei contenuti. 
Consente inoltre di individuare nuovi argomenti e le relazioni tra aree tematiche. 
Particolarmente utile quando si devono esplorare grandi quantità di documenti per estrarne informazioni sintetiche e rappresentative del contenuto, oppure quando si desidera classificare i testi senza disporre di un sistema di classificazione consolidato.

Per soddisfare queste esigenze, il Cineca ha realizzato la tecnologia Mole (Mining On-Line Expert).

La tecnologia MOLE (Mining On-Line Expert)

MOLE è lo strumento sviluppato dal Cineca per il Text Mining, la cui funzione principale è quella di raggruppare documenti in base al loro contenuto. 
Ha come obiettivo l'individuazione automatica di pattern di parole che consentano la creazione di gruppi tematici.

Principali applicazioni

  • PatMole: analisi di tutti i brevetti registrati dagli European Patent Office dal 1985 (2,3 milioni di documenti) per identificare i nuovi orientamenti del mercato e i potenziali concorrenti.
    Utente: CRIT (per le aziende associate).
  • PackMole: analisi dei brevetti sul packaging (120 mila documenti) per identificare per identificare nuovi orientamenti del mercato e potenziali concorrenti. 
    Utente: TetraPak.
  • MedMole: analisi di tutti gli abstract di Medline (7-8 milioni di documenti) per identificare gruppi di geni funzionalmente correlati.
    Utenti: ricercatori di bioinformatica.
  • GiuriMole: analisi delle sentenze civili del Tribunale di Bologna (32 mila documenti) per studi di giurimetrica
    Utente: Ministero di Grazia e Giustizia (Progetto Astrea).
Classificazione automatica

Un classificatore automatico impara a riconoscere, da un insieme di documenti pre-classificati, le caratteristiche delle categorie di interesse ed è in grado di individuare la classe di appartenenza di un nuovo documento. 
Queste tecniche possono essere utili per costruire dei sistemi di filtering delle news o di messaggi di posta elettronica o per catalogare e indirizzare messaggi di reclamo o per indicizzare documenti sulla base di un vocabolario controllato.

Principali applicazioni

  • GiuriClass: classifica un documento testuale (sentenza) nelle principali grandi voci di classificazione della materia civile della Corte di Cassazione.
    Utente: Ministero di Grazia e Giustizia (progetto Astrea) per la classificazione delle sentenze civili del Tribunali di Bologna, per studi di giurimetrica.
  • IPCMapping: classifica un documento testuale in lingua inglese nelle sezioni e nelle 600 sottoclassi dell’International Patent Classification, catalogando così i documenti con la stessa logica con cui sono catalogati i brevetti internazionali.
    Utente: portale della Ricerca Italiana per la classificazione dei progetti di ricerca PRIN e FIRB e dei Centri di Eccellenza, per una maggiore fruibilità da parte delle aziende.
  • AreaMapping: classifica un documento testuale nelle diverse aree e settori disciplinari (circa 400).
    Utente: portale della Ricerca Italiana per la classificazione dei progetti di ricerca FIRB, delle news e degli altri contenuti del portale.