Tu sei qui

Ontologie e linguistica

La caratteristica dei documenti in ambito scientifico è che presentano una terminologia che molte volte non è standard rispetto alla disciplina in analisi. Ci si trova davanti a una mole documentale la cui stesura è finalizzata alla redazione e normalmente consultata con logica sequenziale per macro aree stabilite.

La terminologia non uniforme e l'assenza di indici analitici rendono qualsiasi ricerca difficile e chi consulta la documentazione, via web, dopo alcune prove abbandona l'intento.

Rendere un dominio di conoscenza scientifico disponibile sul web vuol dire predisporlo per una consultazione puntuale con strumenti di ricerca avanzata.

In situazioni di questo tipo CINECA adotta la soluzione di costruire un thesauro linguistico.

Per definizione un thesauro è un vocabolario controllato di termini e organizzato in maniera formale attraverso relazioni gerarchiche, associative, omografe e di equivalenza. Le relazioni tra i termini sono indicate esplicitamente e da indicatori standard.

L'esperienza CINECA nell'ambito della costruzione dei thesauri si avvale di diverse metodologie e strumenti:

  • individuazione e utilizzo di thesauri standard di riferimento della disciplina. Eseguendo il semplice matching fra la documentazione e la terminologia contenuta nel thesauro, questo permette di rendere visibile all'esperto di dominio le argomentazioni presenti, la necessità di ampliamento e di maggior specificità di alcune parti e quelle mancanti.
  • strumenti di Natural Language Processing per aiutare l'esperto di dominio nel lavoro di integrazione e di completamento a partire dallo step precedente, attraverso bigrammi, singoli termini e frasi significative e annotazioni da parte dell'esperto di dominio stesso.

Il thesauro linguistico è lo strumento semantico di base per realizzare servizi web-based di interrogazione di domini di conoscenza.

Il thesauro, attraverso la rappresentazione della conoscenza che realizza, trova immediata applicazione in due strumenti per la ricerca:

  • Indice analitico: per definizione è una lista di parole chiave posta solitamente alla fine di un documento che permette al lettore di trovare facilmente gli argomenti che lo interessano. Per un utente che ha bisogno di una ricerca puntuale e che ha padronanza con la terminologia del dominio, un indice analitico permette di individuare immediatamente la porzione di testo di interesse. Attraverso le relazioni di sinonimia e associativa proprie del thesauro stesso, la strutturazione dell'indice analitico permette di navigare i legami semantici tra i termini.
  • Directory: la navigazione per categorie viene in aiuto all'utente che non conosce in specifico il dominio in esame. La classificazione è la via più semplice per guidare l'utente ad esplorare il dominio di conoscenza. La relazione gerarchica definita nel thesauro, permette una facile predisposizione di una funzionalità di Directory in cui l'utente puo' muoversi tra gli argomenti di interesse.

SPREAD: Un'esperienza in questo senso è il thesauro sviluppato nell'ambito medico che si occupa di Ictus Cerebrale al fine di rappresentare le connessioni linguistiche tra la terminologia presente in questo dominio (vedi approfondimento).