Tu sei qui

Gestione dei dati scientifici

7 Gennaio 2013

Nel calcolo ad altre prestazioni il trattamento di grandi moli di dati sta acquisendo sempre maggior importanza sia per i dati risultati da simulazioni che ottenuti da apparati sperimentali di misura. Questa tendenza, ribattezzata con il termine di “data deluge”, sta influenzando l’evoluzione dell’infrastrutture di calcolo da “cpu centric” a “data centric”.

Oltre alle problematiche di archiviazione, preservazione e gestione, vi è la necessità di effettuare elaborazioni di varia natura: dalle semplici analisti statistiche, alla visualizzazione scientifica, ai più complessi algoritmi di Data Mining. La grande dimensione dei dati coinvolti rende da un lato difficoltoso e molto oneroso in termini di tempo lo spostamento per effettuare le analisi, dall’altro difficile elaborare tali dati senza disporre di strumenti hardware e software per poter ottimizzare i processi di analisi.

Un'elevata quantità di informazioni è di poca utilità senza un'adeguata gestione dei metadati, un'opportuna contestualizzazione e l'assegnazione di identificatori. persistenti. In mancanza di corrette classificazioni, i dati non possono essere condivisi, non possono essere combinati con altri insiemi di dati o conservati. Inoltre, il loro recupero e riutilizzo dopo alcuni anni diventa quasi impossibile.

Per questo il Cineca ha deciso di affrontare il crescente numero di richieste delle comunità scientifiche, dando vita a un progetto in grado di affrontare queste sfide importanti e oggi mette a disposizione dei ricercatori il nuovo servizio Data Repository.

Maggiori informazioni sono disponibili sul sito Cineca dedicato al calcolo ad alte prestazioni (in inglese), e nella rubrica "Scientific Big Data", pubblicata nel numero 67-69 del periodico Notizie dal Cineca (link nella colonna degli approfondimenti).