Un algoritmo italiano 'semplifica' i big data | Ingegneri.info

Un algoritmo italiano ‘semplifica’ i big data

wpid-553_tunneldata.jpg
image_pdf

Big data. Un’espressione per indicare grandissime quantità di informazioni, come quelle che vengono condivise da miliardi di persone in ogni momento attraverso computer, smartphone e altri dispositivi elettronici. Categorizzare e rappresentare in maniera sintetica enormi quantità di dati – si parla di peta, o addirittura esa-byte di informazione – è la sfida del futuro. Lo scenario attuale offre, inoltre, prospettive senza precedenti: tracciare le epidemie di influenza, per esempio, o monitorare il traffico stradale in tempo reale, o ancora gestire l’emergenza in caso di catastrofi naturali.

Per usare questa enorme mole di dati, però bisogna capirli, e prima ancora bisogna categorizzarli in maniera efficace, veloce e automatizzata. Uno dei sistemi più usati è un insieme di tecniche statistiche chiamate cluster analysis (ca), in grado di raggruppare i set di dati secondo la loro “somiglianza”. Due ricercatori della Scuola Internazionale Superiore di Studi Avanzati (Sissa) di Trieste hanno ideato un tipo di ca basato su principi semplici e potenti, che si è dimostrato molto efficiente e in grado di risolvere alcuni dei problemi tipici di questo ambito di analisi.

Gli insiemi di dati possono essere immaginati come una “nuvola” di punti in uno spazio a più dimensioni. Questi punti sono in genere dispersi in modi diversi, più rarefatti in una zona, più densi in un’altra. La ca serve a individuare in modo efficiente le zone più dense, raggruppando con questo criterio i dati in un certo numero di sottoinsiemi significativi. Ogni sottoinsieme corrisponde a una categoria. “Pensate a un database di fotografie di volti – spiega Alessandro Laio, professore di Fisica e Statistica Biologica della Sissa -. Nell’archivio ci possono essere più fotografie di una stessa persona, la ca serve a raggruppare tutti gli scatti relativi allo stesso individuo. Questo tipo di analisi viene fatto per esempio dai sistemi automatici di riconoscimento dei volti. Noi abbiamo cercato di ideare un algoritmo più efficiente di quelli attualmente usati, che risolva alcuni dei problemi classici della ca”.

La performance della procedura si è rivelata ottimale: “Abbiamo testato il nostro modello matematico sull’Olivetti Face Database, un archivio di ritratti fotografici, ottenendo risultati molto soddisfacenti – commenta Alex Rodrigez, autore insieme a Laio della ricerca -. Il sistema riconosce correttamente la maggior parte degli individui, e non ha mai dato ‘falsi positivi’ Questo significa che in qualche caso non ha riconosciuto un soggetto, ma non ha mai confuso un individuo con un altro. Rispetto ad altri metodi simili il nostro si è rivelato particolarmente efficace nell’eliminare gli outlier, cioè quei punti molto diversi dagli altri che tendono a sballare l’analisi”.

Copyright © - Riproduzione riservata
Un algoritmo italiano ‘semplifica’ i big data Ingegneri.info