Dati digitali: cosa sono i Big Data? Tre possibili definizioni | Ingegneri.info

Dati digitali: cosa sono i Big Data? Tre possibili definizioni

Tre diverse definizioni di Big Data - una dinamica, una statica e una analitica - tratte dal volume "Big Data: privacy, gestione, tutele"

image_pdf

Il volume Big Data: privacy, gestione, tutele – scritto dallo Studio Legale Mondini-Rusconi ed edito da Altalex –  si focalizza sull’analisi del fenomeno dei Big Data da un punto di vista legale, dando ampio spazio alle novità normative introdotte dal GDPR.  Il manuale chiarisce come l’acquisizione di dati e consenso possa essere utilizzata in ogni ambito della vita sociale e quali siano i conseguenti impatti giuridici. L’analisi è supportata da schemi, tabelle e focus informativi, per agevolare la lettura e la comprensione. Il contenuto seguente è tratto da Big Data: privacy, gestione, tutele ed è incentrato sui parametri che portano alla definizione di cosa siano i Big Data. 

Leggi anche: GDPR, le novità per i professionisti tecnici

Big Data “liquidi”

Ci si riferisce al dato come fase di input dal mondo analogico a quello digitale e all’informazione come output che si ricava dal dato. In questo senso, i Big Data non sono altro che una quantità massiva di dati digitali, ovvero un insieme di dati (data set) dalle dimensioni talmente ampie da sfuggire alle abilità di raccolta, archiviazione, gestione e analisi degli strumenti “tradizionali” a ciò finalizzati.

Questo primo tentativo di definire i Big Data è intenzionalmente flessibile e mutevole a seconda dell’evolversi della capacità dei diversi strumenti di raccolta e gestione dei dati: non si definiscono i Big Data in base al numero di terabytes gestiti o altre unità di misura, in quanto tale definizione, basata sul limite di capacità applicabile a oggi, rischia di divenire obsoleta nel giro di poco tempo.

Questa definizione, volutamente “liquida”, pone l’accento sull’aspetto dinamico del fenomeno in questione e, di riflesso, aiuta ad individuare quali siano gli elementi caratterizzanti del mercato dei Big Data: si assume che i dati non sono e non saranno mai risorsa scarsa, ma anzi sono e saranno sempre presenti in maniera sproporzionata rispetto alle capacità di loro archiviazione, gestione e analisi.

Sono e saranno queste ultime capacità – archiviazione, gestione e analisi – oltre al reperimento di un certo, unico, tipo di dati (in grado di distinguersi dagli altri data set facilmente accessibili e rinvenibili) a costituire risorsa scarsa del mercato in questione e con ciò a caratterizzare e determinare il valore aggiunto ed il fattore competitivo delle operazioni a tecnologia Big Data.

Le caratteristiche intrinseche dei Big Data

Secondo una diversa prospettiva, i Big Data sono definiti in base alle loro caratteristiche intrinseche. Questo approccio – volto ad offrire una definizione statica – si concentra sul determinare in termini fattuali come e quanto un dato deve essere “big” ai fini dell’integrazione della definizione, tenendo bene a mente che “big” non è tanto o solo un’indicazione di quantità ma anche di complessità.

In tale prospettiva, sono state elencate una serie di caratteristiche comuni che devono essere riscontrate per poter parlare di Big Data, tutte accomunate dalla lettera “v” come iniziale:

  • Volume. Elemento quantitativo-massivo dei dati.
  • Velocità. Capacità di essere raccolti ed estratti con una velocità vicina al tempo reale.
  • Varietà. Varietà della tipologia dei dati estratti.
  • Variabilità. Variabilità del significato del contenuto dei dati a seconda dell’analisi a cui è sottoposto.
  • Veridicità. Accuratezza dei dati in relazione alla sempre maggiore complessità dei data set.
  • Valore. Idoneità ad estrarre un valore/significato dai dati o dalla loro analisi.
  • Visualizzazione. Necessità di specifiche competenze nella realizzazione di strumenti in grado di presentare in maniera comprensibile i risultati dell’estrazione/analisi.

Si tratta di caratteristiche piuttosto eterogenee tra loro, talvolta indirizzate a individuare elementi tecnici (volume, velocità e varietà), altre volte eventuali o comunque finali (valore, variabilità), altre volte ancora mere aspirazioni (veridicità). Non a caso gli studiosi sono pressoché concordi sulle prime tre “v”, mentre il dibattito ruota intorno alle altre “v” (si parla di 3Vs, 4Vs, 6Vs o 7Vs definitions).

Definizione analitica di Big Data

Accanto alle definizioni dinamiche e statiche di Big Data, è possibile inquadrare il fenomeno secondo un diverso approccio, per così dire analitico, che costruisca la fattispecie sulla base delle diverse fasi che interessano le attività con i Big Data. Fattore chiave di questo approccio è isolare uno schema tripartitico di base, chiamato processo trasformativo (input – output – insight), che semplifica il “ciclo vitale” dei Big Data nelle seguenti fasi:

  • Input (originazione dei dati grezzi). Un primo fascio di attività e di questioni è relativo alla stimolazione, generazione e cattura degli input, “dati grezzi” che possono essere raccolti (anche da più fonti contemporaneamente) e archiviati in data-warehouses o in piattaforme. Le questioni da considerare in questa prima fase possono essere molteplici, a seconda della complessità della fattispecie concreta: potranno essere coinvolte tecnologie particolarmente sofisticate (hardware e/o software) sia per la generazione sia per la raccolta dei dati; potranno esserci diversi profili da considerare in relazione al tipo “giuridico” dei dati (dati personali, dati provenienti da database altrui coperti da privativa industriale, dati del settore pubblico di cui si dovrà valutare le apposite licenze), in relazione alla responsabilità per l’efficacia o accuratezza dei dati stessi o in relazione al rispetto di standard normativi o contrattuali a garanzia della sicurezza fisica ed informatica dei “silos” di dati, dell’integrità e della possibilità di accesso ai dati (data governance); il metodo di archiviazione e raccolta dei dati, se effettuato mediante determinati criteri, potrà essere rilevante per costituire una nuova banca dati tutelabile dal diritto d’autore o assimilati.
  • Output (elaborazione delle informazioni immediate, o “di primo livello”). La seconda fase riguarda le attività di elaborazione e manipolazione delle informazioni “immediate” dei dati – quello che in apertura del capitolo si è definito come output. In tale fase si riconducono le attività di analisi in senso più stretto, secondo le diverse tecniche sviluppate (data mining & cleansing; data aggregation & integration; anlysis & modeling; data intepretation …). Oltre allo specifico know-how utilizzato per i diversi tipi di analisi e alla responsabilità in relazione all’efficacia ed accuratezza dell’analisi stessa, verranno in rilievo anche gli eventuali strumenti tecnologici e/o informatici per condurre le diverse elaborazioni (ad es., strumenti per una smart aggregation in grado di combinare in maniera accurata fonti di dati strutturati – testi, post, ecc. – con dati destrutturati – like, tweet, ecc.) oltre che per presentare visualmente i risultati (ad es., mediante sviluppo di interfacce grafiche).
  • Insight (creazione del nuovo valore, o “informazione di secondo livello”). La terza fase si concentra sul risultato dell’elaborazione, ovvero la creazione della insight, la “nuova” informazione o anche un vero e proprio nuovo prodotto o servizio reso possibile dall’elaborazione dei dati (si pensi alle possibilità introdotte dalle tecnologie Machine-to-Machine, M2M). Si tratta della fase commercialmente più rilevante (essendo quella in cui si realizza il valore aggiunto dei Big Data), ma – come si vedrà – giuridicamente più “scoperta”: incerto è lo status legale della insight, la sua titolarità, tutelabilità e circolabilità come prodotto derivato dall’originario data set di dati grezzi.

Leggi anche: Industria 4.0 e iperammortamento 2018: i chiarimenti del Mise

Copyright © - Riproduzione riservata
Dati digitali: cosa sono i Big Data? Tre possibili definizioni Ingegneri.info