Big Data: archiviazione ed elaborazione dei dati digitali | Ingegneri.info

Big Data: archiviazione ed elaborazione dei dati digitali

Le parole chiave del mondo dei Big Data e dell'Internet of Things: in che modo si archiviano, elaborano e trattano i database digitali? Cos'è un algoritmo?

image_pdf

Il tema dell’archiviazione e trattamento dei dati digitali è largamente approfondito nel volume Big Data: privacy, gestione, tutele – scritto dallo Studio Legale Mondini-Rusconi ed edito da Altalex –  manuale che ricostruisce l’impatto sociale e normativo del fenomeno dei Big Data, uno dei più pressanti dell’Internet 4.0.  Il libro – mediante un’analisi puntuale e supportata da schemi e focus informativi – esamina i Big Data da una prospettiva trasversale, partendo dalla definizione del macroargomento e giungendo a ricostruire con grande dettaglio i vari profili normativi e operativi connessi, con ampio spazio concesso agli aggiornamenti legislativi introdotti dal GDPR . Il contenuto seguente – estratto del manuale – è incentrato proprio sulle pressanti tematiche dell’archiviazione e trattamento dei Big Data, con annesso focus sulle parole chiave correlate.

Leggi anche: GDPR, le novità per i professionisti tecnici

Big Data: sorgenti

Nel panorama dei Big Data i dati provengono da numerosi tipi di sorgenti diverse che spesso li producono in modo automatico e all’insaputa (o quasi) dell’utente. Esempio: il GPS può registrare e comunicare al provider gli spostamenti dello smartphone (e quindi del suo proprietario) anche se non sono attivi né il navigatore né altri programmi esplicitamente correlati alla posizione geografica. Questa funzionalità, però, si manifesta quando la ricerca sul web di informazioni relative a un prodotto fornisce automaticamente la lista dei negozi che lo vendono nella zona in cui si trova l’utente.

I dati quindi provengono da due grandi famiglie di sorgenti. La prima comprende i database, gli archivi di file e documenti, i social network, i sistemi di messaggistica. In essi è l’essere umano a inserire le informazioni, più o meno strutturate. La seconda famiglia riguarda i dati provenienti da dispositivi che li acquisiscono e trasmettono via rete in totale autonomia, per esempio sensori di ogni tipo, telecamere di sorveglianza, computer di bordo di veicoli, ecc. Il numero di questi dispositivi connessi in rete è in rapido aumento; stiamo assistendo infatti alla nascita della cosiddetta Internet of Things, che renderà ancora maggiore la dimensione e la portata del fenomeno Big Data.

Big Data: archiviazione ed elaborazione

I dati, dopo essere stati generati ed eventualmente parzialmente elaborati sul dispositivo che li ha raccolti, vengono trasmessi ai sistemi di elaborazione e archiviazione. L’infrastruttura tecnologica che entra in gioco è estremamente articolata e complessa ed è gestita da un elevato numero di soggetti diversi, che quindi si ripartiscono la responsabilità di questa prima forma elementare di trattamento dei dati.

La rete su cui i dati viaggiano fa uso di mezzi trasmissivi e apparati di rete ed è composta praticamente sempre dall’interconnessione di numerose reti differenti per tecnologie utilizzate, estensioni territoriali e soggetti preposti a gestirle. Non per nulla il nome Internet deriva da “interconnected computer networks”. I dati vengono poi memorizzati in appositi server dove possono essere ulteriormente elaborati, per esempio per estrarre le correlazioni di cui si è parlato, oppure per essere recuperati quando utili per l’erogazione di servizi.

In qualsiasi attività informatizzata la quantità di dati e di servizi è enormemente cresciuta nel tempo e l’architettura dei sistemi di calcolo è cambiata di conseguenza. In origine i dati erano memorizzati e trattati localmente in sistemi di calcolo interni agli enti e alle aziende. Al crescere della complessità della gestione delle infrastrutture informatiche e dei relativi costi è iniziato un processo di outsourcing che ha visto dapprima lo spostamento dell’archiviazione dei dati da sistemi locali a servizi remoti di “network storage” che garantivano backup e ridondanza per far fronte a eventuali guasti senza interruzione dei servizi. Infine, l’outsourcing si è esteso a servizi di più alto livello, comprendendo anche la fornitura dei servizi software.

Parallelamente l’architettura hardware e software dei fornitori di servizi è cambiata per far fronte alle cresciute esigenze di memorizzazione e calcolo: sono state realizzate reti di data center che ospitano numerosi server interconnessi tramite reti ad alta velocità e sono stati sviluppati servizi software adatti ad essere utilizzati da remoto. Tutto questo è diventato l’attuale cloud computing.

Relativamente ai Big Data c’è poi l’importante tema della loro elaborazione. Le architetture cloud rappresentano una soluzione adeguata a trattarli, ma il fatto che si tratti di dati non convenzionali richiede algoritmi altrettanto non convenzionali. La soluzione nasce dall’applicazione di tecniche di Data Science e, più in particolare, di Data Analytics e di machine learning. È importante sottolineare che queste tecniche si basano su modelli statistici, prediligendo la capacità di trattare enormi quantità di dati non strutturati alla garanzia di correttezza della singola correlazione relativa al singolo soggetto.

Big Data: definizioni

  • Database: Software per l’archiviazione, la ricerca e la gestione efficiente di informazioni strutturate (cioè organizzate in modo regolare – per esempio nome, cognome, data di nascita, …).
  • Internet of Things (IoT): Introduzione nella rete Internet di dispositivi che scambiano dati con altri dispositivi o con sistemi centralizzati per fornire servizi. Oltre agli aspetti tecnologici, la peculiarità rispetto all’uso attuale della rete Internet consiste nel fatto che i dispositivi IoT operano in modo autonomo, senza il controllo diretto da parte dell’uomo.
  • Router, switch, access point e altri apparati di rete: Si tratta di dispositivi che permettono ai dati di transitare attraverso la rete. Gli switch e gli access point collegano alla rete i dispositivi terminali (per esempio i personal computer degli utenti e i server dei centri di calcolo) facendo uso di cavi (nel caso degli switch, che utilizzano lo standard Ethernet) o tecnologie radio (nel caso degli access point, che utilizzano lo standard WiFi). Essi sono poi collegati a router che, interconnessi tramite una rete di cavi, oggi prevalentemente in fibra ottica, instradano i dati verso la loro destinazione finale.
  • Client e server: Un server è un computer dotato di hardware dimensionato in ragione del numero prevedibile di utenti e di software dedicato a fornire servizi via rete. L’utente accede al server tramite un dispositivo client (PC, smartphone) e opportuni programmi (per esempio un web browser come Firefox o Chrome).
  • Cloud computing e servizi cloud: Il cloud computing solleva il fruitore del servizio dalla necessità di conoscere e gestire i dettagli tecnici dell’infrastruttura tecnologica. Tutti i servizi di base, dalla gestione dei server e della rete ai sistemi di backup, vengono gestiti dal provider senza richiedere alcun intervento da parte del cliente. I servizi cloud si articolano in diversi livelli che via via spostano verso il provider gli oneri di gestione tecnica (e quindi anche le relative responsabilità): IaaS (Infrastructure as a Service): il provider fornisce un computer virtuale, sollevando il cliente dagli oneri di gestione dell’hardware, del backup e dei collegamenti di rete; PaaS (Platform as a Service): il provider fornisce anche del software (per esempio database, web server, strumenti di sviluppo) per scrivere le applicazioni o installare e personalizzare i servizi; SaaS (Software as a Service): il provider fornisce le applicazioni complete utilizzabili semplicemente tramite un collegamento in rete (per esempio la posta elettronica, ma anche social network o strumenti per la condivisione di documenti o per il lavoro collaborativo).
  • Algoritmo: Un programma informatico è la descrizione rigorosa e dettagliata del metodo risolutivo di un problema nel linguaggio binario che il computer è in grado di interpretare e tradurre in operazioni eseguite automaticamente. Un algoritmo è un metodo risolutivo che soddisfa i requisiti necessari perché possa essere tradotto nel codice binario del computer e successivamente essere eseguito con successo.

Leggi anche: Manager, avvocato o informatico? Chi è il Data Protection Officer

Copyright © - Riproduzione riservata
Big Data: archiviazione ed elaborazione dei dati digitali Ingegneri.info