Big Data. Tecnologie computazionali e data processing.
Nell’ultimo decennio i dati hanno assunto importanza via via crescente nell’organizzazione delle attività di produzione e di scambio, a tal punto da poter essere considerati una risorsa economica a tutti gli effetti, anzi la risorsa di gran lunga più importante in molti settori. Infatti, grazie agli avanzamenti nell’ambito dell’Information and Communication Technology (ICT), le organizzazioni tendono a raccogliere dati di qualsiasi tipo, ad elaborarli in tempo reale per migliorare i propri processi decisionali e a memorizzarli in maniera permanente al fine di poterli riutilizzare in futuro o di estrarne nuova conoscenza..
Big Data - Introduzione. La creazione di dati sta seguendo un processo esponenziale: nell’anno 2018 il volume totale di dati creati nel mondo è stato di 28 zettabyte (ZB, equivalente 1021), registrando un aumento di più di dieci volte rispetto al 2011, si prevede che entro il 2025 il volume complessivo dei dati arriverà fino a 163 ZB. Il motore primario di questo processo di generazione di dati è indubbiamente Internet: attraverso la rete, infatti, in un minuto sono inviati 44 milioni di messaggi, sono effettuate 2,3 milioni di ricerche su Google, sono generati 3 milioni di “mi piace” e 3 milioni di condivisioni su Facebook, e sono effettuati 2,7 milioni di download da YouTube. Google elabora dati di centinaia di Petabyte (PB), Facebook ne genera oltre 10 PB al mese e Alibaba decine di Terabyte (TB) al giorno per il commercio online..
La storia dei Big Data. Sebbene il concetto stesso di Big Data sia relativamente nuovo, le origini di grandi set di dati risalgono agli anni '60 e '70 quando il mondo dei dati era appena agli inizi con i primi data center e lo sviluppo del database relazionale. Intorno al 2005, le persone hanno iniziato a rendersi conto della grande quantità di dati generati dagli utenti tramite Facebook, YouTube e altri servizi online. Apache Hadoop, un framework open source creato appositamente per archiviare e analizzare i set di Big Data, è stato sviluppato nello stesso anno. Anche NoSQL iniziò a guadagnare popolarità durante questo periodo..
La storia dei Big Data. Lo sviluppo di framework open-source, come Hadoop (e più recentemente Spark) è stato essenziale per la crescita dei Big Data perché rendono i Big Data più facili da lavorare e più economici da archiviare. Negli anni successivi, il volume dei Big Data è salito alle stelle. Gli utenti stanno ancora generando enormi quantità di dati ma non sono solo gli umani a farlo. Con l'avvento dell'Internet of Things (IoT), più oggetti e dispositivi sono connessi a Internet, raccogliendo dati sui modelli di utilizzo dei clienti e sulle prestazioni del prodotto..
L'ascesa del machine learning ha prodotto ancora più dati. Sebbene i Big Data siano arrivati lontano, la loro utilità è solo all'inizio. Il cloud computing ha ampliato ulteriormente le possibilità dei Big Data. Il cloud offre una scalabilità davvero elastica, in cui gli sviluppatori possono semplicemente creare cluster ad hoc per testare un sottoinsieme di dati. E i database grafici stanno diventando sempre più importanti, grazie alla loro capacità di visualizzare enormi quantità di dati in un modo che rende gli analytics rapidi e completi..
Cos’è Big Data. Per Big Data si intendono dei set di dati, dataset, talmente estesi che è impossibile elaborarli ed estrarne conoscenza con le tecniche di analisi tradizionali. La dimensione eccezionale è la caratteristica definitoria di tali dataset, ma con Big Data ci si riferisce anche a dati di grande complessità e variabilità interna, prodotti a ritmi impareggiabili. In questo scenario, il vero punto di rottura consiste nel fatto che questi dati sono disponibili anche a un’utenza non specializzata. Fino allo scorso decennio, per esempio, dati sulle tendenze della popolazione (in termini di fenomeni, mode, opinioni) erano fruibili al grande pubblico solo tramite statistiche generali, che descrivevano solo un numero limitato di fenomeni selezionati ed erano veicolate da enti appositi..
Cos’è Big Data. Al giorno d’oggi, invece, le API (Application Program Interface) dedicate e gli aggregatori di dati permettono a qualsiasi utente di trovare, consultare e utilizzare dati di qualsiasi tipo; per esempio, un festival musicale diventa un’opportunità per uno studio della mobilità, sia sotto forma di spostamenti individuali che collettivi. Le applicazioni possibili sono numerose: controllo del traffico, integrazione con eventi contemporanei in aree adiacenti, pianificazione della localizzazione di servizi e punti di ristoro, ecc..
Cos’è Big Data. Lo spazio di investigazione non si limita però a dati e scopi “sociali”: il trattamento dei Big Data permette di ricostruire e predire crisi economiche, epidemie, tendenze e mode, la diffusione di notizie e opinioni. Parallelamente, i dati d’interesse possono trovarsi nelle forme più eterogenee: segnali GPS, ma anche dati su fenomeni meteorologici, sulla storia clinica dei pazienti di un ospedale, transazioni al supermercato, eccetera. In particolare, ogni fenomeno che possa essere descritto da dati diventa analizzabile a livello microscopico..
Cos’è Big Data. Ogni aspetto dell’attività umana può essere studiato e possono trovarsi, a seconda dell’obiettivo di analisi: • schemi ricorrenti; • istanze che non si comportano come previsto ( outlier detection ); • regole associative che descrivono il comportamento degli utenti e la sequenza prevista delle loro azioni; • raggruppamenti latenti in base a una determinata dimensione sulla base dei quali fare profilazione degli utenti ecc L’importanza dei Big Data dunque non è solo nella quantità di dati in possesso di un’azienda o di una Pubblica Amministrazione ma nella capacità di analizzarli e utilizzarli. Maneggiare nel giusto modo queste informazioni aiuta infatti a ridurre costi e tempi, riuscendo a sviluppare offerte e prodotti nuovi..
Rischi per la riservatezza dei dati. Come si è notato, la pratica di raccogliere dati personali risulta oggigiorno sempre più diffusa. Per analizzarli, profilarli, individuare correlazioni tra loro ed estrarne valore i Big Data vengono sottoposti a trattamenti automatizzati mediante algoritmi di Intelligenza Artificiale e altre tecniche evolute, e una volta inseriti nei sistemi, diventano gocce nel mare. Le regolamentazioni sulla privacy attualmente in vigore, purtroppo, non riescono a stare al passo delle continue evoluzioni tecnologiche. Ne conseguono evidenti zone d’ombra che danno luogo a incertezza. Risultato è che i mezzi giuridici non riescono a risolverle. I rischi iniziano a diventare seri a fronte di fughe e furti di dati personali e di attacchi informatici: numerosi sono i casi di organizzazioni malintenzionate che hanno preso di mira gli archivi di imprese e di enti governativi..
Rischi per la riservatezza dei dati. La normativa di riferimento in materia di gestione dei Big Data è il GDPR: General Data Protection Regulation prevede che ogni trattamento dei dati avvenga nel rispetto di alcuni principi, tra i quali ricordiamo la liceità, la correttezza e la trasparenza del trattamento nei confronti dell’interessato, l’assicurare che eventuali trattamenti successivi non siano incompatibili con le finalità della raccolta dei dati, la conservazione dei dati per un tempo non superiore a quello necessario rispetto agli scopi per i quali è stato effettuato il trattamento..
Rischi per la riservatezza dei dati. Fulcro del principio di liceità, è il consenso al trattamento, esplicitamente espresso dall’interessato, che il titolare del trattamento deve sempre essere in grado di dimostrare e che risulta valido solo se, tra gli altri obblighi, all’interessato è stata resa una corretta informazione sul trattamento dei suoi dati personali, dove, per “dati personali”, il GDPR intende qualsiasi informazione riguardante una persona fisica, identificata, o identificabile, attraverso nome, cognome, codice identificativo, dati relativi all’ubicazione, nonché relativi alle sue caratteristiche fisiche, fisiologiche, genetiche, psichiche, economiche, culturali o sociali..
Novità assoluta del Regolamento, il fatto di non considerare la normativa privacy pura teoria, ma nell’affidare a figure specifiche all’interno dell’azienda (titolare e responsabile del trattamento dei dati) il compito della concreta messa in pratica di quanto prescrive: tutte le decisioni in merito vengono demandate a loro, ai quali spetta la definizione di misure tecniche e organizzative atte a garantire un adeguato livello di sicurezza dei dati, sempre coerente con il grado di rischio rilevato..
L’etica dei big data. Oggi, la scienza dei dati ha un impatto significativo sul modo in cui le aziende vengono condotte in discipline diverse come scienze mediche, città intelligenti e trasporti. Che si tratti della protezione dei dati di identificazione personale, del pregiudizio implicito nel processo decisionale automatizzato, dell'illusione della libera scelta nella psicografia, degli impatti sociali dell'automazione o dell'apparente divorzio tra verità e fiducia nella comunicazione virtuale, i pericoli della scienza dei dati senza l'etica le considerazioni sono chiare come sempre. La necessità di concentrarsi sull'etica della scienza dei dati va oltre un bilancio di questi potenziali problemi perché le pratiche della scienza dei dati sfidano la nostra comprensione di cosa significhi essere umani..
L’etica dei big data. Prima di tutto bisogna riconoscere la privacy come un fattore primario tra le regole dell’informazione. Secondo molti esperti di comunicazione è morta o morente, ma non è così: la privacy si sta evolvendo insieme alla comunicazione e alla società. Con l’evoluzione degli strumenti di raccolta, analisi, utilizzo e conversione dei big data insieme ai nuovi sistemi di sorveglianza, per privacy s’intende la capacità di gestire il flusso d’informazioni riservate che finisce per essere analizzato da terzi. Le informazioni private possono rimanere tali anche dopo essere state condivise: capita sempre più spesso di condividere con le app del proprio smartphone delle informazioni confidenziali come quelle bancarie, ma anche contatti e GPS..
L’etica dei big data. La condivisione di questi dati non implica, però, l’utilizzo e il trasferimento d’informazioni da parte dei gestori a terzi. Chiunque lavori con i dati deve comprendere i fondamenti di etica che possiamo parametrizzare come segue: • Trasparenza: possibilità da parte dell’utente di sapere e controllare quali dei propri dati vengono memorizzati e come vengono utilizzati; • Responsabilità: capacità di un fornitore di dati di controllare che questi vengano usati in modo corretto secondo regole prestabilite, assicurare comprensibilità e interpretabilità dei risultati; • Equità: può essere considerata come non discriminazione o non polarizzazione dei risultati (per esempio con un ordinamento prioritario eticamente scorretto);.
L’etica dei big data. • Autorevolezza: garanzia della qualità della sorgente in termini di origine dei dati che mette a disposizione, della loro autenticità (ad esempio facendo uso di metadati); • Diversità: differenziazione delle sorgenti per evitare polarizzazioni; • Qualità dei dati: principalmente precisione, accuratezza, completezza, correttezza, tempestività di aggiornamento; • Protezione dei dati: sicurezza e privatezza. Ogni utente deve conoscere le regole di base per cui si raccolgono le informazioni che lo riguardano: l’individuo deve comprendere che questi dati vengono condivisi, conservati e trattati..
Le cinque V di big data. Le “cinque V” dei big data (volume, velocità, varietà, valore e veridicità) sono le cinque caratteristiche principali e innate dei big data. Conoscere le “cinque V” consente ai data scientist di trarre più valore dai propri dati, consentendo anche all'organizzazione degli scienziati di diventare più incentrata sul cliente. All'inizio di questo secolo, si parlava di big data solo in termini di “tre V”: volume, velocità e varietà. Nel corso del tempo, sono state aggiunte altre “due V” (valore e veridicità) per aiutare i data scientist a essere più efficaci nell'articolare e comunicare le caratteristiche importanti dei big data. Tuttavia, non è specificamente richiesto che le organizzazioni seguano le linee guida sui dati rispetto all'altra..
Le cinque V di big data - Volume. Il volume, la prima delle 5 V dei big data, si riferisce alla quantità di dati esistenti. Il volume è come la base dei big data, in quanto è la dimensione iniziale e la quantità di dati che vengono raccolti. Se il volume di dati è abbastanza grande, può essere considerato un big data. Ciò che è considerato big data è relativo, tuttavia, e cambierà a seconda della potenza di calcolo disponibile sul mercato.
Le cinque V di big data- Velocità. Si riferisce alla velocità con cui i dati vengono generati e alla velocità con cui i dati si spostano. Questo è un aspetto importante per le aziende che hanno bisogno che i loro dati fluiscano rapidamente, quindi siano disponibili al momento giusto per prendere le migliori decisioni aziendali possibili. Un'organizzazione che utilizza i big data avrà un flusso ampio e continuo di dati che viene creato e inviato alla sua destinazione finale. I dati potrebbero fluire da fonti come macchine, reti, smartphone o social media. Questi dati devono essere digeriti e analizzati rapidamente e talvolta quasi in tempo reale. Ad esempio, nel settore sanitario, ci sono molti dispositivi medici realizzati oggi per monitorare i pazienti e raccogliere dati. Dalle apparecchiature mediche ospedaliere ai dispositivi indossabili, i dati raccolti devono essere inviati a destinazione e analizzati rapidamente. In alcuni casi, tuttavia, potrebbe essere preferibile disporre di un insieme limitato di dati raccolti piuttosto che raccogliere più dati di quelli che un'organizzazione può gestire, poiché ciò può portare a una velocità dei dati più lenta..
Le cinque V di big data - Varietà. La varietà si riferisce alla diversità dei tipi di dati . Un'organizzazione può ottenere dati da diverse origini dati, il cui valore può variare. I dati possono provenire anche da fonti interne ed esterne a un'azienda. La sfida nella varietà riguarda la standardizzazione e la distribuzione di tutti i dati raccolti. I dati raccolti possono essere di natura non strutturata, semistrutturata o strutturata. I dati non strutturati sono dati non organizzati e disponibili in diversi file o formati. In genere, i dati non strutturati non sono adatti per un database relazionale mainstream perché non si adattano ai modelli di dati convenzionali. I dati semistrutturati sono dati che non sono stati organizzati in un repository specializzato ma hanno informazioni associate, come i metadati . Ciò semplifica l'elaborazione rispetto ai dati non strutturati. I dati strutturati, nel frattempo, sono dati che sono stati organizzati in un repository formattato. Ciò significa che i dati sono resi più indirizzabili per un'elaborazione e un'analisi dei dati efficaci..
Le cinque V di big data - Veridicità. La veridicità si riferisce alla qualità e all'accuratezza dei dati. I dati raccolti potrebbero avere parti mancanti, potrebbero essere imprecisi o potrebbero non essere in grado di fornire informazioni reali e preziose. La veridicità, nel complesso, si riferisce al livello di fiducia che c'è nei dati raccolti. I dati a volte possono diventare disordinati e difficili da usare. Una grande quantità di dati può causare più confusione rispetto agli approfondimenti se è incompleta. Ad esempio, per quanto riguarda il campo medico, se i dati sui farmaci assunti da un paziente sono incompleti, la vita del paziente potrebbe essere in pericolo. Sia il valore che la veridicità aiutano a definire la qualità e gli approfondimenti raccolti dai dati..
Le cinque V di big data - Valore. Questo si riferisce al valore che i big data possono fornire e si riferisce direttamente a ciò che le organizzazioni possono fare con i dati raccolti. Essere in grado di trarre valore dai big data è un requisito, poiché il valore dei big data aumenta in modo significativo a seconda delle informazioni che possono essere ottenute da essi. Le organizzazioni possono utilizzare gli stessi strumenti per i big data per raccogliere e analizzare i dati, ma il modo in cui traggono valore da tali dati dovrebbe essere unico per loro..
Applicazioni dei Big Data. Come abbiamo visto, l'analisi dei dati coinvolge molti processi, ciascuno dei quali richiede competenze uniche. Lavorare con i big data richiede competenze sia tecniche che non tecniche, come la capacità di utilizzare le tecnologie che lo rendono possibile, la comprensione delle tecniche di analisi dei dati e la creatività e le capacità di narrazione per creare potenti visualizzazioni dei dati. Richiede il giusto set di abilità e mentalità. Bisogna valutare qual è la soluzione migliore per il tipo di dati che si ha a disposizione, quali sono le esigenze (ovvero cosa si vuole ottenere analizzando quei dati) e scegliere gli strumenti giusti per creare valore. Non si tratta solo di avere i dati, ma di avere persone che possono ricavarne approfondimenti. I professionisti dei big data devono anche comprendere gli aspetti legali ed economici dei dati, in modo da poter trasformare le intuizioni in valore e comunicare frequentemente con dirigenti e product manager su ciò che hanno appreso e su come ciò potrebbe essere utilizzato verso nuove direzioni di business come nuovi servizi e prodotti, modelli operativi più efficienti o nuovi mercati..
Applicazioni dei Big Data. Nel mondo di oggi, ci sono molti dati. Le grandi aziende utilizzano questi dati per la crescita del loro business. Analizzando questi dati, la decisione utile può essere presa in vari casi: • Settore energetico: il contatore elettrico intelligente legge l'energia consumata ogni 15 minuti e invia questi dati letti al server, dove i dati vengono analizzati e si può stimare qual è l'ora in un giorno in cui il carico di energia è inferiore in tutta la città. Con questo sistema, viene suggerito ad un azienda il momento in cui l'energia viene caricata di meno per godere di una bolletta elettrica inferiore. • Settore dell'istruzione: una scuola che conduce corsi di formazione online utilizza i big data per cercare candidati interessati a quel corso. Se qualcuno cerca un video tutorial su YouTube di un determinato argomento, la scuola invia un annuncio a quella persona sul corso dedicato..
Applicazioni dei Big Data. • Settore dei media e dell'intrattenimento: società che forniscono servizi di media e intrattenimento come Netflix, Amazon Prime e Spotify effettuano analisi sui dati raccolti dai propri utenti. Dati come tipo di video, film che gli utenti guardano, musica che ascoltano di più e quanto tempo gli utenti trascorrono sul sito, ecc. Vengono raccolti e analizzati per settare la prossima strategia di business. • Strumento di assistente personale virtuale: l'analisi dei big data aiuta lo strumento di assistente personale virtuale (come Siri nel dispositivo Apple, Alexa di Amazon, Google in Android) a fornire la risposta alle varie domande poste dagli utenti. Questo strumento traccia la posizione dell'utente, l'ora locale, la stagione, altri dati relativi alla domanda posta, ecc. Analizzando tutti questi dati, fornisce una risposta; es. Supponiamo che un utente chieda "Devo portare l'ombrello?", lo strumento raccoglie dati come la posizione dell'utente, la stagione e le condizioni meteorologiche in quel luogo, quindi analizza questi dati per concludere se c'è una possibilità di pioggia e fornire una risposta..
Applicazioni dei Big Data. • Sistema di traffico aereo sicuro: in vari punti dell’aereo (come l'elica, ecc.) sono presenti sensori. Questi sensori acquisiscono dati come velocità di volo, umidità, temperatura e altre condizioni ambientali. Analizzando i dati generati dal velivolo, si può stimare per quanto tempo la macchina può funzionare senza problemi e quando deve essere sostituita o riparata. • Guida autonoma: l'analisi dei big data aiuta a guidare un'auto senza interpretazione umana. Nei vari punti dell'auto, è posizionato un sensore, che raccoglie dati come le dimensioni dell'auto circostante, l'ostacolo, la distanza, ecc. Una volta che i dati vengono analizzati, l’algoritmo calcolerà la velocità dell’auto, quando effettuare una frenata o quando svoltare in una direzione, questi calcoli aiutano ad agire automaticamente..
Applicazioni dei Big Data. • Sistema di traffico intelligente: i dati raccolti sulla condizione del traffico di diverse strade(telecamera posizionata lungo la strada, all'ingresso e all'uscita della città, sistema di controllo della velocità Tutor ecc.) vengono analizzati e una volta calcolato l’andamento del traffico, si consiglia quale percorso prendere al fine di impiegare meno tempo ed evitare ingorghi. In questo modo il sistema di traffico intelligente può essere costruito in città mediante l'analisi dei Big Data. Un altro vantaggio è che il consumo di carburante può essere ridotto. • Raccomandazione acquisti: monitorando l'abitudine di spesa dei clienti, il comportamento di acquisto, i grandi negozi al dettaglio forniscono una raccomandazione al cliente. Siti di ecommerce come Amazon tengono traccia del prodotto che un cliente sta cercando, in base a quei dati consigliano quel tipo di prodotto. Il team di gestione deve conservare i dati dell'abitudine di spesa del cliente, in questo modo il prodotto più apprezzato(quello cercato e venduto di più), in base a tali dati, subirà un incremento di produzione e distribuzione..