In R-Tree ci è capitato diverse volte di confrontarci con nostri clienti o nostri contatti commerciali su tre tematiche: i Data Warehouse, i Data Lake e i Data Silos. Si tratta di tre diverse modalità di conservazione dei dati.
Molti considerano questi tre termini come sinonimi, ma in realtà non lo sono. In questo articolo vedremo quali sono le differenze.
Data Warehouse e Data Lake
Un Data Warehouse, un Data Lake e i Data Silos sono concetti molto diversi tra di loro. Si riferiscono a tre diverse modalità dei dati in un’organizzazione:
Tipologia di storage | Dati Strutturati | Dati Non Strutturati |
Data Warehouse | SI | – |
Data Lake | SI | SI |
Un Data Warehouse è un sistema centralizzato che raccoglie tipicamente dati strutturati (vedi definizione di dati strutturati e dati non strutturati). I dati vengono organizzati per integrazione da più fonti dati presenti all’interno di un’organizzazione. I dati vengono trasformati e strutturati in modo da essere facilmente accessibili e utilizzabili per analisi e reporting. Il data warehouse viene progettato per supportare le esigenze specifiche di reporting e analisi dell’organizzazione, e spesso viene utilizzato per scopi decisionali. Normalmente i sistemi di Business Intelligence si integrano con questo tipo di sistema di data storage.
Un Data Lake, d’altra parte, è un archivio di dati che conserva al suo interno una vasta gamma di dati in vari formati, inclusi dati strutturati, semi-strutturati e non strutturati. Il data lake viene utilizzato per conservare grandi quantità di dati grezzi provenienti da diverse fonti, senza la necessità di trasformarli o strutturarli in anticipo. I dati possono essere archiviati nel loro formato originale e successivamente elaborati o analizzati secondo necessità. Un data lake offre maggiore flessibilità e scalabilità rispetto a un data warehouse tradizionale. I sistemi di knowledge management tipicamente fanno riferimento a questo tipo di fonte dati (rimandiamo al nostro articolo che definisce il knowledge management).
Entrambi i sistemi necessitano di una accurata progettazione e di chiara definizione delle strategie di scurezza nell’accesso ai dati.
Data Silos
I Data Silos, d’altro canto, si riferiscono alla situazione in cui i dati sono isolati in sistemi separati e non sono facilmente accessibili o condivisi tra i diversi dipartimenti o funzioni dell’organizzazione. I data silos possono essere il risultato di sistemi legacy, applicazioni dipartimentali o processi aziendali frammentati.
I data silos limitano la visibilità e l’accesso ai dati, ostacolando la collaborazione e la condivisione delle informazioni. Al di là delle organizzazioni dove i data silos sono obbligatori per legge o per accordi con i proprietari dei dati stessi (es. clienti che lavorano in settori speciali), molte aziende oggi hanno eretto a data silos ciò che invece è semplicemente un sistema caotico ed antiquato di archiviazione dei dati, dove ogni parte dell’organizzazione ritiene di essere la detentrice assoluta dei propri dati o dove i dati si trovano all’interno di soluzioni software che tra di loro non dialogano e/o non sono integrate.
Tipicamente chi adotta un modello a data silos genera nell’organizzazione la necessità di continue duplicazioni di dati e non permette a nessun organo aziendale di avere una visione globale dell’organizzazione.
Conclusione
In sintesi, il data warehouse è un sistema centralizzato per l’integrazione e l’organizzazione di dati tipicamente strutturati per scopi di reporting e analisi, il data lake è un archivio di dati grezzi e condivisi che contiene di norma sia dati strutturati che destrutturati e che quindi consente una maggiore flessibilità e scalabilità. I data silos sono sistemi isolati che ostacolano la condivisione dei dati e la collaborazione all’interno di un’organizzazione e che al più presto devono evolversi verso uno dei due modelli precedenti.
Gli unici data silos che hanno un senso organizzativo d’esistere oggi sono solo quelli obbligatori per legge o che dipendono da obblighi contrattuali. Se quindi data silos deve essere, almeno è necessario che essi siano organizzati al loro interno come dei mini-data warehouse o mini-data lake.
In merito alla gestione dei dati, la strategia “divide et impera” tipica dei data silos è certamente una strategia obsoleta e perciò per definizione perdente.