Un Data Lake è un nuovo metodo di lavoro che semplifica e potenzia l’archiviazione, la gestione e l’analisi dei Big Data, utilizzando dati provenienti da fonti diversificate e disomogenee, nel loro formato nativo, o in una copia quasi esatta del formato nativo.
Il termine Data Lake è stato introdotto da James Dixon, Chief Technology Officer di Pentaho. L’immagine dell’acqua in questo caso è calzante, perché questo repository di dati archivia un pool di dati al suo stato naturale, come se fossero forme fluide non ancora filtrate o suddivise in pacchetti. Il flusso dei dati proviene da più fonti e si riversa nel Lake, quindi viene archiviato nel suo formato originale.
I dati all’interno di un Data Lake vengono trasformati solo nel momento in cui occorre analizzarli e, successivamente, viene applicato uno schema per procedere all’analisi.
Un Data Warehouse fornisce un modello di dati strutturato e progettato per la reportistica. Un Data Lake archivia dati non strutturati, non elaborati e senza uno scopo predefinito.