Il termine Relational database management system (RDBMS) (sistema per la gestione di basi di dati relazionali) indica un database management system basato sul modello relazionale, ed è stato introdotto da Edgar F. Codd. Oltre ai RDBMS esistono, anche se meno diffusi a livello commerciale, sistemi di gestione di basi di dati che implementano modelli dei dati alternativi a quello relazionale: gerarchico, reticolare e a oggetti.
Archivi categoria: Big Data
persistenza
La persistenza in informatica si riferisce alla caratteristica dei dati di sopravvivere all’esecuzione del programma che li ha creati: senza questa capacità infatti i dati vengono salvati solo in memoria Ram e verranno persi allo spegnimento del computer.
Nella programmazione informatica, la persistenza si riferisce in particolare alla possibilità di far sopravvivere delle strutture dati all’esecuzione di un singolo programma. Questa possibilità è raggiunta salvando i dati in uno storage non volatile, come su un file system o su un database.
File system
Un file system, In informatica, indica informalmente, un meccanismo con il quale i file sono posizionati e organizzati su un dispositivo di archiviazione o una memoria di massa, come un disco rigido o un CD–ROM. Più formalmente, un file system è l’insieme dei tipi di dati astratti necessari per la memorizzazione (scrittura), l’organizzazione gerarchica, la manipolazione, la navigazione, l’accesso e la lettura dei dati.(vedi HDFS)
Tableau
Tableau è il tool di business intelligence che permette alle persone di esplorare e analizzare i dati con semplici operazioni di drag and drop. L’aumento dei big data e la crescente consapevolezza del pubblico del suo potere hanno reso questo il momento per la visualizzazione dei dati. L’obiettivo di Tableau è rispondere alle domande tramite i dati, di fare data storytelling e di consentire la creazione di visualizzazioni interattive.
Apache Hive
Apache Hive è un sistema di data warehouse per Apache Hadoop. Hive consente di eseguire attività di riepilogo, query e analisi dei dati. Le query di Hive sono scritte in HiveQL, linguaggio di query simile a SQL.
Hive consente di proiettare la struttura su dati principalmente non strutturati. Dopo aver definito la struttura, è possibile usare HiveQL per eseguire una query sui dati anche senza alcuna conoscenza di Java o MapReduce.
HDInsight offre diversi tipi di cluster ottimizzati per carichi di lavoro specifici. I tipi di cluster usati più di frequente per le query Hive sono i seguenti:Interactive Query; Hadoop, Spark, HBase.
Mentre all’inizio fu sviluppato da Facebook, Apache Hive è ora usato e sviluppato da altre compagnie come Netflix. Amazon mantiene un fork di Apache Hive che include l’Amazon Elastic MapReduce su Amazon Web Services.
Data lake
Un Data Lake è un nuovo metodo di lavoro che semplifica e potenzia l’archiviazione, la gestione e l’analisi dei Big Data, utilizzando dati provenienti da fonti diversificate e disomogenee, nel loro formato nativo, o in una copia quasi esatta del formato nativo.
Il termine Data Lake è stato introdotto da James Dixon, Chief Technology Officer di Pentaho. L’immagine dell’acqua in questo caso è calzante, perché questo repository di dati archivia un pool di dati al suo stato naturale, come se fossero forme fluide non ancora filtrate o suddivise in pacchetti. Il flusso dei dati proviene da più fonti e si riversa nel Lake, quindi viene archiviato nel suo formato originale.
I dati all’interno di un Data Lake vengono trasformati solo nel momento in cui occorre analizzarli e, successivamente, viene applicato uno schema per procedere all’analisi.
Un Data Warehouse fornisce un modello di dati strutturato e progettato per la reportistica. Un Data Lake archivia dati non strutturati, non elaborati e senza uno scopo predefinito.
Power BI
Power BI è uno strumento di visualizzazione dei dati e business intelligence che converte i dati da diverse origini in dati per dashboard interattive e in di report BI (business intelligence).
Object-relational mapping
In informatica l’ Object-Relational Mapping (ORM) è una tecnica di programmazione che favorisce l’integrazione di sistemi software aderenti al paradigma della programmazione orientata agli oggetti con sistemi RDBMS. Un prodotto ORM fornisce, mediante un’interfaccia orientata agli oggetti, tutti i servizi inerenti alla persistenza dei dati, astraendo nel contempo le caratteristiche implementative dello specifico RDBMS utilizzato.
Big Data
Il termine è utilizzato in riferimento alla possibilità di estrapolare, analizzare e mettere in relazione un’enorme mole di dati eterogenei, strutturati e non strutturati, allo scopo di scoprire i legami tra fenomeni diversi e prevedere quelli futuri. Questi dati sono generati dalla maggior parte delle nostre attività quotidiane, ad esempio i dati degli utenti di un sito web, dei loro post su facebook, o dall’utilizzo di un’app, dagli oggetti collegati alla rete, e così via. Le informazioni accumulate nel corso degli ultimi due anni ha superato l’ordine dei Zettabyte (10^21 byte).
Query
Il termine query è utilizzato per indicare l’interrogazione da parte di un utente di un database, per compiere delle operazioni sui dati (selezione, inserimento, cancellazione dati, aggiornamento ecc.). Solitamente una query utilizza un linguaggio di interrogazione interpretato rappresentato dallo standard SQL (Structured Query Language) nei suoi sottolinguaggi Data Query Language e Data Manipulation Language, per renderla più comprensibile al DBMS. L’analisi del risultato della query è oggetto di studio dell’algebra relazionale.Il termine può indicare anche una richiesta che un utente effettua utilizzando un motore di ricerca. Quindi, ogni volta che cerchiamo qualcosa su un motore di ricerca, una query di ricerca viene eseguita.