Sqoop è un’applicazione a riga di comando che permette di trasferire dati da basi di dati relazionali a Hadoop. Oggigiorno, nelle aziende i dati vengono solitamente salvati in database relazionali, quindi Sqoop consente uno scambio efficiente tra questi sistemi di archiviazione e il cluster. Supporta caricamenti incrementali di una singola tabella o query SQL, o job salvati che possono essere eseguiti più volte per importare aggiornamenti fatti alla base di dati rispetto all’ultimo importo. Le importazioni possono essere usate per popolare tabelle in Apache Hive o HBase. Le esportazioni possono essere usate per inserire dati da Hadoop a basi di dati relazionali. Sqoop è diventato un progetto Apache di massima importanza nel marzo 2012.
Archivi categoria: Big Data
NoSQL
NoSQL è un movimento che promuove sistemi software dove la persistenza dei dati è in generale caratterizzata dal fatto di non utilizzare il modello relazionale, di solito usato dalle basi di dati tradizionali (RDBMS). L’espressione “NoSQL” fa riferimento al linguaggio SQL, che è il più comune linguaggio di interrogazione dei dati nei database relazionali, qui preso a simbolo dell’intero paradigma relazionale.
Questi archivi di dati il più delle volte non richiedono uno schema fisso (schemaless), evitano spesso le operazioni di giunzione (join) e puntano a scalare in modo orizzontale. Gli accademici e gli articoli si riferiscono a queste basi di dati come memorizzazione strutturata (structured storage).
MongoDB
MongoDB (da “humongous”, enorme) è un database NoSQL orientato ai documenti, che nasce nel 2007 in California come un componente di un prodotto di platform as a service, ma che presto è diventato un prodotto indipendente ed open-source. Esso memorizza i documenti in JSON, formato basato su JavaScript e più semplice di XML, ma comunque dotato di una buona espressività.
Hardware
In ingegneria elettronica e informatica con il termine hardware si indica la parte fisica di un computer, ovvero tutte quelle parti elettroniche, meccaniche, magnetiche, ottiche che ne consentono il funzionamento (dette anche strumentario). Più in generale il termine si riferisce a qualsiasi componente fisico di una periferica o di una apparecchiatura elettronica.
Small data
Gli Small Data, al contrario dei loro fratelli Big, sono, come dice il nome, piccoli dati ma ben strutturati, che possono fornire informazioni puntuali basate sull’analisi dei dettagli.
Gli Small Data sono i dettagli comportamentali capaci di rivelare molto di una persona.
La LEGO evito il fallimento nel 2002 andando a visitare e parlare direttamente con alcuni consumatori. Gli Small Data, in altre parole, hanno permesso all’azienda di capire come avvicinare a sé le nuove generazioni.
SQL
SQL (Structured Query Language) è un linguaggio standardizzato per database basati sul modello relazionale progettato per: creare e modificare schemi di database; inserire, modificare e gestire dati memorizzati; interrogare i dati memorizzati; creare e gestire strumenti di controllo ed accesso ai dati.
Data Science
La scienza dei dati (in inglese data science) è l’insieme di principi metodologici (basati sul metodo scientifico) e tecniche multidisciplinari volto a interpretare ed estrarre conoscenza dai dati (Big Data) attraverso la relativa fase di analisi da parte di un esperto (Data Scientist). I metodi della scienza dei dati si basano su tecniche provenienti da varie discipline, principalmente da matematica, statistica, scienza dell’informazione e informatica, in particolar modo nei seguenti sottodomini: basi di dati e visualizzazione dati o business intelligence, intelligenza artificiale o machine learning .
MySQL
MySQL, definito Oracle MySQL, è un Relational database management system (RDBMS), composto da un client con interfaccia a riga di comando e un server, entrambi disponibili sia per sistemi Unix o Unix-like come GNU/Linux che per Windows, anche se prevale un suo utilizzo in ambito Unix. Dal 1996 supporta la maggior parte della sintassi SQL e si prevede in futuro il pieno rispetto dello standard ANSI.
Motore di ricerca
Un motore di ricerca (in inglese search engine) è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice dei contenuti disponibili classificandoli in base a formule statistico-matematiche che ne indichino il grado di rilevanza data una determinata chiave di ricerca. Uno dei campi in cui i motori di ricerca trovano maggiore utilizzo è quello dell’information retrieval e nel web.
persistenza
La persistenza in informatica si riferisce alla caratteristica dei dati di sopravvivere all’esecuzione del programma che li ha creati: senza questa capacità infatti i dati vengono salvati solo in memoria Ram e verranno persi allo spegnimento del computer.
Nella programmazione informatica, la persistenza si riferisce in particolare alla possibilità di far sopravvivere delle strutture dati all’esecuzione di un singolo programma. Questa possibilità è raggiunta salvando i dati in uno storage non volatile, come su un file system o su un database.