Query

Il termine query è utilizzato per indicare l’interrogazione da parte di un utente di un database, per compiere delle operazioni sui dati (selezione, inserimento, cancellazione dati, aggiornamento ecc.). Solitamente una query utilizza un linguaggio di interrogazione interpretato rappresentato dallo standard SQL (Structured Query Language) nei suoi sottolinguaggi Data Query Language e Data Manipulation Language, per renderla più comprensibile al DBMS. L’analisi del risultato della query è oggetto di studio dell’algebra relazionale.Il termine può indicare anche una richiesta che un utente effettua utilizzando un motore di ricerca. Quindi, ogni volta che cerchiamo qualcosa su un motore di ricerca, una query di ricerca viene eseguita.

Condividi su:

IA

IA,Intelligenza artificiale (in inglese AI, Artificial Intelligence) è la disciplina che si occupa di realizzare macchine (hardware e software) in grado di “agire” autonomamente (risolvere problemi, compiere azioni, ecc.). L’interesse del pubblico si ebbe grazie al giovane Alan Turing che già nel 1950 cercava di spiegare come un computer possa comportarsi come un essere umano. Il termine Artificial Intelligence in realtà parte “ufficialmente” dal matematico statunitense John McCarthy (nel 1956) e con esso il “lancio” dei primi linguaggi di programmazione (Lisp nel 1958 e Prolog nel 1973) specifici per l’IA. La prima grande svolta è arrivata negli anni ’90 con l’ingresso sul mercato dei processori grafici, le Gpu – graphics processing unit. Mentre l’ondata più recente è arrivata nell’ultimo decennio con lo sviluppo dei cosiddetti “chip neuromorfici”.

geeks-academy-corso-data-science-artificial-intelligence-python
Condividi su:

Database

Con base di dati o banca dati (a volte abbreviato con la sigla DB dall’inglese data base) in informatica si indica un insieme di dati strutturati ovvero omogeneo per contenuti e formato, memorizzati in un elaboratore elettronico e interrogabili (query) via terminale utilizzando le chiavi di accesso previste. Rappresenta di fatto il formato digitale, dunque più efficiente, equivalente a un archivio dati o schedario, con il vantaggio di molteplici funzionalità e prestazioni implementate in maniera automatica su PC su scelta/input dell’utente.

geeks-academy-managing-data-sql

Condividi su:

Mapreduce

MapReduce è un framework per la creazione di applicazioni in grado di elaborare grandi quantità di dati in parallelo basandosi sul concetto di functional programming. MapReduce lavora secondo il principio del divide et impera, suddividendo l’operazione di calcolo in diverse parti processate in modo autonomo. Una volta che ciascuna parte del problema è stata calcolata, i vari risultati parziali sono “ridotti” (cioè ricomposti) a un unico risultato finale. È MapReduce stesso che si occupa dell’esecuzione dei vari task di calcolo, del loro monitoraggio e della ripetizione dell’esecuzione in caso si verifichino problemi.(vedi Hadoop)

geeksacademy-big-data-framework-hadoop
Condividi su:

HDFS

L’Hadoop Distributed File System (in sigla HDFS) è un file system distribuito, portabile e scalabile scritto in Java progettato appositamente per immagazzinare un’enorme quantità di dati (big data), in modo da ottimizzare le operazioni di archiviazione e accesso a un ristretto numero di file di grandi dimensioni, ciò a differenza dei tradizionali file system che sono ottimizzati per gestire numerosi file di piccole dimensioni. Un cluster in Hadoop tipicamente possiede uno o più name node (su cui risiedono i metadati dei file) e un insieme di data node (su cui risiedono, in blocchi di dimensione fissa, i file dell’HDFS). I formati più usati per i file su HDFS sono Comma-separated values, Apache Avro, Apache ORC e Apache Parquet.

Condividi su:

Business Intelligence

Per business intelligence si intendono, tutti i processi e gli strumenti attraverso i quali un’azienda riesce a raccogliere dati di diversa natura per  elaborazioni, analisi o aggregazioni, che ne permettono la trasformazione in informazioni, e la loro presentazione in una forma semplice, flessibile ed efficace, tale da costituire un supporto alle decisioni strategiche, tattiche ed operative.geeks-academy-corso-tableau-business-intelligence

Condividi su:

Pig

Pig è una piattaforma di alto livello per creare programmi MapReduce da usare con Apache Hadoop. Il linguaggio per questa piattaforma è chiamato Pig Latin.

Questo astrae la programmazione dall’idioma Java MapReduce in una notazione che rende la programmazione MapReduce di alto livello in maniera simile all’SQL dei sistemi RDBMS. Il Pig Latin può essere esteso usando UDF (User Defined Functions) con cui l’utente può scrivere in Java, Python, JavaScript, Ruby o Groovy e chiamare direttamente dal linguaggio.

Fu sviluppato all’inizio da Yahoo Research nel 2006 per i ricercatori per avere una maniera ad hoc per creare ed eseguire job Map-Reduce su grandi insiemi di dati. Nel 2007 è passato ad Apache Software Foundation.

Condividi su:

Data Storytelling

Il Data Storytelling è la capacità di raccontare una storia con i dati e di scegliere quali dati visualizzare a seconda del pubblico. Si va oltre la semplice presentazione di serie di numeri in una tabella e si rende l’informazione accessibile e comprensibile a tutti grazie alla storia che viene raccontata.

geeks-academy-corso-big-data-visualization-tableau-by-marissa-anna

Condividi su:

HBase

HBase è un database distribuito non relazionale open source modellato sulla Bigtable di Google e scritto in Java . Si è sviluppato come parte di Apache Software Foundation, progetto Apache Hadoop e viene eseguito sulla parte superiore della HDFS (Hadoop Distributed File System) o Alluxio , fornendo funzionalità Bigtable simile per Hadoop. Cioè, fornisce un modo Fault tolerance (tollerante ai guasti) per immagazzinare grandi quantità di rado dati (piccole quantità di informazioni catturate all’interno di una vasta raccolta di dati vuoti o non importanti, come trovare i 50 articoli più grandi in un gruppo di 2 miliardi di record o trovare gli elementi diversi da zero che rappresentano meno dello 0,1% di una vasta raccolta).

HBase funziona su HDFS ed è adatto per operazioni di lettura e scrittura più veloci su set di dati di grandi dimensioni con throughput elevato e bassa latenza di input / output.

La HBase sta attualmente servendo diversi siti Web basati sui dati  ma la piattaforma di messaggistica di Facebook è recentemente migrata da HBase a MyRocks. A differenza dei database relazionali e tradizionali, HBase non supporta gli script SQL; invece l’equivalente è scritto in Java, usando la somiglianza con un’applicazione MapReduce.

Condividi su:

Kibana

Kibana è un plug-in di visualizzazione dei dati open source per Elasticsearch. Gli utenti possono creare grafici a barre, a linee e a dispersione, o grafici a torta e mappe su grandi volumi di dati. kibana non richiede abilità di programmazione, quindi lo sviluppatore può facilmente creare una visualizzazione per le informazioni in modo che possano facilmente tenere traccia dei processi. La combinazione di Elasticsearch, Logstash e Kibana, denominata “Elastic Stack” (precedentemente “stack ELK”), è disponibile come prodotto o servizio.

geeks-academy-corso-big-data-streaming-analytics-kibana-elasticsearch-logstash
Condividi su: