Hadoop è un framework open source per l'archiviazione distribuita e l'elaborazione di set di big data su hardware di base.

Consiste in Hadoop Distributed File System (HDFS) per l'archiviazione dei dati e un motore di elaborazione parallela come MapReduce per l'elaborazione dei dati.

In questa guida, installeremo Hadoop su una macchina virtuale Ubuntu nel cloud.

Come installare Hadoop su una macchina virtuale Ubuntu

Contenuti

1 Cos'è Hadoop?
2 Perché utilizzare Hadoop?
3 Installazione di Hadoop
4 Gestione dell'Hadoop
5 Monitoraggio Hadoop
6 Sicurezza Hadoop

Cos'è Hadoop?

Hadoop è un framework open source gratuito che consente l'elaborazione distribuita di grandi set di dati tra cluster di computer utilizzando semplici modelli di programmazione.

È progettato per scalare da un singolo server a migliaia di macchine, ognuna delle quali offre elaborazione e archiviazione locali.

Anziché affidarsi all'hardware per fornire alta disponibilità, la libreria stessa è progettata per rilevare e gestire i guasti a livello di applicazione.

Perché utilizzare Hadoop?

Hadoop è stato progettato per affrontare i problemi che coinvolgono grandi set di dati che erano troppo grandi per essere elaborati utilizzando i tradizionali sistemi di gestione dei database relazionali.

Ma cos'è esattamente "grandi dati"? Non esiste una risposta definitiva, ma una definizione comune è costituita da set di dati così grandi e complessi da essere difficili da elaborare utilizzando la tecnologia disponibile.

Un altro modo di pensarci sono i dati che non si adattano perfettamente a righe e colonne come fanno i database relazionali.

Ciò può includere dati di social media, dati meteorologici, file di registro, dati di sensori e tutta una serie di altri tipi di dati non strutturati.

Hadoop è progettato per essere scalabile in modo da poter gestire facilmente la crescita dei dati. Man mano che vengono aggiunti più nodi (computer) a un cluster Hadoop, il sistema diventa più potente e può elaborare set di dati più grandi.

Installazione di Hadoop

Questa guida rapida presuppone che tu abbia una macchina virtuale (VM) Ubuntu in esecuzione con connettività Internet.

Se non hai configurato una VM Ubuntu, puoi crearne una facilmente usando VirtualBox e Vagrant. Basta seguire i passaggi della guida introduttiva con VirtualBox e Vagrant.

Se preferisci, puoi anche utilizzare un servizio basato su cloud Ubuntu VM. Per ulteriori informazioni, vedere la sezione Cloud Server della documentazione di Ubuntu.

Una volta che la tua macchina virtuale Ubuntu è pronta, accedi e segui i passaggi seguenti per installare Hadoop.

Aggiorna gli indici del tuo gestore di pacchetti: sudo apt-get update
Installa Java 8: sudo apt-get install openjdk-8-jdk-headless -y // Per i server headless
sueseguire apt-get install openjdk-8-jdk -y // Per i server con un'interfaccia utente
Installa Hadoop: sudo apt-get install hadoop -y
Avviare il servizio Hadoop: sudo systemctl start hadoop
Controlla lo stato del servizio Hadoop: sudo systemctl status hadoop
Configurazione Hadoop
Prima di poter eseguire Hadoop, devi configurarlo. Puoi farlo modificando i file nella directory conf/. Il file di configurazione principale è core-site.xml, che contiene proprietà comuni a tutti i componenti Hadoop. Dovrai modificare almeno la proprietà fs.defaultFS in modo che punti all'URL del tuo Namenode.
Il prossimo file importante è mapred-site.xml, che contiene proprietà specifiche di MapReduce. In particolare, devi modificare la proprietà mapreduce.framework.name in modo che punti alla tua implementazione MapReduce (o "local" o "yarn").
Infine, hdfs-site.xml contiene proprietà specifiche del componente HDFS di Hadoop. Una proprietà importante da modificare è dfs.replication, che specifica il numero di repliche di ciascun file HDFS da creare.
Dopo aver modificato questi file di configurazione, puoi avviare Hadoop eseguendo il seguente comando:

bin/start-all

Gestione dell'Hadoop

Hadoop è un framework che consente l'elaborazione distribuita di grandi set di dati tra cluster di server di prodotti.

È progettato per scalare da un singolo server a migliaia di macchine, ognuna delle quali offre elaborazione e archiviazione locali.

Monitoraggio Hadoop

Sono disponibili numerosi strumenti per monitorare l'installazione di Hadoop. Il più popolare è Apache Ganglia, che è un sistema di monitoraggio distribuito scalabile per sistemi di calcolo ad alte prestazioni, come cluster e grid.

Un'altra popolare soluzione di monitoraggio è Nagios, che è un sistema open source e uno strumento di monitoraggio della rete.

Se vuoi monitorare direttamente Hadoop, lo strumento migliore da utilizzare è l'interfaccia web di Hadoop.

Questa interfaccia fornisce informazioni dettagliate sullo stato dell'installazione di Hadoop, incluso il numero di nodi nel cluster e la capacità di ciascun nodo.

Per accedere all'interfaccia web, vai semplicemente a http://your_cluster_name:50030 in un browser web.

Sicurezza Hadoop

Hadoop è un sistema sicuro per impostazione predefinita con una serie di funzionalità per garantire che i dati degli utenti siano protetti:

Autenticazione: Gli utenti devono autenticarsi prima di poter accedere alle risorse Hadoop. Per impostazione predefinita, Hadoop utilizza Kerberos per autenticare gli utenti.
Autorizzazione: Una volta che un utente è stato autenticato, può accedere solo alle risorse che è stato autorizzato a utilizzare. L'autorizzazione viene gestita utilizzando il progetto Sentry in Hadoop.
Crittografia: I dati archiviati su HDFS possono essere crittografati utilizzando la crittografia trasparente o la crittografia a livello di file.

Come installare Hadoop su una macchina virtuale Ubuntu