Comment installer Hadoop sur une machine virtuelle Ubuntu

Hadoop est un framework open source pour le stockage et le traitement distribués d'ensembles de données volumineuses sur du matériel standard.

Il se compose du système de fichiers distribués Hadoop (HDFS) pour le stockage des données et d'un moteur de traitement parallèle tel que MapReduce pour le traitement des données.

Dans ce guide, nous allons installer HadoopName sur une machine virtuelle Ubuntu dans le cloud.

Comment installer Hadoop sur une machine virtuelle Ubuntu

Qu'est-ce qu'Hadoop ?

Hadoop est un framework open source gratuit qui permet le traitement distribué de grands ensembles de données sur des clusters d'ordinateurs à l'aide de modèles de programmation simples.

Il est conçu pour passer d'un serveur unique à des milliers de machines, chacune offrant un calcul et un stockage locaux.

Plutôt que de compter sur le matériel pour offrir une haute disponibilité, la bibliothèque elle-même est conçue pour détecter et gérer les pannes au niveau de la couche application.

Pourquoi utiliser Hadoop ?


Hadoop a été conçu pour résoudre les problèmes impliquant de grands ensembles de données trop volumineux pour être traités à l'aide de systèmes traditionnels de gestion de bases de données relationnelles.

Mais qu'est-ce exactement "Big Data"? Il n'y a pas de réponse définitive, mais une définition courante est celle des ensembles de données si volumineux et complexes qu'ils sont difficiles à traiter à l'aide de la technologie disponible.

Une autre façon de penser est que les données ne s'intègrent pas parfaitement dans les lignes et les colonnes comme le font les bases de données relationnelles.

Cela peut inclure des données de médias sociaux, des données météorologiques, des fichiers journaux, des données de capteurs et toute une série d'autres types de données non structurées.

Hadoop est conçu pour être évolutif afin de pouvoir gérer facilement la croissance des données. Au fur et à mesure que de nouveaux nœuds (ordinateurs) sont ajoutés à un cluster Hadoop, le système devient plus puissant et peut traiter des ensembles de données plus volumineux.

Installation d'Hadoop

Ce démarrage rapide suppose que vous disposez d'une machine virtuelle (VM) Ubuntu en cours d'exécution avec une connectivité Internet.

Si vous n'avez pas configuré de machine virtuelle Ubuntu, vous pouvez en créer une facilement à l'aide de VirtualBox et de Vagrant. Suivez simplement les étapes du guide Premiers pas avec VirtualBox et Vagrant.

Si vous préférez, vous pouvez également utiliser un cloud Ubuntu VM. Pour plus d'informations, consultez la section Serveurs cloud de la documentation Ubuntu.

Une fois que votre machine virtuelle Ubuntu est prête, connectez-vous et suivez les étapes ci-dessous pour installer Hadoop.

  1. Mettez à jour les index de votre gestionnaire de packages : sudo apt-get update
  2. Installez Java 8 : sudo apt-get install openjdk-8-jdk-headless -y // Pour les serveurs sans tête
    sufaire apt-get install openjdk-8-jdk -y // Pour les serveurs avec une interface utilisateur
  3. Installez Hadoop : sudo apt-get install hadoop -y
  4. Démarrez le service Hadoop : sudo systemctl start hadoop
  5. Vérifiez l'état du service Hadoop : sudo systemctl status hadoop
    Configuration Hadoop
  6. Avant de pouvoir exécuter Hadoop, vous devez le configurer. Vous pouvez le faire en éditant les fichiers dans le répertoire conf/. Le fichier de configuration principal est core-site.xml, qui contient des propriétés communes à tous les composants Hadoop. Vous devrez modifier au moins la propriété fs.defaultFS pour pointer vers votre URL Namenode.
  7. Le prochain fichier important est mapred-site.xml, qui contient des propriétés spécifiques à MapReduce. En particulier, vous devez modifier la propriété mapreduce.framework.name pour qu'elle pointe vers votre implémentation MapReduce (soit "locale", soit "fil").
  8. Enfin, hdfs-site.xml contient des propriétés spécifiques au composant HDFS de Hadoop. Une propriété importante que vous devrez modifier est dfs.replication, qui spécifie le nombre de répliques de chaque fichier HDFS à créer.
  9. Une fois que vous avez modifié ces fichiers de configuration, vous pouvez démarrer Hadoop en exécutant la commande suivante :

bin/tout commencer

Gestion Hadoop

Hadoop est un framework qui permet le traitement distribué de grands ensembles de données sur des clusters de serveurs de base.

Il est conçu pour passer d'un serveur unique à des milliers de machines, chacune offrant un calcul et un stockage locaux.

Surveillance Hadoop


Il existe de nombreux outils disponibles pour surveiller votre installation Hadoop. Le plus populaire est Apache Ganglia, qui est un système de surveillance distribué évolutif pour les systèmes informatiques hautes performances, tels que les clusters et les grilles.

Une autre solution de surveillance populaire est Nagios, qui est un système open source et un outil de surveillance du réseau.

Si vous souhaitez surveiller directement Hadoop, le meilleur outil à utiliser est l'interface Web Hadoop.

Cette interface fournit des informations détaillées sur l'état de votre installation Hadoop, y compris le nombre de nœuds dans votre cluster et la capacité de chaque nœud.

Pour accéder à l'interface Web, accédez simplement à http://your_cluster_name:50030 dans un navigateur Web.

Sécurité Hadoop


Hadoop est un système sécurisé par défaut avec un certain nombre de fonctionnalités pour garantir la protection des données des utilisateurs :

  1. Authentification: Les utilisateurs doivent s'authentifier avant d'être autorisés à accéder aux ressources Hadoop. Par défaut, Hadoop utilise Kerberos pour authentifier les utilisateurs.
  2. Autorisation: Une fois qu'un utilisateur a été authentifié, il ne peut accéder qu'aux ressources qu'il a été autorisé à utiliser. L'autorisation est gérée à l'aide du projet Sentry dans Hadoop.
  3. Chiffrement: Les données stockées sur HDFS peuvent être chiffrées à l'aide d'un chiffrement transparent ou d'un chiffrement au niveau des fichiers.

Français