Hadoop is een open source framework voor gedistribueerde opslag en verwerking van big data sets op basishardware.

Het bestaat uit het Hadoop Distributed File System (HDFS) voor het opslaan van gegevens en een parallelle verwerkingsengine zoals MapReduce voor het verwerken van de gegevens.

In deze handleiding gaan we installeren Hadoop op een virtuele Ubuntu-machine in de cloud.

Hoe Hadoop op Ubuntu Virtual Machine te installeren

Inhoud

1 Wat is Hadoop?
2 Waarom Hadoop gebruiken?
3 Hadoop-installatie
4 Hadoop-beheer
5 Hadoop-bewaking
6 Hadoop-beveiliging

Wat is Hadoop?

Hadoop is een gratis, open-source framework dat de gedistribueerde verwerking van grote datasets over clusters van computers mogelijk maakt met behulp van eenvoudige programmeermodellen.

Het is ontworpen om op te schalen van een enkele server naar duizenden machines, elk met lokale berekeningen en opslag.

In plaats van te vertrouwen op hardware om hoge beschikbaarheid te leveren, is de bibliotheek zelf ontworpen om fouten op de applicatielaag te detecteren en af te handelen.

Waarom Hadoop gebruiken?

Hadoop is ontworpen om problemen aan te pakken met grote datasets die te groot waren om te verwerken met behulp van traditionele relationele databasebeheersystemen.

Maar wat is het precies "grote gegevens"? Er is geen definitief antwoord, maar een algemene definitie is datasets die zo groot en complex zijn dat ze moeilijk te verwerken zijn met de beschikbare technologie.

Een andere manier om erover na te denken, zijn gegevens die niet netjes in rijen en kolommen passen, zoals relationele databases.

Dit kunnen gegevens van sociale media, weergegevens, logbestanden, sensorgegevens en een hele reeks andere ongestructureerde gegevenstypen zijn.

Hadoop is ontworpen om schaalbaar te zijn, zodat het gemakkelijk gegevensgroei aankan. Naarmate er meer nodes (computers) aan een Hadoop-cluster worden toegevoegd, wordt het systeem krachtiger en kan het grotere datasets verwerken.

Hadoop-installatie

In deze snelstartgids wordt ervan uitgegaan dat u een draaiende Ubuntu virtuele machine (VM) met internetverbinding hebt.

Als u geen Ubuntu VM hebt ingesteld, kunt u er eenvoudig een maken met VirtualBox en Vagrant. Volg gewoon de stappen in de handleiding Aan de slag met VirtualBox en Vagrant.

Als u wilt, kunt u ook cloudgebaseerd gebruiken Ubuntu VM. Zie voor meer informatie het gedeelte Cloudservers van de Ubuntu-documentatie.

Zodra u uw Ubuntu VM gereed heeft, meldt u zich aan en volgt u de onderstaande stappen om Hadoop te installeren.

Werk de indexen van uw pakketbeheerder bij: sudo apt-get update
Java 8 installeren: sudo apt-get install openjdk-8-jdk-headless -y // Voor headless servers
zodoe apt-get install openjdk-8-jdk -y // Voor servers met een gebruikersinterface
Hadoop installeren: sudo apt-get install hadoop -y
Start de Hadoop-service: sudo systemctl start hadoop
Controleer de status van de Hadoop-service: sudo systemctl status hadoop
Hadoop-configuratie
Voordat u Hadoop kunt uitvoeren, moet u het configureren. U kunt dit doen door de bestanden in de map conf/ te bewerken. Het belangrijkste configuratiebestand is core-site.xml, dat eigenschappen bevat die gemeenschappelijk zijn voor alle Hadoop-componenten. U moet ten minste de eigenschap fs.defaultFS bewerken om naar uw Namenode-URL te verwijzen.
Het volgende belangrijke bestand is mapred-site.xml, dat eigenschappen bevat die specifiek zijn voor MapReduce. U moet met name de eigenschap mapreduce.framework.name bewerken om naar uw MapReduce-implementatie te verwijzen ('lokaal' of 'garen').
Ten slotte bevat hdfs-site.xml eigenschappen die specifiek zijn voor de HDFS-component van Hadoop. Een belangrijke eigenschap die u moet bewerken, is dfs.replication, dat het aantal replica's specificeert van elk HDFS-bestand dat moet worden gemaakt.
Nadat u deze configuratiebestanden heeft bewerkt, kunt u Hadoop starten door de volgende opdracht uit te voeren:

bin/start-all

Hadoop-beheer

Hadoop is een raamwerk dat de gedistribueerde verwerking van grote datasets over clusters van commodity-servers mogelijk maakt.

Het is ontworpen om op te schalen van een enkele server naar duizenden machines, elk met lokale berekeningen en opslag.

Hadoop-bewaking

Er zijn tal van tools beschikbaar om uw Hadoop-installatie te monitoren. De meest populaire is Apache Ganglia, een schaalbaar gedistribueerd monitoringsysteem voor krachtige computersystemen, zoals clusters en grids.

Een andere populaire monitoringoplossing is Nagios, een open-source systeem en netwerkmonitoringtool.

Als u Hadoop rechtstreeks wilt monitoren, kunt u het beste de Hadoop-webinterface gebruiken.

Deze interface biedt gedetailleerde informatie over de status van uw Hadoop-installatie, inclusief het aantal knooppunten in uw cluster en de capaciteit van elk knooppunt.

Om toegang te krijgen tot de webinterface, gaat u gewoon naar http://your_cluster_name:50030 in een webbrowser.

Hadoop-beveiliging

Hadoop is standaard een beveiligd systeem met een aantal functies om ervoor te zorgen dat gebruikersgegevens worden beschermd:

authenticatie: Gebruikers moeten zichzelf authenticeren voordat ze toegang krijgen tot Hadoop-bronnen. Hadoop gebruikt standaard Kerberos om gebruikers te authenticeren.
Autorisatie: Zodra een gebruiker is geauthenticeerd, heeft hij alleen toegang tot bronnen die hij mag gebruiken. Autorisatie wordt beheerd met behulp van het Sentry-project in Hadoop.
versleuteling: Gegevens die zijn opgeslagen op HDFS kunnen worden versleuteld met behulp van transparante versleuteling of versleuteling op bestandsniveau.

Hoe Hadoop op Ubuntu Virtual Machine te installeren