A Hadoop telepítése az Ubuntu virtuális gépre

A Hadoop egy nyílt forráskódú keretrendszer nagy adatkészletek elosztott tárolására és feldolgozására árucikk hardvereken.

Az adatok tárolására szolgáló Hadoop Distributed File System (HDFS) és egy párhuzamos feldolgozómotorból, például a MapReduce-ből áll az adatok feldolgozására.

Ebben az útmutatóban telepítjük Hadoop egy Ubuntu virtuális gépen a felhőben.

A Hadoop telepítése az Ubuntu virtuális gépre

Mi az a Hadoop?

A Hadoop egy ingyenes, nyílt forráskódú keretrendszer, amely lehetővé teszi nagy adathalmazok elosztott feldolgozását számítógép-fürtök között egyszerű programozási modellek segítségével.

Úgy tervezték, hogy egyetlen szervertől több ezer gépig terjedjen, amelyek mindegyike helyi számítási és tárolási lehetőséget kínál.

Ahelyett, hogy a hardverre hagyatkozna a magas rendelkezésre állás biztosítása érdekében, magát a könyvtárat úgy tervezték, hogy észlelje és kezelje az alkalmazási rétegben előforduló hibákat.

Miért használja a Hadoop-ot?


A Hadoop-ot olyan nagy adatkészletekkel kapcsolatos problémák kezelésére tervezték, amelyek túl nagyok voltak ahhoz, hogy a hagyományos relációs adatbázis-kezelő rendszerekkel feldolgozzák.

De mi is az pontosan "nagy adat"? Nincs határozott válasz, de az egyik általános definíció az adatkészletek, amelyek olyan nagyok és összetettek, hogy nehéz feldolgozni őket a rendelkezésre álló technológia segítségével.

Egy másik módja ennek az olyan adatoknak, amelyek nem illeszthetők be megfelelően a sorokba és oszlopokba, mint a relációs adatbázisok.

Ez magában foglalhatja a közösségimédia-adatokat, az időjárási adatokat, a naplófájlokat, az érzékelőadatokat és egy sor egyéb strukturálatlan adattípust.

A Hadoop méretezhető, így könnyen kezelhető az adatnövekedés. Ahogy több csomópontot (számítógépet) adnak egy Hadoop-fürthöz, a rendszer erősebbé válik, és nagyobb adatkészleteket tud feldolgozni.

Hadoop telepítés

Ez a rövid útmutató feltételezi, hogy fut Ubuntu virtuális gépe (VM) internetkapcsolattal.

Ha nincs beállítva Ubuntu virtuális gépe, könnyen létrehozhat egyet a VirtualBox és a Vagrant segítségével. Csak kövesse a VirtualBox és a Vagrant használatának megkezdése útmutató lépéseit.

Ha úgy tetszik, felhő alapút is használhat Ubuntu VM. További információkért tekintse meg az Ubuntu dokumentációjának Felhőkiszolgálók című részét.

Ha készen áll az Ubuntu virtuális gépre, jelentkezzen be, és kövesse az alábbi lépéseket a Hadoop telepítéséhez.

  1. Frissítse a csomagkezelő indexeit: sudo apt-get update
  2. Java 8 telepítése: sudo apt-get install openjdk-8-jdk-headless -y // Fej nélküli szerverekhez
    sutelepítse az apt-get parancsot az openjdk-8-jdk -y // UI-val rendelkező szerverekhez
  3. Hadoop telepítése: sudo apt-get install hadoop -y
  4. Indítsa el a Hadoop szolgáltatást: sudo systemctl start hadoop
  5. Ellenőrizze a Hadoop szolgáltatás állapotát: sudo systemctl status hadoop
    Hadoop konfiguráció
  6. A Hadoop futtatása előtt konfigurálnia kell. Ezt a conf/ könyvtárban lévő fájlok szerkesztésével teheti meg. A fő konfigurációs fájl a core-site.xml, amely az összes Hadoop-összetevőre közös tulajdonságokat tartalmaz. Szerkesztenie kell legalább az fs.defaultFS tulajdonságot, hogy a Namenode URL-jére mutasson.
  7. A következő fontos fájl a mapred-site.xml, amely a MapReduce-ra jellemző tulajdonságokat tartalmazza. Különösen a mapreduce.framework.name tulajdonságot kell szerkesztenie, hogy a MapReduce megvalósítására mutasson (akár „helyi”, akár „fonal”).
  8. Végül a hdfs-site.xml a Hadoop HDFS-komponensére jellemző tulajdonságokat tartalmaz. Az egyik fontos tulajdonság, amelyet szerkeszteni kell, a dfs.replication, amely meghatározza az egyes HDFS-fájlok replikáinak számát, amelyeket létre kell hozni.
  9. Miután szerkesztette ezeket a konfigurációs fájlokat, elindíthatja a Hadoopot a következő parancs futtatásával:

bin/start-all

Hadoop Management

A Hadoop egy olyan keretrendszer, amely lehetővé teszi nagy adatkészletek elosztott feldolgozását árukiszolgálók fürtjei között.

Úgy tervezték, hogy egyetlen szervertől több ezer gépig terjedjen, amelyek mindegyike helyi számítási és tárolási lehetőséget kínál.

Hadoop figyelés


Számos eszköz áll rendelkezésre a Hadoop telepítésének figyelésére. A legnépszerűbb az Apache Ganglia, amely egy méretezhető elosztott megfigyelő rendszer nagy teljesítményű számítástechnikai rendszerekhez, például fürtökhöz és gridekhez.

Egy másik népszerű megfigyelési megoldás a Nagios, amely egy nyílt forráskódú rendszer- és hálózatfigyelő eszköz.

Ha közvetlenül szeretné figyelni a Hadoop-ot, a legjobb eszköz a Hadoop webes felülete.

Ez a felület részletes információkat nyújt a Hadoop-telepítés állapotáról, beleértve a fürtben lévő csomópontok számát és az egyes csomópontok kapacitását.

A webes felület eléréséhez egyszerűen nyissa meg a http://your_cluster_name:50030 címet egy webböngészőben.

Hadoop Security


A Hadoop alapértelmezés szerint biztonságos rendszer, amely számos funkcióval biztosítja a felhasználói adatok védelmét:

  1. Hitelesítés: A felhasználóknak hitelesíteniük kell magukat, mielőtt hozzáférhetnek a Hadoop-erőforrásokhoz. Alapértelmezés szerint a Hadoop Kerberost használ a felhasználók hitelesítésére.
  2. Engedélyezés: A felhasználó hitelesítése után csak olyan erőforrásokhoz férhet hozzá, amelyek használatára jogosult. Az engedélyezést a Hadoop Sentry projektje kezeli.
  3. Titkosítás: A HDFS-en tárolt adatok transzparens titkosítással vagy fájlszintű titkosítással titkosíthatók.

Magyar