วิธีการติดตั้ง Hadoop บน Ubuntu Virtual Machine

Hadoop เป็นเฟรมเวิร์กโอเพ่นซอร์สสำหรับการจัดเก็บแบบกระจายและการประมวลผลชุดข้อมูลขนาดใหญ่บนฮาร์ดแวร์สินค้าโภคภัณฑ์

ประกอบด้วย Hadoop Distributed File System (HDFS) สำหรับจัดเก็บข้อมูล และเครื่องมือประมวลผลแบบขนาน เช่น MapReduce สำหรับประมวลผลข้อมูล

ในคู่มือนี้ เราจะติดตั้ง ฮาดูป บนเครื่องเสมือน Ubuntu ในระบบคลาวด์

วิธีการติดตั้ง Hadoop บน Ubuntu Virtual Machine

เนื้อหา

1 Hadoop คืออะไร?
2 ทำไมต้องใช้ Hadoop?
3 การติดตั้ง Hadoop
4 การจัดการ Hadoop
5 การตรวจสอบ Hadoop
6 ความปลอดภัยของ Hadoop

Hadoop คืออะไร?

Hadoop เป็นเฟรมเวิร์กโอเพ่นซอร์สฟรีที่ช่วยให้สามารถประมวลผลชุดข้อมูลขนาดใหญ่แบบกระจายทั่วกลุ่มคอมพิวเตอร์โดยใช้โมเดลการเขียนโปรแกรมอย่างง่าย

ได้รับการออกแบบมาเพื่อเพิ่มขนาดจากเซิร์ฟเวอร์เครื่องเดียวไปจนถึงเครื่องหลายพันเครื่อง โดยแต่ละเครื่องมีการคำนวณและการจัดเก็บภายในเครื่อง

แทนที่จะพึ่งพาฮาร์ดแวร์เพื่อมอบความพร้อมใช้งานสูง ไลบรารีเองได้รับการออกแบบให้ตรวจจับและจัดการกับความล้มเหลวที่ชั้นแอปพลิเคชัน

ทำไมต้องใช้ Hadoop?

Hadoop ได้รับการออกแบบมาเพื่อจัดการกับปัญหาเกี่ยวกับชุดข้อมูลขนาดใหญ่ที่ใหญ่เกินกว่าจะประมวลผลโดยใช้ระบบจัดการฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิม

แต่สิ่งที่เป็น "ข้อมูลใหญ่"? ไม่มีคำตอบที่แน่นอน แต่คำจำกัดความทั่วไปอย่างหนึ่งคือชุดข้อมูลที่มีขนาดใหญ่และซับซ้อนจนยากต่อการประมวลผลโดยใช้เทคโนโลยีที่มีอยู่

วิธีคิดอีกอย่างคือข้อมูลที่ไม่พอดีกับแถวและคอลัมน์อย่างเป็นระเบียบเหมือนฐานข้อมูลเชิงสัมพันธ์

ซึ่งอาจรวมถึงข้อมูลโซเชียลมีเดีย ข้อมูลสภาพอากาศ ไฟล์บันทึก ข้อมูลเซ็นเซอร์ และโฮสต์ทั้งหมดของประเภทข้อมูลที่ไม่มีโครงสร้างอื่นๆ

Hadoop ได้รับการออกแบบมาให้ปรับขนาดได้เพื่อให้สามารถจัดการกับการเติบโตของข้อมูลได้อย่างง่ายดาย เมื่อมีการเพิ่มโหนด (คอมพิวเตอร์) ลงในคลัสเตอร์ Hadoop ระบบจะมีประสิทธิภาพมากขึ้นและสามารถประมวลผลชุดข้อมูลที่ใหญ่ขึ้นได้

การติดตั้ง Hadoop

การเริ่มต้นอย่างรวดเร็วนี้จะถือว่าคุณมีเครื่องเสมือน (VM) ของ Ubuntu ที่ทำงานอยู่พร้อมการเชื่อมต่ออินเทอร์เน็ต

หากคุณไม่ได้ตั้งค่า Ubuntu VM คุณสามารถสร้างได้อย่างง่ายดายโดยใช้ VirtualBox และ Vagrant เพียงทำตามขั้นตอนในคู่มือการเริ่มต้นใช้งาน VirtualBox และ Vagrant

หากต้องการ คุณยังสามารถใช้ระบบคลาวด์ได้อีกด้วย อูบุนตู วี.เอ็ม. สำหรับข้อมูลเพิ่มเติม โปรดดูที่ส่วน Cloud Servers ของเอกสารประกอบของ Ubuntu

เมื่อคุณเตรียม Ubuntu VM ให้เข้าสู่ระบบและทำตามขั้นตอนด้านล่างเพื่อติดตั้ง Hadoop

อัปเดตดัชนีตัวจัดการแพ็คเกจของคุณ: sudo apt-get update
ติดตั้ง Java 8: sudo apt-get install openjdk-8-jdk-headless -y // สำหรับเซิร์ฟเวอร์ที่ไม่มีหัว
สุทำ apt-get install openjdk-8-jdk -y // สำหรับเซิร์ฟเวอร์ที่มี UI
ติดตั้ง Hadoop: sudo apt-get ติดตั้ง hadoop -y
เริ่มบริการ Hadoop: sudo systemctl start hadoop
ตรวจสอบสถานะของบริการ Hadoop: sudo systemctl status hadoop
การกำหนดค่า Hadoop
ก่อนที่คุณจะเรียกใช้ Hadoop คุณต้องกำหนดค่าก่อน คุณสามารถทำได้โดยแก้ไขไฟล์ในไดเร็กทอรี conf/ ไฟล์คอนฟิกูเรชันหลักคือ core-site.xml ซึ่งมีคุณสมบัติทั่วไปสำหรับคอมโพเนนต์ Hadoop ทั้งหมด คุณจะต้องแก้ไขคุณสมบัติ fs.defaultFS เป็นอย่างน้อยเพื่อให้ชี้ไปที่ Namenode URL ของคุณ
ไฟล์สำคัญถัดไปคือ mapred-site.xml ซึ่งมีคุณสมบัติเฉพาะสำหรับ MapReduce โดยเฉพาะอย่างยิ่ง คุณต้องแก้ไขคุณสมบัติ mapreduce.framework.name ให้ชี้ไปที่การใช้งาน MapReduce ของคุณ (ไม่ว่าจะเป็น "local" หรือ "yarn")
สุดท้าย hdfs-site.xml มีคุณสมบัติเฉพาะสำหรับคอมโพเนนต์ HDFS ของ Hadoop คุณสมบัติที่สำคัญอย่างหนึ่งที่คุณจะต้องแก้ไขคือ dfs.replication ซึ่งระบุจำนวนของแบบจำลองของไฟล์ HDFS แต่ละไฟล์ที่ควรสร้างขึ้น
เมื่อคุณแก้ไขไฟล์คอนฟิกูเรชันเหล่านี้แล้ว คุณสามารถเริ่ม Hadoop ได้ด้วยการรันคำสั่งต่อไปนี้:

ถังขยะ/เริ่มต้นทั้งหมด

การจัดการ Hadoop

Hadoop เป็นเฟรมเวิร์กที่ช่วยให้สามารถประมวลผลชุดข้อมูลขนาดใหญ่แบบกระจายทั่วคลัสเตอร์ของเซิร์ฟเวอร์สินค้าโภคภัณฑ์

การตรวจสอบ Hadoop

มีเครื่องมือมากมายสำหรับตรวจสอบการติดตั้ง Hadoop ของคุณ ที่ได้รับความนิยมมากที่สุดคือ Apache Ganglia ซึ่งเป็นระบบตรวจสอบแบบกระจายที่ปรับขนาดได้สำหรับระบบคอมพิวเตอร์ประสิทธิภาพสูง เช่น คลัสเตอร์และกริด

โซลูชันการตรวจสอบยอดนิยมอีกตัวคือ Nagios ซึ่งเป็นระบบโอเพ่นซอร์สและเครื่องมือตรวจสอบเครือข่าย

หากคุณต้องการตรวจสอบ Hadoop โดยตรง เครื่องมือที่ดีที่สุดที่จะใช้คืออินเทอร์เฟซเว็บ Hadoop

อินเทอร์เฟซนี้ให้ข้อมูลโดยละเอียดเกี่ยวกับสถานะของการติดตั้ง Hadoop ของคุณ รวมถึงจำนวนโหนดในคลัสเตอร์และความจุของแต่ละโหนด

ในการเข้าถึงเว็บอินเตอร์เฟส เพียงไปที่ http://your_cluster_name:50030 ในเว็บเบราว์เซอร์

ความปลอดภัยของ Hadoop

Hadoop เป็นระบบที่ปลอดภัยโดยค่าเริ่มต้นพร้อมคุณสมบัติมากมายเพื่อให้แน่ใจว่าข้อมูลผู้ใช้ได้รับการปกป้อง:

การรับรองความถูกต้อง: ผู้ใช้ต้องยืนยันตัวตนก่อนที่จะได้รับอนุญาตให้เข้าถึงทรัพยากร Hadoop โดยค่าเริ่มต้น Hadoop จะใช้ Kerberos เพื่อรับรองความถูกต้องของผู้ใช้
การอนุญาต: เมื่อผู้ใช้ได้รับการพิสูจน์ตัวตนแล้ว พวกเขาสามารถเข้าถึงทรัพยากรที่ได้รับอนุญาตเท่านั้น การอนุญาตได้รับการจัดการโดยใช้โครงการ Sentry ใน Hadoop
การเข้ารหัส: ข้อมูลที่จัดเก็บไว้ใน HDFS สามารถเข้ารหัสได้โดยใช้การเข้ารหัสแบบโปร่งใสหรือการเข้ารหัสระดับไฟล์

โพสต์

เมษายน 24, 2023

ใน

อูบุนตู

โดย

ทอม เฮนรี่

กระทู้ที่เกี่ยวข้อง