أهم 10 شروط Hadoop تحتاج إلى معرفته وفهمه

فيديو: إلى طلابنا في حاسبات ومعلومات - تعليم الآلة - 1 - [Machine Learning - The Big Picture]

المحتوى

لكن أولاً ، إلقاء نظرة على كيفية عمل Hadoop
Hadoop المشتركة
نظام الملفات الموزعة Hadoop (HDFS)
مابريديوس
HBase
خلية
No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك
خنزير اباتشي
اباتشي سبارك
اباتشي كاساندرا
مفاوض موارد آخر (YARN)
إمبالا

المصدر: Trueffelpix / Dreamstime.com

يبعد:

من أجل فهم البيانات الكبيرة حقًا ، يجب أن تفهم قليلاً عن Hadoop واللغة المحيطة بها.

البيانات الكبيرة ، الاسم الجذاب للكميات الضخمة من البيانات المهيكلة أو غير المهيكلة أو شبه المهيكلة ، من الصعب جدًا التقاطها وتخزينها وإدارتها ومشاركتها وتحليلها وتصورها ، على الأقل باستخدام تطبيقات قواعد البيانات والبرامج التقليدية. ولهذا السبب تمتلك تكنولوجيات البيانات الكبيرة القدرة على إدارة ومعالجة كميات هائلة من البيانات بفعالية وكفاءة. كما يوفر Apache Hadoop إطار العمل والتقنيات المرتبطة به لمعالجة مجموعات البيانات الكبيرة عبر مجموعات من أجهزة الكمبيوتر بطريقة موزعة. لذا ، من أجل فهم البيانات الكبيرة حقًا ، يجب أن تفهم قليلاً عن Hadoop. ألقِ نظرة هنا على أفضل المصطلحات التي ستسمعها فيما يتعلق بـ Hadoop - وماذا تعني.

لكن أولاً ، إلقاء نظرة على كيفية عمل Hadoop

قبل الذهاب إلى نظام Hadoop البيئي ، تحتاج إلى فهم شيئين أساسيين بوضوح. الأول هو كيف يتم تخزين ملف في Hadoop. والثاني هو كيف تتم معالجة البيانات المخزنة. تعمل جميع التقنيات المرتبطة بـ Hadoop بشكل أساسي على هذين المجالين وتجعله أكثر سهولة في الاستخدام. (احصل على أساسيات كيفية عمل Hadoop في كيفية مساعدة Hadoop في حل مشكلة البيانات الكبيرة.)

الآن ، إلى الشروط.

Hadoop المشتركة

يحتوي إطار Hadoop على وحدات مختلفة لوظائف مختلفة ويمكن لهذه الوحدات أن تتفاعل مع بعضها البعض لأسباب مختلفة. يمكن تعريف Hadoop Common كمكتبة أدوات مساعدة عامة لدعم هذه الوحدات في Hadoop النظام البيئي. هذه الأدوات المساعدة هي في الأساس ملفات Java (JARs) المستندة إلى Java. تستخدم هذه الأدوات بشكل أساسي من قبل المبرمجين والمطورين خلال وقت التطوير.

نظام الملفات الموزعة Hadoop (HDFS)

نظام الملفات الموزعة Hadoop (HDFS) هو مشروع فرعي من Apache Hadoop تحت مؤسسة Apache Software Foundation. هذا هو العمود الفقري للتخزين في إطار Hadoop. إنه نظام ملفات موزع وقابل للتوسعة ومتسامح للأخطاء يمتد عبر أجهزة سلعية متعددة تعرف باسم مجموعة Hadoop. الهدف من HDFS هو تخزين كمية كبيرة من البيانات بشكل موثوق مع وصول عالي الإنتاجية إلى بيانات التطبيق. تتبع HDFS بنية السيد / العبد ، حيث يُعرف الرئيسي باسم NameNode ويُعرف العبيد باسم DataNodes.

مابريديوس

Hadoop MapReduce هو أيضًا مشروع فرعي لمؤسسة Apache Software Foundation. MapReduce هو في الواقع إطار برنامج مكتوب بحتة في جاوة. هدفها الأساسي هو معالجة مجموعات البيانات الكبيرة في بيئة موزعة (تتألف من أجهزة سلعية) بطريقة متوازية تمامًا. يدير الإطار جميع الأنشطة مثل جدولة الوظائف ، والرصد ، والتنفيذ ، وإعادة التنفيذ (في حالة المهام الفاشلة).

HBase

يُعرف Apache HBase باسم قاعدة بيانات Hadoop. وهو عمود بيانات كبير وموزع وقابل للتوسيع. يُعرف أيضًا بنوع قاعدة بيانات NoSQL الذي لا يعد نظامًا لإدارة قواعد البيانات العلائقية. تتم كتابة تطبيقات HBase أيضًا في Java ، وهي مبنية على أعلى Hadoop وتعمل على HDFS. يتم استخدام HBase عندما تحتاج إلى قراءة / كتابة في الوقت الفعلي والوصول العشوائي إلى البيانات الكبيرة. على غرار HBase على أساس مفاهيم غوغل BigTable.

خلية

Apache Hive هو نظام برمجيات مستودع بيانات مفتوح المصدر. تم تطوير خلية Hive في الأصل قبل أن تأتي تحت مؤسسة Apache Software Foundation وأصبحت مفتوحة المصدر. إنه يسهل إدارة واستعلام مجموعات البيانات الكبيرة على وحدة تخزين متوافقة مع Hadoop الموزعة. ينفذ Hive جميع أنشطته باستخدام لغة تشبه SQL المعروفة باسم HiveQL. (تعرف على المزيد في مقدمة مختصرة حول Apache Hive and Pig.)

No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك

لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

خنزير اباتشي

بدأت Pig في الأصل بواسطة Yahoo لتطوير وتنفيذ وظائف MapReduce على كمية كبيرة من البيانات الموزعة. الآن أصبح مشروع مفتوح المصدر تحت مؤسسة Apache Software Foundation. يمكن تعريف Apache Pig كمنصة لتحليل مجموعات البيانات الكبيرة جدًا بطريقة فعالة. تنتج طبقة البنية التحتية لـ Pigs تسلسلات لمهام MapReduce للقيام بالمعالجة الفعلية. تُعرف طبقة لغة الخنازير بـ Pig Latin وتوفر ميزات شبيهة بـ SQL لإجراء استعلامات على مجموعات البيانات الموزعة.

اباتشي سبارك

تم تطوير Spark في الأصل بواسطة AMPLab في جامعة كاليفورنيا في بيركلي. أصبح مشروع Apache أعلى مستوى في فبراير 2014. يمكن تعريف Apache Spark على أنه إطار مفتوح المصدر للأغراض العامة وحوسبة الكتلة يجعل تحليلات البيانات أسرع بكثير. إنه مبني على قمة نظام الملفات الموزعة Hadoop ولكنه غير مرتبط بإطار عمل MapReduce. أداء الشرر أسرع بكثير مقارنة بـ MapReduce. ويوفر واجهات برمجة التطبيقات عالية المستوى في Scala و Python و Java.

اباتشي كاساندرا

أباتشي كاساندرا هو قاعدة بيانات NoSQL مفتوحة المصدر. يستخدم كاساندرا على نطاق واسع لإدارة كميات كبيرة من امتدادات البيانات المهيكلة وشبه الهيكلية وغير المنظمة عبر مراكز بيانات متعددة والتخزين السحابي. تم تصميم Cassandra بناءً على بنية "غير متقنة" ، مما يعني أنها لا تدعم طراز السيد / العبد. في هذه البنية ، تكون جميع العقد متماثلة ويتم توزيع البيانات تلقائيًا وعلى قدم المساواة عبر جميع العقد. أهم ميزات Cassandras هي التوافر المستمر ، والتدرجية الخطية ، والنسخ المتماثل المدمج / القابل للتخصيص ، وعدم وجود نقطة واحدة من الفشل والبساطة التشغيلية.

مفاوض موارد آخر (YARN)

يعرف أيضًا مفاوض موارد آخر (YARN) أيضًا باسم MapReduce 2.0 ، ولكنه يقع بالفعل تحت Hadoop 2.0. يمكن تعريف YARN كإطار زمني لجدولة العمل وإدارة الموارد. الفكرة الأساسية لـ YARN هي استبدال وظائف JobTracker بشيطانين منفصلين مسئولين عن إدارة الموارد والجدولة / المراقبة. في هذا الإطار الجديد ، سيكون هناك ResourceManager عالمي (RM) وسيد خاص بالتطبيق يعرف باسم ApplicationMaster (AM). ResourceManager العالمي (RM) و NodeManager (لكل عقدة عبد) تشكل إطار حساب البيانات الفعلي. يمكن أيضًا تشغيل تطبيقات MapReduce v1 الموجودة على YARN ، ولكن يجب إعادة ترجمة هذه التطبيقات باستخدام جرة Hadoop2.x.

إمبالا

يمكن تعريف Impala كمحرك استعلام SQL مزود بقوة معالجة متوازية هائلة (MPP). يتم تشغيله أصلاً على إطار Apache Hadoop. تم تصميم Impala كجزء من نظام Hadoop البيئي. تشترك في نفس نظام الملفات المرنة (HDFS) ، والبيانات الوصفية ، وإدارة الموارد والأطر الأمنية كما تستخدمها مكونات Hadoop الأخرى للنظم الإيكولوجية. النقطة الأكثر أهمية هي أن نلاحظ أن إمبالا أسرع بكثير في معالجة الاستعلام مقارنة بخلايا النحل. لكن يجب علينا أن نتذكر أيضًا أن Impala مخصص للاستعلام / التحليل على مجموعة صغيرة من البيانات ، وهو مصمم بشكل أساسي كأداة تحليلية تعمل على البيانات المُعالجة والمنظمة.

Hadoop هو موضوع مهم في تكنولوجيا المعلومات ، ولكن هناك أولئك الذين يشككون في جدواها على المدى الطويل. قراءة المزيد في ما هو Hadoop؟ نظرية المتهكمين.