7 أشياء يجب معرفتها عن Hadoop

مؤلف: Eugene Taylor
تاريخ الخلق: 8 أغسطس 2021
تاريخ التحديث: 20 يونيو 2024
Anonim
7 Things to know about Tokyo Station | japan-guide.com
فيديو: 7 Things to know about Tokyo Station | japan-guide.com

المحتوى


المصدر: Pressureua / Dreamstime.com

يبعد:

تساعد Hadoop في تحليل البيانات لسنوات حتى الآن ، ولكن ربما يكون هناك أكثر من بضعة أشياء لا تعرف عنها.

ما هو Hadoop؟ إنها لعبة فيل صفراء. ليس ما كنت تتوقع؟ ماذا عن هذا: استعار Doug Cutting - أحد المشاركين في إنشاء هذا البرنامج المفتوح المصدر - اسم ابنه الذي حدث لاستدعاء لعبته الفيل Hadoop. باختصار ، Hadoop هو إطار برمجي تم تطويره من قِبل Apache Software Foundation يستخدم لتطوير الحوسبة الموزعة التي تستهلك الكثير من البيانات. كما أنه لا يمكن أبدًا الحصول على ما يكفي من مكوِّنات رئيسية في برامج قراءة الكلمات الطنانة التالية: إليك سبعة أشياء يجب أن تعرفها عن هذا البرنامج الفريد المرخص به بحرية.

كيف بدأت Hadoop في بدايتها؟

قبل اثني عشر عامًا ، أنشأت Google منصة لمعالجة كميات البيانات الضخمة التي كانت تجمعها. مثلما تفعل الشركة غالبًا ، أتاحت Google تصميمها للجمهور في شكل ورقتين: نظام ملفات Google و MapReduce.

في الوقت نفسه ، كان دوغ كتينغ ومايك كافاريلا يعملان على محرك بحث جديد Nutch. وكانا يناضلان أيضًا في كيفية التعامل مع كميات كبيرة من البيانات. ثم تعرّف الباحثان إلى أوراق Google. غير ذلك التقاطع المحظوظ كل شيء عن طريق إدخال نظام Cut and Cafarella لنظام ملفات أفضل وطريقة لتتبع البيانات ، مما أدى في النهاية إلى إنشاء Hadoop.

ما هو المهم في Hadoop؟

اليوم ، أصبح جمع البيانات أسهل من أي وقت مضى. توفر كل هذه البيانات العديد من الفرص ، ولكن هناك تحديات أيضًا:

  • تتطلب كميات هائلة من البيانات طرقًا جديدة للمعالجة.
  • البيانات التي يتم التقاطها بتنسيق غير منظم.
للتغلب على تحديات التعامل مع الكميات الهائلة من البيانات غير المهيكلة ، توصلت شركة Cut and Cafarella إلى حل من جزأين. لحل مشكلة كمية البيانات ، توظف Hadoop بيئة موزعة - شبكة من خوادم السلع الأساسية - تخلق مجموعة معالجة متوازية ، والتي تجلب المزيد من قوة المعالجة للاستمرار في المهمة المعينة.

بعد ذلك ، كان يتعين عليهم معالجة البيانات أو البيانات غير المهيكلة بتنسيقات لم تتمكن أنظمة قواعد البيانات العلائقية القياسية من معالجتها. صمم Cut and Cafarella Hadoop للعمل مع أي نوع من البيانات: منظم ، غير منظم ، صور ، ملفات صوتية ، حتى. تشرح هذه الورقة البيضاء من Cloudera (دمج Hadoop) سبب أهمية ذلك:

    "من خلال جعل جميع بياناتك قابلة للاستخدام ، وليس فقط ما هو موجود في قواعد البيانات الخاصة بك ، يتيح لك Hadoop كشف العلاقات المخفية ويكشف الإجابات التي كانت دائمًا بعيدة المنال. يمكنك البدء في اتخاذ المزيد من القرارات بناءً على البيانات الثابتة ، بدلاً من الحدس ، والبحث في مجموعات بيانات كاملة ، وليس فقط عينات وملخصات. "

ما هو مخطط القراءة؟

كما ذكرنا سابقًا ، تتمثل إحدى ميزات Hadoop في قدرتها على التعامل مع البيانات غير المنظمة. بمعنى ما ، هذا "يركل العلبة على الطريق". في النهاية ، تحتاج البيانات إلى نوع من البنية لتحليلها.

هذا هو المكان الذي يأتي المخطط في القراءة. المخطط في القراءة هو خلط التنسيق الذي توجد به البيانات ، ومكان العثور على البيانات (تذكر أن البيانات مبعثرة بين عدة خوادم) ، وما يجب القيام به للبيانات - وليس مهمة بسيطة. لقد قيل إن معالجة البيانات في نظام Hadoop يتطلب مهارات محلل أعمال وإحصائي ومبرمج جافا. لسوء الحظ ، ليس هناك الكثير من الأشخاص الذين يحملون هذه المؤهلات.

ما هي خلية النحل؟

إذا كانت Hadoop ستنجح ، فيجب تبسيط العمل مع البيانات. لذا ، بدأ الحشد المفتوح المصدر في إنشاء Hive:

    "توفر Hive آلية لإسقاط البنية على هذه البيانات والاستعلام عن البيانات باستخدام لغة تشبه SQL تسمى HiveQL. وفي الوقت نفسه ، تتيح هذه اللغة أيضًا للمبرمجين التقليديين الذين يستخدمون خرائط / تقليدية أن يوصّلوا المخططين ومخفِّفاتهم المخصصين عندما يكون غير مريح أو غير فعالة للتعبير عن هذا المنطق في HiveQL. "

يتيح Hive أفضل ما في العالمين: يمكن لموظفي قاعدة البيانات المطلعين على أوامر SQL معالجة البيانات ، والمطورين المطلعين على مخطط عملية القراءة ما زالوا قادرين على إنشاء استعلامات مخصصة.

ما نوع البيانات التي يقوم Hadoop بتحليلها؟

تحليلات الويب هي أول ما يتبادر إلى الذهن ، وهو تحليل سجلات الويب وحركة المرور على الويب من أجل تحسين مواقع الويب. ، على سبيل المثال ، هو بالتأكيد في تحليلات الويب ، وذلك باستخدام Hadoop لفرز تيرابايت من البيانات التي تجمعها الشركة.

تستخدم الشركات مجموعات Hadoop لإجراء تحليل المخاطر والكشف عن الاحتيال وتجزئة قاعدة العملاء. تستخدم شركات المرافق Hadoop لتحليل بيانات أجهزة الاستشعار من شبكتها الكهربائية ، مما يسمح لها بتحسين إنتاج الكهرباء. تستخدم كبرى الشركات مثل Target و 3M و Medtronics Hadoop لتحسين توزيع المنتجات وتقييم مخاطر الأعمال وتجزئة قاعدة العملاء.

تستثمر الجامعات في Hadoop أيضا. ذكر براد روبين ، الأستاذ المشارك في برامج الدراسات العليا في جامعة سانت توماس في مجال البرمجيات ، أن خبرته في Hadoop تساعد في فرز كميات وفيرة من البيانات التي جمعتها مجموعات الأبحاث في الجامعة.

هل يمكنك إعطاء مثال في العالم الحقيقي على Hadoop؟

أحد الأمثلة المعروفة هو TimesMachine. تحتوي New York Times على مجموعة من صور TIFF لصحيفة كاملة الصفحات ، والبيانات الوصفية المرتبطة بها ، ومقال من 1851 إلى 1922 يصل إلى تيرابايت من البيانات. NYT’s Derek Gottfrid ، باستخدام نظام EC2 / S3 / Hadoop ورمز متخصص ،:

    "تم تكوين 405،000 صورة TIFF كبيرة جدًا و 3.3 مليون مقالة في ملفات SGML و 405000 xml لتعيين المقالات إلى مناطق مستطيلة في TIFF. تم تحويل هذه البيانات إلى 810،000 صورة PNG أكثر ملاءمة للويب (صور مصغرة وصور كاملة) و 405،000 ملف JavaScript. "

باستخدام خوادم في سحابة Amazon Web Services ، ذكر Gottfrid أنهم كانوا قادرين على معالجة جميع البيانات المطلوبة لآلة TimesMachine في أقل من 36 ساعة.

هل Hadoop عفا عليها الزمن بالفعل أو مجرد تتحول؟

Hadoop كانت موجودة منذ أكثر من عقد الآن. أن يقول الكثير من عفا عليها الزمن. قال أحد الخبراء ، الدكتور ديفيد ريكو ، إن "منتجات تكنولوجيا المعلومات قصيرة الأجل. في سنوات الكلاب ، يبلغ عدد منتجات Google حوالي 70 ، بينما يبلغ Hadoop 56".

قد يكون هناك بعض الحقيقة لما يقوله ريكو. يبدو أن Hadoop يمر إصلاح كبير. لمعرفة المزيد حول هذا الموضوع ، دعاني روبن إلى اجتماع مجموعة مستخدمي المدن المزدوجة Hadoop ، وكان موضوع المناقشة هو مقدمة لـ YARN:

    "يتضمن Apache Hadoop 2 محركًا جديدًا من MapReduce ، والذي يتميز بعدد من المزايا مقارنة بالتطبيق السابق ، بما في ذلك قابلية التوسع واستخدام الموارد بشكل أفضل. تم تصميم التطبيق الجديد على نظام عام لإدارة الموارد لتشغيل التطبيقات الموزعة التي يطلق عليها YARN."
تحصل Hadoop على الكثير من المشاركات في دوائر إدارة قواعد البيانات والمحتوى ، لكن لا يزال هناك العديد من الأسئلة حولها وأفضل طريقة لاستخدامها. هذه ليست سوى عدد قليل. إذا كان لديك أكثر من ذلك ، في طريقنا. حسنًا ، أجب عن الأفضل على Techopedia.com.