ما هو الفرق بين البيانات الكبيرة و Hadoop؟

مؤلف: Judy Howell
تاريخ الخلق: 5 تموز 2021
تاريخ التحديث: 12 قد 2024
Anonim
ايه الفرق بين ال Big Data و ال Data Science و ال Data Analysis
فيديو: ايه الفرق بين ال Big Data و ال Data Science و ال Data Analysis

المحتوى

Q:

ما هو الفرق بين البيانات الكبيرة و Hadoop؟


أ:

الفرق بين البيانات الكبيرة وبرنامج البرمجيات مفتوحة المصدر Hadoop هو واحد متميز وأساسي. السابق هو أحد الأصول ، غالبًا ما يكون معقدًا وغامضًا ، في حين أن الأخير هو برنامج يحقق مجموعة من الأهداف والغايات للتعامل مع هذا الأصل.

البيانات الكبيرة هي ببساطة مجموعات كبيرة من البيانات التي تجمعها الشركات والأطراف الأخرى لخدمة أهداف وعمليات محددة. يمكن أن تتضمن البيانات الضخمة أنواعًا مختلفة من البيانات في العديد من أنواع التنسيقات المختلفة. على سبيل المثال ، قد تضع الشركات الكثير من العمل في جمع الآلاف من البيانات حول عمليات الشراء بتنسيقات العملة أو معرفات العملاء مثل الاسم أو رقم الضمان الاجتماعي أو معلومات المنتج في شكل أرقام طرز أو أرقام مبيعات أو أرقام جرد. كل هذا ، أو أي كتلة كبيرة أخرى من المعلومات ، يمكن أن يطلق عليها بيانات كبيرة. كقاعدة عامة ، يكون خامًا وغير مصقول حتى يتم وضعه من خلال أنواع مختلفة من الأدوات والمعالجات.

Hadoop هي واحدة من الأدوات المصممة للتعامل مع البيانات الكبيرة. تعمل Hadoop ومنتجات البرامج الأخرى على تفسير أو تحليل نتائج عمليات البحث عن البيانات الضخمة من خلال خوارزميات وطرق الملكية الخاصة. Hadoop هو برنامج مفتوح المصدر بموجب ترخيص Apache يتم صيانته بواسطة مجتمع عالمي من المستخدمين. ويشمل العديد من المكونات الرئيسية ، بما في ذلك مجموعة من وظائف MapReduce ونظام الملفات الموزعة Hadoop (HDFS).


الفكرة وراء MapReduce هي أن Hadoop يمكنه أولاً تعيين مجموعة كبيرة من البيانات ، ثم إجراء تخفيض على هذا المحتوى لنتائج محددة. يمكن اعتبار دالة الاختزال كنوع من التصفية للبيانات الخام. يعمل نظام HDFS بعد ذلك على توزيع البيانات عبر شبكة أو ترحيلها حسب الضرورة.

يمكن لمسؤولي قواعد البيانات والمطورين وغيرهم استخدام ميزات Hadoop المختلفة للتعامل مع البيانات الضخمة بأي طريقة من الطرق. على سبيل المثال ، يمكن استخدام Hadoop لمتابعة استراتيجيات البيانات مثل التجميع والاستهداف مع بيانات غير موحدة ، أو البيانات التي لا تنسجم بدقة مع جدول تقليدي أو تستجيب جيدًا للاستعلامات البسيطة.