5 رؤى حول البيانات الكبيرة (Hadoop) كخدمة

مؤلف: Roger Morrison
تاريخ الخلق: 18 شهر تسعة 2021
تاريخ التحديث: 11 قد 2024
Anonim
Data Warehouse Concepts | Data Warehouse Tutorial | Data Warehouse Architecture | Edureka
فيديو: Data Warehouse Concepts | Data Warehouse Tutorial | Data Warehouse Architecture | Edureka

المحتوى


المصدر: Info40555 / Dreamstime.com

يبعد:

Hadoop هي طريقة رائعة للحصول على أقصى استفادة من البيانات الضخمة ، ولكن هناك العديد من الأدوات الأخرى التي يمكن أن تعمل مع Hadoop لتوفير نتائج أكثر فائدة.

في عالم التكنولوجيا المتغير باستمرار ، أصبح البرنامج كخدمة (SaaS) نموذجًا شائعًا. يتم تقديم الخدمة للمشتركين حسب الحاجة. البيانات الكبيرة تتبع أيضًا نموذج الخدمة نفسه. في هذه المقالة ، سنناقش نموذج الخدمة المتبع في مجال تكنولوجيا البيانات الضخمة.

فيما يلي بعض نماذج الخدمة المعروفة للبيانات الضخمة كخدمة (BDaaS):

راك سبيس

يمكن لمجموعات Rackspace Hadoop تشغيل Hadoop على خوادم مخصصة تديرها Rackspace أو سحابة عامة أو سحابة خاصة.


يتم توفير نموذج واحد للبيانات السحابية الكبيرة بواسطة Rackspace لـ Apache Spark و Hadoop. إنه يوفر منصة معدنية مكتملة الإدارة للمعالجة في الذاكرة.

Rackspace يلغي المشاكل مع إدارة وصيانة البيانات الكبيرة يدويا. لأنه يأتي مع الميزات التالية:

  • يقلل من عبء التشغيل من خلال توفير دعم 24 × 7 × 365
  • يوفر الوصول الكامل إلى مجموعة أدوات Hortonworks Data Platforms (HDP) ، بما في ذلك Pig و Hive و HBase و Sqoop و Flume و HCatalog
  • تصميم شبكي مرن مع شبكات تقليدية تصل إلى 10 جيجابايت
يمنحك اختيار السحابة الخاصة قوة وفعالية السحب العامة ، مع زيادة الأمان والتحكم. العيب الرئيسي لاستخدام السحابة الخاصة هو أنه من الصعب إدارتها ويتطلب من الخبراء الترقية والتصحيح والمراقبة. يوفر Rackspace دعمًا ممتازًا في هذه المناطق ، لذلك لا داعي للقلق بشأن إدارة السحابة.



Joyent

استنادًا إلى Apache Hadoop ، تعد Joyent بيئة استضافة تعتمد على السحابة لمشاريع البيانات الضخمة. تم تصميم هذا الحل باستخدام منصة بيانات Hortonworks. إنها بنية تحتية أصلية عالية الأداء لتلبية احتياجات تطبيقات الهاتف المحمول الحالية والويب في الوقت الفعلي. يسمح بتشغيل Hadoop من فئة المؤسسات على سحابة Joyent عالية الأداء.


كما أن لديها المزايا التالية:

No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك

لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

  • خفض ثلثي تكاليف البنية التحتية عن طريق الحلول التي تقدمها Joyent مع نفس وقت الاستجابة
  • زمن استجابة I / O أسرع للقرص من قِبل مجموعات Hadoop على Joyent Cloud
  • يسرع أوقات الاستجابة للمعالجة الموزعة والمتوازية
  • يحسن حجم مجموعات Hadoop التي تنفذ تطبيقات تحليل البيانات المكثفة
  • نتائج أسرع مع وقت استجابة أفضل
بشكل عام ، تعتبر تطبيقات البيانات الكبيرة باهظة الثمن وصعبة الاستخدام. تحاول Joyent تغيير هذا من خلال توفير حلول أرخص وأسرع. توفر Joyent البنية التحتية السحابية العامة والمختلطة لتطبيقات الويب والهاتف المحمول في الوقت الفعلي. تشمل قائمة عملائها شخصيات بارزة مثل LinkedIn و Voxer.



Qubole

بالنسبة لمشاريع البيانات الضخمة ، يتم توفير مجموعة Hadoop بواسطة Qubole مع موصلات بيانات مدمجة ومحرر رسومي. وهذا يتيح الاستفادة من مجموعة متنوعة من قواعد البيانات مثل MySQL و MongoDB و Oracle ، وتعيين مجموعة Hadoop على الطيار الآلي. يوفر محرر استعلام لـ Hive و Pig و MapReduce.


يوفر Qubole كل شيء كخدمة ، بما في ذلك:

  • محرر الاستعلام عن خلية النحل والخنزير و MapReduce
  • مقيم التعبير
  • استخدام لوحة القيادة
  • استخراج تحويل الحمل (ETL) وبناة خط أنابيب البيانات
معالمه تشمل:

  • يعمل بشكل أسرع من Amazon EMR
  • واجهة المستخدم الرسومية سهلة الاستخدام مع الموصلات المدمجة والبنية التحتية السحابية السلس مرنة
  • يتم تحسين تخصيص الموارد وإدارتها بواسطة محرك QDS Hadoop باستخدام الشياطين ، مما يوفر محرك Hadoop المتقدم للحصول على أداء أفضل
  • للاستعلامات الأسرع ، تم تحسين الإدخال / الإخراج لتخزين S3. S3 آمن وموثوق. توفر خدمة Qubole Data Service تنفيذ أسرع 5 مرات مقابل البيانات في S3.
  • لا حاجة لدفع ثمن الميزات والتطبيقات غير المستخدمة
  • التكامل السحابي - خدمة Qubole Data Service لا تتطلب تغييرات في البنية الأساسية الحالية ، مما يعني أن لديها المرونة في العمل مع أي منصة. تدعم موصلات QDS استيراد وتصدير قواعد البيانات السحابية MongoDB و Oracle و PostgresSQL والموارد مثل Google Analytics.
  • إدارة دورة حياة الكتلة مع خدمة بيانات Qubole لتوفير التجمعات في دقائق ، وتوسيع نطاقها مع الطلب وتشغيلها في بيئة من أجل الإدارة السهلة لعمليات تقييم البيانات الكبيرة

مرونة MapReduce

توفر Amazon Elastic MapReduce (EMR) إطار عمل Hadoop مُدار لتبسيط معالجة البيانات الكبيرة. إنه سهل وفعال من حيث التكلفة لتوزيع ومعالجة كميات كبيرة من البيانات.


يمكن أيضًا تشغيل الأطر الموزعة الأخرى مثل Spark و Presto في Amazon EMR للتفاعل مع البيانات في Amazon S3 و DynamoDB. تعالج EMR حالات الاستخدام هذه بالموثوقية:

  • فهرسة الويب
  • التعلم الالي
  • المحاكاة العلمية
  • تخزين البيانات
  • تحليل السجل
  • المعلوماتية الحيوية
من بين عملائها Yelp و Nokia و Getty Images و Reddit وغيرها. بعض معالمه هي:

  • مرنة للاستخدام مع الوصول إلى الجذر في كل حالة ، ويدعم توزيعات وتطبيقات Hadoop متعددة. من السهل تخصيص كل مجموعة وتثبيت تطبيقات إضافية.
  • من السهل تثبيت نظام Amazon EMR.
  • موثوقة بما يكفي لقضاء وقت أقل في مراقبة الكتلة الخاصة بك ؛ إعادة محاولة المهام الفاشلة واستبدال الحالات ذات الأداء الضعيف تلقائيًا.
  • آمن ، لأنه يقوم تلقائيًا بتهيئة إعدادات جدار الحماية Amazon EC2 للتحكم في الوصول إلى الشبكة في الحالات
  • معالجة البيانات على أي نطاق باستخدام Amazon EMR. يمكن زيادة عدد الحالات وتقليلها بسهولة.
  • تسعير منخفض التكلفة بدون تكاليف خفية ؛ ادفع بالساعة مقابل كل مثيل مستخدم. على سبيل المثال ، قم بتشغيل كتلة Hadoop ذات 10 عقدة مقابل 0.15 دولار في الساعة.
يتم استخدامه لتحليل بيانات تدفق النقرات لفهم تفضيلات المستخدم. يمكن للمعلنين تحليل تدفقات النقرات وسجلات ظهور الإعلان.


يمكن استخدامه أيضًا لمعالجة كميات هائلة من البيانات الجينية ومجموعات البيانات الكبيرة بكفاءة. يمكن للباحثين الوصول إلى البيانات الجينية المستضافة على AWS مجانًا.

يمكن استخدام Amazon EMR لمعالجة السجل وتساعدهم في تحويل وحدات البايت من البيانات غير المهيكلة وشبه الهيكلية إلى رؤى مفيدة.

مونة الاسمنت

Mortar هي عبارة عن منصة لعلوم البيانات على نطاق واسع ومبنية على سحابة Amazon Web Services. وهي مبنية على تطبيق MapReduce المرن (EMR) لإطلاق مجموعات Hadoop. تم إنشاء Mortar بواسطة K. Young و Jeremy Kam و Doug Daniels في عام 2011 بدافع القضاء على المهام الصعبة التي تستغرق وقتًا طويلاً. وقد تم ذلك حتى يتمكن العلماء من قضاء وقتهم في القيام بأعمال حرجة أخرى.


إنه يعمل على Java و Jython و Hadoop وما إلى ذلك لتقليل الوقت الذي يستثمره المستخدمون والسماح لهم بالتركيز على علم البيانات.

لديه الميزات التالية:

  • إنه يحرر فريقك من التركيب والصيانة الشاقة والمستهلكة للوقت.
  • يوفر الوقت عن طريق إدخال الحلول في العمليات في فترة زمنية قصيرة.
  • ينبه المستخدمين تلقائيًا إلى أي خلل في التكنولوجيا والتطبيقات لضمان حصولهم على معلومات دقيقة وفي الوقت الفعلي.
تطبيقات منصة هاون:

  • لنشر محرك توصيات قوي وقابل للتوسعة ، أسرع منصة هي الملاط.
  • الملاط مؤتمت بالكامل ، لأنه يدير محرك التوصية من طرف إلى آخر بأمر واحد فقط.
  • يستخدم التحكم في الإصدار القياسي للصناعة مما يساعد على سهولة التكيف والتخصيص.
  • للتحليل ، قم بسهولة بتوصيل مصادر بيانات متعددة بمستودعات البيانات.
  • إنه يوفر وقت العمل لفريقك من خلال التعامل مع البنية التحتية والنشر والعمليات الأخرى.
  • توقع التحليل باستخدام البيانات التي لديك بالفعل. هاون يدعم النهج مثل الانحدار الخطي وتصنيف للتحليل.
  • دعم تقنيات التعلم الآلي الرائدة مثل R و Pig و Python لتقديم موازٍ سهل للوظائف المعقدة.
  • يضمن الجهوزية والتنبيه الاستراتيجي بنسبة 99.9٪ ثقة المستخدمين وتقديم خط أنابيب التحليلات مرارًا وتكرارًا.
  • تستخدم الخوارزميات التنبؤية لتنمية الأعمال مثل التنبؤ بالطلب وتحديد العملاء ذوي القيمة العالية.
  • يتم إجراء تحليل الكميات الكبيرة بسهولة ، سواء أكان ذلك رمزيًا أم جذريًا أو LDA أو n-gram.

ملخص

هناك الكثير من تطبيقات البيانات الكبيرة المتاحة اليوم ، وفي المستقبل سيكون هناك بلا شك حلول أسرع وأرخص متاحة للمستخدمين. علاوة على ذلك ، سيأتي مزودو الخدمات بحلول أفضل ، مما يجعل التثبيت والصيانة أقل توسعية.