لماذا سبارك هي المستقبل منصة البيانات الكبيرة

فيديو: Big Data البيانات الضخمة وإنترنت الأشياء

المحتوى

ما هو اباتشي سبارك؟
لماذا شرارة مهمة جدا على Hadoop
ما هي الشرر ميزات فريدة من نوعها؟
لماذا سبارك ليس بديلاً عن Hadoop
ما الشركات تفكر سبارك و Hadoop
تطبيقات عملية
خاتمة

المصدر: Snake3d / Dreamstime.com

يبعد:

Apache Spark عبارة عن أداة مفتوحة المصدر لمعالجة البيانات الضخمة التي تزحف على Hadoop (وفي بعض النواحي ، تتجاوز).

يعد Apache Hadoop أساسًا لتطبيقات البيانات الضخمة لفترة طويلة الآن ، ويعتبر منصة البيانات الأساسية لجميع العروض المتعلقة بالبيانات الكبيرة. ومع ذلك ، تكتسب قاعدة البيانات والحساب في الذاكرة شعبية بسبب الأداء السريع والنتائج السريعة. يعد Apache Spark إطارًا جديدًا يستخدم إمكانات في الذاكرة لتقديم معالجة سريعة (أسرع 100 مرة تقريبًا من Hadoop). لذلك ، يتم استخدام منتج Spark بشكل متزايد في عالم من البيانات الضخمة ، وبشكل أساسي للمعالجة الأسرع.

ما هو اباتشي سبارك؟

يعد Apache Spark إطار عمل مفتوح المصدر لمعالجة كميات هائلة من البيانات (البيانات الضخمة) بسرعة وبساطة. انها مناسبة لتطبيقات التحليلات استنادا إلى البيانات الكبيرة. يمكن استخدام Spark مع بيئة Hadoop ، مستقلة أو في السحابة. تم تطويره في جامعة كاليفورنيا ومن ثم تم تقديمه لاحقًا إلى Apache Software Foundation. وبالتالي ، فهو ينتمي إلى مجتمع مفتوح المصدر ويمكن أن يكون فعالًا من حيث التكلفة ، مما يسمح أيضًا لمطوري الهواة بالعمل بسهولة. (لمعرفة المزيد عن Hadoops مفتوحة المصدر ، راجع ما هو تأثير المصدر المفتوح على نظام Apache Hadoop البيئي؟)

الغرض الرئيسي من Spark هو أنها توفر للمطورين إطار عمل للتطبيق يعمل حول بنية بيانات مركزية. تعتبر Spark قوية للغاية ولديها القدرة الفطرية على معالجة كميات هائلة من البيانات بسرعة في فترة زمنية قصيرة ، مما يوفر أداءً جيدًا للغاية.وهذا يجعلها أسرع بكثير مما يقال إنه أقرب منافس لها ، Hadoop.

لماذا شرارة مهمة جدا على Hadoop

يُعرف Apache Spark دائمًا بأنه يتفوق على Hadoop في العديد من الميزات ، وهو ما يفسر على الأرجح سبب استمرار هذا الأمر في الأهمية. أحد الأسباب الرئيسية لذلك هو النظر في سرعة المعالجة. في الواقع ، كما ذكر أعلاه بالفعل ، تقدم Spark معالجة أسرع بنحو 100 مرة من Hadoop’s MapReduce لنفس كمية البيانات. كما أنها تستخدم موارد أقل بكثير بالمقارنة مع Hadoop ، مما يجعلها فعالة من حيث التكلفة.

جانب رئيسي آخر حيث Spark له اليد العليا هو من حيث التوافق مع مدير الموارد. يُعرف Apache Spark بالعمل مع Hadoop ، تمامًا كما يفعل MapReduce ، ومع ذلك ، فإن الأخير يتوافق حاليًا مع Hadoop فقط. أما بالنسبة لـ Apache Spark ، فيمكنها العمل مع مديري الموارد الآخرين مثل YARN أو Mesos. غالبًا ما يشير علماء البيانات إلى هذا باعتباره أحد أكبر المناطق التي تفوق فيها سبارك حقًا على Hadoop.

عندما يتعلق الأمر بسهولة الاستخدام ، يحدث أن يكون Spark مرة أخرى أفضل بكثير من Hadoop. يحتوي Spark على واجهات برمجة التطبيقات لعدة لغات مثل Scala و Java و Python ، إلى جانب وجود أمثال Spark SQL. من السهل نسبيًا كتابة وظائف معرفة من قبل المستخدم. يحدث أيضًا أن تتباهى بوضع تفاعلي لتشغيل الأوامر. Hadoop ، من ناحية أخرى ، هو مكتوب بلغة جافا ، وقد اكتسب سمعة كونه صعب البرمجة ، على الرغم من أنه يحتوي على أدوات تساعد في هذه العملية. (لمعرفة المزيد حول Spark ، راجع كيف يساعد Apache Spark على تطوير التطبيق السريع.)

ما هي الشرر ميزات فريدة من نوعها؟

يحتوي Apache Spark على بعض الميزات الفريدة التي تميزها حقًا عن العديد من منافسيها في أعمال معالجة البيانات. وقد تم إيجاز بعض منها لفترة وجيزة أدناه.

لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

تتمتع Spark أيضًا بقدرة فطرية على تحميل المعلومات الضرورية إلى جوهرها بمساعدة خوارزميات التعلم الآلي الخاصة بها. هذا يسمح لها أن تكون سريعة للغاية.

يأتي Apache Spark مع القدرة على معالجة الرسوم البيانية أو حتى المعلومات ذات الطبيعة الرسومية ، وبالتالي تمكين التحليل السهل مع الكثير من الدقة.

يحتوي Apache Spark على MLib ، وهو إطار مخصص للتعلم الآلي المنظم. كما أنه في الغالب أسرع في التنفيذ من Hadoop. MLib هي أيضا قادرة على حل العديد من المشاكل ، مثل القراءة الإحصائية ، وأخذ البيانات واختبار فرضية ، على سبيل المثال لا الحصر.

لماذا سبارك ليس بديلاً عن Hadoop

على الرغم من حقيقة أن Spark لها العديد من الجوانب حيث تتفوق على Hadoop ، إلا أنه لا يزال هناك العديد من الأسباب لعدم تمكنها بالفعل من استبدال Hadoop حتى الآن.

أولاً ، يقدم Hadoop ببساطة مجموعة أكبر من الأدوات بالمقارنة مع Spark. كما أن لديها العديد من الممارسات المعترف بها في هذه الصناعة. رغم ذلك ، لا يزال Apache Spark صغيرًا نسبيًا في المجال وسيحتاج إلى بعض الوقت حتى يتمكن من مواكبة Hadoop.

وضعت Hadoop’s MapReduce أيضًا بعض معايير الصناعة عندما يتعلق الأمر بتشغيل عمليات كاملة. من ناحية أخرى ، لا يزال يعتقد أن Spark ليست جاهزة تمامًا للعمل بموثوقية كاملة. غالبًا ما تحتاج المؤسسات التي تستخدم Spark إلى ضبطها ، حتى تكون جاهزة لمجموعة متطلباتها.

من السهل أيضًا تكوين Hadoop’s MapReduce ، التي كانت موجودة لفترة أطول من Spark. هذا ليس هو الحال بالنسبة لـ Spark ، مع الأخذ في الاعتبار أنها تقدم منصة جديدة بالكامل لم تختبر بالفعل تصحيحات تقريبية.

ما الشركات تفكر سبارك و Hadoop

بدأت العديد من الشركات بالفعل في الاستفادة من Spark لاحتياجاتها من معالجة البيانات ، ولكن القصة لا تنتهي عند هذا الحد. لديها بالتأكيد العديد من الجوانب القوية التي تجعل منها منصة معالجة بيانات مذهلة. ومع ذلك ، فإنه يأتي أيضًا بحصته العادلة من العيوب التي تحتاج إلى إصلاح.

إنها فكرة صناعة أن Apache Spark موجود لتبقى ، وربما هو المستقبل لاحتياجات معالجة البيانات. ومع ذلك ، لا يزال يحتاج إلى الخضوع للكثير من أعمال التطوير والتلميع التي ستتيح لها الاستفادة من إمكاناتها حقًا.

تطبيقات عملية

تم استخدام Apache Spark وما زالت تستخدمه العديد من الشركات التي تناسب متطلبات معالجة البيانات الخاصة بها. تم تنفيذ واحدة من أنجح التطبيقات من قبل Shopify ، الذي كان يبحث عن اختيار متاجر مؤهلة للتعاون في مجال الأعمال. ومع ذلك ، احتفظ مستودع البيانات الخاص به بالوقت المحدد عندما أراد أن يفهم المنتجات التي كان عملاؤه يبيعونها. بمساعدة Spark ، تمكنت الشركة من معالجة عدة ملايين من سجلات البيانات ومن ثم معالجة 67 مليون سجل في بضع دقائق. كما حدد أي المتاجر كانت مؤهلة.

باستخدام Spark ، Pinterest قادر على تحديد اتجاهات التطوير ومن ثم استخدامها لفهم سلوك المستخدمين. هذا يسمح كذلك للحصول على قيمة أفضل في مجتمع Pinterest. يتم أيضًا استخدام Spark بواسطة TripAdvisor ، أحد أكبر مواقع معلومات السفر في العالم ، لتسريع توصياته للزائرين.

خاتمة

لا يمكن للمرء أن يشك في براعة Apache Spark ، حتى في الوقت الحالي ، والمجموعة الفريدة من الميزات التي تأتي بها إلى الطاولة. إن قوتها وسرعتها في المعالجة ، إلى جانب توافقها ، تحدد النغمة للعديد من الأشياء في المستقبل. ومع ذلك ، فإن لديها أيضًا العديد من المجالات التي تحتاج إلى تحسينها ، إذا كان عليها أن تحقق بالفعل كامل إمكاناتها. على الرغم من أن Hadoop لا تزال هي القواعد التي تجول في الوقت الحالي ، فإن Apache Spark لديها مستقبل مشرق ، ويعتبره الكثيرون بمثابة المنصة المستقبلية لمتطلبات معالجة البيانات.