كودو: مغير اللعبة في النظام البيئي Hadoop؟

مؤلف: Roger Morrison
تاريخ الخلق: 21 شهر تسعة 2021
تاريخ التحديث: 1 تموز 2024
Anonim
كودو: مغير اللعبة في النظام البيئي Hadoop؟ - تقنية
كودو: مغير اللعبة في النظام البيئي Hadoop؟ - تقنية

المحتوى


المصدر: Agsandrew / Dreamstime.com

يبعد:

Kudu هو مشروع مفتوح المصدر يساعد في إدارة التخزين بشكل أكثر كفاءة.

كودو هو مشروع جديد مفتوح المصدر يوفر تخزينًا قابلاً للتحديث. إنه مكمل HDFS / HBase ، الذي يوفر تخزينًا تسلسليًا وقراءة فقط. كودو هو أكثر ملاءمة للتحليلات السريعة على البيانات السريعة ، والتي هي حاليا الطلب على الأعمال التجارية. لذا ، فإن Kudu ليس مجرد مشروع إيكولوجي Hadoop ، بل لديه القدرة على تغيير السوق. (لمعرفة المزيد عن Hadoop ، راجع أهم 10 مصطلحات Hadoop تحتاج إلى معرفتها وفهمها.)

ما هو كودو؟

كودو هو نوع خاص من نظام التخزين الذي يخزن البيانات المنظمة في شكل جداول. يحتوي كل جدول على عدد من الأعمدة المحددة مسبقًا. كل واحد منهم لديه مفتاح أساسي وهو في الواقع مجموعة من عمود واحد أو أكثر من هذا الجدول. تم إنشاء هذا المفتاح الأساسي لإضافة قيود وتأمين الأعمدة ، وأيضًا العمل كفهرس ، مما يتيح سهولة التحديث والحذف. هذه الجداول عبارة عن سلسلة من مجموعات البيانات الفرعية تسمى الأقراص.

ما هو الوضع الحالي Kudus؟

تم تطوير كودو بشكل جيد بالفعل وهو بالفعل مقترن بالكثير من الميزات. ومع ذلك ، ستظل بحاجة إلى بعض عمليات التلميع ، والتي يمكن إجراؤها بسهولة أكبر إذا اقترح المستخدمون بعض التغييرات وأدخلوها.


كودو مفتوح المصدر تمامًا ولديه رخصة أباتشي برمجيات 2.0. تم إعداده أيضًا ليتم إرساله إلى Apache ، بحيث يمكن تطويره كمشروع Apache Incubator. سيسمح هذا لتطويره بالتقدم بشكل أسرع وزيادة نمو جمهوره. بعد فترة زمنية معينة ، سيتم تطوير كودو علنًا وشفافًا. انضم العديد من الشركات مثل AtScale و Xiaomi و Intel و Splice Machine سويًا للمساهمة في تطوير كودو. تضم كودو أيضًا مجتمعًا كبيرًا ، حيث يقدم عدد كبير من الجماهير بالفعل اقتراحاتهم ومساهماتهم. لذلك ، فإن الناس هم الذين يدفعون عملية تطوير كودو إلى الأمام.

كيف يمكن كودو تكملة HDFS / HBase؟

كودو ليس المقصود به أن يكون بديلاً عن HDFS / HBase. تم تصميمه بالفعل لدعم كل من HBase و HFDS والعمل جنبا إلى جنب معهم لزيادة ميزاتهم. وذلك لأن HBase و HDFS لا يزالان بهما العديد من الميزات التي تجعلهما أكثر قوة من كودو على أجهزة معينة. على العموم ، ستحصل هذه الآلات على فوائد أكثر من هذه الأنظمة.

ميزات إطار كودو

الملامح الرئيسية لإطار كودو هي كما يلي:

  • عمليات مسح سريعة للغاية لأعمدة الجدول - تحتاج أفضل تنسيقات البيانات مثل Parquet و ORCFile إلى أفضل إجراءات المسح ، والتي يتم معالجتها بشكل مثالي بواسطة كودو. تحتاج هذه التنسيقات إلى عمليات مسح سريعة لا يمكن أن تحدث إلا عندما يتم تشفير البيانات العمودية بشكل صحيح.
  • موثوقية الأداء - يعمل إطار كودو على زيادة موثوقية Hadoop الشاملة عن طريق إغلاق العديد من الثغرات والثغرات الموجودة في Hadoop.
  • التكامل السهل مع Hadoop - Kudu يمكن دمجها بسهولة مع Hadoop ومكوناتها المختلفة لمزيد من الكفاءة.
  • مصدر مفتوح بالكامل - كودو هو نظام مفتوح المصدر مع رخصة أباتشي 2.0. يحتوي على مجتمع كبير من المطورين من شركات وخلفيات مختلفة ، يقومون بتحديثه بانتظام ويقدمون اقتراحات للتغيير.

كيف يمكن كودو تغيير النظام الإيكولوجي Hadoop؟

تم تصميم Kudu ليناسب النظام البيئي Hadoop ويعزز معالمه. يمكن أيضًا دمجها مع بعض المكونات الرئيسية في Hadoop مثل MapReduce و HBase و HDFS. يمكن لمهام MapReduce إما توفير البيانات أو أخذ البيانات من جداول كودو. يمكن استخدام هذه الميزات في Spark أيضًا. طبقة خاصة تجعل بعض مكونات Spark مثل Spark SQL و DataFrame في متناول كودو. على الرغم من أنه لم يتم تطوير كودو لاستبدال هذه الميزات ، فمن المقدر أنه بعد بضع سنوات ، سيتم تطويره بما يكفي للقيام بذلك. حتى ذلك الحين ، فإن الاندماج بين Hadoop و Kudu مفيد للغاية حقًا ويمكنه سد الثغرات الرئيسية لنظام Hadoop البيئي. (لمعرفة المزيد حول Apache Spark ، راجع كيف يساعد Apache Spark في تطوير التطبيقات السريعة.)


كودو يمكن تنفيذها في مجموعة متنوعة من الأماكن. فيما يلي بعض الأمثلة على هذه الأماكن:

No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك

لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

  • تدفق المدخلات في الوقت شبه الحقيقي - في الأماكن التي تحتاج إلى تلقي المدخلات في أسرع وقت ممكن ، يمكن Kudu القيام بعمل رائع. مثال على هذا المكان هو في الشركات ، حيث تتدفق كميات كبيرة من البيانات الديناميكية من مصادر مختلفة ، ويجب توفيرها بسرعة في الوقت الحقيقي.
  • تطبيقات السلاسل الزمنية ذات أنماط وصول مختلفة - يعتبر Kudu مثاليًا للتطبيقات المستندة إلى السلاسل الزمنية لأنه من الأسهل إعداد الجداول ومسحها ضوئيًا باستخدامها. مثال على هذا الاستخدام هو في المتاجر الكبرى ، حيث يجب العثور على البيانات القديمة بسرعة ومعالجتها للتنبؤ بشعبية المنتجات في المستقبل.
  • الأنظمة القديمة - العديد من الشركات التي تحصل على بيانات من مصادر مختلفة وتخزينها في محطات عمل مختلفة ستشعر بأنها في المنزل مع كودو. كودو سريع للغاية ويمكنه الاندماج بفعالية مع إمبالا لمعالجة البيانات على جميع الآلات.
  • النمذجة التنبؤية - يمكن لعلماء البيانات الذين يريدون منصة جيدة للنمذجة استخدام كودو. يمكن كودو التعلم من كل مجموعة من البيانات التي تغذيها. يمكن للعالم تشغيل وإعادة تشغيل النموذج بشكل متكرر لمعرفة ما يحدث.

خاتمة

على الرغم من أن كودو لا يزال في مرحلة التطوير ، إلا أنه يتمتع بإمكانات كافية ليكون مكونًا إضافيًا جيدًا لمكونات Hadoop القياسية مثل HDFS و HBase. لديها إمكانات كافية لتغيير النظام الإيكولوجي Hadoop بالكامل عن طريق ملء جميع الفجوات وإضافة بعض الميزات الأخرى. كما أنها سريعة وقوية للغاية ويمكن أن تساعد في تحليل وتخزين جداول البيانات الكبيرة بسرعة. ومع ذلك ، لا يزال هناك بعض العمل الذي يتعين القيام به لاستخدامه بشكل أكثر كفاءة.