عند عدم كفاية SQL: عناصر تحكم لمراكز بيانات جديدة ضخمة

المحتوى

نظام ملفات Google: دراسة حالة كبيرة
No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك
نظرة على التكنولوجيا الأساسية
كيف تحقق النظم الكبيرة الأخرى هذا؟
الحفاظ على DFS

يبعد:

يحتاج المطورون والمهندسون إلى العمل بشكل مستمر لتسريع وتحسين الخدمات عبر المنصات التي تجاوزت إلى حد بعيد نماذجهم الكلاسيكية التي تعود إلى حقبة التسعينيات.

مع كل المشاركات حول مراكز بيانات NSA الهائلة التي تحتوي على مجموعات من بتات البيانات حول حياتنا الخاصة ، هناك شيء واحد لم يتم الحديث عنه كثيرًا ، على الأقل على شبكة CNN. إنها تنطوي على مشكلة هندسية نشأت جنبًا إلى جنب مع التكنولوجيا السحابية والبيانات الضخمة ومراكز تخزين البيانات المادية المثيرة للإعجاب التي يتم بناؤها الآن في جميع أنحاء العالم. إذا ما هو؟ حسنًا ، بغض النظر عمن يدير أحد أنظمة تقنية المعلومات الضخمة التي تدير هذه المرافق ، هناك حاجة لأنظمة البرامج التي تساعد جميع هذه البيانات على الدخول والخروج من خط الأنابيب بسرعة. تمثل هذه الحاجة أحد أكثر الأسئلة إثارة للاهتمام في تكنولوجيا المعلومات أو الألغاز التي تواجه المحترفين اليوم.

كما يشير العديد من الخبراء ، فإن الطلب الشديد اليوم على معالجة البيانات يتجاوز النهج التقليدية. ببساطة ، لن يؤدي استخدام هياكل وأدوات قاعدة البيانات البسيطة مثل واجهة استعلام SQL إلى توفير ما يكفي من قوة المعالجة أو الوظيفة لأمثال أنظمة الملكية التي تطورت خلال السنوات القليلة الماضية. تحتاج أرشيفات شركات التكنولوجيا الكبرى اليوم إلى تكنولوجيا قابلة للتطوير بشكل كبير. إنهم بحاجة إلى أدوات معالجة البيانات التي يمكنها إدخال نتائج وإخراجها في وحدة تخزين أعلى بكثير مما يمكن أن يسهله خادم واحد. إنهم بحاجة إلى حلول يمكن تعزيزها سريعًا لتحقيق النمو ، وهي حلول تتضمن مستويات معقدة من الذكاء الاصطناعي ، وهي حلول مصممة لإدارة سهلة بواسطة قسم تكنولوجيا المعلومات.

والسؤال هو ، كيف تغزو الشركات والهيئات الحكومية حدود مسار معالجة البيانات التقليدية؟ ألقِ نظرة هنا على خيار واحد واعٍ للغاية: البرنامج الذي يتعامل مع البيانات الضخمة وإدارة مراكز البيانات المتعددة.

نظام ملفات Google: دراسة حالة كبيرة

تعد تقنية الملكية التي تستخدمها Google للوصول إلى مراكز البيانات الخاصة بها واحدة من أفضل الأمثلة على النماذج الشائعة للتعامل مع البيانات الضخمة وإدارة مراكز البيانات المتعددة. تم تصميم نظام ملفات Google (GFS) ، الذي تم تطويره في عام 2003 ، لدعم الحجم الهائل من التعديلات عالية السرعة على أنظمة البيانات التي تعد جزءًا من الحصول على الكثير من المعلومات الجديدة داخل وخارج النظام الأساسي حيث ينقر ملايين المستخدمين على نفس الوقت. يشير الخبراء إلى هذا على أنه نظام ملفات موزع ، ويستخدمون مصطلح "تخزين كائنات البيانات" لوصف هذه التقنيات شديدة التعقيد. في الواقع ، ومع ذلك ، فإن هذه المصطلحات لا تخدش السطح من حيث وصف ما هو في العمل.

بشكل فردي ، قد لا تكون الميزات والمكونات التي تشكل نظامًا مثل GFS رائدةً بعد الآن ، لكنها معقدة. تمت تغطية العديد منها على هذا الموقع باعتباره ابتكارات جديدة نسبيًا تشكل جزءًا من العمل الأساسي لنظام عالمي جديد دائمًا ومتواصل دائمًا لتكنولوجيا المعلومات. بشكل جماعي ، يعد نظام مثل GFS أكثر بكثير من مجموع أجزائه: إنه شبكة غير مرئية إلى حد كبير ولكن معقدة للغاية تعج بأجزاء البيانات الفردية التي يتم طرحها بهذه الطريقة ، وذلك في عملية من شأنها ، إذا تم تصميمها بشكل مرئي بشكل كامل ، أن تبدو فوضى. يستلزم فهم الأماكن التي تسير فيها البيانات الكثير من الطاقة والالتزام ، لأن هؤلاء الذين يديرون محطات المعركة في هذه الأنظمة سوف يعترفون بسهولة.

"هناك الكثير من التفاصيل التي لها تأثير عميق على مجالات قابلية الاستخدام - بما في ذلك التجزئة الخارجية والداخلية والتحديثات القائمة على السجل مقابل الموضع ومستويات تناسق المعاملات - لتلخيص الطريقة التي تعمل بها في جملة واحدة موجزة يقول مومتشيل ميخائيلوف ، الرئيس التنفيذي والمؤسس المشارك لشركة Sanbolic.

"نظام الملفات الموزعة هو إما مجمع موزع لمساحات الأسماء المحلية والمساحات الخالية من العقد المشاركة ، أو نظام ملفات محلي يعمل على عدة عقد للوصول إلى التخزين المشترك بمساعدة مكون إدارة قفل موزع" ، قال.

Kerry Lebel هو مدير المنتجات الأول في Automic ، وهي شركة تشتهر بأنظمة التشغيل الآلي القابلة للتطوير. يقول Lebel إنه على الرغم من دقة وصف DFS كنظام يقوم ببساطة بتخصيص عبء العمل على الخوادم المتصلة بأجزاء منخفضة التكلفة من الأجهزة ، إلا أنه لا يروي القصة بأكملها.

No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك

لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

"ما ينتهي بك المطاف في عداد المفقودين هو كل شيء بارد من كيف إنهم يفعلون ما يفعلون ".

عند الابتعاد عن التفاصيل الفنية وفكر فقط في الفكرة الأساسية وراء نظام الملفات الموزع ، فإن "العامل اللطيف" الذي يتحدث عنه Lebel واضح. تحل أنظمة معالجة البيانات الكبيرة هذه محل أنظمة الملفات / المجلدات القديمة بهياكل لا تتضمن فقط أنظمة تسليم متعددة ، ولكن أيضًا نهج "موجه للكائنات" ، حيث يتم هرس عدد كبير من الوحدات هنا وهناك لمنع الاختناقات.

فكر ، على سبيل المثال ، في نظام طرق سريع على أحدث طراز ، حيث لا يتم فقط تحويل مئات الآلاف من السيارات إلى مسار متعدد المسارات مباشرةً ، ولكن يتم تجميعها في أوراق البرسيم الصغيرة أو روافد الثور الصغيرة ، التي يتم تدويرها وإرسالها نحو وجهاتهم على مجموعة متنوعة من الطرق الالتفافية. من السماء ، يبدو كل شيء مُصممًا كساعة سويسرية. وهذا هو نوع النموذج البصري الذي ينظر إليه المهندسون عندما يحلمون بطرق جديدة لتوجيه المعلومات حول القيود عن طريق "الركل" إلى مستويات مختلفة من مخطط احتواء البيانات متعدد المستويات. مع ترك المواصفات جانباً ، هذا هو هدف المستوى الأعلى لنظام معالجة: الحفاظ على تلك الكائنات القائمة بذاتها مع نقل بيانات التعريف المضمّنة بأقصى سرعة إلى حيث يجب أن تكون ، للوصول إلى أهداف الاتساق ، أو إرضاء مستخدم نهائي ، أو حتى لإبلاغ مراقبة المستوى الأعلى أو التحليل.

نظرة على التكنولوجيا الأساسية

مقالة لشون غالاغر ظهرت على Ars Technica تقسم تصميم GFS إلى أجزاء أكثر قابلية للإدارة إلى حد ما ، وتلميحات إلى ما تحت الورقة في Google.

يبدأ GFS بنموذج متكرر ومقاوم للخطأ في عمليات القراءة والكتابة للبيانات. الفكرة هنا هي أنه بدلاً من كتابة تحديث محدد لمحرك واحد ، تكتب الأنظمة الجديدة أجزاء كبيرة من البيانات إلى وجهات متعددة. وبهذه الطريقة ، إذا فشلت إحدى الكتابة ، فستبقى كتب أخرى. لاستيعاب ذلك ، يقوم أحد مكونات الشبكة الأساسية بمزرعة معالجة البيانات إلى وحدات تابعة أخرى ، مع إعادة تجميع البيانات عندما يقوم العميل "بالاتصال بها". كل هذا ممكن بفضل بروتوكول بيانات التعريف الذي يساعد على تحديد مكان وجود تحديثات معينة ونتائج النقل داخل النظام الأكبر.

جانب آخر مهم للغاية من هذا هو كيف هذه النظم المكررة الثقيلة فرض تناسق البيانات. كما يلاحظ غالاغر ، فإن تصميم GFS يضحّي ببعض الاتساق بينما لا يزال "يفرض الذرية" ، أو يحمي مبدأ كيفية تحديث البيانات عبر وحدات تخزين متعددة لتتوافق مع مرور الوقت. يبدو أن "نموذج التناسق المريح" من Google يتبع النظرية الأساسية لنموذج BASE ، والذي يوفر مزيدًا من المرونة في مقابل إطار زمني أطول لفرض التناسق.

كيف تحقق النظم الكبيرة الأخرى هذا؟

يقول ميخائيلوف: "عندما يتم الوصول إلى نطاق واسع بما فيه الكفاية ، تصبح التناقضات أو الفساد في البيانات أمراً لا مفر منه". "لذلك ، يجب أن يكون الهدف الأساسي لأنظمة الملفات الموزعة هو القدرة على تنفيذ أكبر عدد ممكن من العمليات في ظل وجود الفساد ، مع توفير طرق فعالة للتعامل مع الفساد في وقت واحد." يذكر ميخائيلوف أيضًا الحاجة إلى الحفاظ على الأداء من خلال التنفيذ الدقيق للتكرار.

وقال ميخائيلوف: "على سبيل المثال ، فإن إنشاء بيانات وصفية (بيانات حول البيانات) على كل قرص يمكّن ذلك القرص من إعادة بناء هيكل البيانات المناسب له في حالة تلف نسخته المتطابقة". "بالإضافة إلى ذلك ، يمكن استخدام مستويات RAID لمحاربة فشل التخزين في مجمع نظام الملفات أو مستويات إدارة وحدة التخزين المشتركة."

في مناقشة نموذج تناسق آخر ، يركز Lebel على نظام يسمى نظام الملفات الموزعة Hadoop (HDFS) ، والذي يسميه "معيار الصناعة الفعلي".

في LebFS ، يقول Lebel ، يتم نسخ كل كتلة بيانات ثلاث مرات على عقد مختلفة ، وعلى جهازي رفوف مختلفين. يتم فحص البيانات من النهاية إلى النهاية. يتم الإبلاغ عن حالات الفشل لـ NameNode ، وهو معالج بيانات يتخلص من الكتل الفاسدة ويقوم بإنشاء كتل جديدة.

كل هذا يدعم أنواع "البيانات النظيفة" المهمة جدًا لسلامة أحد أنظمة البيانات الجماعية.

الحفاظ على DFS

نظرة أخرى مختلفة تمامًا على GFS تأتي من مقال كتبه Wired ستيفن ليفي في أكتوبر 2012. إنه أكثر إيجازًا في وصف نهج البرنامج للتعامل مع شبكة Google من أعلى إلى أسفل الجماعي.

يكتب ليفي "على مر السنين" ، قامت Google أيضًا ببناء نظام برمجي يسمح لها بإدارة خوادمها التي لا تعد ولا تحصى كما لو كانت كيانًا عملاقًا واحدًا ، ويمكن لمطوريها الداخليين أن يتصرفوا مثل أسياد الدمى ، بإرسال الآلاف من أجهزة الكمبيوتر لأداء المهام بسهولة مثل تشغيل جهاز واحد. "

يتضمن القيام بذلك أيضًا أطنانًا من الصيانة المستندة إلى الإنترنت والبيئة ، من فرق اختبار مخصصة تحاول "كسر" أنظمة الخادم ، إلى درجات حرارة يتم التحكم بها بعناية عبر قاعات تشفير البيانات.

يذكر ليفي أيضًا التقنيات التكميلية لـ GFS ، مثل MapReduce ، وهي أداة للتطبيقات السحابية ، و Hadoop ، محرك التحليلات الذي يشارك بعض مبادئ التصميم مع GFS. هذه الأدوات لها تأثيرها الخاص على كيفية تصميم أنظمة معالجة مركز البيانات الضخمة وما يحتمل أن يظهر في المستقبل. (تعرف على المزيد حول هذه التقنيات في تطور البيانات الضخمة.)

يعتقد Michailov أن MapReduce لديه القدرة على دعم أنظمة مركز البيانات المتزايدة ، ويتحدث عن "تنفيذ واحد" لأنظمة الملفات المشتركة والمجمعة التي يمكن أن "تحافظ على عقد أسماء نظام الملفات المجمع في مجموعة مشتركة مع SSDs للتخزين ".

من جانبه ، يرى Lebel الابتعاد عن معالجة الدُفعات (الطريقة المدعومة من Hadoop) إلى معالجة الدفق ، مما يجعل عمليات البيانات هذه أقرب إلى الوقت الفعلي.

يقول Lebel ، "كلما تمكنا من معالجة البيانات وجعلها متاحة لصناع القرار في الشركات أو لعملائنا ، ستكون هناك ميزة تنافسية أكبر" ، كما يقول Lebel ، الذي يقترح أيضًا استبدال مصطلحات المعالجة أعلاه بشروط تركز على المستخدم النهائي. من خلال التفكير في الأنشطة "المتزامنة" ، أو الأنشطة التي تمت مزامنتها مع إجراءات المستخدم النهائي ، والأنشطة "غير المتزامنة" الأكثر مرونة من حيث التنفيذ ، تقول Lebel إن بإمكان الشركات استخدام اتفاقيات مستوى الخدمة والموارد الأخرى لتحديد كيفية عمل نظام خدمة معين .

ما يتلخص في كل هذا هو ، إلى حد ما ، أن المطورين والمهندسين يحتاجون إلى العمل باستمرار لتسريع وتحسين الخدمات عبر المنصات التي نمت إلى ما هو أبعد من النماذج التقليدية التي تعود إلى حقبة التسعينيات. وهذا يعني النظر بشكل دقيق في آلية البيانات واختراق الاختناقات بطرق لا تدعم فقط عدد السكان المتزايد ، ولكن هذا التغيير الهائل يحدث بسرعة كسر السرعة التي يطلق عليها المثقفون "الثورة الصناعية القادمة". من المحتمل أن ينتهي الأمر بأولئك الذين يحققون أكبر تقدم على هذه الجبهات إلى الأسواق واقتصادات المستقبل.