مفتاح جودة تحليلات البيانات الكبيرة: فهم مختلف - نسخة من TechWise الحلقة 4

مؤلف: Roger Morrison
تاريخ الخلق: 17 شهر تسعة 2021
تاريخ التحديث: 10 قد 2024
Anonim
مفتاح جودة تحليلات البيانات الكبيرة: فهم مختلف - نسخة من TechWise الحلقة 4 - تقنية
مفتاح جودة تحليلات البيانات الكبيرة: فهم مختلف - نسخة من TechWise الحلقة 4 - تقنية

المحتوى


المصدر: Jakub Jirsak / Dreamstime.com

يبعد:

يناقش المضيف إريك كافاناغ تحليلات البيانات الضخمة مع خبراء الصناعة.

إريك: سيداتي وسادتي ، إنها نهاية العام 2014 - على الأقل ، تقريبًا. إنه آخر نشرات الويب الخاصة بنا لهذا العام ، أيها الأشخاص! مرحبًا بك في TechWise! نعم فعلا اسمي اريك كافانا. سوف أكون مشرفك على البث الشبكي الرائع ، الناس. أنا حقا ، متحمس جدا. لدينا اثنين من المحللين المذهلين عبر الإنترنت ، وشركتين عظيمتين - المبدعين الحقيقيين في هذا النظام البيئي الكبير للبيانات. وسوف نتحدث عن مفتاح تحليلات البيانات الضخمة وهو فهم الاختلاف. لذلك ، دعونا نمضي قدمًا ونغوص مباشرةً ، أيها الناس.


لدينا العديد من مقدمي العروض. كما ترون ، هناك حقا لك في القمة. يتصل مايك فيرغسون من المملكة المتحدة ، حيث اضطر إلى الحصول على امتيازات خاصة للبقاء في مبنى مكتبه في وقت متأخر. هذا هو الوقت المتأخر بالنسبة له. لقد حصلنا على الدكتور روبن بلور ، كبير محللينا هنا في مجموعة بلور. وسيكون لدينا جورج كوروجيدو ، الرئيس التنفيذي والمؤسس المشارك لـ RedPoint Global ، وكيث رينيسون ، كبير مهندسي الحلول في معهد SAS. هذه هي الشركات الرائعة ، والناس. هذه هي الشركات التي الابتكار حقا. وسنقوم بحفر بعض الأشياء الجيدة لما يحدث الآن في عالم البيانات الضخمة بكامله. ودعونا نواجه الأمر ، البيانات الصغيرة لم تختف. ولهذا ، اسمحوا لي أن أقدم ملخصي التنفيذي هنا.



لذلك ، هناك تعبير فرنسي قديم: "كلما تغيرت الأشياء ، كلما بقيت على حالها." ودعنا نواجه بعض الحقائق هنا - البيانات الكبيرة لن تحل مشاكل البيانات الصغيرة. بيانات الشركات الصغيرة لا تزال موجودة. ما زال في كل مكان. إنه وقود العمليات لاقتصاد المعلومات اليوم. وتقدم البيانات الضخمة مجاملة لما يسمى ببيانات الشركات الصغيرة ، ولكنها لا تحل محل البيانات الصغيرة. لا يزال يجري حولها. يعجبني الكثير من الأشياء المتعلقة بالبيانات الضخمة ، وخاصة الأشياء مثل البيانات التي يتم إنشاؤها بواسطة الجهاز.


واليوم ، من المحتمل أن نتحدث قليلاً عن بيانات وسائل التواصل الاجتماعي ، وهي أيضًا عناصر قوية جدًا. وإذا كنت تفكر ، على سبيل المثال ، في كيفية تغيير العمل الاجتماعي ، فما عليك سوى التفكير في ثلاثة مواقع ويب سريعة هنا: LinkedIn و. فكر في حقيقة أنه قبل خمس سنوات ، لم يكن أحد يفعل هذا النوع من الأشياء. هو الطاغوت المطلق في هذه الأيام. ، بالطبع ، ضخم. إنه عملاق. وبعد ذلك ، ينكدين هو المعيار الفعلي لشبكات الشركات والاتصالات. هذه المواقع هي مواقع متعددة الإمكانات ، ولكي تتمكن من الاستفادة من البيانات الموجودة فيها ، فإنها ستحيي بعض وظائف تغيير اللعبة. سيؤدي فعلاً الكثير من الخير لكثير من المنظمات - على الأقل تلك التي تستفيد منه.



No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك

لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

لذلك ، الحكم - الحكم لا يزال يهم. مرة أخرى ، البيانات الكبيرة لا تلغي الحاجة إلى الحكم. بصراحة تامة ، هناك حاجة جديدة تمامًا للتركيز على كيفية إدارة عالم البيانات الضخمة. كيف تتأكد من تطبيق الإجراءات والسياسات الخاصة بك ؛ أن الأشخاص المناسبين يحصلون على حق الوصول إلى البيانات الصحيحة ؛ أن لديك جهات اتصال ، هل لديك سلالات مشتركة هنا؟ أنت تعرف بالفعل من أين تأتي البيانات ، وما الذي حدث لها. وهذا كله يتغير.


لقد أعجبت بصراحة حقًا ببعض ما رأيته هناك في هذا العالم الجديد كله الذي يستفيد من نظام Hadoop البيئي ، والذي ، بالطبع ، أكثر بكثير من التخزين من حيث الوظيفة. Hadoop هو محرك حسابي كذلك. ويتعين على الشركة معرفة كيفية تسخير هذه القوة الحسابية ، تلك القدرة على المعالجة الموازية. سيفعلون أشياء رائعة حقًا. سنتعلم عن ذلك اليوم.


الشيء الآخر الذي يجب ذكره ، هذا شيء تحدث عنه الدكتور بلور في الماضي القريب ، هو أن موجة الابتكار لم تنته بعد. لذلك ، رأينا الكثير من الاهتمام ، بالطبع ، حول Hadoop. لقد رأينا شركات مثل Cloudera و Hortonworks ، كما تعلمون ، تصنع بالفعل بعض الأمواج. إنهم يطورون شراكات مع ، حسناً ، الشركات تحت الطلب اليوم بصراحة تامة. وهم يطورون شراكات مع الكثير من الناس. لكن موجة الابتكار لم تنته بعد. هناك المزيد من المشاريع التي تخرج من مؤسسة Apache والتي لا تقوم بتغيير نقطة النهاية فقط ، إذا صح التعبير - التطبيقات التي يستخدمها الناس - ولكن البنية التحتية نفسها.


لذلك ، فإن تطوير YARN بالكامل - وهو مفاوض آخر حول الموارد - يشبه حقًا نظام التشغيل للبيانات الضخمة. إنها صفقة كبيرة وكبيرة. لذلك ، سوف نتعلم كيف يغير ذلك الأمور أيضًا. لذا ، فقط بضع بتات من النصائح الواضحة هنا ، كن حذرًا من العقود الطويلة للمضي قدمًا ، كما تعلمون ، ستكون العقود التي مدتها خمس سنوات وعشرة أعوام هي الموجة ، المسار الذي يبدو لي. سوف ترغب في تجنب الحجز بأي ثمن. سنتعرف على كل ذلك اليوم.


لذا ، فإن أول محلل لدينا يتحدث اليوم - أول متحدث لدينا عن البرنامج بأكمله هو Mike Ferguson ، حيث اتصل من المملكة المتحدة. مع ذلك ، سأقوم بتسليم المفاتيح ، مايك ، ويتيح لك إخراجها. مايك فيرغسون ، الكلمة لك.


مايك ، أنت هناك؟ قد تكون على كتم الصوت. انا لا اسمعه قد يتعين علينا الاتصال به مرة أخرى. وسنقفز مباشرةً إلى شرائح Robin Bloor. روبن ، سوف أحصل على مرتبة مايك فيرجسون الفقيرة هنا. سأذهب لثانية واحدة.


هل هذا أنت ، مايك؟ هل يمكنك سماعنا؟ وقام خلاله. أعتقد أنه سيتعين علينا المضي قدمًا والمضي قدمًا مع روبن أولاً. لذلك ، عقد في ثانية واحدة ، والناس. سوف أسحب بعض الروابط إلى الشرائح هنا خلال دقيقتين أيضًا. لذلك مع ذلك ، اسمح لي بتسليم المفاتيح إلى Robin Bloor. روبن ، يمكنك الذهاب أولاً بدلاً من مايك ، وسأقوم بالاتصال بـ مايك في الثانية.


روبن: حسنًا.


اريك: انتظر ، روب. اسمحوا لي أن المضي قدما والحصول على الشريحة الخاصة بك هنا ، روب. سيستغرق الأمر ثانية.


روبن: حسنًا.


اريك: نعم. يمكنك التحدث إلى حد ما حول ما نتعامل معه ، مع ذلك ، فيما يتعلق بالحوكمة. أعلم أنك ستتحدث عن الحكم. عادة ما يتم التفكير في خدع بيانات الشركات الصغيرة. حتى الآن ، لقد حصلت على الشريحة ، روبن. لا تحرك أي شيء. وهنا تذهب. الكلمة لك. خذه بعيدا.


روبن: حسنًا. بلى. أعني ، حسنًا ، لقد تم ترتيبنا مسبقًا ، كان مايك يتحدث عن الجانب التحليلي ، وسأتحدث عن جانب الحوكمة. إلى حد ما ، يتبع نظام الإدارة التحليلات ، بمعنى أنه سبب قيامك بأشياء البيانات الكبيرة ، والسبب في قيامك بتجميع كافة البرامج للقيام بالتحليلات ، هو حيث تكون القيمة.


هناك مشكلة. والمشكلة هي ، كما تعلمون ، أن البيانات يجب أن تكون مشاحنات. يجب أن يتم تنظيم البيانات. يجب تجميع البيانات وإدارتها بطريقة تمكن التحليلات من أن تحدث بثقة تامة - أعتقد ، هي الكلمة. لذا ، اعتقدت أنني كنت أتحدث عن جانب الحوكمة في المعادلة. أعتقد أن الشيء الذي أقوله ، حقًا ، هو أن الحكم كان يمثل مشكلة بالفعل ، كما تعلمون. كانت الحوكمة بالفعل مشكلة ، وبدأت تصبح مشكلة في لعبة مستودع البيانات بأكملها.


ما حدث بالفعل هو تحوله إلى مشكلة أكبر بكثير. والسبب وراء تحوله إلى مشكلة أكبر بكثير بالإضافة إلى المزيد من البيانات ، لكن أعني ، هذه هي الأسباب حقًا. عدد مصادر البيانات قد توسعت بشكل كبير. في السابق ، كانت مصادر البيانات التي حددناها محددة إلى حد كبير بأي شيء يغذي مستودع البيانات. عادة يتم تغذية مستودع البيانات بواسطة أنظمة RTP. من الممكن القليل من البيانات الخارجية ، وليس الكثير.


الآن ، لقد ذهبنا إلى عالم حيث ، كما تعلمون ، سوق بيانات قد دخل حيز الوجود في الوقت الحالي ، وبالتالي ، سيكون هناك تداول في البيانات. لقد حصلت بالفعل على كميات وأحمال من مصادر تدفق البيانات المختلفة التي يمكنك جلبها بالفعل إلى المؤسسة. لقد حصلنا على بيانات الوسائط الاجتماعية التي نقلتها ، وأقلعت من حسابها الخاص ، إذا جاز التعبير. أعني ، أن عددًا هائلاً من القيمة في مواقع التواصل الاجتماعي هو في الواقع المعلومات التي يجمعونها وبالتالي يمكنهم إتاحتها للناس.


لقد اكتشفنا أيضًا ، كما تعلم ، أنه موجود بالفعل. لدينا بالفعل ملفات السجل هذه ، كما تعلمون ، في ظهور Splunk. وبعد قليل ، أصبح من الواضح أن هناك قيمة في ملف السجل. لذلك ، كانت هناك بيانات داخل المنظمة - والتي يمكن أن نسميها مصادر بيانات جديدة وكذلك مصادر خارجية. لذلك ، هذا شيء واحد. وهذا يعني حقًا ، كما تعلمون ، أياً كانت قواعد إدارة البيانات الموجودة لدينا من قبل ، فسوف يتعين أن تكون ، بطريقة أو بأخرى ممتدة ، وستستمر الحاجة إلى تمديدها لكي تتحكم فعليًا في البيانات. لكننا بدأنا الآن في التجمع بطريقة أو بأخرى.


وتنزل هذه القائمة لدينا تدفق وسرعة وصول البيانات. أعتقد أن أحد أسباب شعبية Hadoop هو أنه يمكن استخدامه إلى حد كبير لالتقاط الكثير من البيانات. يمكن أن تستوعب أيضًا سرعة البيانات ، إذا لم تكن في حاجة إلى استخدامها فعليًا على الفور ، فهذه بيئة موازية كبيرة ومتوازنة. لكنك حصلت أيضًا على حقيقة أن هناك قدرًا لا بأس به من تحليلات البث الجاري الآن. اعتادت أن تكون القطاعات المصرفية المهتمة بتدفق التطبيقات ، لكنها أصبحت الآن عالمية. ويبحث الجميع في دفق التطبيقات بطريقة أو بأخرى أو نحو ذلك ، وهي وسيلة محتملة لاشتقاق القيمة من البيانات وإجراء التحليلات للمؤسسة.


لدينا بيانات غير منظمة. الإحصاء ، وهو عادة جزء من 10 ٪ فقط من بيانات العالم كان في قواعد البيانات العلائقية. الآن ، أحد الأسباب الرئيسية لذلك كان في الغالب أنه غير منظم في الواقع ، وكان - جزء كبير منه موجودًا على شبكة الإنترنت ، لكنه متناثر كثيرًا حول مختلف المواقع. وقد أثبتت هذه البيانات أنها قابلة للتحليل أيضًا ، ويمكن استخدامها أيضًا. ومع ظهور تقنية Symantec التي تزحف تدريجياً إلى الموقف ، ستصبح أكثر وأكثر.لذلك ، هناك حاجة بالفعل لجمع وإدارة البيانات غير المهيكلة ، وهذا يعني أنها أكبر بكثير مما كانت عليه من قبل. لدينا بيانات اجتماعية ذكرتها بالفعل ، ولكن النقطة في ذلك ، النقطة الرئيسية في ذلك ، هي أنها ربما تحتاج إلى التنظيف.


لدينا بيانات إنترنت الأشياء. هذا نوع من المواقف المختلفة. من المحتمل أن يكون هناك الكثير من ذلك ، لكن الكثير منه سيظل موزعًا في مكان ما بالقرب من المكان الذي يدير فيه. لكنك تريد أيضًا ، بطريقة أو بأخرى ، أن تسحبه لإجراء التحليلات داخل المؤسسة على البيانات. لذلك ، أضاف ذلك عاملًا آخر. وسيتم تنظيم تلك البيانات بطريقة مختلفة ، لأنها على الأرجح - سيتم تنسيقها على الأرجح في JSON أو في XML ، بحيث تعلن نفسها. وليس فقط ، بطريقة أو بأخرى ، أننا نقوم فعلاً بسحب البيانات إلى الداخل وقادرنا على القيام بنوع من المخطط عند قراءة هذا الجزء المحدد من البيانات.


لقد واجهنا مشكلة المصدر ، وهذه مسألة تحليلات. لا يمكن أن تكون النتائج في أي تحليل تقوم به للبيانات حقًا - إذا أردت - معتمدة ، وتعتبر صالحة ، إلا إذا كنت تعرف مصدر البيانات. أعني أن هذا مجرد احتراف من حيث نشاط علماء البيانات. لكنك تعلم ، من أجل الحصول على مصدر للبيانات ، هذا يعني أنه يتعين علينا بالفعل التحكم في البيانات والاحتفاظ بنسخة عن نسبها.


لدينا مسألة قوة الكمبيوتر وما يماثله وكل ما يفعله هو جعل كل شيء يسير بشكل أسرع. المشكلة هي أنه من الواضح أن بعض العمليات التي بدأناها قد تكون بطيئة للغاية بالنسبة لكل شيء آخر. لذلك ، ربما هناك عدم تطابق من حيث السرعة.


لقد حصلنا على ظهور التعلم الآلي. للتعلم الآلي تأثير فعلي في جعل التحليلات لعبة مختلفة عما كانت عليه من قبل. لكن لا يمكنك استخدامها إلا إذا كنت تمتلك القوة.


لقد حصلنا على حقيقة عبء العمل التحليلي الجديد. لقد حصلنا على عالم موازٍ وتحتاج بعض الخوارزميات التحليلية إلى التنفيذ بالتوازي لتحقيق أقصى تأثير. وبالتالي ، فإن المشكلة في الواقع هي التحكم في كيفية قيامك بالفعل ، بطريقة أو بأخرى ، بدفع البيانات حولها ، وجعل البيانات إذا كانت متوفرة. وحيث تنفذ أعباء العمل التحليلية بالفعل ، لأنك ربما تفعل ذلك ضمن قاعدة البيانات. لذلك ، قد تقوم بذلك ضمن التطبيقات التحليلية.


لذلك ، هناك سلسلة كاملة من تحديات الحكم. ما فعلناه هذا العام - كان البحث الذي أجريناه هذا العام حول بنية البيانات الضخمة. وعندما نحاول بالفعل تعميمه ، فإن الاستنتاج الذي توصلنا إليه - الرسم التخطيطي الذي توصلنا إليه يبدو مثل هذا إلى حد كبير.


لن أخوض في هذا الأمر ، خاصة وأن مايك سيفعل قدرًا لا بأس به من بنية البيانات الخاصة بالتحليلات. لكن ما أحب الناس فعلاً أن يركزوا عليه فقط هو هذه المنطقة السفلية حيث نقوم ، بطريقة أو بأخرى ، بتجميع البيانات. لدينا شيء أود الإشارة إليه هو مصفاة البيانات أو مركز معالجة البيانات. وهذا هو المكان الذي يحدث فيه الحكم. لذلك ، كما تعلمون ، إذا ركزنا على ذلك ، يبدو الأمر كذلك. كما تعلمون ، يتم تغذيتها ببيانات من مصادر داخلية وخارجية. يجب أن يكون المحور ، من الناحية النظرية ، يأخذ جميع البيانات التي يتم إنشاؤها. يجب أن يتم دفقه وإدارته كما يتم دفقه إذا كنت بحاجة إلى إجراء تحليلات وتدفق البيانات ، ثم تمريرها إلى المحور. وإلا ، كل هذا يأتي إلى المحور. وهناك عدد من الأشياء التي تجري - والتي تحدث في المحور. ولا يمكنك الحصول على قدر معين من التحليلات وإجراء SQL في المحور. لكنك بحاجة أيضًا إلى محاكاة البيانات الافتراضية في كل خلية لنقل البيانات إلى مناطق أخرى. ولكن قبل حدوث أي من ذلك ، فأنت بحاجة فعلاً ، بطريقة أو بأخرى ، للقيام بتحسين إعداد البيانات. يمكنك تسميته إعداد البيانات. إنه أكبر بكثير من ذلك. هذه هي الأشياء التي أعتقد أنها تتضمن.


لدينا إدارة النظام وإدارة الخدمات ، إلى حد ما ، أن هذا هو الجزء الرئيسي من طبقة البيانات ، ثم يتعين علينا في الواقع تطبيق جميع الأنظمة التي تدير مجهود إدارة نظام التشغيل الذي قمنا به تقليديًا لجميع الأنظمة التشغيلية. لكننا نحتاج أيضًا ، بطريقة أو بأخرى ، إلى مراقبة الأمور الأخرى الجارية للتأكد من الوفاء بمستويات الخدمة المختلفة هذه ، لأنه لا بد من تحديد مستويات الخدمة المحددة أو أي نوع من التحليلات التي يتم تنفيذها أو أن بيانات استقصاء المعلومات هي يجري العمل.


نحن بحاجة إلى مراقبة الأداء وإدارته. إذا كان هناك أي شيء آخر ، فنحن بحاجة إلى معرفة موارد الكمبيوتر الإضافية التي قد نحتاج إلى تخصيصها في نقاط مختلفة في الوقت المناسب. ولكن أيضًا ، يوجد الكثير من عبء العمل هنا في الواقع الفعلي ، ومعقد إلى حد ما ويتنافس مع بعضنا البعض على الموارد. هناك شيء متطور للغاية يجب القيام به في هذا المجال.


لدينا الآن دورة حياة البيانات بطريقة لم نواجهها من قبل. الصفقة هنا هي في الحقيقة تتجاوز أي شيء آخر ، أننا لم نجمع البيانات ونرميها من قبل. لقد تميل إلى جمع البيانات التي احتجناها وربما احتفظنا بها ، ثم أرشفتها. ولكن الكثير من ما سنقوم به من هنا هو استكشاف البيانات. وإذا كنت لا تريد البيانات ، فلندفنها بعيدًا. لذلك ، تختلف دورات حياة البيانات تبعًا للموقف ، ولكنها ستكون أيضًا تجميعًا سيئًا للبيانات. لذلك ، كما تعلمون ، معرفة من أين جاء التجميع من ... ما هو مصدر التجميع وما إلى ذلك. هذا كله ضروري.


نسب البيانات يضفي بشكل طبيعي. بدونها ، يجب أن تعرف المشاكل ، وبالتالي فإن البيانات ... يجب أن نعرف أن البيانات صالحة ، ولكن مع مدى موثوقيتها بالفعل.


لقد حصلنا أيضًا على تعيين البيانات ، لأن الكثير من البيانات ستكون في الواقع بطريقة أو بأخرى. وهذا ، إذا أردت ، يتعلق الأمر إلى حد ما في MDM. الأمر أكثر تعقيدًا الآن ، لأنه عندما تحصل على عدد هائل من البيانات المحددة بواسطة JSON أو بناءً على مخطط XML الخاص بنا في القراءة ، فإنك ستحتاج ، بطريقة أو بأخرى ، إلى أن تكون نشطًا جدًا نشاط تعيين البيانات يحدث.


هناك موقف لإدارة البيانات الوصفية أكثر من MDM ، لأن هناك حاجة ، بطريقة أو بأخرى ، إلى بناء ما أريد أن أفكر فيه الآن كنوع من مستودع بيانات التعريف لكل ما يهمك. الاكتشاف ، لأن بعض البيانات لن يتم الإعلان عنها بالضرورة ، ونحن نريد استخدامها على الفور. وبعد ذلك ، هناك تطهير للبيانات ، وهو أمر ضخم مثل سلسلة من الأشياء التي يمكن للمرء القيام بها هناك. وهناك أمن للبيانات أيضًا. يجب تأمين كل هذه البيانات إلى مستوى مقبول ، وقد يعني ذلك حتى في حالات معينة - على سبيل المثال ، تشفير الكثير من القيم.


لذلك ، كل عبء العمل هذا هو في الواقع إمبراطورية الحكم. كل هذا ، بطريقة أو بأخرى ، يجب أن يحدث في نفس الوقت أو قبله ، كل نشاطنا التحليلي. هذا هو عدد كبير من التطبيقات المنسقة. إنه نظام بحد ذاته. ومن ثم ، فإن أولئك الذين لا يفعلون ذلك في نقاط مختلفة في الوقت المناسب سيعانون من نقص في ذلك مع تقدمهم ، لأن الكثير من هذه الأشياء ليست اختيارية حقًا. ينتهي بك المطاف مع زيادة الانتروبيا إذا كنت لا تفعل ذلك.


لذلك ، فيما يتعلق بتحليل البيانات والحوكمة ، فإن الشيء الذي أقوله هو أنه في الحقيقة ، تغسل اليد الأخرى. بدون الحوكمة ، لن تتعثر التحليلات و BI في الوقت المناسب. وبدون تحليلات و BI ، لن تكون هناك حاجة كبيرة للتحكم في البيانات على أي حال. لذلك ، فإن شيئين حقا المشي جنبا إلى جنب. كما يقولون في الشرق الأوسط ، "تغسل إحدى اليد الأخرى". وهذا في الواقع هو كل ما يجب أن أقوله. آمل - على أمل ، لقد استعدنا الآن مايك.


إريك: نحن نفعل. مايك ، أفترض أنك هناك. انا ذاهب لدفع الشريحة الخاصة بك لأعلى.


مايك: أنا كذلك. حسنا ، هل يمكنك سماعي؟


إريك: نعم ، يمكنني سماعك. أنت تبدو رائعة. لذلك ، اسمحوا لي أن أعرض ... هناك تذهب. وأنت الآن المقدم. خذه بعيدا.


مايك: حسنا ، شكرا لك! صباح الخير ، مساء الخير ، مساء الخير لكم جميعا. سامح الفواق في البداية. لسبب ما ، شعرت بالغموض وبإمكاني رؤية الجميع لكنهم لم يتمكنوا من سماعي.


حسنا. لذا ، ما أريد فعله بسرعة هو الحديث ، كما تعلمون ، عن النظام البيئي التحليلي للبيانات الضخمة. إذا كنت تريد طرح الأسئلة ، فأنا أقول ، في هذه الجلسة أو في وقت لاحق ، يمكنك تعليقي على تفاصيل الاتصال الخاصة بي هنا. كما قلت ، في منتصف الليل هنا في المملكة المتحدة.


حسنًا ، دعني أتطرق إلى ما أريد أن أتحدث عنه. من الواضح ، خلال السنوات القليلة الماضية ، شهدنا ظهور جميع أنواع البيانات الجديدة التي ترغب الشركات في تحليلها الآن - كل شيء بدءًا من بيانات النقر إلى فهم السلوكيات عبر الإنترنت وبيانات الوسائط الاجتماعية التي يتحدث عنها إريك في بداية البرنامج هنا. أعتقد أن روبن ذكر JSON و BSON و XML - لذلك ، بيانات شبه منظمة تصف نفسها بنفسها. بالطبع ، لدينا الكثير من الأشياء الأخرى أيضًا - كل شيء من البيانات غير المهيكلة وسجلات البنية التحتية لتكنولوجيا المعلومات وبيانات المستشعر. كل مصادر البيانات الجديدة نسبيًا التي اهتمت بها الشركات الآن لأنها تحتوي على رؤية قيمة يمكن أن تعمق ما نعرفه.


لذلك ، هذا يعني في الأساس أن المشهد التحليلي قد تجاوز تخزين البيانات التقليدي. ما زلنا نقوم بتصميم البيانات في العالم من خلال مجموعة من البيانات المهيكلة والمتعددة الهياكل ، حيث يمكن أن تأتي البيانات المتعددة المهيكلة من داخل أو خارج المؤسسة في كثير من الحالات. وكنتيجة لأنواع البيانات الجديدة هذه والاحتياجات الجديدة للتحليل ، فقد رأينا ظهور أعباء عمل تحليلية جديدة - كل شيء بدءًا من تحليل البيانات أثناء الحركة ، أي نوع من التغييرات يقلب بنية تخزين البيانات التقليدية رأسًا على عقب ، إلى حد ما ، حيث ، في الدوائر التقليدية ، دمج البيانات ، تنظيفها ، تحويلها ، تخزينها وتحليلها. ولكن عند تحليل البيانات أثناء الحركة ، فإننا نلتقطها ونقوم بدمجها وإعدادها من خلال تحليلها ثم تخزينها. لذلك ، هناك تحليل يجري على البيانات قبل تخزينها في أي مكان.


نحن التحليل المعقد للبيانات المهيكلة ، ربما لتطوير النموذج ، وتطوير النماذج الإحصائية والتنبؤية ، وهذا ليس شيئًا جديدًا بالنسبة لبعض الأشخاص في مساحة تخزين البيانات التقليدية. لقد حصلنا على تحليل استكشافي للبيانات على النموذج. هذا هو مقدار البيانات المنظمة هناك. لدينا أعباء عمل جديدة في شكل تحليل رسم بياني يتضمن عملائي في الخدمات المالية أشياء مثل الاحتيال. ويشمل أيضا الأمن السيبراني. ويشمل الشبكات الاجتماعية ، بالطبع ، فهم المؤثرين وأشياء من هذا القبيل هناك. أنا أتقن ذلك في الإدارة ، لديه بعض سنوات من تحليل الرسم البياني.


لقد حصلنا على تحسين مستودع البيانات أو تفريغه من معالجة ETL ، وهو نوع من حالة استخدام تكنولوجيا المعلومات ، فقد يقوم CIO بتمويل ذلك. وحتى أرشفة البيانات ومستودعات البيانات لإبقائها على الإنترنت في أشياء مثل Hadoop. لذلك ، أضافت كل هذه الأعباء العمل التحليلية الجديدة منصات جديدة ، منصات تخزين جديدة ، إلى المشهد التحليلي. لذا ، فبدلاً من امتلاك مستودعات بيانات تقليدية ، وعربات البيانات ، فإن ما لدينا الآن هو Hadoop. لدينا قواعد بيانات NoSQL مثل قواعد بيانات الرسم البياني والتي تستخدم غالبًا لأحمال العمل التحليلية. بالطبع ، يمكننا أن نفعل تحليل الرسم البياني الآن على Hadoop نفسها وكذلك في DBMSs NoSQL graph. لقد حصلنا على تحليلات التدفق التي ذكرها روبن. ولدينا - إذا أردت - إنشاء نماذج ، ربما على أجهزة مستودع بيانات تحليلية أيضًا. لكن كل ذلك أدى إلى تعقيد المشهد التحليلي ، وهناك حاجة الآن إلى منصات متعددة. وأعتقد أن التحدي الذي يواجهه أي عمل تجاري له مكتب أمامي أو مكتب خلفي أو تمويل أو شراء أو موارد بشرية أو نوع من العمليات ، هو معرفة المشاريع التحليلية المرتبطة بمشهد تخزين البيانات التقليدي. وبمجرد علمك بالمشاريع التحليلية المرتبطة بهذه المنصات الكبيرة للبيانات الكبيرة وأين يتم تشغيلها ، كما تعلمون ، ما عبء العمل التحليلي ، ولكن لن تغفل عن العمل بمعنى أنه - سترى الآن أنه مزيج من الكبير مشاريع تحليل البيانات ومشاريع تخزين البيانات الضخمة التقليدية التي نحتاجها معًا لتعزيز داخل العميل أو حول العمليات أو حول المخاطر أو التمويل أو الاستدامة. وبالتالي ، نريد أن تتماشى كل هذه الأمور مع أولويات العمل الإستراتيجية الخاصة بنا ، وأن نبقى على المسار الصحيح ، كما تعلمون ، من أجل دفع الإبر التي يجب دفعها ، كما تعلمون ، لتحسين أداء العمل ، وخفض التكلفة ، للحد من المخاطر ، وما إلى ذلك ، كما تعلمون ، لشركتنا ككل. لذلك ، لا يستبدل المرء الآخر بالبيانات الضخمة والتقليدية. كلاهما يستخدمان معًا. وهذا يغير بشكل كبير الهندسة المعمارية ، كما تعلمون.


لذلك ، ما لدي هنا هو بنية جديدة نسبيًا سأستخدمها مع عملائي. وهكذا ، كما ترون الآن على طول القاع ، مجموعة واسعة من مصادر البيانات ، لم تعد مهيكلة. يقوم بعض هؤلاء ببث البيانات الحية مثل أجهزة الاستشعار ، مثل بيانات الأسواق ، هذا النوع من الأشياء. يمكن أن يكون حتى بيانات clickstream الحية. يمكن أن يكون بيانات بث الفيديو المباشر. لذلك لم يكن لابد من هيكلة لذلك ، يمكننا القيام بمعالجة الدفق على تلك البيانات لاتخاذ إجراءات تلقائية في الوقت الفعلي ، ويمكن تصفية أي بيانات مهمة ونقلها إلى أدوات إدارة معلومات المؤسسة التي يمكن استخدامها لملء مخازن البيانات التحليلية. ما لم تتمكن من رؤية المزيج هنا ، فلدينا الآن قواعد بيانات تخزين البيانات التقليدية و Hadoop و NoSQL. لدينا إدارة البيانات الرئيسية في المزيج أيضا. وهذا يفرض المزيد من الضغط على مجموعة أدوات إدارة البيانات بأكملها ، ليس فقط لتعبئة مخازن البيانات هذه ولكن لنقل البيانات بينها.


علاوة على ذلك ، علينا تبسيط أدوات الوصول. لا يمكننا أن ننتقل إلى المستخدم ونقول ، "احصل على كل مخازن البيانات هذه ، واحتفظ بواجهات برمجة التطبيقات هذه - مشكلتك". ما عليك القيام به هو تبسيط الوصول. وهكذا ، في الخطوط المنقطة هناك ، سترى المحاكاة الافتراضية للبيانات والتحسين نوعًا من إخفاء تعقيد تخزين البيانات المتعددة ، ومحاولة تسهيل وصول المستخدمين النهائيين إلى ذلك. وبالطبع ، هناك مجموعة من الأدوات في الأعلى ، كما تعلمون - كل شيء بدءًا من أدوات BI التقليدية التي بدأت من جديد في الجزء العلوي من تخزين البيانات ، وتتحرك تدريجيًا نحو يسار المخطط البياني الخاص بك إلى نوع من الاتصال في Hadoops ثم قواعد بيانات NoSQL في العالم.


لقد بحثنا عن عقد إيجار جديد مدى الحياة لاسيما حول البيانات الهيكلية غير الهيكلية التي يتم تخزينها غالبًا في Hadoop. لدينا تطبيقات تحليلية مخصصة يتم تنفيذها على منصة Hadoop مع MapReduce ، وبالتالي إطار Spark ، على سبيل المثال. لدينا أدوات تحليل الرسم البياني ، كما تعلم ، للتركيز على أعباء عمل محددة للغاية هناك. لذلك ، مجموعة من الأدوات وتدفقات البيانات هي أيضا أكثر تعقيدا. لم يعد مجرد شارع ذو اتجاه واحد في مستودع البيانات. إنها الآن بيانات رئيسية ، بالطبع.


لدينا مصادر بيانات جديدة قادمة ، إما أن يتم التقاطها في NoSQL ، كما تعلم ، مخازن البيانات مثل MongoDB ، مثل Cassandra ، مثل HBase. لقد تم جلب البيانات مباشرةً إلى Hadoop لتحليلها وإعداد البيانات هناك. لدينا رؤى جديدة تخرج من Hadoop ومستودعات البيانات. لدينا أرشيف ينطلق من مستودعات البيانات في Hadoop. الآن وصلنا إلى موجز البيانات ، كما تعلم ، جميع قواعد بيانات NoSQL وأنظمة البيانات. لذا ، ما يمكنك رؤيته هنا ، هناك نشاط أكثر بكثير يحدث في إدارة البيانات. وهذا يعني أنه يضع برنامج إدارة البيانات تحت ضغط كبير. لم يعد مجرد شارع في اتجاه واحد. إنها حركة بيانات ثنائية الاتجاه. إنه نشاط أكثر بكثير ، وبالتالي ، فإن قابلية التوسع مهمة في واجهة أداة إدارة البيانات وكذلك على مصدر البيانات.


لذلك ، يعود هذا المخطط إلى هذا الهيكل الذي ذكرته قبل لحظة. إنه يوضح لك أعباء العمل التحليلية المختلفة التي تعمل في أجزاء مختلفة من هذه البنية. نوعًا ما في أسفل اليسار هناك ، لقد حصلت على دفق في الوقت الفعلي ، ومعالجة الدفق المستمر على البيانات الصادرة ، كما تعلمون ، من أي نوع من مخزن البيانات المباشر. لقد حصلنا على تحليل للصف يحدث في قواعد بيانات الرسم البياني لـ NoSQL. يمكن أن يحدث أيضا على Hadoop. من خلال إطار عمل Spark ، على سبيل المثال ، و GraphX ​​هناك ، حصلنا على تحليلات استقصائية ومصفاة بيانات تحدث عنها روبن حول حدوث Hadoop. لا تزال أعباء العمل التقليدية مستمرة وتخزين البيانات ، كما تعلمون ، مستخدمون محترفون يبنون نماذج إحصائية وتنبؤية ، وربما على أجهزة مستودع البيانات. وما زلنا نحاول تبسيط الوصول إلى كل هذا ليسهل على المستخدمين النهائيين.


لذلك ، فإن النجاح في هذا الإعداد بأكمله هو أكثر من مجرد الجانب التحليلي. كما تعلمون ، يمكننا وضع المنصات التحليلية في مكانها الصحيح ، ولكن إذا لم نتمكن من التقاط واستيعاب ، كما تعلمون ، فإن البيانات عالية السرعة والكبيرة الحجم ، على نطاق ، ليست هناك نقطة كبيرة. كما تعلمون ، ليس لدي شيء لأحلله. وهكذا ، فإن نجاح تحليلات البيانات الضخمة يتطلب أنظمة تشغيلية لتوسيع نطاقها. هذا يعني ، لتكون قادرة على دعم المعاملات الجديدة ، كما تعلمون ، قمم. كما تعلمون ، فإن أي بيانات غير معاملات يتم التقاطها هناك ، كما تعلمون ، قد تكون هناك أي معدلات وصول جديدة للغاية ، ومعدلات وصول عالية جدًا على البيانات عالية السرعة مثل أجهزة الاستشعار أو أي استيعاب. يجب أن نكون قادرين على تلبية كل ذلك - لنكون قادرين على التقاط هذا النوع من البيانات وإدخاله للتحليل. علينا أيضًا توسيع نطاق التحليلات نفسها ، وتبسيط الوصول إلى البيانات التي ذكرتها بالفعل. ثم اربط ذلك. كما تعلمون ، يجب أن نكون قادرين على الصقل مرة أخرى إلى أنظمة التشغيل هذه لمنحها حلقة مغلقة.


لذلك ، فإن توسيع نطاق الجانب التشغيلي من المنزل لالتقاط البيانات ، كما تعلم ، يأخذ عالم قاعدة بيانات NoSQL. أعني ، هنا ترى خمس فئات من قاعدة بيانات NoSQL. سيتم تصنيف هذه الفئة على أنها مجرد مجموعة من الأربعة الأخرى المذكورة أعلاه. بشكل عام ، أنت تعرف ، قيمها الرئيسية والمستندات المخزنة وقواعد بيانات أسرة الأعمدة - الثلاثة الأولى هناك - والتي تُستخدم نوعًا ما في أنواع بيانات المعاملات وغير المعاملات.


بعض قواعد البيانات هذه تدعم الخصائص ؛ البعض منهم لا. ولكن مع ذلك ، كما تعلمون ، نشهد مقدمة من هؤلاء لتوسيع نطاق هذه الأنواع من التطبيقات. وهكذا ، على سبيل المثال ، حيث ابتعدنا عن مجرد الموظفين الذين يدخلون المعاملات في لوحات المفاتيح للعملاء الحاليين والجماهير التي تستخدم أجهزة جديدة لتكون قادرة على القيام بذلك. لقد رأينا زيادة هائلة في عدد المعاملات التي يتم إدخالها في الشركات. وهكذا ، نحن بحاجة إلى توسيع نطاق تطبيقات المعاملات للقيام بذلك.


الآن ، بشكل عام ، يمكن القيام بذلك على قواعد بيانات NewSQL كقاعدة بيانات علائقية مثل NuoDB و VoltDB الموضحة هنا. أو قد تكون بعض قواعد بيانات NoSQL التي ربما تدعم خصائص ACID التي يمكن أن تضمن معالجة المعاملات قيد التشغيل. ينطبق هذا أيضًا على البيانات غير المتعلقة بالمعاملات مثل بيانات عربة التسوق قبل أي معاملة ، كما تعلمون ، قبل أن يشتري الأشخاص أشياء ، بيانات المستشعر ، كما تعلمون ، كما أفقد قراءة مستشعر من بين مئات الملايين من قراءات المستشعرات. ليس بالأمر الجلل. النقرات ، كما تعلمون ، في عالم النقر - إذا استخدمت نقرة ، فلن تكون هذه مشكلة كبيرة.لذا ، كما تعلمون ، لسنا بحاجة بالضرورة إلى امتلاك خصائص ACID هناك ، وهذا هو المكان الذي تدخل فيه قواعد بيانات NoSQL غالبًا ، كانت هناك - تلك القدرة على القيام بمعالجة صحيحة عالية جدًا على نطاق واسع لالتقاط هذه الأنواع الجديدة من البيانات.


في الوقت نفسه ، نريد توسيع نطاق التحليلات. وهكذا ، فإن سحب البيانات من مخازن البيانات إلى المنصات التحليلية لم يعد يخرقها لأن البيانات أكبر من اللازم. ما نريده حقًا هو دفع التحليلات في الاتجاه الآخر ، وصولاً إلى مستودع بيانات المؤسسة في Hadoop ، إلى معالجة الدفق لتتمكن من دفع التحليلات إلى البيانات. ومع ذلك ، لمجرد أن شخصًا ما يقول أنه في تحليلات قاعدة البيانات أو في تحليلات Hadoop لا يعني بالضرورة أن التحليلات تعمل بشكل متوازٍ. وبصراحة تامة ، إذا كنت ستستثمر في هذه التقنيات القابلة للتطوير المتوازية بشكل كبير مثل Hadoop ، مثل أجهزة مستودع البيانات وغيرها ، مثل محركات معالجة الدفق العنقودية ، فنحن بحاجة إلى التحليلات لتشغيلها بالتوازي.


لذلك ، هذا فقط الاختيار. كما تعلمون ، إذا كان لدينا تحليلات للمساعدة في التنبؤ بالأشياء للعملاء ، للعمليات ، للمخاطر ، إلخ ، فنحن نريد منهم أن يعملوا بشكل متوازٍ ، وليس فقط في المنصة. نريد كلاهما. وهذا لأنه ، كما تعلمون ، فإن التكنولوجيا تشبه أدوات الاكتشاف المرئي الجديدة مثل SAS أيضًا. إنه في الواقع أحد رعاةنا هنا.


شيء واحد ما يريده الناس هو على الأقل استغلال هؤلاء في Hadoop ثم في تحليلات قواعد البيانات. ونريد أن يعمل هؤلاء بشكل متوازٍ حتى يكونوا قادرين على تقديم الأداء المطلوب على وحدات تخزين البيانات الكبيرة. في الوقت نفسه ، نحاول تبسيط الوصول إلى كل هذا. وهكذا ، عاد SQL الآن إلى جدول الأعمال. كما تعلمون ، SQL - SQL على Hadoop حار الآن. أنا أتتبع ذلك في 19 مبادرة SQL و Hadoop في الوقت الحالي. بالإضافة إلى ذلك ، يمكنك أن ترى ، يمكننا الحصول على هذه البيانات ، كما تعلمون ، بعدد من الطرق حتى نتمكن من الوصول مباشرة إلى SQL على Hadoop نفسها ، يمكننا نقل SQL إلى فهرس البحث. وبهذه الطريقة ، مثل ، كما تعلمون ، بعض بائعي البحث في تلك المساحة ، يمكننا الحصول على SQL من قواعد البيانات العلائقية التحليلية التي تحتوي على جداول Excel إلى Hadoop.


يمكننا الآن الوصول إلى SQL لخادم المحاكاة الافتراضية للبيانات والذي يمكن بعد ذلك توصيله بمستودع بيانات على Hadoop. لقد بدأت الآن في رؤية ظهور وصول SQL إلى بيانات البث المباشر. لذلك ، وصول SQL إلى كل هذا ينمو بسرعة. وجزء من التحدي هو ، فقط لأن تسويق SQL يتم تسويقه هناك. والسؤال هو ، هل يمكن لـ SQL التعامل مع البيانات المعقدة؟ وهذا ليس بسيطًا بالضرورة. هناك كل أنواع المضاعفات هنا ، بما في ذلك حقيقة أن بيانات JSON يمكن أن تتداخل. يمكن أن يكون لدينا سجلات متغير المخطط. لذلك ، فإن السجل الأول لديه مخطط واحد. السجل الثاني لديه مخطط مختلف. هذه الأشياء مختلفة تمامًا عما يحدث في عالم مترابط.


لذلك ، نحن بحاجة إلى طرح أسئلة حول نوع البيانات التي نحاول تحليلها ، وما نوع الخصائص التحليلية. هل هي ، كما تعلمون ، لوحة تريد القيام بها؟ هل تعلم الآلة؟ هل هو تحليل الرسم البياني؟ يمكنك أن تفعل ذلك من SQL؟ كما تعلمون ، هل هذا قابل للتطبيق من SQL؟ كم عدد المستخدمين المتزامنين لقد فعلنا هذا؟ كما تعلمون ، لدينا مئات المستخدمين المتزامنين. هل هذا ممكن على البيانات المعقدة؟ كما تعلمون ، كل هذه الأشياء هي الأسئلة الأساسية. لذا ، فقد تقدمت نوعًا من قائمة قليلة هنا أعتقد أنها يجب أن تفكر فيها. أنت تعرف ، أي نوع من تنسيقات الملفات؟ ما نوع أنواع البيانات التي نتحدث عنها؟ ما نوع الوظائف التحليلية التي يمكننا استدعاءها من SQL للحصول على بيانات معقدة؟ ونوع الوظائف تعمل بالتوازي. أعني ، يجب أن يركضوا بشكل متوازٍ إذا أردنا أن نكون قادرين على توسيع نطاق ذلك. وهل يمكنني الانضمام إلى البيانات في Hadoop اليوم خارجها ، كما تعلم ، أم لا يمكن القيام بذلك؟ وماذا أفعل مع كل هذه الأنواع المختلفة من أعباء عمل الاستعلام؟


وكما سنرى ، كما تعلمون ، من ما رأيته ، هناك الكثير من الاختلافات عبر توزيع SQL و Hadoop. هذه هي كل ما أتتبعه. وبالمناسبة ، هذا SQL خالص على Hadoop. هذا لا يشمل حتى البيانات الافتراضية في هذه المرحلة. وهكذا ، هناك الكثير والكثير من المجال للتوحيد ، والذي أعتقد أنه سيحدث خلال العام المقبل ، ثمانية عشر شهراً أو نحو ذلك. لكنه يفتح أيضًا شيئًا آخر ، وهو أنه يمكن أن يكون لديّ عدة محركات SQL محتملة على نفس البيانات في Hadoop. وهذا شيء لا يمكنك القيام به في العلاقة.


بالطبع ، هذا يعني أن عليك أن تعرف ، إذن ، ما نوع عبء عمل الاستعلام الذي أقوم بتشغيله؟ يجب أن أشغل ذلك دفعة واحدة على مزود معين على مبادرة Hadoop؟ هل يجب علي تشغيل عبء عمل استعلام تفاعلي عبر SQL أخرى على مبادرة Hadoop ، وما إلى ذلك ، حتى أعرف أي منها يمكن الاتصال به؟ من الناحية المثالية ، بالطبع ، لا ينبغي لنا أن نفعل ذلك. يجب علينا فقط ، كما تعلمون ، طرح سؤال حوله. كما تعلمون ، فإن بعض المُحسِّن يكتشف أفضل طريقة للقيام بذلك. لكننا لم نصل إلى هناك بعد ، حسب رأيي.


ولكن مع ذلك ، فإن التمثيل الافتراضي للبيانات الذي ذكرته سابقًا له دور مهم للغاية في تبسيط الوصول إلى العديد من مخازن البيانات. وإذا أنشأنا رؤى جديدة حول Hadoop ، فمن المؤكد أنه من المعقول بالنسبة لنا أن ننضم إلى مستودعات البيانات والبيانات التقليدية من خلال محاكاة البيانات الافتراضية ، على سبيل المثال ، دون نقل البيانات من Hadoop إلى مستودعات البيانات التقليدية. بالطبع ، يمكنك القيام بذلك أيضًا. من المنطقي أيضًا أن أرشفة البيانات من مستودعات البيانات التقليدية إلى Hadoop. لا يزال بإمكاني الوصول إليها وإعادة ربطها بالعناصر الموجودة في مستودع البيانات الخاص بنا للوصول إلى البيانات الافتراضية. لذلك ، بالنسبة لي ، أعتقد أن البيانات الافتراضية حصلت على مستقبل كبير في هذا الهيكل العام ، مما يسهل الوصول إلى جميع مخازن البيانات هذه.


ولا ننسى أنه عندما ننشئ هذه الأفكار الجديدة ، سواء كان ذلك على أنظمة العلائقية أو أنظمة NoSQL ، فإننا لا نزال نرغب في إعادة هذه الأفكار إلى عملياتنا ، حتى نتمكن من زيادة قيمة ما وجدناه إلى الحد الأقصى ، حتى نتمكن من استفد من ذلك من أجل اتخاذ قرارات أكثر فعالية في الوقت المناسب في تلك البيئة لتحسين أعمالنا.


لذا ، في النهاية ، ما أراه ، إذن ، هو أننا نحتاج ، كما تعلمون ، إلى مصادر بيانات جديدة ناشئة. لدينا منصات جديدة على بنية أكثر تعقيدًا ، إذا أردت ، للتعامل مع ذلك. وأصبحت Hadoop مهمة للغاية ، وهي كافية لإعداد البيانات لصناديق الرمل السائلة الخاصة بنا ، وللاستعلام عن الأرشيف ، والأرشيف من مستودع البيانات ، وإدارة البيانات التي تنشر أجنحتها لتتجاوز تخزين البيانات إلى إدارة البيانات عبر كل هذه المنصات ، والأدوات الجديدة لتكون قادرة على تحليل البيانات والوصول إليها في هذه البيئات ، لتكون قادرة على امتلاك تقنيات قابلة للتطوير لتحسين استيعاب البيانات ، وتوسيع نطاق التحليلات عن طريق دفعها لأسفل في المنصات لجعلها أكثر توازًا. ومن ثم ، نأمل ، أيضًا ، تسهيل الوصول إلى كل ذلك من خلال SQL الناشئة التي تظهر في الأعلى. لذلك ، فهو يوفر لك فكرة عن نوع ما نتجه إليه. لذلك ، مع ذلك ، سأعود إلى ، كما أعتقد ، إريك الآن ، أليس كذلك؟


إريك: حسنًا ، هذا رائع. والناس ، يجب أن أقول ، بين ما حصلت عليه للتو من روبن ومايك ، ربما يكون الأمر شاملاً وموجزًا ​​في نظرة عامة على المشهد بأكمله من خلال النظر إلى ما ستجده في أي مكان. دعني أذهب إلى الأمام وأقفز فوق جورج كوروجيدو أولاً. و هاهو. اسمحوا لي أن آخذ هذا لثانية سريعة. حسنًا ، جورج ، أنا على وشك تسليم المفاتيح إليك ، وأخذها بعيدًا. الكلمة لك.


جورج: عظيم! شكراً جزيلاً لك يا إريك ، وشكراً لك ، روب ومايك. كانت تلك معلومات رائعة والكثير نتفق عليه. لذا ، بالعودة إلى مناقشة روبن ، لأنه ، كما تعلمون ، ليس من قبيل الصدفة أن RedPoint موجودة هنا وأن SAS هنا. لأن RedPoint ، نحن نركز حقًا على جانب البيانات منه على الحوكمة ، ومعالجة البيانات والتحضير للاستخدام في التحليلات. لذلك ، اسمحوا لي أن أتصفح هاتين الشريحتين. وتحدث حقًا عن وجهة نظر Robin حول MDM ومدى أهميتها ، ومدى أهميتها ، وأعتقد - ونعتقد - أن Hadoop يمكن أن يكون في عالم MDM وجودة البيانات.


كما تعلمون ، كان روبن يتحدث قليلاً ، كما تعلم ، كيف يرتبط هذا بعالم مستودع بيانات المؤسسة ، وقد جئت - كما تعلمون ، لقد أمضيت عدة سنوات في شركة Accenture. والأمر المثير للاهتمام هو عدد المرات التي اضطررنا فيها للذهاب إلى الشركات ومحاولة معرفة ما يجب القيام به مع مستودع البيانات الذي تم التخلي عنه أساسًا. وقد حدث الكثير من هذا لأن فريق مستودع البيانات لم يقم بالفعل بربط بنيته مع مستخدمي الأعمال أو مستهلكي البيانات. أو ، لقد استغرق الأمر وقتًا طويلاً للغاية حتى أنه بحلول الوقت الذي قاموا فيه ببناء الشيء ، تطور استخدام العمل أو الأساس المنطقي التجاري له.


وأحد الأشياء التي أعتقد أنها متحمسة للغاية ، فكرة استخدام Hadoop لإدارة البيانات الرئيسية ، لجودة البيانات ولإعداد البيانات ، هي حقيقة أنه يمكنك دائمًا الرجوع إلى البيانات الذرية في بحيرة بيانات Hadoop أو خزان بيانات ، أو مستودع بيانات ، أو لوحة وصل ، أو أياً كان الشكل الذي تريد استخدامه. ولكن نظرًا لأنك تحتفظ دائمًا بتلك البيانات الذرية ، فأنت دائمًا لديك فرصة لإعادة التنسيق مع مستخدمي الأعمال. لأنه ، كمحلل - لأنني بدأت عملي بالفعل كإحصائي - كما تعلمون ، ليس هناك ما هو أسوأ من ، كما تعلمون ، مستودعات بيانات المؤسسة رائعة لقيادة التقارير ، ولكن إذا كنت تريد إجراء تحليلات تنبؤية فعلية ، في الحقيقة ليست مفيدة ، لأن ما تريده حقًا هو البيانات السلوكية الحبيبية التي تم تلخيصها وتجميعها بطريقة ما في مستودع البيانات. لذلك ، أعتقد أن هذه ميزة مهمة حقًا ، وهذا شيء أعتقد أنه قد يختلف مع Robin ، وهو أنني شخصياً سأترك البيانات في بحيرة البيانات أو مركز البيانات لأطول فترة ممكنة ، لأنه البيانات موجودة ونظيفة ، يمكنك النظر إليها من اتجاه واحد ، اتجاه آخر. يمكنك دمجها مع البيانات الأخرى. لديك دائمًا هذه الفرصة للعودة إليها وإعادة الهيكلة ، ثم إعادة ضبط نفسك بوحدة أعمال والحاجة التي قد تكون لدى هذه الوحدة.


أحد الأشياء الأخرى المثيرة للاهتمام حول هذا هو أنه نظرًا لأنه نظام حسابي قوي ، والكثير من عبء العمل الذي كنا نتحدث عنه ، فإننا نرى كل ذلك يأتي مباشرةً إلى Hadoop. وبينما أعتقد ، كان مايك يتحدث عن جميع التقنيات المختلفة الموجودة في عالم - في هذا النوع من النظام البيئي الكبير للبيانات ، نعتقد أن Hadoop هو حقًا العمود الفقري للقيام بهذا الحجم الكبير في المعالجة المكثفة حسابيًا التي البيانات الرئيسية وجودة البيانات تتطلب. لأنك إذا تمكنت من القيام بذلك هناك ، كما تعلم ، فقط الاقتصاديات الهائلة لنقل البيانات من قواعد البيانات باهظة الثمن الخاصة بك وإلى قواعد البيانات الاقتصادية ، فإن هذا يدفع الكثير من الامتصاص الحالي في الشركات الكبيرة الآن.


الآن ، بالطبع ، هناك بعض التحديات ، أليس كذلك؟ هناك تحديات حول التقنيات. الكثير منهم غير ناضج للغاية. أود أن أقول ، كما تعلمون ، لا أعرف عددهم ، لكن عددًا من التقنيات التي ذكرها مايك مازالت في إصدارات خالية من النقاط ، أليس كذلك؟ لذا ، فإن هذه التقنيات حديثة للغاية وغير ناضجة للغاية ولا تزال قائمة على الكود. وهذا يخلق حقا تحديا للشركات. ونحن نركز حقًا على حل المشكلات على مستوى المؤسسات. وهكذا ، نعتقد أنه يجب أن يكون هناك طريقة مختلفة ، وهذا ما نقترحه هو طريقة مختلفة للقيام ببعض الأشياء في استخدام بعض هذه التقنيات الحديثة للغاية.


وهكذا ، ثم المشكلة الأخرى المثيرة للاهتمام هنا ، والتي تم ذكرها سابقًا وهي ، عندما يكون لديك بيانات تقوم بالتقاطها في بيئة Hadoop من أي نوع ، كما تعلمون ، فإنه عادة ما يكون مخططًا للقراءة بدلاً من المخطط في الكتابة مع بعض الاستثناءات. وهذه القراءة ، يتم إجراء الكثير من ذلك من قبل الإحصائيين. وهكذا ، يجب أن يكون لدى الإحصائيين أدوات تسمح لهم بهيكلة البيانات بشكل صحيح لأغراض تحليلية ، لأنه في نهاية اليوم ، لجعل البيانات مفيدة ، يجب أن تتم هيكلة في شكل ما لرؤية البعض أو الإجابة على سؤال أو عمل ، نوع من الأعمال ، يخلق قيمة أعمال.


لذلك ، من حيث نأتي ، هو أن لدينا مفتاح EPL و ELT واسع النطاق وناضج للغاية للبيانات الرئيسية وتطبيق إدارة. لقد كان في السوق لسنوات عديدة. ويحتوي على جميع الوظائف أو الكثير من الوظائف التي ذكرها روبن في ذلك الرسم البياني الدائري - كل شيء بدءًا من التقاط البيانات الخام الخالصة في مجموعة كاملة من التنسيقات وهياكل XML وما إلى ذلك ، إلى القدرة على القيام بكل عمليات التطهير ، الانتهاء من البيانات ، وتصحيح البيانات ، بت الأساسية الجغرافية المكانية للبيانات. هذا شيء أصبح أكثر أهمية هذه الأيام مع إنترنت الأشياء. كما تعلمون ، هناك جغرافية مرتبطة بالكثير مما نقوم به أو بالكثير من تلك البيانات. وهكذا ، فإن كل من التحليل ، والرمز المميز ، والتطهير ، والتصحيح ، والتنسيق ، والبنية ، وما إلى ذلك ، يتم كل ذلك في برنامجنا.


وبعد ذلك ، وربما ، الأهم من ذلك هو فكرة إلغاء البيانات المكررة. كما تعلمون ، في جوهرها ، إذا نظرت إلى أي تعريف لإدارة البيانات الرئيسية ، فإن جوهرها هو إلغاء البيانات المكررة. إنه قادر على تحديد الكيانات عبر مصادر مختلفة للبيانات ، ثم إنشاء سجل رئيسي لذلك الكيان. وهذا الكيان يمكن أن يكون شخص. يمكن أن يكون الكيان جزءًا من طائرة ، على سبيل المثال. يمكن أن يكون الكيان طعامًا كما فعلنا لأحد عملائنا في النادي الصحي. لقد أنشأنا قاعدة بيانات رئيسية للطعام لهم. لذلك ، بغض النظر عن الكيانات التي نعمل معها - وبالطبع ، على نحو متزايد ، هناك أشخاص ووكلاء لهوياتهم التي هي أشياء مثل المقابض الاجتماعية أو الحسابات ، وأيا كانت الأجهزة المرتبطة بالأشخاص ، وبعض الأشياء مثل السيارات و الهواتف ، وأي شيء آخر قد تتخيل.


كما تعلمون ، نحن نعمل مع عميل يضع جميع أنواع المستشعرات في ملابس رياضية. لذلك ، فإن البيانات تأتي من كل اتجاه. وبطريقة أو بأخرى ، إنه انعكاس أو تمثيل للكيان الأساسي. وبشكل متزايد ، هذا هو الأشخاص والقدرة على تحديد العلاقات بين جميع مصادر البيانات هذه وكيفية ارتباطها بهذا الكيان الأساسي ، ثم القدرة على تتبع ذلك الكيان الأساسي بمرور الوقت حتى تتمكن من تحليل وفهم التغييرات بين هذا الكيان وجميع العناصر الأخرى الموجودة في هذا التمثيل لهذا الكيان ، وهو أمر مهم للغاية للتحليل الطولي طويل الأجل للناس ، على سبيل المثال. إنها حقًا واحدة من الفوائد المهمة التي أعتقد أن البيانات الضخمة يمكن أن تجلبها لنا هي فهم الناس بشكل أفضل ، وعلى المدى الطويل ، فهم الخداع وكيف يتصرف الناس عندما يتصرفون من خلال الأجهزة وما إلى ذلك. .


لذلك ، اسمحوا لي أن أتحرك هنا بسرعة. ذكر إريك غزل. كما تعلمون ، أرمي هذا قليلاً لثانية واحدة ، لأنه بينما YARN - يتحدث الناس عن YARN. لا يزال هناك الكثير من الجهل ، كما أعتقد ، حول YARN. وليس الكثير من الناس حقًا - لا يزال هناك الكثير من سوء الفهم حول YARN. والحقيقة هي أنه إذا تم أرشفة التطبيق الخاص بك بالطريقة الصحيحة ، وكان لديك المستوى المناسب أو التوازي في بنية التطبيق الخاص بك ، فيمكنك الاستفادة من YARN لاستخدام Hadoop كنظام أساسي للتحجيم. وهذا بالضبط ما فعلناه.


أنت تعرف ، مرة أخرى ، فقط للإشارة إلى بعض التعاريف حول YARN. بالنسبة لنا ، لقد مكننا YARN حقًا لأنفسنا ومنظمات أخرى من أن نصبح أقرانًا في MapReduce و Spark ، وجميع الأدوات الأخرى الموجودة هناك. ولكن الحقيقة هي أن تطبيقاتنا تدفع الكود الأمثل مباشرة إلى YARN إلى Hadoop. وهناك تعليق مثير للاهتمام ذكره مايك ، لأنه ، كما تعلمون ، السؤال حول التحليلات وتحليلاتنا ، لمجرد أنهما في المجموعة ، هل يعملان بالفعل بشكل متوازٍ؟ يمكنك طرح نفس السؤال حول الكثير من أدوات جودة البيانات الموجودة هناك.


معظم أيام اليوم ، يتعين على أدوات الجودة الموجودة إما إخراج البيانات أو إدخال الرمز فيها. وفي كثير من الحالات ، يكون هناك دفق واحد من البيانات يتم معالجته بسبب الطريقة التي يجب عليك بها مقارنة السجلات ، وأحيانًا في نوع أنشطة جودة البيانات. والحقيقة هي أنه نظرًا لأننا نستخدم YARN ، فقد استطعنا حقًا الاستفادة من التوازي.


ولمنحك نظرة عامة سريعة ، نظرًا لوجود تعليق آخر حول أهمية القدرة على توسيع قواعد البيانات التقليدية وقواعد البيانات الجديدة وما إلى ذلك ، فإننا ننفذ أو نثبّت خارج المجموعة. ونحن ندفع ثنائياتنا مباشرة إلى مدير الموارد ، YARN. وهذا ، ومن ثم يوزع YARN عبر العقد في الكتلة. وما يفعله ذلك هو أن YARN - نسمح لـ YARN بإدارة وأداء وظيفتها ، وهي معرفة مكان وجود البيانات ونقل العمل إلى البيانات ، والكود إلى البيانات ، وليس نقل البيانات حولها. عندما تسمع أدوات لجودة البيانات ويخبرونك أن أفضل الممارسات هي نقل البيانات من Hadoop ، قم بالتشغيل من أجل حياتك ، لأن هذا ليس بالطريقة نفسها. تريد أن تأخذ العمل إلى البيانات. وهذا ما تفعله YARN أولاً. يستغرق نقل الثنائيات الخاصة بنا إلى العقد حيث توجد البيانات.


وأيضًا لأننا خارج المجموعة ، يمكننا أيضًا الوصول إلى جميع قواعد البيانات التقليدية والعلائقية حتى نتمكن من الحصول على وظائف مثل خادم عميل بنسبة 100٪ في قاعدة بيانات تقليدية أو وظائف Hadoop 100٪ أو مختلطة تعمل عبر خادم عميل Hadoop ، Oracle ، Teradata - كل ما تريده وكله في نفس الوظيفة ، لأن ذلك التطبيق الواحد يمكنه الوصول إلى كلا جانبي العالم.


وبعد ذلك ، بالعودة إلى الفكرة الكاملة لندرة الأدوات ، كما ترى هنا ، هذا مجرد تمثيل بسيط. وما نحاول القيام به هو تبسيط العالم. والطريقة التي نقوم بها هي من خلال توفير مجموعة واسعة جدًا من الوظائف حول HDFS لجعلها ... وهذا ليس لأننا نحاول القضاء على جميع التقنيات المبتكرة هناك. إنها فقط المؤسسات التي تحتاج إلى الاستقرار ولا تحب الحلول المعتمدة على الكود. وهكذا ، ما نحاول القيام به هو منح الشركات بيئة تطبيق مألوفة ومتكررة ومتسقة تمنحهم القدرة على إنشاء ومعالجة البيانات بطريقة يمكن التنبؤ بها للغاية.


بسرعة ، هذا هو نوع التأثير الذي نحصل عليه من خلال تطبيقنا. ترى MapReduce مقابل Pig مقابل RedPoint - لا توجد سطور من التعليمات البرمجية في RedPoint. ست ساعات من التطوير في MapReduce ، وثلاث ساعات من التطوير في Pig ، و 15 دقيقة من التطوير في RedPoint. وهذا هو المكان الذي لدينا فيه تأثير كبير حقًا. يكون وقت المعالجة أسرع أيضًا ، ولكن وقت الأشخاص ، وقت إنتاجية الأشخاص ، يزداد بشكل كبير.


وفي الشريحة الأخيرة الخاصة بي هنا ، أريد العودة إلى هذه الفكرة ، لأن هذا هو موقفنا من استخدام بحيرة بيانات أو مركز بيانات ، أو مصفاة للبيانات كنقطة رئيسية للابتلاع. لا يمكن أن تتفق أكثر مع هذه الفكرة. ونجري حاليًا مناقشات مع الكثير من مسؤولي البيانات في البنوك العالمية الكبرى ، وهذا هو الهيكل المفضل.يؤدي تناول البيانات من جميع المصادر إلى معالجة جودة البيانات وإدارة البيانات الرئيسية داخل بحيرة البيانات ، ثم ، دفع البيانات حيث يلزم الانتقال إلى دعم التطبيقات ، لدعم استقصاء المعلومات ، أيا كان ذلك. وبعد ذلك ، إذا كان لديك تحليلات في BI ، فيمكنها أن تعمل مباشرة داخل بحيرة البيانات ، حيث الأفضل ، يمكن أن تبدأ على الفور. ولكن كثيرا على متن هذه الفكرة. هذه الهيكلية هنا - وهي التي نجد أنها تكتسب الكثير من القوة في السوق. وهذا كل شيء.


إريك: حسنًا ، جيد. دعنا ننتقل هنا. سأمضي قدمًا إلى كيث. وكيث ، حصلت على حوالي 10 ، 12 دقيقة لتهز المنزل هنا. أخذنا للذهاب قليلا في هذه العروض. وأعلننا 70 دقيقة لهذا واحد. لذلك ، فقط تابع وانقر فوق أي مكان على تلك الشريحة واستخدم السهم لأسفل وأخذها بعيداً.


كيث: بالتأكيد. لا مشكلة يا اريك أنا أقدر ذلك. سأذهب إلى الأمام وأضرب بضع قطع فقط عن SAS ، ثم سأنتقل إلى ، مباشرة في أبنية التكنولوجيا حيث تتقاطع SAS مع عالم البيانات الضخم. هناك الكثير لشرحه في كل هذه الأشياء. يمكن أن نقضي ساعات في دراسة ذلك بتفصيل كبير ، ولكن لمدة عشر دقائق - يجب أن تكون قادرًا على السير بعيداً بفهم موجز عن المكان الذي أخذت فيه SAS تقنيات التحليل وإدارة البيانات وذكاء الأعمال في عالم البيانات الكبير هذا.


أولاً ، فقط قليلاً عن SAS. إذا لم تكن معتادًا على هذه المؤسسة ، فقد ظللنا ، على مدار الـ 38 عامًا الماضية ، نقوم بإجراء تحليلات متقدمة وذكاء الأعمال وإدارة البيانات ليس فقط ببيانات كبيرة ، بل ببيانات صغيرة وثروة بيانات على مدار الـ 38 عامًا الماضية. لدينا عدد هائل من العملاء الحاليين ، حوالي 75000 موقع في جميع أنحاء العالم ، يعملون مع بعض المؤسسات الكبرى هناك. نحن مؤسسة خاصة مع حوالي 13000 موظف و 3 مليارات دولار من الإيرادات. وفي الحقيقة ، أعتقد أن الجزء المهم هو أن لدينا تاريخًا طويلًا من إعادة استثمار مبالغ كبيرة من إيراداتنا في مؤسسة البحث والتطوير الخاصة بنا ، والتي جلبت حقًا الكثير من هذه التقنيات والمنصات الرائعة التي سوف نرى اليوم.


لذا ، سأقفز مباشرةً إلى هذه المخططات المعمارية المخيفة حقًا. سنعمل من اليسار إلى اليمين في الشرائح الخاصة بي. لذلك ، هناك أشياء مألوفة ستراها داخل هذا النظام الأساسي. على الجانب الأيسر ، كل مصادر البيانات التي نتحدث عن استيعابها في منصات البيانات الكبيرة هذه. وبعد ذلك ، لديك منصة البيانات الكبيرة هذه.


لم أضع مجرد كلمة Hadoop هناك في الأعلى ، لأنه في النهاية ، فإن الأمثلة التي سأقدمها اليوم هي بالتحديد حول جميع التقنيات التي نتقاطع فيها مع منصات البيانات الكبيرة هذه. صادف أن Hadoop هو أحد الخيارات التي نمتلك فيها بعضًا من أقوى خيارات النشر ، لكننا نتقاطع أيضًا كثيرًا وقمنا بتطوير الكثير من هذه التقنيات لبعض الوقت مع بعض شركائنا الآخرين في مستودع بيانات المؤسسات مثل Teradata ، أوراكل ، محوري وما شابه ذلك. لذا ، لا يمكنني الخوض في تفاصيل رائعة فيما يتعلق بجميع التقنيات المختلفة المدعومة على أي نظام أساسي ، لكن فقط اطمئن إلى أن جميع التقنيات التي أصفها اليوم كلها في الغالب تتقاطع مع Hadoop وكثير منها يتقاطع مع شركاء التكنولوجيا الآخرين نحن لدينا. لذلك ، لدينا تلك المنصة الكبيرة التي نجلس فيها.


التالي واحد فقط إلى اليمين ، لدينا SAS LASR Analytic Server. الآن ، هذا بشكل أساسي ، هو متوازي بشكل كبير في خادم تطبيق تحليل الذاكرة. سنكون واضحين أنها ليست قاعدة بيانات في الذاكرة. إنه مصمم بالفعل من الألف إلى الياء. ليس محرك الاستعلام ، ولكنه مصمم لخدمة الطلبات التحليلية على نطاق واسع بطريقة متوازية بشكل كبير. لذلك ، هذه هي تطبيقات مفتاح الخدمة التي تراها هناك على الجانب الأيمن.


سوف نتعرف أكثر على بعض الشيء ، كما تعلمون ، كيف ينشر الأشخاص هذه الأشياء. ولكن في الأساس ، فإن التطبيق - هل ترى هناك - أول تطبيق ، هو تحليلات SAS عالية الأداء لدينا. سيكون ذلك - أنا أستخدم الكثير من التقنيات والمنصات الموجودة لدينا مثل Enterprise Miner أو SAS فقط ، وليس فقط القيام بعدة مؤشرات ترابطية مع بعض تلك الخوارزميات التي قمنا ببنائها في تلك الأدوات التي قمنا بها من أجل سنوات ، ولكن أيضا لموازاة على نطاق واسع تلك. لذلك ، لنقل البيانات من منصة البيانات الكبيرة تلك إلى مساحة الذاكرة إلى خادم التحليلات LASR ، حتى نتمكن من تنفيذ الخوارزميات التحليلية - كما تعلمون ، الكثير من التعلم الآلي الجديد والشبكات العصبية وانحدارات الغابات العشوائية ، تلك الأنواع من الأشياء - مرة أخرى ، البيانات الموجودة في الذاكرة. لذا ، تخلص من عنق الزجاجة المحدد في نموذج MapReduce حيث يتم إيداعنا في تلك المنصات ، وهذا ليس بالطريقة التي تريد القيام بها في العمل التحليلي. لذلك ، نريد أن نكون قادرين على رفع البيانات مرة واحدة في مساحة الذاكرة والتكرار من خلالها ، كما تعلمون ، في بعض الأحيان آلاف المرات. لذلك ، هذا هو مفهوم استخدام خادم LASR التحليلي عالي الأداء.


نحن أيضًا - التطبيقات الأخرى الموجودة أسفلها ، التحليلات المرئية ، التي تسمح لنا بمواصلة تلك البيانات في الذاكرة وخدمة عدد أكبر من السكان على نفس البيانات. لذلك ، السماح للناس بالقيام باستكشاف البيانات الكبيرة. لذلك ، قبل القيام بأعمال تطوير النموذج ، نستكشف البيانات ، ونفهمها ، ونعمل على الارتباط ، ونقوم بالتنبؤ أو توجيه أشجار القرار - تلك الأنواع من الأشياء - ولكن بطريقة مرئية وتفاعلية للغاية على البيانات الموجودة في الذاكرة منصة. يعمل ذلك أيضًا على خدمة مجتمع BI الخاص بنا بقدر ما يكون لديه قواعد عريضة جدًا من المستخدمين الذين يمكنهم الوصول إلى هذا النظام الأساسي للقيام بأنواع قياسية من التسجيل التي تراها - والتي تعرف أي بائع BI هناك.


الخطوة التالية ، ننتقل بعد ذلك إلى الخدمة. ولمساعدة إحصائيينا وأفراد تحليلاتنا على أن يكونوا قادرين على القيام بهذا النوع من النمذجة المخصصة مع البيانات الموجودة في الذاكرة ، وإزالتها من التحليلات البصرية والاستكشاف في تطبيق الإحصاءات المرئية الخاص بنا. هذه فرصة للناس للتجول ، وعدم تشغيل إحصائيات على دفعات تستخدم للتكرار ، وتشغيل النماذج ، ورؤية النتائج. لذلك ، يمكن أن تدير النموذج ، راجع النتائج. هذا هو السحب والإفلات بصريا في النمذجة الإحصائية التفاعلية. لذلك ، فإن هذا يقدم خدمات للإحصائيين وعلماء البيانات لدينا للقيام بالكثير من هذا العمل الاستكشافي البصري الاستكشافي المبكر.


ثم ، لم ننس المبرمجين لدينا - الأشخاص الذين يرغبون حقًا في امتلاكها ، والقدرة على تقشير طبقات الواجهة المقابلة ، هو كتابة التطبيقات ، وكتابة قاعدة الكود الخاصة بهم في SAS. وهذا هو إحصائياتنا في الذاكرة لـ Hadoop. وهذا هو - أساسًا طبقة الشفرة التي سمحت لنا بالتفاعل مع خادم LASR التحليلي لإصدار أوامر مباشرة وتخصيص تلك التطبيقات بناءً على طلبنا. هذه هي القطعة التحليلية.


كيف يتم إعداد هذه الأشياء ... عفوًا ، أنا آسف يا شباب. هناك نذهب.


لذلك ، هناك حقًا طريقتان لفعل ذلك. واحد هو القيام بذلك مع البيانات الكبيرة - في هذه الحالة ، مع Hadoop. وهذا هو المكان الذي يعمل فيه SAS LASR Analytic Server في مجموعة منفصلة من الأجهزة التي تم تحسينها للتحليلات المتشددين. هذا موقع جميل وقريب من منصة البيانات الكبيرة ، مما يسمح لنا بتوسيع نطاقه بشكل منفصل عن منصة البيانات الكبيرة. لذلك ، نرى أشخاصًا يقومون بذلك عندما لا يرغبون في الحصول على نوع من ما أصفه مثل برنامج مصاصي الدماء يتغذى في كل عقدة في مجموعة Hadoop الخاصة بهم. ولا يقومون بالضرورة بتوسيع نطاق منصة البيانات الكبيرة المناسبة لإجراء تحليلات رفع الأثقال في الذاكرة. لذلك ، قد يكون لديك 120 عقدة من مجموعة Hadoop الخاصة بهم ، ولكن قد تحتوي على 16 عقدة من الخوادم التحليلية المصممة للقيام بهذا النوع من العمل.


لا يزال مسموحًا لنا بالمحافظة على هذا التوازي من منصة البيانات الكبيرة لسحب البيانات إلى الذاكرة. لذلك ، إنها حقًا استخدام SAS مع منصة Hadoop. ومن ثم ، يمكن القول أن هناك نموذجًا مختلفًا للموعد ، يمكننا استخدام منصة السلع الأساسية أيضًا ودفع ذلك - بشكل أساسي تشغيل خادم LASR التحليلي على منصات Hadoop. لذلك ، نحن هنا ... أنت تعمل داخل منصة البيانات الكبيرة. هذا أيضًا بعض من بائعي الأجهزة الآخرين أيضًا. لذلك ، سمح لنا ذلك باستخدام منصة السلع الأساسية للقيام بهذا العمل بشكل أساسي.


نحن نرى أنه في كثير من الأحيان مع أشياء مثل التحليلات عالية الأداء حيث إنه نوع من الخدمة التحليلية ذات الاستخدام الواحد أو الاستخدام الفردي ، ونوع أكثر من الدفعات الموجهة حيث أنت - لا تريد أن تستهلك مساحة الذاكرة في Hadoop بالضرورة منصة. نحن مرنون للغاية في هذا النوع من نماذج النشر ، وبالتأكيد في عملنا مع YARN في الكثير من هذه الحالات للتأكد من أننا نلعب مجموعات لطيفة.


حسنًا ، هذا هو العالم التحليلي ، فقط لكي أكون واضحًا من خلال التطبيق التحليلي. لكنني ذكرت أن SAS في البداية هي أيضا منصة لإدارة البيانات كذلك. وهناك أشياء مناسبة لدفع المنطق إلى تلك المنصة عند الاقتضاء. لذلك ، هناك عدة طرق للقيام بذلك. أحدهما في عالم تكامل البيانات ، قد لا يكون من المنطقي القيام بعملية تحويل البيانات على البيانات لسحبها كما سمعنا من قبل ، وتشغيل إجراءات جودة البيانات التي تعد كبيرة. نريد بالتأكيد دفع أشياء مثل إجراءات جودة البيانات إلى أسفل في تلك المنصة. وبعد ذلك ، أشياء مثل نموذج التهديف. لذلك ، لقد طورت نموذجي. لا أريد إعادة كتابة هذا الشيء في MapReduce وجعل الأمر صعبًا ووقتًا طويلاً بالنسبة لي لإعادة العمل في نظام قاعدة البيانات الأصلي.


لذلك ، إذا نظرت ، على سبيل المثال ، إلى مسرع التسجيل لدينا في Hadoop ، والذي يسمح لنا أساسًا باتخاذ نموذج ودفع المنطق الرياضي SAS لأسفل في منصة Hadoop وتنفيذها هناك ، باستخدام التوازي الموجود داخل منصة البيانات الكبيرة هذه. لدينا بعد ذلك مسرع الكود الخاص بنا للعديد من المنصات ، بما في ذلك Hadoop ، والذي يسمح لنا بشكل أساسي بتشغيل كود خطوة بيانات SAS داخل المنصة بطريقة متوازية بشكل كبير - لذلك ، القيام بأنواع تحويل البيانات من العمل في المنصة. وبعد ذلك ، يتيح لنا مسرع جودة بيانات SAS لدينا وجود قاعدة معرفة جيدة موجودة هناك يمكنها القيام بأشياء مثل مطابقة النوع الاجتماعي ورمز مطابقة التقييس - جميع الأشياء المختلفة لجودة البيانات التي سمعتها بالفعل اليوم.


ثم ، آخر قطعة ، هناك أداة تحميل البيانات. نحن نعلم أن مستخدمي الأعمال لدينا يجب أن يكونوا غير قادرين على كتابة التعليمات البرمجية ، والقيام بتحويل البيانات في منصات البيانات الكبيرة هذه. Data Loader هو واجهة مستخدم رسومية WYSIWYG لطيفة تسمح لنا باختتام هذه التقنيات الأخرى معًا. يشبه معالج التمرير ، على سبيل المثال ، تشغيل استعلام خلية أو تشغيل روتين جودة البيانات وليس من الضروري كتابة التعليمات البرمجية في هذه الحالة.


آخر ما أذكره هو هذا الجزء الأمامي. لدينا - كما ذكرت من قبل - قدم SAS ضخمة هناك في العالم. وهذا ، لا يمكننا بالضرورة القيام بكل تلك المنصات الموجودة في هذا المكان على الفور. لذلك ، لدينا بالتأكيد قدم حالية من المستخدمين الذين يحتاجون إلى الحصول على بيانات موجودة في منصات البيانات الكبيرة مثل الحصول على البيانات من Teradata وإعادة وضعها في Hadoop ، والعكس بالعكس. عن طريق تشغيل الطرز ، أعرف بالفعل كيفية العمل على خوادم SAS الخاصة بي ، لكنني بحاجة إلى الحصول على بيانات يتم وضعها الآن في نظام Hadoop. لذلك ، هناك هذا الرمز الصغير الآخر المسمى "من" ، والذي يسمح لنا بالاتصال باستخدام محركات الوصول SAS الخاصة بنا - محركات الوصول إلى Hadoop إلى Cloudera في Pola ، إلى Teradata ، إلى Greenplum إلى ... والقائمة تطول. يتيح لنا ذلك استخدام منصات SAS الناضجة الموجودة لدينا بالفعل للحصول على البيانات من هذه المنصات ، والقيام بالعمل الذي نحتاج إلى إنجازه ، ودفع النتائج مرة أخرى إلى هذه المناطق.


آخر شيء أود ذكره هو أن كل هذه التقنيات التي تراها كلها تحكمها نفس البيانات التعريفية الشائعة القياسية. لذلك ، نتحدث عن الحصول على عمل التحويل ، وقاعدة جودة البيانات في العمل ، ونقلها إلى الذاكرة لتكون قادرة على إجراء التحليلات ، وتطوير النماذج في التهديف. لقد توصلنا إلى نمط الحياة التحليلي بأكمله ، حيث يتم التحكم في دورة الحياة من خلال البيانات الوصفية الشائعة ، والحكم ، والأمن ، وجميع الأشياء التي تحدثنا عنها في وقت سابق اليوم.


لذلك ، مجرد خلاصة ، هناك بالفعل هذه الأشياء الثلاثة الكبيرة التي يجب اتخاذها هناك. أحدهما هو أنه يمكننا التعامل مع منصة البيانات تمامًا مثل أي مصدر بيانات آخر ، بالانسحاب منها ، والضغط عليها عندما يكون ذلك مناسبًا وملائمًا. يمكننا العمل مع منصات البيانات الكبيرة هذه ، وإدراج البيانات في تحليلات متقدمة متطورة لهذا الغرض في نظام الذاكرة. لذلك ، هذا هو خادم LASR.


ثم ، أخيرًا ، يمكننا العمل مباشرةً في منصات البيانات الكبيرة هذه ، مع الاستفادة من إمكانات معالجة التوزيع الخاصة بهم دون نقل البيانات.


إريك: حسنًا ، هذا شيء رائع ، أيها الناس. نعم هذا رائع! لذلك ، دعونا نتعمق في بعض الأسئلة. نذهب عادة حوالي 70 دقيقة أو لفترة أطول قليلا في هذه الأحداث. لذلك ، لا يزال لدينا جمهور كبير يجلس هناك. جورج ، أعتقد أنني سأطرح السؤال الأول عليك. إذا كنت تتحدث عن دفع صوتك الثنائي إلى Hadoop ، فأعتقد أن هذا يبدو لي وكأنك قمت بالفعل بتحسين سير العمل الحسابي. وهذا هو المفتاح بالكامل لكي تتمكن من القيام بهذه الأنواع من حوكمة البيانات في الوقت الفعلي ، وإنجازات نمط جودة البيانات ، لأن هذه هي القيمة التي تريدها ، أليس كذلك؟ إذا كنت لا ترغب في العودة إلى العالم القديم من MDM حيث يكون مرهقًا للغاية ويستغرق وقتًا طويلًا ، فعليك حقًا إجبار الناس على التصرف بطرق معينة ، والتي لا تعمل أبدًا. وهكذا ، ما قمت به هو ، أنك اختصرت دورة ما كان. دعنا نسميها أيام ، أسابيع ، وأحيانا حتى أشهر إلى ثوان ، أليس كذلك؟ هل هذا ما يحدث؟


جورج: هذا صحيح تمامًا ، لأن الحجم الذي نحصل عليه والأداء الذي نحصل عليه من مجموعة مذهل حقًا من حيث ، فقط ، كما تعلمون ، أنا دائمًا ما أتردد قليلاً في المعايير. ولكن من أجل الحجم الكبير ، عندما ندير مليار و 1.2 مليار سجل ونقوم بتوحيد كامل للعنوان - أقول جهاز HP متوسط ​​المدى - سيستغرق الأمر ، كما تعلم ، ثمانية أجهزة للمعالجات ، كما تعلمون ، 2 العربات من ذاكرة الوصول العشوائي لكل جوهر ، كما تعلمون ، سيستغرق تشغيل 20 ساعة. يمكننا القيام بذلك في حوالي ثماني دقائق الآن على ، كما تعلمون ، مجموعة مكونة من 12 عقدة. وهكذا ، فإن حجم المعالجة التي يمكننا القيام بها الآن مختلف تمامًا عن ذلك - وهو يتماشى تمامًا مع فكرة أن لديك كل هذه البيانات تحت تصرفك. لذا ، فليس من المخاطرة إجراء المعالجة. إذا قمت بذلك بشكل خاطئ ، يمكنك إعادة ذلك. لديك وقت ، كما تعلم. لقد غيّر بالفعل نطاق هذا حيث ، كما تعلمون ، أصبحت هذه الأنواع من المخاطر بالفعل مشاكل تجارية حقيقية للناس عندما كانوا يحاولون تشغيل حلول MDM. يجب أن يكون لديك 30 شخصًا في الخارج يقومون بحوكمة البيانات وكل شيء. وهكذا ، لا يزال يتعين عليك الحصول على بعض ذلك ، لكن السرعة والحجم اللذين يمكنك بهما الآن ، توفر لك حقًا الكثير من التنفس.


إريك: نعم ، هذه نقطة جيدة حقًا. أنا أحب هذا التعليق. لذلك ، لديك الوقت لإعادة مرة أخرى. هذا رائع.


جورج: نعم.


إريك: حسنًا ، إنه يغير الديناميات ، أليس كذلك؟ إنه يغير من طريقة تفكيرك فيما ستحاوله. أقصد ، أتذكر هذا منذ 18 عامًا في الصناعة من القيام بمؤثرات خاصة ، لأنه كان لدي عميل كان في ذلك المجال. وأنت تضغط على الأزرار لعرضها وستعود إلى المنزل. وقد عدت ، ربما بعد ظهر يوم السبت ، لترى كيف تسير الأمور. ولكن إذا أخطأت ، فهذا كان مؤلمًا جدًا جدًا. والآن ، هذا ليس تقريبًا - إنه ليس قريبًا من أن تكون مؤلمًا بحيث تتاح لك الفرصة لتجربة المزيد من الأشياء. يجب أن أقول ، أعتقد أن هذه نقطة جيدة حقًا.


جورج: هذا صحيح تمامًا. نعم ، وأنت تهب ساقك الإضافية. كما تعلمون ، تحصل في منتصف الطريق على وظيفة في الأيام الخوالي وهي تفشل ، لقد فجرت SOS. هذا هو.


اريك: صحيح. وأنت في مشكلة كبيرة ، نعم. صحيح.


جورج: هذا صحيح. صحيح.


إريك: كيث ، اسمح لي برمي واحدة لك. أتذكر إجراء مقابلة مع CIL الخاص بك ، كيث كولينز ، وأعتقد ، مرة أخرى ، على ما أعتقد ، 2011 ربما. وتحدث كثيرًا عن الاتجاه الذي تتبعه SAS على وجه التحديد فيما يتعلق بالعمل مع العملاء لتضمين التحليلات المشتقة من SAS في أنظمة التشغيل. وبالطبع سمعنا مايك فيرجسون يتحدث عن أهمية التذكر. الفكرة الكاملة هنا هي أنك تريد أن تكون قادرًا على ربط هذه الأشياء بعملياتك. لا تريد التحليل في فراغ ، مفصول عن المؤسسة. هذه ليست قيمة على الإطلاق.


إذا كنت تريد التحليل الذي يمكن أن يؤثر بشكل مباشر على العمليات وتحسينها. وإذا نظرت إلى الوراء - وكان علي أن أقول ، اعتقدت أنها فكرة جيدة في ذلك الوقت - يبدو أنها فكرة ذكية حقاً في الماضي. وأعتقد أن هذه ميزة حقيقية لدى الرجال. وبالطبع ، هذا الإرث الكبير ، وقاعدة التثبيت الضخمة هذه ، وحقيقة أنك قد ركزت على تضمين هذه التحليلات في أنظمة التشغيل ، وهو ما يعني الآن - ومنحت ، سوف يستغرق بعض العمل - أنا متأكد من أنك لقد تم العمل عليه بجد. ولكن الآن ، يمكنك الاستفادة من كل هذه الابتكارات الجديدة وهي حقًا من حيث القدرة على تشغيل كل هذه الأشياء مع عملائك. هل هذا تقييم عادل؟


كيث: نعم ، بالتأكيد. المفهوم هو ، أنتم تحصلون على فكرة تصميم القرار أو علوم القرار التي ، كما تعلمون ، هي إلى حد ما فكرة استكشافية علمية. ما لم يكن باستطاعتك القيام بهندسة أثناء هذه العملية حقًا ... إذا كنت تفكر في تطوير سيارة ، فلديك مصممين يصنعون هذه السيارة الجميلة ، لكن لا يتم ذلك حتى يضع المهندسون تلك الخطة في مكانها ويصنعون منتجًا حقيقيًا قابلاً للتطبيق قبل يمكن أن تضع الأشياء في الواقع ، وهذا ما فعلته SAS. لقد قام بدمج القرارات - عملية تصميم القرار مع عملية هندسة القرار معًا ، بحيث عندما تتحدث عن المعجلات ، تعرف مسرعات التسجيل بالتحديد ، إذا كنت تأخذ نموذجًا قمت بتطويره وتكون قادرًا على دفعه للخارج إلى Teradata ، أو دفعها للخارج إلى Oracle أو إلى Hadoop ، مع عدم وجود وقت تعطل صفري لتطوير النموذج ، لنموذج النشر. هذا هو المفتاح ، لأن النماذج تتحلل مع مرور الوقت ، ودقة تلك النماذج. لذا ، كلما استغرق الأمر وقتًا طويلاً لكي تأخذ ذلك وتضعه في طور الإنتاج ، هذا هو فقدان دقة النموذج.


ثم ، الجزء الآخر هو أنك تريد أن تكون قادرًا على مراقبة هذه العملية وإدارتها بمرور الوقت. تريد إهمال النماذج عندما تصبح قديمة وغير دقيقة. كنت تريد أن ننظر إليها ، والتحقق من دقة لهم مع مرور الوقت وإعادة بنائها. وهكذا ، لدينا أدوات إدارة النماذج التي تتصدر ذلك أيضًا ، والتي تتعقب البيانات الأولية حول العملية المصممة. وقد قال الناس أن النمذجة ، كما تعلمون ، هذا النوع من المفاهيم يشبه مصنع النماذج ، أو ما تريد تسميته. الأمر هو أنه يعمل على وضع البيانات الوصفية والإدارة قيد التنفيذ ، وهنا تكمن الأشياء الثلاثة الكبرى التي واجهناها - نحن نساعد الناس على كسب المال وتوفير المال وإبقائهم خارج السجن.


إريك: هذا الأخير كبير جداً ، أيضًا. أنا أتطلع لتجنب كل ذلك. لذلك ، دعونا نتحدث عن ...أنا أطرح سؤالًا أخيرًا واحدًا ، ربما يمكنك كل واحدًا القفز على هذا. سوف يزداد عدم تجانس عالمنا ، كما يبدو لي. أعتقد أننا بالتأكيد سنرى بعض التبلور حول البيئات السحابية المختلطة. لكن مع ذلك ، ستشاهد الكثير من اللاعبين الرئيسيين يتجولون. آي بي إم لا يذهب إلى أي مكان. أوراكل لا يذهب إلى أي مكان. SAP لا يذهب إلى أي مكان. وهناك العديد من البائعين الآخرين الذين يشاركون في هذه اللعبة.


أيضًا ، على الجانب التشغيلي ، حيث لديك حرفيًا آلاف وآلاف الأنواع المختلفة من التطبيقات. وسمعت - معظمكم يتحدث عن هذا ، لكنني أعتقد أن كلاكما سوف يوافق على ما كنت أقوله. لقد رأينا هذا الاتجاه الآن من حيث القوة الحسابية فقط في المحركات التحليلية والهندسة المعمارية. تتحدث الشركات منذ سنوات حول القدرة على الاستفادة من المحركات الأخرى الموجودة هناك وخدمة نقطة تزامن. وأنا أظن ، جورج ، سوف ألقاها عليك أولاً. يبدو لي أن هذا شيء لن يتغير. سيكون لدينا هذه البيئة غير المتجانسة مما يعني أن هناك أشياء مثل CRM في الوقت الحقيقي وجودة البيانات وإدارة البيانات. ستحتاج ، كبائع ، إلى التفاعل مع كل تلك الأدوات المختلفة. وهذا ما يريده العملاء. لن يريدوا شيئًا ما يفعله جيدًا مع هذه الأدوات وليس جيدًا مع تلك الأدوات. سوف يريدون سويسرا من MDM و CRM ، أليس كذلك؟


جورج: هذا صحيح. إنه أمر مثير للاهتمام ، لأننا احتضنا ذلك كثيرًا. جزء منه هو التاريخ الذي كان لدينا في الفضاء. ومن الواضح أننا كنا نعمل بالفعل على جميع قواعد البيانات الأخرى ، Teradatas وأجزاء من العالم. وبعد ذلك ، جعلنا - في عملية التنفيذ ، وعلى وجه التحديد الطريقة التي فعلنا بها ، فقط بحيث يكون لديك - تمتد عبر جميع قواعد البيانات المختلفة هذه. أحد الأشياء التي أجدها مثيرة للاهتمام هو أنه يوجد لدينا بعض العملاء الجادين في التخلص من جميع قواعد البيانات العلائقية. وهذا مثير للاهتمام. أنت تعرف ، هذا يعني أنه جيد. انه مشوق. لكنني لا أرى أن ذلك يحدث فعليًا على نطاق واسع للمؤسسة. لا أرى ذلك يحدث لفترة طويلة. لذلك ، أعتقد أن الهجين موجود هنا لفترة طويلة وعلى الجانب الآخر من تطبيقنا حيث لدينا منصة المراسلة لدينا في نظامنا لإدارة الحملة. لقد صممناها على وجه التحديد. الآن ، أصدرنا إصدارًا يقوم بذلك ويمكنه الآن الاتصال ببيئة البيانات المختلطة والاستعلام عن Hadoop ، أو الاستعلام عن أي قاعدة بيانات ، أو أي قاعدة بيانات تحليلية. لذلك ، أعتقد أن هذه مجرد موجة المستقبل. وأنا أوافق على أن الظاهرية ستلعب بالتأكيد دورًا كبيرًا في هذا ، لكننا فقط - سننتقل إلى البيانات الموجودة على جميع تطبيقاتنا.


إريك: حسنًا ، عظيم. و ، كيث ، سوف أرميه لك. ما رأيك في العالم غير المتجانس الذي نواجهه في العمل كقدم من نوع ما؟


كيث: نعم ، إنه أمر رائع حقًا. أعتقد أن ما نجده أكثر - ليس فقط في جانب إدارة البيانات من الأشياء - ولكن ما هو رائع حقًا الآن هو طبيعة المصدر المفتوح لقاعدة التحليلات. لذلك ، نرى منظمات مثل ، أو تقنيات مثل Spark تدخل على متنها ، والأشخاص الذين يستخدمون Python و R وجميع هذه التقنيات الأخرى مفتوحة المصدر. أعتقد أنه يمكن تفسيره على أنه نوع من الصراع أو تهديد إلى حد ما. ولكن الواقع هو ، لدينا بعض المجاملات رائعة حقا مع كل تلك التقنيات مفتوحة المصدر. أقصد ، على سبيل المثال ، أننا نعمل على منصات مفتوحة المصدر ، من أجل الله.


ولكن أيضًا ، مثل القدرة على الاندماج ، على سبيل المثال ، يسمح لك نموذج R في نموذج SAS باستخدام أفضل ما في العالمين ، أليس كذلك؟ مثل ، لذلك نحن نعلم أن بعض الأشياء التجريبية في العالم الأكاديمي وبعض أعمال تطوير النموذج تعتبر غير عادية ومفيدة للغاية في عملية تطوير النموذج. ولكن أيضًا ، إذا أمكنك إقران ذلك بنوع من أدوات فئة الإنتاج ، فهي تقوم بالكثير من عمليات التطهير والجودة والتحقق والتأكد من أن البيانات المقدمة إلى النموذج ، تم إعدادها بشكل صحيح حتى لا تفشل على التنفيذ. ثم ، أن تكون قادرًا على القيام بأشياء مثل نماذج بطل المنافسين مع نماذج مفتوحة المصدر. هذه هي الأشياء التي نبحث عنها لتمكينها ، وكجزء من هذا النظام البيئي غير المتجانس حقًا لجميع هذه التقنيات. نعم ، إنه أكثر - بالنسبة لنا ، يتعلق الأمر أكثر باحتضان تلك التقنيات والبحث عن الثناء.


إريك: حسنًا ، لقد كانت هذه أشياء رائعة يا أهل. لقد قطعنا شوطًا طويلًا هنا ، لكننا نرغب في الحصول على أكبر عدد ممكن من الأسئلة. سنقوم بإعادة توجيه ملف الأسئلة والأجوبة إلى مقدمي العروض لدينا اليوم. لذا ، إذا لم تتم الإجابة على أي سؤال طرحته ، فسنحرص على الإجابة عليه. والناس ، يختتم هذا الأمر لعام 2014. تفضلوا بقبول فائق الاحترام في راديو DM يوميًا والأسبوع المقبل ، ثم انتهى كل شيء وهو عطلة.


شكراً جزيلاً لكم جميعاً على وقتك واهتمامك ، على استعراض كل هذه البث الشبكي الرائع. لقد أمضينا عامًا رائعًا في عام 2015. وسنتحدث إليكم قريبًا أيها الأشخاص. شكرا لك مرة أخرى. سنهتم. مع السلامة.