قوة الاقتراح: كيف يمكن لفهرس البيانات تمكين المحللين

مؤلف: Lewis Jackson
تاريخ الخلق: 11 قد 2021
تاريخ التحديث: 1 تموز 2024
Anonim
How to implement auto completion/search suggestion in AEM through Lucene | Predictive Search in AEM
فيديو: How to implement auto completion/search suggestion in AEM through Lucene | Predictive Search in AEM

يبعد: يناقش المضيف ريبيكا Jozwiak مزايا كتالوجات البيانات مع Dez Blanchfield ، Robin Bloor و David Crawford.




يجب عليك التسجيل لهذا الحدث لعرض الفيديو. سجل لمشاهدة الفيديو.

ريبيكا جوزويك: سيداتي وسادتي ، مرحباً ومرحباً بكم في Hot Technologies لعام 2016. لقد وصلنا اليوم ، "قوة الاقتراح: كيف يمكن لكتالوج البيانات أن يمكّن المحللين." يسافر حول العالم ، لذا أشكرك على انضمامك إلينا. هذا العام حار ، ليس حارًا فقط في تكساس حيث أنا ، لكن الجو حار في كل مكان. هناك انفجار لجميع أنواع التقنيات الجديدة التي ظهرت. لقد حصلت على إنترنت الأشياء ، وتدفق البيانات ، واعتماد السحابة ، Hadoop لا يزال ينضج واعتماده. لدينا الأتمتة ، والتعلم الآلي ، وكل هذه الأشياء هي بطبيعة الحال التي أكدتها البيانات. وأصبحت الشركات أكثر وأكثر البيانات مدفوعة اليوم. وبالطبع ، فإن الهدف من ذلك هو الوصول إلى المعرفة والاكتشاف ، كما تعلمون ، اتخاذ قرارات أفضل. ولكن للحصول على أكبر قيمة من البيانات ، يجب أن يكون الوصول إليها سهلاً. إذا أبقتها مغلقة ، أو مدفونة ، أو في عقول عدد قليل من الأشخاص داخل المؤسسة ، فلن يكون ذلك مفيدًا للمؤسسة ككل.

وكنت أفكر نوعًا ما في فهرسة البيانات والتفكير في مسار المكتبات ، حيث كنت قد ذهبت منذ فترة طويلة إذا كنت بحاجة إلى البحث عن شيء ما ، أو إذا كنت بحاجة للبحث في موضوع ما ، أو البحث عن بعض المعلومات ، فذهبت إلى المكتبة وبالطبع ذهبت إلى كتالوج البطاقات ، أو سيدة كرابي التي عملت هناك. لكن كان من الممتع أيضًا أن تتجول ، إذا كنت تريد فقط أن تنظر ، وبالتأكيد أنك قد تكتشف شيئًا أنيقًا ، فقد تكتشف بعض الحقائق المثيرة للاهتمام التي لم تكن تعرفها ، ولكن إذا كنت بحاجة حقًا إلى معرفة شيء ما ، كنت تعرف ما كنت تبحث عنه ، كنت بحاجة إلى كتالوج البطاقات ، وبالطبع فإن ما يعادل المؤسسة هو كتالوج بيانات ، والذي يمكن أن يساعد في تسليط الضوء على جميع البيانات لمستخدمينا لإثراء واكتشاف ومشاركة واستهلاك ومساعدة الناس حقًا في الحصول على إلى البيانات بشكل أسرع وأسهل.


حتى اليوم ، حصلنا على Dez Blanchfield ، عالم البيانات الخاص بنا ، ولدينا دكتور روبن بلور ، كبير المحللين لدينا ، حصلنا على David Crawford من Alation ، الذي سيتحدث عن قصة فهرسة بيانات شركته ، لكننا سنذهب أولاً ليؤدي مع Dez. Dez ، أنا أمرر الكرة إليك والأرض لك.

ديز بلانشفيلد: شكرا ، شكرا لاستضافتي اليوم. هذه مسألة أنا مهتم بها للغاية ، لأن كل مؤسسة تقابلها في عملي اليومي تقريبًا ، أجد نفس المشكلة التي تحدثنا عنها بإيجاز شديد في المزاح السابق للعرض ، وهذا هو ذلك تحتوي معظم المؤسسات التي تعمل في الأعمال التجارية منذ أكثر من بضع سنوات على عدد كبير من البيانات المدفونة في جميع أنحاء المؤسسة ، وأشكال مختلفة ، وفي الحقيقة لدي عملاء لديهم مجموعات بيانات تعود إلى Lotus Notes ، وهي قواعد بيانات لا تزال تعمل في بعض حالات مثل شبكات الاتصال الزائفة الخاصة بهم ، وهم جميعًا يواجهون هذا التحدي المتمثل في العثور فعليًا على مكان بياناتهم ، وكيفية الوصول إليها ، ومن الذي يوفر الوصول إليها ، ومتى توفر الوصول إليها ، وكيفية فقط الكتالوج ، وكيفية توصيله إلى مكان حيث يمكن للجميع: أ) أن يكون على دراية بما هو موجود وما هو فيه ، و B) ، وكيفية الوصول إليه واستخدامه. وأحد أكبر التحديات بالطبع هو العثور عليها ، والتحدي الكبير الآخر هو معرفة ما يوجد هناك وكيفية الوصول إليه.


قد أعلم جيدًا أن لدي عشرات من قواعد البيانات ، لكنني لا أعلم فعليًا ما هو موجود هناك أو كيف يمكنني معرفة ما هو موجود هناك ، وهكذا دائمًا كما نكتشف الآن في البيانات السابقة للعرض ، تميل إلى المشي حول المكتب وطرح الأسئلة ، والصراخ عبر الجدران التكعيبية ومحاولة معرفة ، وغالبا ما تكون تجربتي ، قد تجد أنك تجول في مكتب الاستقبال ، الاستقبال ، وتسأل ما إذا كان أي شخص يعرف من أنت ذاهب للذهاب الحديث. في كثير من الأحيان ، ليس من قوم تقنية المعلومات دائمًا لأنهم غير مدركين لمجموعة البيانات لأن شخصًا ما أنشأها للتو ، وقد يكون شيئًا بسيطًا مثل: - في كثير من الأحيان سنجد مشروعًا من نوع ما يقف في بيئة تكنولوجيا المعلومات و استخدم مدير المشروع جدول بيانات يحتوي على جميع الأشياء ، وقد حصل على قدر هائل من المعلومات القيمة حول الأصول والخدع والأسماء ، وما لم تعرف ذلك المشروع وأنت تعرف ذلك الشخص ، فلن تتمكن من العثور على هذه المعلومات. إنه غير متاح فقط ، وعليك الاحتفاظ بهذا الملف الأصلي.

هناك عبارة تم مزاجها فيما يتعلق بالبيانات ولا أوافق عليها بالضرورة ، لكنني أعتقد أنها عبارة عن مخبأ لطيف قليلاً ، وهو أن كمية معينة من الناس يعتقدون أن البيانات هي النفط الجديد ، وأنا متأكد من أننا سوف تغطي ذلك في بعض الجوانب أيضًا ، في وقت لاحق اليوم. لكن ما لاحظته ، وبالتأكيد جزء من هذا التحول ، هو أن مؤسسات الأعمال التي تعلمت تقييم بياناتها اكتسبت ميزة كبيرة على منافسيها.

كانت هناك ورقة مثيرة للاهتمام من قبل IBM ، منذ حوالي خمس أو ست سنوات ، وقاموا باستطلاع حوالي 4000 شركة هنا في أستراليا ، وأخذوا جميع المعلومات ، وجميع بيانات الأداء ، وجميع البيانات المالية ووضعوها في وعاء الغليان ثم أرسلتها إلى الكلية الأسترالية للاقتصاد ، وبدأت بالفعل اتجاهًا شائعًا هنا ، وكانت تلك الشركات التي استفادت من التكنولوجيا قد اكتسبت دائمًا مثل هذه الميزة التنافسية على أقرانها ومنافسيها في حد ذاتها ، حتى أن منافسيها لم يلحقوا أبدًا بالركب ، وأعتقد هذا هو الحال الآن مع البيانات التي رأيناها فيما يسمونه الأشخاص بتحول رقمي حيث تعرفت المؤسسات بوضوح على كيفية العثور على البيانات التي بحوزتها ، ولتوفير تلك البيانات ، وجعلها متاحة بطريقة سهلة للغاية ارتقي إلى المنظمة ، دون أن تعرف دائمًا سبب احتياج المنظمة إليها ، واكتسب ميزة كبيرة على المنافسين.

لدي بعض الأمثلة على هذه الشريحة ، والتي يمكنك رؤيتها. خطي الأول هو ، هو أن الانقطاع على نطاق واسع في جميع قطاعات الصناعة تقريبًا ، من وجهة نظري ، هو الدافع وراء البيانات ، وإذا كانت الاتجاهات الحالية لا يزال عليها شيء ، فإن وجهة نظري هي أننا قد حصلنا للتو على حق فقط بدأت لأنه عندما تستيقظ العلامات التجارية الطويلة الأمد أخيرًا على ما يعنيه هذا وتدخل اللعبة ، ستدخل اللعبة في الجملة. عندما يبدأ نوع من تجار التجزئة الرئيسيين الذين يمتلكون سلسلة من البيانات في تطبيق بعض التحليلات التاريخية على البيانات ، إذا كانوا يعرفون أنها موجودة ، فإن بعض اللاعبين عبر الإنترنت سيحصلون على بعض الاستيقاظ.

ولكن مع العديد من معظم هذه العلامات التجارية ، أعني أننا قد حصلنا على أوبر من أكبر شركات سيارات الأجرة في العالم. إنهم لا يملكون أي سيارة أجرة ، فما الذي يجعلها سحرية ، ما هي بياناتهم؟ Airbnb ، أكبر مزود للسكن ، لدينا WeChat ، أكبر شركة للهواتف في العالم ، لكن ليس لديها بنية تحتية فعلية ، ولا هواتف ، ولا خطوط هاتف. علي بابا ، أكبر تاجر تجزئة على هذا الكوكب ، لكنهم لا يمتلكون أي مخزون. أكبر شركة إعلامية في العالم. أعتقد في العدد الأخير أن لديهم 1.4 مليار مستخدم نشط للبيانات الآن ، وهو رقم محير للعقل. إنه ليس قريبًا من أي مكان - أعتقد أن شخصًا ما ادعى أن ربع الكوكب موجود فعليًا كل يوم ، ومع ذلك ، فهناك مزود محتوى لا ينشئ المحتوى في الواقع ، وجميع البيانات التي يقدمونها لا يتم إنشاؤها من قبلهم ، بل يتم إنشاؤها بواسطة المشتركين ، ونحن جميعا نعرف هذا النموذج.

SocietyOne ، التي ربما تكون قد سمعت عنها أو لا تعرفها ، هي علامة تجارية محلية ، وأعتقد أنه في اثنين من البلدان ، إنه بنك يقوم بالفعل بإقراض نظير إلى نظير ، وبعبارة أخرى ، ليس لديه أموال. كل ما تفعله هو أنها تدير المعاملات والبيانات الموجودة تحتها. نيتفليكس ، نحن جميعًا على دراية بذلك. هناك خط واحد مثير للاهتمام هنا. عندما كانت Netflix قادرة قانونيًا على الاستخدام في أستراليا ، وعندما تم الإعلان عنها رسميًا ، لم يكن عليك استخدام VPN للوصول إليها ، يميل كثير من الناس في جميع أنحاء العالم - إذا لم تتمكن من الوصول إليها في منطقتك المحلية - عندما تم إطلاق Netfix في أستراليا ، مما أدى إلى زيادة عرض النطاق الترددي الدولي على روابط الإنترنت الخاصة بنا بنسبة 40 في المائة ، لذا ضاعف استخدام الإنترنت في أستراليا بين عشية وضحاها ، من خلال تطبيق واحد فقط ، تطبيق واحد مستضاف من مجموعة النظراء لا يفعل شيئًا سوى اللعب مع البيانات. إنها مجرد إحصائيات محيرة للعقل.

وبالطبع ، نحن جميعًا على دراية بـ Apple و Google ، ولكن هذه هي أكبر شركات البرمجيات على هذا الكوكب ، لكنها لا تكتب التطبيقات فعليًا. ما هو الشيء الثابت مع كل هذه المنظمات؟ حسنًا ، إنها بيانات ، ولم يصلوا إلى هناك لأنهم لم يعرفوا أين كانت بياناتهم ، ولم يعرفوا كيفية فهرستها.

ما نجده الآن هو أن هناك فئة أصول جديدة بالكامل يشار إليها على أنها بيانات ، والشركات تستيقظ منها. لكنهم لا يمتلكون دائمًا الأدوات والدراية الفنية وما إلى ذلك من أجل تعيين كل تلك البيانات ، لفهرسة جميع تلك البيانات وإتاحتها ، لكننا وجدنا أن الشركات التي لا تمتلك أصول مادية تقريبًا قد اكتسبت قيمة سوق عالية في وقت قياسي عبر فئة الأصول البيانات الجديدة. كما قلت ، فإن بعض اللاعبين القدامى يستيقظون الآن على هذا الأمر وبالتأكيد يخرجونه.

أنا من أشد المعجبين بأخذ قوم في رحلة ، لذا في الثمانين عامًا ، وأواخر ثمانية عشر ، وستكون أكثر من دراية بهذا في سوق الولايات المتحدة ، اتضح أنه لإجراء تعداد سكاني في كل عام أو نحو ذلك ، أعتقد أنهم أداروهما كل عشر سنوات في تلك المرحلة ، لكن إذا كنت ستجري إحصاءًا كل عام ، فقد يستغرق الأمر ما يصل إلى ثماني أو تسع سنوات لإجراء تحليل البيانات بالفعل. اتضح أن مجموعة البيانات هذه ثم تركت في صناديق في أماكن في الورق ، ولم يتمكن أحد من العثور عليها. لقد استمروا في ضخ هذه التقارير ، لكن البيانات الفعلية كانت صعبة للغاية للوصول إليها ، لدينا وضع مشابه مع لحظة أخرى مهمة في العالم ، في فترة الأربعينيات من القرن الماضي ، مع الحرب العالمية الثانية ، وهذا الشيء هو Bletchley Park Bombe مكتوبة BOMBE وكانت أداة تحليلية هائلة للأعداد والتي ستخضع لمجموعات البيانات الصغيرة وتجد إشارات بها ، وتستخدم للمساعدة في كسر الرموز من خلال لغز.

هذا الشيء مرة أخرى ، كان بشكل أساسي جهازًا مصممًا ، ليس كثيرًا للفهرسة ، بل لوضع علامات على البيانات وتعيينها ، وتمكين أخذ النماذج والعثور عليها داخل مجموعات البيانات ، وفي هذه الحالة ، فك الرموز ، والعثور على المفاتيح والعبارات والعثور على لهم بانتظام في مجموعات البيانات ، ولذا فقد مررنا في هذه الرحلة للعثور على الأشياء في البيانات ، والرائدة نحو فهرسة البيانات.

ثم جاءت هذه الأشياء معًا ، هذه الآلات الضخمة ذات التكلفة المنخفضة ، والآلات الجاهزة فقط. وفعلنا بعض الأشياء المثيرة للاهتمام ، وأحد الأشياء التي قمنا بها معهم هي أننا قمنا ببناء مجموعات منخفضة التكلفة للغاية والتي يمكن أن تبدأ في فهرسة الكوكب ، وهذه العلامات التجارية الكبرى الشهيرة التي جاءت وتذهب ، ولكن من المحتمل أن يكون Google هو موطن Google الأكثر شيوعًا. العلامة التجارية التي سمعناها جميعًا - لقد أصبحت فعلًا حقيقيًا ، وأنت تعلم أنك ناجح عندما تصبح علامتك التجارية فعلًا. ولكن ما علمته Google ، دون إدراكه ، ربما في عالم الأعمال ، هو أنها تمكنت من فهرسة الكوكب بأكمله إلى مستوى معين ، وفهرسة البيانات الموجودة في جميع أنحاء العالم ، وإتاحتها بطريقة سهلة للغاية ، نموذج مناسب في صيغة صغيرة جدًا مكونة من سطر واحد ، وصفحة ويب لا تحتوي على أي شيء تقريبًا ، وتكتب في استفسارك ، وتذهب وتجدها لأنها قد زحفت الكوكب بالفعل وفهرستها وجعلتها متاحة بسهولة.

وما لاحظناه هو ، "حسنًا ، انتظر القيام بهذا في المنظمات - لماذا هذا؟ لماذا لدينا مؤسسة يمكنها تعيين الكوكب بأكمله وفهرسته ، والزحف إليه ، وفهرسته ، وإتاحته ، يمكننا البحث عنه ، ثم النقر فوق الشيء الذي نذهب إليه والعثور عليه ، كيف نأتي لم يحدث ذلك داخليًا؟ "لذا ، فهناك الكثير من هذه الأرفف الصغيرة من الآلات الموجودة في جميع أنحاء العالم التي تفعل ذلك الآن للإنترانت وتجد الأشياء ، لكنها ما زالت في الحقيقة تتفهم فكرة تجاوز صفحة الويب التقليدية ، أو خادم الملفات.

بدلاً من إدخال هذا الجيل التالي من كتالوج البيانات بعدة طرق ، فإن اكتشاف الوصول إلى البيانات عبر الملاحظات اللاحقة ومحادثات مبردات المياه لم يعد حقًا طريقة مناسبة لاكتشاف البيانات وفهرستها بعد الآن ، وفي الحقيقة ، لا أعتقد أنه كان من أي وقت مضى . لم يعد بإمكاننا قيادة هذا التحدي برمته للأشخاص الذين يمررون الملاحظات وينشرون الملاحظات ويتحدثون عنها. لقد تجاوزنا الآن المجال حقًا حيث أصبح نهج الجيل التالي من فهرسة البيانات قد انتهى. علينا أن نحصل على أسلحتنا حوله. إذا كانت هذه مشكلة سهلة ، لكنا قد حللناها من قبل بطرق عديدة في وقت سابق ، لكنني أعتقد أنها ليست مشكلة سهلة ، مجرد فهرسة البيانات والاتصال بها هو جزء واحد منها فقط ، ومعرفة ما يوجد في البيانات وبناء البيانات الوصفية حول ما نكتشفه ، ثم جعله متاحًا في شكل سهل الاستهلاك ، لا سيما للخدمة الذاتية والتحليلات. لا تزال هناك مشكلة يتم حلها ، لكن العديد من أجزاء اللغز في خمس سنوات يتم حلها بشكل جيد ومتاح بالفعل.

كما نعلم ، فهرسة بيانات البشر هي وصفة للفشل لأن الخطأ البشري هو أحد أعظم الكوابيس التي نتعامل معها في معالجة البيانات ، وأنا أتحدث بانتظام عن هذا الموضوع ، حيث أرى أن البشر الذين يملأون النماذج الورقية ربما يكونون أكبر كابوس نحن نتعامل مع البيانات والتحليلات الضخمة ، ونضطر دائمًا إلى إصلاح الأشياء التي يقومون بها ، حتى إلى أشياء بسيطة مثل التواريخ والحقول ، والأشخاص الذين يضعونها في تنسيق خاطئ.

ولكن كما قلت ، لقد رأينا محركات البحث على الإنترنت تقوم بفهرسة العالم كل يوم ، لذلك نحن الآن نصل إلى فكرة أنه يمكن القيام بذلك على مجموعات بيانات الأعمال في عملية الاكتشاف ، والأدوات والأنظمة الآن متاح بسهولة لأنك على وشك التعلم اليوم. لذلك فإن الخدعة ، في رأيي ، هي اختيار الأدوات المناسبة ، وأفضل الأدوات لهذا المنصب. والأهم من ذلك ، العثور على الجزء الصحيح منه لمساعدتك على البدء في هذا المسار. وأعتقد أننا سوف نسمع عن ذلك اليوم ، لكن قبل أن نفعل ذلك ، سأنتقل إلى كليتي ، روبن بلور ، وأستمع إلى موضوعه. روبن ، هل يمكنني المرور لك؟

روبن بلور: نعم بالتأكيد يمكنك ذلك. دعونا نرى ما إذا كان هذا يعمل ، أوه نعم يعمل. حسنًا ، أنا قادم من اتجاه مختلف عن Dez حقًا ، لكنني سأنتهي في نفس المكان. يتعلق الأمر بالاتصال بالبيانات ، لذلك اعتقدت أنني سأنظر في حقيقة الاتصال بالبيانات ، نقطة تلو الأخرى حقًا.

هناك حقيقة أن البيانات مجزأة أكثر مما كانت عليه في أي وقت مضى. حجم البيانات ينمو بشكل هائل ، ولكن في الواقع الفعلي ، فإن مصادر البيانات المختلفة تنمو أيضًا بمعدل لا يصدق ، وبالتالي أصبحت البيانات مجزأة بشكل متزايد في كل وقت. ولكن بسبب تطبيقات التحليل على وجه الخصوص - ولكن هذه ليست التطبيقات الوحيدة - لدينا سبب وجيه حقًا للاتصال بجميع هذه البيانات ، لذلك نحن عالقون في مكان صعب ، فنحن عالقون في عالم من البيانات المجزأة ، وهناك فرصة في البيانات كما كان يطلق عليها Dez ، النفط الجديد.

حول البيانات ، حسنا ، كانت تستخدم للعيش على القرص الدوار ، إما في أنظمة الملفات أو قواعد البيانات. الآن يعيش في بيئة أكثر تنوعًا ، يعيش في أنظمة الملفات ولكنه يعيش أيضًا في حالات Hadoop في الوقت الحاضر ، أو حتى في حالات Spark. أنه يعيش في أنواع متعددة من قاعدة البيانات. منذ وقت ليس ببعيد ، قمنا نوعًا ما من قاعدة البيانات الترابطية الموحدة ، كما تعلمون ، لقد خرجت من النافذة في السنوات الخمس الماضية ، لأن هناك حاجة لقواعد بيانات المستندات ، وهناك حاجة لقواعد بيانات الرسم البياني ، لذلك تعلم أن اللعبة لديها تغير. لذلك عاش على قرص الغزل ، لكنه يعيش الآن على SSD. أحدث كمية من SSD - بالتأكيد أحدث وحدة SSD تخرج من سامسونج - عشرين غيغابايت ، وهي ضخمة. الآن يعيش في الذاكرة ، بمعنى أن النسخة الأولية من البيانات يمكن أن تكون في الذاكرة ، وليس على القرص ، ونحن لم نكن لبناء أنظمة مثل هذا ؛ نحن نفعل الآن. ويعيش في السحابة. مما يعني أنه يمكن أن يعيش في أي من هذه الأشياء ، في السحابة ، لن تعرف بالضرورة مكان وجودها في السحابة ، سيكون لديك عنوانه فقط.

لمجرد الوصول إلى هذه النقطة ، فشلت Hadoop حتى الآن ، كمخزن بيانات قابل للتوسيع. كنا نتمنى أن يصبح مخزن بيانات قابل للتوسيع ، وسيصبح نظام ملفات واحدًا لكل شيء ، وسيظهر ذلك - ستظهر أقواس قزح في السماء ، وأساسًا ، وكان يوحديون يرقصون ، ولم يحدث أي من ذلك. مما يعني أننا ينتهي بنا الأمر إلى مشكلة نقل البيانات ، وليس هناك ضرورة لنقل البيانات ، في بعض الأحيان ، ولكنها أيضًا تمثل صعوبة. تتمتع البيانات فعليًا بالجاذبية في الوقت الحاضر ، بمجرد وصولك إلى تيرابايت البيانات المتعددة ، والتقاطها ورميها حولها ، أو نوع من الأسباب التي تظهر في وقت الظهور على شبكتك ، أو تظهر في أماكن مختلفة. إذا كنت تريد نقل البيانات حولها ، فسيكون التوقيت عاملاً. يوجد دائمًا ، في الوقت الحاضر ، بعض القيود على مقدار الوقت الذي يجب أن تحصل فيه على شيء واحد ، وبيانات واحدة من مكان إلى مكان آخر. اعتاد أن يكون هناك ما اعتدنا أن نفكر فيه كنوافذ دفعية ، عندما كان الجهاز خاملاً ، وبغض النظر عن كمية البيانات التي لديك ، يمكنك فقط التخلص منها وستعمل جميعها. حسنًا ، لقد ولت ، نحن نعيش في عالم أكثر واقعية بكثير. لذلك التوقيت عامل. حالما تريد نقل البيانات في مكانها ، لذلك إذا كانت البيانات ذات خطورة ، فمن المحتمل أنك لا تستطيع نقلها.

تعد إدارة البيانات عاملاً بمعنى أن لديك بالفعل إدارة جميع هذه البيانات ، ولا يمكنك الحصول عليها مجانًا ، وقد يكون النسخ المتماثل ضروريًا حتى تحصل على البيانات للقيام بالمهمة التي تحتاجها ، لأنها قد لا يكون أينما كنت قد وضعت عليه. قد لا يكون لديها موارد كافية للقيام بالمعالجة الطبيعية للبيانات. لذلك يتم نسخ البيانات وتكرار البيانات أكثر مما تتخيل. أعتقد أن أحدهم أخبرني منذ وقت طويل أن متوسط ​​قطعة البيانات يتم نسخه مرتين ونصف على الأقل. تقدم ESBs أو Kafka خيارًا لتدفق البيانات ، ولكنها في الوقت الحاضر تتطلب هندسة. في هذه الأيام ، تحتاج حقًا إلى التفكير بطريقة أو بأخرى ، حول ما يعنيه بالفعل رمي البيانات حولها. لذلك ، للوصول إلى البيانات في مكانها ، هو الأفضل عادة ، طالما يمكنك بالطبع الحصول على الأداء الذي تحتاجه عندما تذهب بالفعل إلى البيانات وهذا يعتمد على الاشتراكات. لذلك هو وضع صعب ، على أي حال. فيما يتعلق باستعلامات البيانات ، اعتدنا أن نكون قادرين على التفكير فيما يتعلق بـ SQL ، فقد توصلنا الآن إلى أشكال مختلفة من الاستعلامات ، SQL yes ، ولكن مع استعلامات الرسم البياني المجاورة أيضًا ، Spark هو مثال واحد فقط على أداء الرسم البياني ، نظرًا لأننا نحتاج أيضًا إلى القيام بالبحث ، أكثر من أي وقت مضى ، وأيضًا أنواع عمليات البحث التي يتم إجراء عمليات تعقيدها ، والتي تعد عمليات بحث معقدة عن الأنماط ومطابقة النماذج الأصلية ، فإن كل هذه الأشياء بدأت في الظهور. وكلها مفيدة لأنها توفر لك ما تبحث عنه ، أو أنها يمكن أن تحصل على ما تبحث عنه.

تمتد أيام الاستعلامات الآن إلى بيانات متعددة ، لذلك لم تفعل ذلك دائمًا ، وغالبًا ما يكون الأداء مروعًا إذا قمت بذلك. لذلك ، يعتمد ذلك على الظروف ، لكن يتوقع الناس أن يكونوا قادرين على الاستعلام عن البيانات من مصادر بيانات متعددة ، لذلك أصبح اتحاد البيانات من نوع أو آخر أكثر حداثة. تعد محاكاة البيانات الافتراضية ، وهي طريقة مختلفة للقيام بذلك ، اعتمادًا على الأداء ، شائعة جدًا أيضًا. استعلامات البيانات هي في الواقع جزء من العملية ، وليس العملية بأكملها. تجدر الإشارة إلى أنه إذا كنت تبحث فعليًا عن أداء التحليلات ، فيمكن أن تستغرق التحليلات الفعلية وقتًا أطول بكثير من جمع البيانات ، لأن ذلك يعتمد على الظروف ، لكن استعلامات البيانات تعد ضرورة مطلقة إذا كنت تريد القيام بأي نوع من التحليلات على مصادر بيانات متعددة ، وفقط ، عليك حقًا امتلاك قدرات تمتد.

لذلك عن الفهارس.توجد كتالوجات لسبب ما ، على الأقل نقول ذلك ، كما تعلمون ، به ، لدينا أدلة ، ولدينا مخططات في قواعد البيانات ، ولدينا كل كتالوج ولدينا أينما ذهبت ستجد مكانًا واحدًا ثم اكتشف أن هناك نوعًا من الكتالوج ، والفهرس الشامل الموحد فكرة جيدة بشكل واضح. لكن قلة قليلة من الشركات لديها مثل هذا الشيء. أتذكر ، مرة أخرى في العام ألفي - عام ألفي الذعر - أتذكر أن الشيوعيين لم يتمكنوا حتى من تحديد عدد التنفيذيين لديهم ، ولا يهمهم كم عدد مخازن البيانات المختلفة لديهم ، وربما هذا هو الحال الآن ، أنت أعلم ، أن معظم الشركات لا تعرف بنشاط بالمعنى العالمي ، ما هي البيانات التي لديهم. ولكن من الواضح أنه أصبح من الضروري بشكل متزايد امتلاك كتالوج عالمي بالفعل ، أو على الأقل الحصول على صورة عالمية لما يجري بسبب نمو مصادر البيانات ، والنمو المستمر للتطبيقات ، وهو ضروري بشكل خاص للتحليلات ، لأنك أيضًا بطريقة أو بأخرى ، فهناك مشكلات أخرى هنا مثل النسب والمشاكل المتعلقة بالبيانات ، وهي ضرورية للأمان ، والعديد من جوانب إدارة البيانات ، إذا كنت لا تعرف حقًا البيانات التي لديك ، وفكرة أنك سوف يحكم هو مجرد سخيف. لذلك ، في ذلك ، يتم تصنيف كافة البيانات بطريقة ما مجرد حقيقة. والسؤال هو ما إذا كان الكتالوج متماسكًا ، وما الذي يمكنك فعله به بالفعل. لذلك سأعود إلى ريبيكا.

ريبيكا جوزويك: حسنا ، شكرا روبن. حتى بعد ذلك ، حصلنا على David Crawford من Alation ، David سأذهب إلى الأمام وأمر الكرة إليك ، ويمكنك أخذها بعيدًا.

ديفيد كروفورد: شكرا جزيلا. إنني أقدر لك يا رفاق وجود هذا في هذا العرض أعتقد أنني سأبدأ هذا ، لذلك أعتقد أن دوري هنا ، هو أخذ بعض هذه النظرية ومعرفة كيف يتم تطبيقها بالفعل ، والنتائج التي يمكننا أن نوجهها إلى عملاء حقيقيين ومن ثم يمكنك أن ترى عدد قليل من الشريحة ، أريد أن أتحدث عن النتائج التي سنكون قادرين على رؤيتها في التحسينات التحليلية المحتملة. لتحفيز المناقشة ، سوف نتحدث عن كيفية وصولهم إلى هناك. لذلك أنا محظوظ للعمل بشكل وثيق مع الكثير من الأشخاص الأذكياء حقًا ، هؤلاء العملاء ، وأريد فقط أن أشير إلى عدد قليل ممن تمكنوا من القياس بالفعل ، والتحدث عن كيفية تأثير كتالوج البيانات على محلليهم. سير العمل. ولمجرد البقاء في المقدمة لفترة قصيرة ، أعتقد أن أحد الأشياء التي نراها تتغير ، من خلال كتالوجات البيانات والحلول الوسيطة السابقة وأحد الطرق التي تفكر بها العلاقات حقًا حول الحلول التي وضعناها معًا ، هو البدء من المحللين والعمل الى الوراء. أن نقول ، دعنا نجعل ذلك حول تمكين إنتاجية المحللين. بدلا من الامتثال العادل ، أو على عكس مجرد وجود مخزون ، نحن بصنع أداة تجعل المحللين أكثر إنتاجية.

لذلك ، عندما أتحدث مع عالم بيانات في شركة الخدمات المالية سكوير ، هناك رجل ، نيك ، كان يخبرنا بكيفية عمله ، وكان يستغرق عدة ساعات للعثور على مجموعة البيانات المناسبة لبدء التقرير ، والآن يمكنه افعل ذلك في غضون ثوانٍ باستخدام البحث في حصتها في السوق ، تحدثنا إلى CTO الخاص بهم الذين سحبوا محلليهم الذين كانوا يستخدمون Square ، ومعذرة ، وكانوا يستخدمون Alation ، لمعرفة ماهية فوائدهم ، وما الفوائد التي رأوها ، وأبلغوا عن 50 زيادة في المئة من الإنتاجية ، وهذا ، أحد أكبر تجار التجزئة في العالم ، eBay ، لديهم أكثر من ألف شخص يقومون بتحليل SQL على أساس منتظم ، وأنا أعمل عن كثب مع Deb Says هناك ، من هو المشروع مدير في فريق أدوات البيانات الخاصة بهم ، ووجدت أنه عندما يعتمد المستعلمون Alation ، يعتمدون الكتالوج ، فإنهم يرون ضعف سرعة كتابة استعلامات جديدة مقابل قاعدة البيانات.

هذه نتائج حقيقية ، فهؤلاء هم الأشخاص الذين يطبقون الكتالوج فعليًا في مؤسستهم ، وأريد أن أخبرك بما يتطلبه الأمر من إعداد. كيف يتم إنشاء كتالوج في إحدى الشركات ، وربما الشيء الأكثر أهمية هو أن يحدث الكثير منه تلقائيًا ، لذلك تحدث Dez عن الأنظمة ، وتعلم الأنظمة ، وهذا بالضبط ما يفعله كتالوج البيانات الحديث. لذلك يقومون بتثبيت Alation في مركز البيانات الخاص بهم ثم يقومون بتوصيله بمصادر مختلفة للبيانات الوصفية في بيئة البيانات الخاصة بهم. سأركز قليلاً على قواعد البيانات وأدوات استقصاء المعلومات - من هاتين القاعدتين سنستخرج البيانات الوصفية التقنية ، حول ما هو موجود بشكل أساسي. صحيح ، فما الجداول؟ ما التقارير؟ ما هي تعريفات التقرير؟ لذلك يقومون باستخراج البيانات التعريفية التقنية هذه ، ويتم إنشاء صفحة كتالوج تلقائيًا لكل كائن داخل هذه الأنظمة ، وبعد ذلك ، يقوموا أيضًا باستخراج طبقة البيانات التعريفية التقنية وطبقتها فوقها ، ويضعونها فوق بيانات الاستخدام. ويتم ذلك في المقام الأول عن طريق قراءة سجلات الاستعلام من قاعدة البيانات ، وهذا مصدر مثير للاهتمام حقًا للمعلومات. لذلك ، عندما يكتب أحد المحللين استعلامًا ، وكلما كانت أداة إعداد التقارير ، سواء كانت نابعة من المنزل ، أو خارجها ، ما إذا كانت أداة إعداد التقارير تقوم بتشغيل استعلام من أجل تحديث لوحة المعلومات ، عندما يقوم أحد التطبيقات بتشغيل استعلام لإدراج البيانات للعمل على مجموعة بيانات - يتم التقاط كل هذه الأشياء في سجلات استعلام قاعدة البيانات. سواء كان لديك كتالوج أو لا ، يتم التقاطها في سجل الاستعلام مع قاعدة البيانات. ما يمكن أن يفعله كتالوج البيانات ، وخاصة ما يمكن أن يفعله كتالوج Alations ، هو قراءة هذه السجلات ، وطرح الاستعلامات بداخلها ، وإنشاء رسم استخدامي مثير للاهتمام حقًا يعتمد على تلك السجلات ، ونحن نضع ذلك في الاعتبار لإعلام المستخدمين في المستقبل من البيانات حول كيفية استخدام المستخدمين السابقين للبيانات.

لذلك ، نجمع كل هذه المعرفة معًا في الكتالوج ، ولجعلها حقيقية ، فهذه هي التكاملات التي تم نشرها بالفعل في العملاء ، لذلك ، فقد رأينا Oracle و Teradata و Redshift و Vertica ومجموعة أخرى قواعد البيانات العلائقية. في عالم Hadoop ، هناك مجموعة من SQL على Hadoop ، نوع من المتاجر العلائقية ، الفوقية على رأس نظام ملفات Hadoop ، Impala ، Tez ، Presto و Hive ، وقد شهدنا أيضًا نجاحًا مع مزودي القطاع الخاص في Hadoop مثل Altiscale ، ونحن تمكنت أيضًا من الاتصال بخوادم Tableau وخوادم MicroStrategy وفهرسة لوحات المعلومات هناك ، بالإضافة إلى تكاملها مع أدوات تخطيط علم البيانات مثل Plotly.

لذلك ، نحن نتصل بجميع هذه الأنظمة ، لقد قمنا بتوصيل هذه الأنظمة بالعملاء ، لقد قمنا باستخراج البيانات الوصفية التقنية ، وقمنا بسحب بيانات الاستخدام ، وقمنا بنوع من كتالوج البيانات تلقائيًا ، ولكن بهذه الطريقة ، نحن مركزية المعرفة ، ولكن فقط تركيز الأمور في كتالوج البيانات ، لا يوفر بحد ذاته تلك التعزيزات الإنتاجية الرائعة حقًا التي تحدثنا عنها مع eBay و Square و حصتها في السوق. من أجل القيام بذلك ، نحتاج فعلاً إلى تغيير الطريقة التي نفكر بها في توصيل المعرفة للمحللين. أحد الأسئلة التي يطرحونها للتحضير لذلك ، كان "كيف يؤثر الكتالوج فعليًا على سير عمل المحلل؟"

هذا هو ما نقضيه طوال اليوم في التفكير ، ولكي أتحدث عن هذا التغيير في التفكير ، عن آيات الدفع كنموذج سحب ، أردت أن أقوم بتشبيه سريع لما كان عليه العالم قبل وبعد قراءة كيندل. لذلك ، إنها مجرد تجربة قد يختبرها بعضكم ، عندما تقرأ كتابًا ماديًا ، تصادف كلمة ، لست متأكدًا من معرفتك لتعريف تلك الكلمة جيدًا ، يمكنك تخمينها من الخداع ، وليس من المرجح أنك سوف تنهض من الأريكة ، وتمشي إلى رف كتبك ، وتعثر على قاموسك ، وتخلص منه ، وتقف إلى المكان الصحيح في القائمة الأبجدية للكلمات للتأكد من ذلك ، نعم كان لديك هذا التعريف تمامًا ، وأنت تعلم الفروق الدقيقة في ذلك. لذلك لا يحدث حقا. لذا ، يمكنك شراء تطبيق Kindle وتبدأ في قراءة الكتب هناك ، وترى كلمة لم تكن متأكدًا تمامًا عنها ولمس الكلمة. كل ما هو مفاجئ ، في نفس الشاشة ، هو تعريف القاموس للكلمة ، مع كل الفروق الدقيقة ، واستخدامات الأمثلة المختلفة ، وانتقاد قليلاً ، وتحصل على مقالة Wikipedia حول هذا الموضوع ، وانتقاد مرة أخرى ، تحصل على أداة ترجمة يمكنها ترجمتها إلى لغات أخرى أو من لغات أخرى ، وفجأة تكون معرفتك للغة أكثر ثراءً ، ويحدث ذلك بعدد مذهل من المرات ، مقارنةً بوقت اضطرارك للذهاب إليه و اسحب هذا المورد لنفسك.

وهكذا فإن ما سأقوله هو أن سير العمل للمحلل والطريقة التي سيتعامل بها المحلل مع وثائق البيانات ، هي في الواقع تشبه إلى حد كبير الطريقة التي سيتفاعل بها القارئ مع القاموس ، سواء كان فعليًا أو مع ذلك Kindle ، وماذا نحن ، الطريقة التي رأينا بها فعلًا هذه الزيادة في الإنتاجية ، لا تسكب الكتالوج ، ولكن توصيله بسير عمل المحلل ، وهكذا ، طلبوا مني إجراء عرض توضيحي هنا ، وأريد لجعل هذا محور هذا العرض. لكني أريد فقط إعداد الاشتراكات للتجربة. عندما نفكر في نقل معرفة البيانات إلى المستخدمين عندما يحتاجون إليها ، فإننا نعتقد أن المكان المناسب للقيام بذلك ، والمكان الذي يقضون فيه وقتهم وأين يقومون بإجراء التحليل ، هو أداة استعلام SQL. مكان يمكنك فيه كتابة استعلامات SQL وتشغيلها. وهكذا قمنا ببناء واحدة ، وقمنا ببنائها ، والشيء الذي يختلف حقا عن ذلك من أدوات الاستعلام الأخرى هو التكامل العميق مع كتالوج البيانات.

لذلك تسمى أداة الاستعلام الخاصة بنا Alation Compose. في أداة الاستعلام على شبكة الإنترنت وإيل تظهر لك في الثانية. أداة استعلام معتمدة على الويب تعمل عبر كل شعارات قاعدة البيانات تلك التي شاهدتها على الشريحة السابقة. ما سأحاوله التجريبي بشكل خاص هو الطريقة التي تأتي بها معلومات الكتالوج إلى المستخدمين. ويفعل ذلك من خلال هذا النوع من ثلاث طرق مختلفة. إنها تفعل ذلك من خلال التدخلات ، وهذا هو المكان الذي يمكن أن يقول فيه شخص ما لمحافظ البيانات ، أو مدير البيانات ، أو مسؤول من نوع ما ، أو مدير ما ، "أريد نوعًا من التدخل مع ملاحظة أو تحذير في سير العمل وتأكد من تسليمها إلى المستخدمين في الوقت المناسب. "لذلك هذا هو التدخل وإظهار ذلك جيدًا.

الاقتراحات الذكية هي طريقة تستخدم فيها الأداة كل معرفتها المجمعة بالكتالوج لاقتراح كائنات وأجزاء من الاستعلام أثناء كتابتها. أهم شيء يجب معرفته هناك هو أنه يستفيد بالفعل من سجل الاستعلام للقيام بذلك ، لاقتراح أشياء بناءً على الاستخدام وأيضًا العثور على أجزاء من الاستعلامات التي تمت كتابتها من قبل. وتظهر جيدا ذلك.

ثم معاينات. المعاينات هي ، كما تكتب باسم كائن ، نعرض لك كل ما يعرفه الفهرس ، أو على الأقل أكثر الأشياء ذات الصلة التي يعرفها الفهرس عن هذا الكائن. لذا فإن عينات البيانات ، التي استخدمتها من قبل ، والاسم المنطقي لذلك الكائن ووصفه ، تأتي جميعًا إليك أثناء كتابتها دون الحاجة إلى طلبها.

لذلك دون أي مزيد من الكلام ، وسوء الوصول إلى العرض التوضيحي ، وإيم مجرد الانتظار حتى تظهر. ما سأقوم بعرضه هنا هو أداة الاستعلام. لها واجهة الكتابة SQL مخصصة. لها واجهة منفصلة عن الكتالوج ، بمعنى ما. تحدث ديز وروبن عن الكتالوج ، وأيم قفزت قليلاً عبر واجهة الكتالوج مباشرة إلى الكيفية التي أتت بها مباشرة لخدمة سير العمل.

أنا فقط أعرض هنا مكانًا يمكنني فيه كتابة SQL ، وفي الأسفل سترى أن لدينا بعض المعلومات التي تظهر حول الكائنات التي كانت تشير إليها. لذا ، سأبدأ في كتابة استعلام و Ill توقف عندما أحصل على أحد هذه التدخلات. لذلك اكتب سوء "اختيار" ، وأريد السنة. اريد الاسم وانا ذاهب للبحث عن بعض البيانات الراتب. لذلك هذا هو مجموعة بيانات التعليم. أنه يحتوي على معلومات حول مؤسسات التعليم العالي ، وإيم تبحث في متوسط ​​راتب أعضاء هيئة التدريس في هذا الجدول.

لذا ، فقد قمت بالفعل بكتابة كلمة "راتب". ليس بالضبط باسم العمود بهذه الطريقة. نحن نستخدم كلاً من البيانات الوصفية المنطقية والبيانات الوصفية المادية لعمل اقتراحات. وما أريد الإشارة إليه هنا هو أن المربع الأصفر يظهر هنا. تقول هناك تحذير في هذا العمود. لم أذهب للبحث عن ذلك ، لم أحضر فصلًا عن كيفية استخدام هذه البيانات بشكل صحيح. يتعلق الأمر بي ، ويحدث تحذير بشأن اتفاقية سرية تتعلق بهذه البيانات. لذلك هناك بعض قواعد الكشف. إذا كنت سأقوم باستعلام هذه البيانات ، وسأقوم بإخراج البيانات من هذا الجدول ، يجب أن أكون حريصًا بشأن كيفية الكشف عنها. لذلك لديك سياسة الحكم هنا. هناك بعض التحديات المتعلقة بالامتثال والتي تجعل من الأسهل كثيرًا الامتثال لهذه السياسة عندما أعرفها في الوقت الذي أطلع فيه Im على البيانات.

لذا حصلت على هذا الأمر لي ، ثم سأنظر أيضًا إلى الرسوم الدراسية. وهنا نرى معاينات تدخل حيز التنفيذ. في عمود التعليم هذا ، أرى - هناك عمود دروس في جدول المؤسسة ، وأرى ملف تعريف لذلك. يذهب Alation ويسحب عينات من الجداول ، وفي هذه الحالة ، يظهر لي شيئًا مثيرًا للاهتمام. إنه يوضح لي توزيع القيم ، ويظهر لي أن القيمة الصفرية ظهرت 45 مرة في العينة ، وأكثر من أي قيمة أخرى. لذلك لدي بعض الإحساس بأننا قد نفتقد بعض البيانات.

إذا كنت محللًا متقدمًا ، فقد يكون هذا جزءًا من سير العمل الخاص بي بالفعل. خاصةً إذا كانت الدردشة دقيقة جدًا ، حيث أقوم بمجموعة من استعلامات التوصيف في وقت مبكر. كلما اقتربت Im من جزء جديد من البيانات ، أفكر دائمًا في ماهية تغطية بياناتنا. ولكن إذا كان Im جديدًا في تحليل البيانات ، وإذا كان Im جديدًا في مجموعة البيانات هذه ، فقد أفترض أنه إذا كان هناك عمود ، فسيتم ملؤه بالكامل. أو ربما أفترض أنه إذا لم يتم ملؤها ، فليس صفرا ، أو لاغيا أو شيء من هذا القبيل. لكن في هذه الحالة ، لدينا الكثير من الأصفار ، وإذا قمت بمتوسط ​​، فمن المحتمل أن تكون على خطأ ، إذا افترضت أن هذه الأصفار كانت في الواقع صفر بدلاً من البيانات المفقودة.

لكن Alation ، من خلال جلب هذه المعاينة إلى سير العمل الخاص بك ، يطلب منك نوع من إلقاء نظرة على هذه المعلومات وإعطاء نوع من المحللين المبتدئين فرصة لمعرفة أن هناك شيئًا يمكن ملاحظته هنا بشأن هذه البيانات. لذلك لدينا تلك المعاينة.

الشيء التالي الذي سأقوم به Im هو محاولة اكتشاف الجداول التي يمكن الحصول عليها من هذه المعلومات. حتى هنا نرى الاقتراحات الذكية. كان يحدث طوال الوقت ، ولكن هنا على وجه الخصوص ، لم أقم حتى بكتابة أي شيء سوى أنه سوف يشير لي الجداول التي قد أرغب في استخدامها لهذا الاستعلام. وأهم شيء يجب معرفته عن ذلك هو أنه يستفيد من إحصائيات الاستخدام. لذلك في بيئة مثل ، على سبيل المثال ، eBay ، حيث لديك مئات الآلاف من الجداول في قاعدة بيانات واحدة ، فإن وجود أداة يمكنها ضرب القمح من القشر واستخدام إحصائيات الاستخدام هذه ، أمر مهم حقًا لجعل هذه اقتراحات تستحق شيئا.

لذلك سوف تشير إلى هذا الجدول. عندما أنظر إلى المعاينة ، نسلط الضوء فعليًا على ثلاثة أعمدة ذكرتها بالفعل في استعلامي. لذلك أنا أعرف أنها حصلت على ثلاثة ، لكن ليس لديها الاسم. أحتاج إلى الحصول على الاسم ، لذا سأقوم بالانضمام. عندما أقوم بربط ، الآن مرة أخرى لدي هذه المعاينات لمساعدتي في العثور ، حيث يوجد الجدول بالاسم. لذلك أرى أن هذا واحد له تنسيق جيد ، نوع من الأحرف الكبيرة بشكل صحيح. يبدو أن هناك صفًا واحدًا يحمل اسمًا لكل مؤسسة ، لذا سأقوم بالإمساك بذلك ، والآن أحتاج إلى شرط الانضمام.

وهكذا ، هنا ما تفعله Alation هو العودة مرة أخرى إلى سجلات الاستعلام ، ورؤية الأوقات السابقة التي تم ربط هذين الجدولين بها ، واقتراح طرق مختلفة للانضمام إليها. مرة أخرى ، هناك بعض التدخل. إذا نظرت إلى أحد هذه العناصر ، فسيظهر تحذير يوضح أنه يجب استخدام هذا فقط للتحليل الكلي. من المحتمل أن تنتج الشيء الخطأ إذا كنت تحاول القيام بشيء ما من خلال المؤسسة حسب المؤسسة. في حين أن هذا ، مع اعتماد OPE ID هو الطريقة الصحيحة للانضمام إلى هذين الجدولين إذا كنت تريد بيانات على مستوى الجامعة. لذلك أنا أفعل ذلك ، وهو عبارة عن استعلام قصير ، لكنني قمت بكتابة استفساري دون أن يكون لي بالضرورة أي نظرة ثاقبة على ماهية البيانات. لم أقم مطلقًا بالاطلاع على مخطط ER لمجموعة البيانات هذه ، لكنني أعرف الكثير حول هذه البيانات بالفعل لأن المعلومات ذات الصلة تأتي إلي.

لذلك فهذه هي الطرق الثلاث التي يمكن أن يؤثر بها الكتالوج ، من خلال أداة استعلام متكاملة ، بشكل مباشر على سير العمل أثناء كتابة استفساراتك. ولكن أحد المزايا الأخرى لوجود أداة استعلام مدمجة في الكتالوج هي أنه عندما أنهي الاستعلام الخاص بي وحفظه ، يمكنني وضع عنوان مثل "الرسوم الدراسية للمؤسسة ورواتب أعضاء هيئة التدريس" ، ومن ثم لدي زر هنا يسمح لي فقط بنشره في الكتالوج. يصبح من السهل للغاية بالنسبة لي لتغذية هذا مرة أخرى. حتى لو لم أقم بنشرها ، حيث يتم التقاطها كجزء من سجل الاستعلام ، ولكن عندما أنشره ، يصبح في الواقع جزءًا من الطريقة التي يوجد بها المكان المركزي الذي تعيش فيه كل معرفة البيانات.

لذلك ، إذا قمت بالنقر فوق "بحث عن جميع الاستعلامات في Alation ، فسيتم إرسال رسالة فورية - وهنا سترى المزيد من واجهة الكتالوج - انتقلت إلى بحث مخصص للاستعلام يُظهر لي طريقة للعثور على استعلامات عبر المؤسسة بأكملها. وسترى أن استعلامي المنشور حديثًا في الأعلى. وقد يلاحظ البعض هنا في ، أثناء التقاط الاستعلامات ، نلتقط أيضًا المؤلفين ، ونؤسس نوعًا من العلاقة بيني كمؤلف وكائنات البيانات هذه التي أعرفها الآن عن شيء ما. وإيم يجري تأسيسها كخبير في هذا الاستعلام وعلى هذه الكائنات البيانات. هذا مفيد حقًا عندما يحتاج الأشخاص للذهاب للتعرف على البيانات ، ثم يمكنهم العثور على الشخص المناسب للذهاب للتعرف عليه. وإذا كان Im جديدًا بالفعل على البيانات ، سواء كان محللًا متقدمًا - كمحلل متقدم ، فقد أنظر إلى ذلك وأرى مجموعة من الأمثلة التي من شأنها أن تجعلني أبدأ في مجموعة بيانات جديدة. بصفتي شخصًا قد لا يشعر بذكاء شديد مع SQL ، يمكنني العثور على استعلامات مسبقة الصنع والتي هي تقارير يمكنني الاستفادة منها.

هيريس واحدة من فيل Mazanett حول عشرات SAT المتوسطة. انقر على هذا ، وأحصل على نوع من صفحة الكتالوج للاستعلام نفسه. إنه يتحدث عن مقال مكتوب يشير إلى هذا الاستعلام ، لذلك هناك بعض الوثائق التي أقرأها إذا كنت أرغب في معرفة كيفية استخدامها. يمكنني فتحه في أداة الاستعلام بالنقر فوق الزر "إنشاء" ، ويمكنني تشغيله بنفسي هنا دون حتى تحريره. وفي الواقع ، يمكنك أن ترى قليلاً من قدراتنا في إعداد التقارير الخفيفة ، حيث ، عند كتابة استعلام ، يمكنك إسقاط متغير قالب مثل هذا ويخلق طريقة بسيطة لإنشاء نموذج لتنفيذ استعلام يستند إلى اثنين من المعلمات.

لذلك هذا ما لدي للعرض. انا ذاهب الى العودة الى الشرائح.لمجرد نوع من الخلاصة ، أظهرنا كيف يمكن للمسؤول ، وهو حاكم البيانات ، التدخل من خلال وضع تحذيرات على الكائنات التي تظهر في أداة الاستعلام ، وكيف يستخدم Alation معرفته باستخدام كائنات البيانات لعمل اقتراحات ذكية ، وكيف يجلب في ملفات التعريف والنصائح الأخرى لتحسين سير عمل المحللين عند لمس كائنات معينة ، وكيفية تغذية كل هذا النوع من الفهرس في الكتالوج عند كتابة استعلامات جديدة.

من الواضح أنا متحدث باسم الشركة. أنا ذاهب لأقول أشياء لطيفة حول كتالوجات البيانات. إذا كنت تريد أن تسمع مباشرة من أحد عملائنا ، فإن كريستي ألين من Safeway تدير فريقًا من المحللين ولديها قصة رائعة حقًا عن وقت احتاجت فيه للتغلب على عقارب الساعة من أجل تقديم تجربة تسويقية ، وكيفية قيامها برمتها استخدم فريق Alation للتعاون والالتفاف بسرعة في هذا المشروع. حتى تتمكن من متابعة هذا الرابط bit.ly للتحقق من هذه القصة ، أو إذا كنت تريد أن تسمع قليلاً عن كيف يمكن لـ Alation إحضار كتالوج بيانات إلى مؤسستك ، يسعدنا إعداد عرض توضيحي مخصص. شكرا جزيلا.

ريبيكا جوزويك: شكرا جزيلا يا ديفيد. أنا متأكد من أن لديز وروبن لديهما بعض الأسئلة قبل أن أتحول إلى الجمهور سؤال وجواب. ديز ، هل تريد أن تذهب أولا؟

ديز بلانشفيلد: إطلاقا. أحب فكرة هذا المفهوم للاستعلامات المنشورة وربطها بمصدر التأليف. لقد كنت بطلة منذ فترة طويلة لفكرة متجر التطبيقات هذا في المنزل وأعتقد أن هذا هو أساس رائع حقًا للبناء على ذلك.

لقد جئت إلى حد ما للتعرف على بعض المنظمات التي ترى أنها تفعل ذلك ، وبعض قصص النجاح التي قد تكون لديهم في هذه الرحلة بأكملها والتي لا تقتصر على الاستفادة من الأداة والمنصة الخاصة بك لاكتشاف البيانات ، ولكن أيضًا بعد ذلك تحويل السمات الثقافية والسلوكية الداخلية حولها. أصبح لديك الآن هذا النوع من متجر التطبيقات الداخلي حيث يمكنك تنزيله فقط ، وهو المفهوم الذي لا يمكن أن يجدوه فقط فحسب ، بل يمكنهم أيضًا البدء في تطوير مجتمعات صغيرة باستخدام حماة تلك المعرفة.

ديفيد كروفورد: نعم ، أعتقد أننا فوجئنا. نحن نؤمن بقيمة مشاركة الاستعلامات ، من ماضي كمدير منتج في Adtech ومن جميع العملاء الذين تحدثنا إليهم ، ولكن ما زلت مندهشًا من عدد المرات الأولى التي يتحدث فيها العملاء عن القيمة التي يخرجونها من Alation.

كنت أقوم بإجراء بعض اختبارات المستخدم لأداة الاستعلام في أحد عملائنا تسمى Invoice2go ، وكان لديهم مدير منتج كان جديدًا نسبيًا ، وقالوا - لقد أخبرني بالفعل ، لم أترقب أثناء اختبار المستخدم ، "في الواقع ، لن أكتب SQL على الإطلاق فيما عدا أنه أصبح سهلاً من قبل Alation. "وبالطبع ، بصفتي رئيس الوزراء ، فإنني أذهب إلى حد ما ،" ماذا تقصد ، كيف فعلنا ذلك؟ "وقال ،" حسنًا ، إنه حقًا لمجرد أنني يمكنك تسجيل الدخول وأستطيع رؤية كل هذه الاستعلامات الحالية. "يعد بدء استخدام قائمة فارغة باستخدام SQL أمرًا صعبًا للغاية ، ولكن تعديل استعلام موجود حيث يمكنك رؤية النتيجة التي تم طرحها ويمكنك أن تقول" أوه ، أنا فقط بحاجة إلى هذا العمود الإضافي ، أو "أحتاج إلى ترشيحه إلى نطاق معين من التواريخ" ، وهذا شيء أسهل بكثير للقيام به.

لقد رأينا نوعًا من هذه الأدوار المساعدة ، مثل مديري المنتجات ، وربما الأشخاص في عمليات البيع ، والذين بدأوا في الالتقاط والذين أرادوا دائمًا تعلم SQL والبدء في استلامها باستخدام هذا الكتالوج. لقد رأينا أيضًا أن الكثير من الشركات حاولت القيام بمصدر مفتوح. لقد حاول Ive بناء هذه الأنواع من الأشياء داخليًا ، حيث يتتبع الاستعلامات ويوفرها ، وهناك بعض التحديات الصعبة حقًا لجعلها مفيدة. كان لديه أداة داخلية أطلقوا عليها HiPal هذا النوع من التقاط جميع الاستعلامات المكتوبة على خلية ، ولكن ما تكتشفه هو أنه إذا كنت لا تحبذ دفع المستخدمين بالطريقة الصحيحة ، فستنتهي للتو بقائمة طويلة جدًا من اختيار البيانات. وبصفتي مستخدمًا يحاول معرفة ما إذا كان الاستعلام مفيدًا لي أو إذا كان مفيدًا ، فإذا نظرت للتو إلى قائمة طويلة من العبارات المحددة ، فسوف يستغرق الأمر وقتًا أطول بكثير للحصول على شيء ذي قيمة هناك من تبدأ من الصفر. لقد فكرنا جيدًا في كيفية عمل كتالوج استعلام يقدم الأشياء الصحيحة إلى المقدمة ويوفرها بطريقة مفيدة.

ديز بلانشفيلد: أعتقد أننا جميعًا نمر بهذه الرحلة منذ سن مبكرة للغاية ، وحتى سن الرشد ، بطرق عديدة. مجموعة من التقنيات. أنا شخصياً ، مررت بنفس الشيء الحقيقي ، مثل تعلم قطع الكود. كنت أذهب إلى المجلات ثم الكتب ، وأود أن أدرس إلى مستوى معين ، ثم كنت بحاجة للذهاب والحصول على مزيد من التدريب والتعليم في الواقع.

لكن عن غير قصد وجدت أنه حتى عندما كنت أذهب لتدريس نفسي وقراءة المجلات وقراءة الكتب وتقطيع برامج الشعوب الأخرى والذهاب إلى الدورات التدريبية ، ما زلت انتهى بي الأمر بالتعلم من القيام بالدورات كما فعلت للتو مع الآخرين الناس الذين لديهم بعض التجارب. وأعتقد أنه من الاكتشافات المثيرة للاهتمام أنه الآن بعد أن أحضرت ذلك إلى تحليلات البيانات ، كانت ترى في الأساس نفس التوازي ، أن البشر أذكياء للغاية.

الشيء الآخر الذي حرصت على فهمه حقًا هو ، على مستوى عالٍ للغاية ، أن العديد من المنظمات سوف تسأل: "كم من الوقت يستغرق الوصول إلى تلك النقطة؟" ما هي النقطة الزمنية للإطار الزمني عندما يحصل الناس على النظام الأساسي الخاص بك تثبيت وأنها بدأت في اكتشاف أنواع الأدوات؟ كيف بسرعة الناس مجرد رؤية هذا الشيء يتحول إلى لحظة "هكتار" فورية حقًا حيث يدركون أنهم لم يعودوا قلقين بشأن عائد الاستثمار بسبب وجودها هناك ، لكنهم الآن يغيرون بالفعل طريقة عملهم؟ وقد اكتشفوا فنًا ضائعًا ويتوقعون أن يتمكنوا من فعل شيء ممتع حقًا.

ديفيد كروفورد: نعم ، يمكنني أن أتطرق إليها قليلاً. أعتقد أنه عندما يتم التثبيت ، فإن أحد الأشياء اللطيفة ، وأحد الأشياء التي يعجب الناس بها في الكتالوج المتصل مباشرة بأنظمة البيانات ، هو أنك لا تبدأ فارغًا حيث يجب عليك ملء الصفحة في الصفحة. ويصدق هذا على حلول البيانات السابقة حيث تبدأ باستخدام أداة فارغة وعليك البدء في إنشاء صفحة لكل ما تريد توثيقه.

نظرًا لأننا نوثق العديد من الأشياء تلقائيًا عن طريق استخراج البيانات الوصفية ، وذلك أساسًا في غضون بضعة أيام من تثبيت البرنامج ، يمكنك الحصول على صورة لبيئة البيانات لديك بنسبة 80 في المائة على الأقل في الأداة. وبعد ذلك أعتقد أنه بمجرد أن يبدأ الناس في كتابة استعلامات باستخدام الأداة ، يتم حفظهم تلقائيًا في الكتالوج ، وبالتالي سيبدأون في الظهور أيضًا.

لا أريد أن أكون متلهفًا في ذكر ذلك. أعتقد أن أسبوعين هو تقدير محافظ جيد جدًا ، إلى شهر واحد. من أسبوعين إلى شهر ، تقدير متحفظ للالتفاف حقًا والشعور بأنك تحصل على قيمة منه ، مثل أنك بدأت في مشاركة بعض المعرفة والقدرة على الذهاب إلى هناك ومعرفة أشياء حول بياناتك.

ديز بلانشفيلد: إنه أمر مدهش حقًا ، عندما تفكر في الأمر. حقيقة أن بعض منصات البيانات الكبيرة التي تقوم بفهرستها وفهرستها بشكل فعال ستستغرق أحيانًا ما يصل إلى سنة لتنفيذ ونشر والوقوف بشكل صحيح.

السؤال الأخير الذي تلقيته من Ive قبل أن أعطي Robin Bloor ، هو الموصلات. واحدة من الأشياء التي تقفز على الفور في وجهي هو أنه من الواضح أنك حصلت على هذا التحدي برمته. لذلك هناك بعض الأسئلة بسرعة فقط. أولاً ، ما مدى سرعة تنفيذ الروابط؟ من الواضح أنك تبدأ بأكبر منصة ، مثل Oracles و Teradatas وما إلى ذلك و DB2s. ولكن إلى أي مدى تشاهد الموصلات الجديدة بشكل منتظم ، وما الوقت المستغرق الذي تستغرقه؟ أتصور أن لديك إطارًا قياسيًا لهم. وما مدى عمق ذهابك إلى هؤلاء؟ على سبيل المثال ، أوراكل و IBMs في العالم ، وحتى Tereadata ، ثم بعض من أكثر المنصات المفتوحة المصدر شعبية. هل يعملون مباشرة معك؟ هل تكتشفها بنفسك؟ هل يجب أن يكون لديك معرفة داخلية على تلك المنصات؟

كيف يبدو وضع نوع من الموصل ، وما مدى عمق مشاركتك في تلك الشراكات لضمان اكتشاف تلك الروابط لكل ما تستطيع؟

ديفيد كروفورد: نعم ، بالتأكيد ، إنه سؤال رائع. أعتقد أنه بالنسبة للجزء الأكبر ، يمكننا تطوير الموصلات. لقد فعلنا بالتأكيد عندما كنا شركة ناشئة أصغر ولم يكن لدينا عملاء. يمكننا تطوير الاتصالات بالتأكيد دون الحاجة إلى أي وصول داخلي. لا نحصل أبدًا على أي وصول خاص إلى أنظمة البيانات التي لا تتوفر للجمهور ، وغالبًا دون الحاجة إلى أي معلومات داخلية. نحن نستفيد من خدمات البيانات الأولية المتاحة بواسطة أنظمة البيانات نفسها. في كثير من الأحيان يمكن أن تكون معقدة للغاية ويصعب العمل معها. أعرف SQL Server على وجه الخصوص ، الطريقة التي يديرون بها سجل الاستعلام ، وهناك العديد من التكوينات المختلفة والشيء الذي يجب عليك العمل به بالفعل. عليك أن تفهم الفروق الدقيقة والمقابض والطلب عليها لإعدادها بشكل صحيح ، وهذا شيء نعمل عليه مع العملاء لأننا فعلنا ذلك عدة مرات من قبل.

ولكن إلى حد ما ، نوع واجهات برمجة التطبيقات العامة المتاحة أو الواجهات العامة المتاحة التي نرفعها. لدينا شراكات مع العديد من هذه الشركات ، وهذا غالبًا ما يكون أساسًا للحصول على الشهادات ، بحيث يشعرون بالراحة عند قولهم أننا نعمل وأيضًا يمكن أن يوفروا لنا موارد للاختبار ، وأحيانًا يكون الوصول المبكر إلى منصة يتم طرحها للتأكد من أن نحن نعمل على الإصدارات الجديدة.

لإلغاء اتصال جديد ، أود أن أقول مرة أخرى ، أحاول أن أكون محافظًا ، دعنا نقول ستة أسابيع إلى شهرين. ذلك يعتمد على مدى تشابهها. لذلك بعض من Postgre يعمل نوعا ما يشبه إلى حد بعيد Redshift. تشترك Redshift و Vertica في الكثير من التفاصيل. حتى نتمكن من الاستفادة من هذه الأشياء. ولكن نعم ، ستة أسابيع إلى شهرين ستكون عادلة.

لدينا أيضًا واجهات برمجة التطبيقات (APIs) ، لذلك - نفكر في Alation كنظام أساسي للبيانات الوصفية ، لذلك إذا لم تكن هناك أي أشياء متاحة لنا للتواصل والاستيلاء تلقائيًا ، فهناك طرق يمكنك من خلالها كتابة الموصل بنفسك ودفعه إلى نظامنا حتى أن كل شيء لا يزال يحصل مركزية في محرك بحث واحد.

ديز بلانشفيلد: رائع. وأنا أقدر ذلك. لذلك كانوا يسلمونها إلى روبن ، لأنني متأكد من أنه لديه مجموعة كبيرة من الأسئلة أيضًا. روبن؟

ريبيكا جوزويك: قد يكون روبن على كتم الصوت.

ديز بلانشفيلد: كنت قد حصلت على نفسك كتم الصوت.

روبن بلور: نعم صحيح. آسف ، لقد كتمت نفسي. عند تنفيذ هذا ، ما هي العملية؟ أنا نوع من الفضوليين لأنه يمكن أن يكون هناك الكثير من البيانات في العديد من الأماكن. فكيف يتم ذلك؟

ديفيد كروفورد: طبعا أكيد. نبدأ ، أولاً في عملية تكنولوجيا المعلومات للتأكد من توفير خوادمنا ، والتأكد من توفر اتصالات الشبكة ، وأن المنافذ مفتوحة حتى نتمكن من الوصول إلى الأنظمة فعليًا. انهم جميعا في كثير من الأحيان معرفة النظم التي يريدون أن تبدأ. معرفة من داخل نظام البيانات ، والتي - وأحيانا سوف نساعدهم فعلا. حسنًا ، ساعدهم في إلقاء نظرة أولية على سجل طلباتهم لفهم من يستخدمون ما وعدد المستخدمين الذين لديهم على نظام. ساعد جيدًا في معرفة مكان وجودهم - في كثير من الأحيان ، إذا كان لديهم مئات أو الآلاف من الأشخاص الذين ربما يقومون بتسجيل الدخول إلى قواعد البيانات ، فهم في الواقع لا يعرفون من أين يسجلون الدخول ، لذلك يمكننا أن نكتشف من سجلات الاستعلام عدد حسابات المستخدمين الفريدة التي تقوم بها لقد قمت بالفعل بتسجيل الدخول وتنفيذ الاستعلامات هنا في غضون شهر أو نحو ذلك.

لذلك يمكننا الاستفادة من ذلك ، ولكن في كثير من الأحيان فقط على أهمها. نقوم بإعدادهم ومن ثم هناك عملية للقول ، "لنعطي الأولوية". هناك مجموعة من الأنشطة التي يمكن أن تحدث بالتوازي. أود التركيز في التدريب على استخدام أداة الاستعلام. بمجرد أن يبدأ الناس في استخدام أداة الاستعلام ، أولاً ، يحب الكثير من الناس حقيقة أنها مجرد واجهة واحدة لجميع أنظمتهم المختلفة. كما أنهم يحبون حقيقة أن موقعه على الويب ، لا يتضمن أي عمليات تثبيت إذا كانوا لا يريدون ذلك. من وجهة نظر الأمان ، يرغبون في الحصول على نوع من نقطة إدخال واحدة ، من وجهة نظر الشبكة ، بين نوع من شبكة تكنولوجيا المعلومات corp ومركز البيانات حيث تعيش مصادر بيانات الإنتاج. وهكذا ، سيقومون بإعداد Alation كأداة استعلام ويبدأون في استخدام "إنشاء" كنقطة وصول لجميع هذه الأنظمة.

لذلك بمجرد حدوث ذلك ، فإن ما نركز عليه في التدريب ، هو فهم بعض الاختلافات بين أداة استعلام تستند إلى الويب أو أداة خادم تعتمد على الخادم مقابل واحدة لديك على سطح المكتب الخاص بك ، وبعض الفروق الدقيقة في استخدام ذلك. وفي الوقت نفسه ، ما تحاول القيام به جيدًا هو تحديد البيانات الأكثر قيمة ، والاستفادة مرة أخرى من معلومات سجل الاستعلام ، والقول ، "مهلا ، قد ترغب في الدخول ومساعدة الناس على فهمها. دعنا نبدأ في نشر استعلامات تمثيلية على هذه الجداول. "هذا هو أحيانًا الطريقة الأكثر فاعلية للحصول على الناس بسرعة كبيرة. لننظر إلى سجل الاستعلامات الخاص بك ، انشر هذه الأشياء حتى تظهر كطلبات البحث الأولى. عندما ينظر الأشخاص إلى صفحة الجدول ، يمكنهم مشاهدة جميع الاستعلامات التي لمست هذا الجدول ، ويمكنهم البدء من هناك. ثم يتيح البدء في إضافة عناوين وأوصاف إلى هذه الكائنات بحيث يسهل العثور عليها والبحث عنها ، حتى تعرف بعض الفروق الدقيقة في كيفية استخدامها.

نتأكد من أن نلقي نظرة شاملة على سجل الاستعلام حتى نتمكن من توليد النسب. أحد الأشياء التي نقوم بها هي أن ننظر من خلال سجل الاستعلام في بعض الأحيان عندما تنتقل البيانات من جدول إلى آخر ، وهذا يسمح لنا بوضع أحد الأسئلة الأكثر شيوعًا حول جدول البيانات ، من أين جاء هذا؟ كيف أثق بها؟ وما يمكننا أن نظهره ليس فقط الجداول الأخرى التي أتت منها ، ولكن كيف تم تحويلها على طول الطريق. مرة أخرى ، هذا هو نوع من مدعوم من سجل الاستعلام.

لذلك نحن نحرص على إعداد هذه الأشياء والتي تم تحديد نسبها في النظام ، وكانت تستهدف أكثر أجزاء البيانات التعريفية قيمةً والأكثر فاعلية والتي يمكننا تأسيسها على صفحات الجدول ، حتى عند البحث ، تجد شيئا مفيدا.

روبن بلور: حسنا. السؤال الآخر - هناك الكثير من الأسئلة من الجمهور ، لذلك لا أريد تناول الكثير من الوقت هنا - والسؤال الآخر الذي يتبادر إلى الذهن هو ، مجرد نقاط الألم. تم شراء الكثير من البرامج لأن الناس ، بطريقة أو بأخرى ، يواجهون صعوبات في شيء ما. إذن ما نقطة الألم الشائعة التي تؤدي بالناس إلى Alation؟

ديفيد كروفورد: بلى. أعتقد أن هناك عددًا قليلًا ، لكنني أعتقد أن أحد المحللين الذين نسمعهم غالبًا هو على متن طائرة. "سأحتاج لتوظيف 10 و 20 و 30 شخصًا على المدى القريب والذين سيتعين عليهم إنتاج رؤى جديدة من هذه البيانات ، كيف سيصلون إلى الحد الأقصى؟" لذا فإن المحللين على متن الطائرة شيء نواجهه بالتأكيد. هناك أيضًا يعفي كبار المحللين من قضاء كل وقتهم في الإجابة على أسئلة من أشخاص آخرين حول البيانات. هذا هو واحد متكرر جدا كذلك. وكلاهما من مشاكل التعليم بشكل أساسي.

ثم أود أن أقول أن هناك مكانًا آخر نرى فيه أشخاص يتبنون Alation وهو عندما يرغبون في إنشاء بيئة بيانات جديدة تمامًا لشخص يعمل فيها. إنهم يريدون الإعلان عن ذلك وتسويقه داخليًا حتى يستفيد منه الأشخاص. ثم جعل Alation الواجهة الأمامية لتلك البيئة التحليلية الجديدة جذابة للغاية. لقد حصلت على الوثائق ، ولديها نقطة مقدمة واحدة - نقطة واحدة للوصول إلى الأنظمة ، وهذا هو مكان آخر سيأتي فيه الناس إلينا.

روبن بلور: حسنًا ، سأنقلك إلى ريبيكا لأن الجمهور يحاول الوصول إليك.

ريبيكا جوزويك: نعم ، لدينا الكثير من الأسئلة الجيدة للجمهور هنا. وديفيد ، تم طرح هذا واحد لك على وجه التحديد. إنه من شخص لديه على ما يبدو بعض الخبرة مع أشخاص من نوع من إساءة استخدام الاستعلامات ، ويقول نوعًا ما إنه كلما قمنا بتمكين المستخدمين ، كلما كان من الصعب التحكم في الاستخدام المسؤول للموارد الحسابية. فهل يمكنك الدفاع ضد انتشار عبارات الاستعلام المضللة ولكن الشائعة؟

ديفيد كروفورد: نعم ، أرى هذا السؤال. إنه سؤال رائع - نحن نحصل عليه كثيرًا. لقد رأيت الألم بنفسي في الشركات السابقة ، حيث تحتاج إلى تدريب المستخدمين. على سبيل المثال ، "هذا جدول سجلات ، سجلاته التي تم إرجاعها لسنوات. إذا كنت ستكتب استعلامًا في هذا الجدول ، فعليك حقًا تحديد التاريخ ". لذلك ، على سبيل المثال ، هذا تدريب قمت بإجرائه في شركة سابقة قبل أن أتاح لي الوصول إلى قاعدة البيانات.

لدينا طريقتان نحاول معالجتهما. أود أن أقول أنني أعتقد أن بيانات سجل الاستعلام ذات قيمة فريدة حقًا لمعالجتها. يعطي نظرة أخرى مقابل ما تفعله قاعدة البيانات داخليًا مع مخطط الاستعلام الخاص بها. وما نفعله هو ، أحد تلك التدخلات - لدينا التدخلات اليدوية التي عرضتها ، وهذا مفيد ، صحيح؟ لذلك على صلة معينة ، على سبيل المثال ، يمكنك القول ، "لنستبعد هذا." سيكون لديك علم أحمر كبير عندما يظهر في اقتراح ذكي. لذلك طريقة واحدة لمحاولة الوصول إلى الناس.

الشيء الآخر الذي نقوم به هو ، الآلي في التدخلات وقت التنفيذ. في الواقع ، استخدم شجرة تحليل الاستعلام قبل تشغيلها لرؤيتها ، هل يشمل مرشحًا معينًا أو شيئين آخرين نقوم به هناك أيضًا. ولكن واحدة من أكثرها قيمة وأبسط واحد لشرح هو ، هل يشمل مرشح؟ لذلك ، مثل هذا المثال الذي قدمته للتو ، يجب أن يكون لجدول السجل هذا ، إذا كنت تريد الاستعلام عنه ، نطاقًا زمنيًا ، فيمكنك أن تحدد في صفحة الجدول أن هناك عامل تصفية نطاق زمني ليتم تطبيقه. إذا حاول شخص ما تشغيل استعلام لا يتضمن هذا الفلتر ، فسيوقفه في الواقع تحذير كبير ، وسيقول: "ربما يتعين عليك إضافة بعض SQL التي تبدو مثل هذا إلى استفسارك". ويمكنهم المتابعة إذا أرادوا . لم تمنعهم فعليًا تمامًا من استخدامه - إنه استعلام أيضًا ، فقد وصل إلى ، في نهاية اليوم ، تشغيل الاستعلامات. لكننا وضعنا حاجزًا كبيرًا أمامهم ونقدم لهم اقتراحًا ، وهو اقتراح ملموس قابل للتطبيق لتعديل الاستعلام لتحسين أدائهم.

نحن أيضًا نقوم بذلك تلقائيًا في بعض الحالات ، ومرة ​​أخرى من خلال مراقبة سجل الاستعلام. إذا رأينا أن بعضًا من النسبة المئوية الكبيرة بالفعل من طلبات البحث في هذا الجدول تستفيد من عامل تصفية معين أو بند صلة معين ، فمن ثم ينبثق ذلك بالفعل. حسنا تعزيز ذلك إلى التدخل. في الواقع ، حدث لي ذلك في مجموعة بيانات داخلية. لدينا بيانات العملاء ولدينا معرفات المستخدمين ، ولكن معرف المستخدم تعيين ، منذ ذلك الحين - لدينا معرفات المستخدم في كل عميل. إنه ليس فريدًا ، لذا يجب عليك إقرانه بمعرف عميل من أجل الحصول على مفتاح ربط فريد.وكنت أكتب استعلامًا ، وحاولت تحليل شيء ما وظهر لي: "مهلاً ، يبدو أن كل شخص آخر ينضم إلى هذه الجداول بكل من معرف العميل ومعرف المستخدم. هل أنت متأكد أنك لا تريد أن تفعل ذلك؟ "وقد منعني ذلك من إجراء بعض التحليلات غير الصحيحة. لذلك يعمل لكل من دقة التحليل وكذلك الأداء. لذلك هذا هو نوع من الطريقة التي نتعامل بها مع هذه المشكلة.

ريبيكا جوزويك: هذا يبدو لي أن تكون فعالة. قلت إنك لن تمنع الناس بالضرورة من زيادة الموارد ، لكن نوعًا ما يعلمهم أن ما يفعلونه قد لا يكون الأفضل ، أليس كذلك؟

ديفيد كروفورد: نحن نفترض دائمًا أن المستخدمين ليسوا ضارين - نمنحهم أفضل النوايا - ونحاول أن نكون منفتحين على هذا النحو.

ريبيكا جوزويك: حسنا. هيريس سؤال آخر: "ما الفرق بين مدير الكتالوج ، مثل الحل الخاص بك ، وأداة MDM؟ أم أنها تعتمد فعليًا على مبدأ مختلف عن طريق توسيع اختيار جداول الاستعلام ، في حين أن MDM ستقوم بذلك تلقائيًا ، ولكن مع نفس المبدأ الأساسي لجمع البيانات الأولية. "

ديفيد كروفورد: نعم ، أعتقد أنه عندما أنظر إلى حلول MDM التقليدية ، فإن الفرق الأساسي هو الفلسفي. كل شيء عن من هو المستخدم. كما قلت في بداية عرضي التقديمي ، أعتقد أنه عندما تم تأسيسنا ، تم تأسيسنا بهدف تمكين المحللين من إنتاج رؤى أكثر ، وإنتاجهم بشكل أسرع ، ليكونوا أكثر دقة في الرؤى التي إنتاج. لا أظن أن هذا كان هدف حل MDM التقليدي. تميل هذه الحلول إلى استهداف الأشخاص الذين يحتاجون إلى إنتاج تقارير حول البيانات التي تم التقاطها إلى SCC أو داخليًا لنوع آخر من أغراض التدقيق. يمكن في بعض الأحيان تمكين المحللين ، ولكن في أغلب الأحيان ، إذا كان سيمكن ممارسًا في عملهم ، فمن الأرجح أن يقوم بتمكين مهندس بيانات مثل DBA.

عندما تفكر في أشياء من وجهة نظر أحد المحللين ، يكون ذلك عندما تبدأ في إنشاء أداة استعلام لن تفعلها أداة MDM أبدًا. وهذا عندما تبدأ في التفكير في الأداء وكذلك الدقة ، وكذلك فهم البيانات المتعلقة باحتياجات عملي. كل هذه الأشياء هي أشياء تبرز في أذهاننا عندما نصمم الأداة. إنه يذهب إلى خوارزميات البحث الخاصة بنا ، ويذهب إلى تصميم صفحات الكتالوج والقدرة على المساهمة بالمعرفة من جميع أنحاء المنظمة. يذهب الأمر إلى حقيقة أننا بنينا أداة الاستعلام وبنينا الكتالوج مباشرة داخلها ، لذلك أعتقد أنه يأتي بالفعل من ذلك. ما المستخدم هل لديك أولا في الاعتبار؟

ريبيكا جوزويك: حسنًا. هذا ساعد حقا في تفسير ذلك. الذي كان يحتضر للحصول على المحفوظات لأنه اضطر إلى المغادرة ، لكنه أراد حقا الإجابة على سؤاله. قال أنه تم ذكره في البداية أن هناك عدة لغات ، ولكن هل SQL هي اللغة الوحيدة التي يتم الاستفادة منها في مكون "إنشاء"؟

ديفيد كروفورد: نعم هذا صحيح. وأحد الأشياء التي لاحظتها ، كما شاهدت انفجار أنواع مختلفة من قواعد البيانات ، وقواعد بيانات المستندات ، وقواعد بيانات الرسم البياني ، ومخازن القيمة الرئيسية ، هي أنها قوية حقًا في تطوير التطبيقات. يمكن أن تخدم احتياجات معينة هناك بشكل جيد حقا ، بطرق أفضل من قواعد البيانات العلائقية يمكن.

ولكن عندما تعيدها إلى تحليل البيانات ، وعندما تعيدها إلى - عندما تريد تقديم تلك المعلومات إلى الأشخاص الذين سيقومون بإعداد تقارير مخصصة أو البحث المخصص في البيانات ، فإنهم يعودون دائمًا إلى علاقة ، على الأقل ، واجهة للبشر. جزء من ذلك لمجرد أن SQL هي اللغة المشتركة لتحليل البيانات ، وهذا يعني بالنسبة للبشر أيضًا للأدوات التي تدمجها. أعتقد أن هذا هو السبب في أن SQL على Hadoop شائع جدًا وهناك محاولات كثيرة لحلها ، لأنه في نهاية اليوم ، هذا ما يعرفه الناس. من المحتمل أن يكون هناك ملايين الأشخاص الذين يعرفون كيفية كتابة SQL ، وأود أن المغامرة لا ملايين الذين يعرفون كيفية كتابة استعلام إطار خط أنابيب التجميع Mongo. وهذه لغة قياسية تستخدم للتكامل عبر مجموعة كبيرة ومتنوعة من الأنظمة الأساسية. لذلك ، نادراً ما يُطلب من الجميع الخروج عن هذا لأن هذه هي الواجهة التي يستخدمها معظم المحللين ، وهو المكان الذي ركزنا عليه ، خاصة في الإنشاء ، على كتابة SQL.

أود أن أقول إن علم البيانات هو المكان الذي يغامرون فيه بالخروج إلى أقصى درجة ، ولذا فإننا نتلقى أسئلة عرضية حول استخدام Pig أو SAS. هذه هي الأشياء التي لا نعالجها بالتأكيد في "إنشاء" ، ونود تسجيلها في الكتالوج. وانا ايضا ارى بيثون. لدينا عدة طرق قمنا بها بعمل واجهات يمكنك من خلالها استخدام الاستعلامات المكتوبة في Alation داخل نصوص R و Python ، لذلك ، غالبًا ما تكون بيانات مصدرك في كثير من الأحيان عندما تكون عالِم بيانات وأنت تعمل بلغة نصية. قاعدة البيانات. عليك أن تبدأ باستعلام SQL ثم تقوم بمعالجته وإنشاء رسومات بيانية داخل R و Python. وقمنا بإعداد حزم يمكنك استيرادها في تلك البرامج النصية التي تسحب الاستعلامات أو نتائج الاستعلام من Alation بحيث يمكنك الحصول على نوع من سير العمل المختلط هناك.

ريبيكا جوزويك: حسنا عظيم. أعلم أننا مررنا قليلاً في أعلى ساعة ، وسأطرح سؤالًا أو سؤالين. أعلم أنك تحدثت عن جميع الأنظمة المختلفة التي يمكنك الاتصال بها ، ولكن فيما يتعلق بالبيانات المستضافة خارجيًا والبيانات المستضافة داخليًا ، هل يمكن البحث معًا في طريقة العرض الفردية الخاصة بك ، في نظامك الأساسي الواحد؟

ديفيد كروفورد: بالتأكيد. هناك عدة طرق للقيام بذلك. أعني ، استضافت من الخارج ، أتخيل ، أنا أحاول أن أفكر في ما قد يعنيه ذلك بالضبط. قد يعني ذلك قاعدة بيانات يستضيفها شخص ما في AWS لك. قد يعني مصدر بيانات عام من data.gov. نحن نتصل مباشرة بقواعد البيانات عن طريق تسجيل الدخول تمامًا مثل أي تطبيق آخر ، باستخدام حساب قواعد البيانات ، وهذا هو كيف نستخلص البيانات الوصفية. لذلك إذا كان لدينا حساب ولدينا منفذ شبكة مفتوح ، يمكننا الوصول إليه. وبعد ذلك عندما لا تتوفر لدينا هذه الأشياء ، لدينا شيء يسمى مصدر بيانات افتراضي ، يتيح لك بشكل أساسي دفع الوثائق ، سواء تلقائيًا أو عن طريق كتابة الرابط الخاص بك أو عن طريق ملء ذلك عن طريق القيام حتى مثل تحميل ملف CSV أو المستند البيانات جنبا إلى جنب مع البيانات الداخلية الخاصة بك. يحصل كل ذلك على محرك البحث. يصبح مرجعية داخل المقالات وغيرها من الوثائق والمحادثات داخل النظام. لذلك كيف نتعامل عندما لا نستطيع الاتصال مباشرة بنظام ما.

ريبيكا جوزويك: حسنًا ، هذا منطقي. سوء مجرد اطلاق النار على سؤال واحد آخر لك. أحد الحضور هو يسأل ، "كيف ينبغي التحقق من صحة محتوى كتالوج البيانات أو التحقق منها أو الحفاظ عليها ، كما يتم تحديث بيانات المصدر ، حيث يتم تعديل بيانات المصدر ، إلخ."

ديفيد كروفورد: نعم ، إنه سؤال نحصل عليه كثيرًا ، وأعتقد أن أحد الأشياء التي - نحن من فلسفاتنا ، كما قلت ، لا نعتقد أن المستخدمين ضارين. نحن نفترض أنهم يحاولون المساهمة بأفضل المعرفة. انهم لن يأتي في وتضليل الناس عمدا حول البيانات. إذا كانت هذه مشكلة في مؤسستك ، فربما لا تعد Alations الأداة المناسبة لك. ولكن إذا افترضت المستخدمين نوايا حسنة ، فسنفكر في الأمر كشيء حيث تأتي التحديثات ، وبعد ذلك عادة ما نقوم به هو وضع مسؤول عن كل كائن بيانات أو كل قسم من أقسام البيانات. ويمكننا إخطار هؤلاء الحكام عند إجراء تغييرات على البيانات الوصفية ويمكنهم التعامل معها بهذه الطريقة. يرون التحديثات تأتي ، والتحقق منها. إذا لم تكن صحيحة ، فيمكنهم العودة وتعديلها وإبلاغهم ، ونأمل في الوصول إلى المستخدم الذي ساهم في المعلومات ومساعدتهم على التعلم.

هذه هي الطريقة الأساسية التي نفكر بها عند القيام بذلك. هذا النوع من الاقتراحات من الحشد والإدارة من قبل الحكام ، لذلك لدينا بعض القدرات حول ذلك.

ريبيكا جوزويك: حسنا جيد. وإذا كان بإمكانك فقط أن تدع الأشخاص يعرفون أفضل طريقة للبدء مع Alation ، وأين يمكن أن يذهبون على وجه التحديد للحصول على مزيد من المعلومات. وأنا أعلم أنك تشارك هذا bit.ly. هل هذا هو أفضل مكان؟

ديفيد كروفورد: Alation.com/learnmore أعتقد أنها طريقة رائعة للذهاب. للاشتراك في عرض توضيحي ، يحتوي موقع Alation.com على الكثير من الموارد والأوراق البيضاء للعملاء والأخبار حول حلنا. لذلك أعتقد أن هذا مكان عظيم للبدء. بامكانك ايضا .

ريبيكا جوزويك: حسنا عظيم. وأنا أعلم ، الحضور ، آسف إذا لم تصل إلى جميع الأسئلة اليوم ، ولكن إذا لم يكن كذلك ، فسيتم إرسالها إلى David أو فريق المبيعات التابع له أو شخص ما في Alation ، حتى يتمكنوا بالتأكيد من المساعدة في الإجابة على أسئلتك والمساعدة في فهم ما Alation يفعل أو ما يفعلونه أفضل.

ومع ذلك ، أيها الناس ، سوف أذهب إلى الأمام وأوقعنا الخروج. يمكنك دائمًا العثور على الأرشيف في InsideAnalysis.com. يمكنك أيضا العثور عليها في Techopedia.com. إنها تميل إلى التحديث بشكل أسرع قليلاً ، لذا تأكد من ذلك بالتأكيد. وشكراً جزيلاً لديفيد كراوفورد وديز بلانشفيلد وروبن بور اليوم. لقد كان البث الشبكي كبيرة. ومع ذلك ، سوء محاولة توديع لك. شكرا ، الناس. مع السلامة.

ديفيد كروفورد: شكرا.