كيف أصبح تجريف البيانات للتعلم الآلي عنق الزجاجة الأكثر كثافة لليد العاملة منذ الإدخال اليدوي للبيانات في الترحيل القديم؟

مؤلف: Roger Morrison
تاريخ الخلق: 25 شهر تسعة 2021
تاريخ التحديث: 11 قد 2024
Anonim
كيف أصبح تجريف البيانات للتعلم الآلي عنق الزجاجة الأكثر كثافة لليد العاملة منذ الإدخال اليدوي للبيانات في الترحيل القديم؟ - تقنية
كيف أصبح تجريف البيانات للتعلم الآلي عنق الزجاجة الأكثر كثافة لليد العاملة منذ الإدخال اليدوي للبيانات في الترحيل القديم؟ - تقنية

المحتوى

Q:

كيف أصبح تجريف البيانات للتعلم الآلي عنق الزجاجة الأكثر كثافة لليد العاملة منذ الإدخال اليدوي للبيانات في الترحيل القديم؟


أ:

إحدى المشكلات العملية التي قد تواجهها الشركات عند محاولة بدء مشروع التعلم الآلي (ML) هي التحدي المتمثل في الحصول على مجموعات بيانات التدريب الأولية. قد يشمل ذلك عمليات كثيفة العمالة مثل تجريف الويب أو تجريف البيانات الأخرى.

تشير مصطلحات "تجريد الويب" و "تجريد البيانات" إلى حد كبير إلى النشاط الآلي بواسطة برنامج الكمبيوتر ، ولكن بالنسبة للعديد من مشاريع ML ، ستكون هناك حالات لا يكون لدى أجهزة الكمبيوتر فيها التطور لجمع البيانات المستهدفة الصحيحة ، لذلك يجب القيام بذلك "بواسطة اليد ". هذا قد نسميه "ويب البشرية / كشط البيانات" ، ولها وظيفة ناكر للجميل. يتضمن ذلك عمومًا البحث عن البيانات أو الصور "لتغذية" برنامج ML من خلال مجموعات التدريب. في كثير من الأحيان تكرارية جميلة ، مما يجعلها شاقة ، بطيئة ، وتطلب العمل.


يمثل تجريف البيانات لمجموعات التدريب العملي مشكلة اختناق فريد في التعلم الآلي ، ويرجع ذلك جزئيًا إلى أن الكثير من الأعمال الأخرى مفاهيمية للغاية وليست متكررة. يمكن للعديد من الأشخاص التوصل إلى فكرة رائعة لتطبيق جديد يقوم بمهام تعلم الآلة ، ولكن الصواميل والمسامير والعمل العملي يمكن أن تكون أكثر صعوبة. على وجه الخصوص ، يمكن أن يكون تفويض عمل تجميع مجموعات التدريب بالفعل أحد أصعب أجزاء مشروع ML ، كما تم استكشافه بالكامل في برنامج Mike Judge التلفزيوني "Silicon Valley". في الحلقة الرابعة من الموسم ، قام رجل أعمال ناشط أولاً بتخويف شريك في القيام بالعمل كثيف العمالة ، ثم يحاول نقله إلى طلاب الجامعات عن طريق إخفاءه كواجب منزلي.


هذا المثال مفيد لأنه يُظهر مدى كراهية البيانات غير اليدوية التي تبدو غير مهمة. ومع ذلك ، فإنه يدل أيضًا على أن هذه العملية ضرورية لمجموعة واسعة من منتجات التعلم الآلي. على الرغم من أن معظم الناس يكرهون إدخال البيانات ، إلا أنه يجب تجميع مجموعات التدريب بطريقة ما. غالبًا ما يوصي الخبراء في هذه العملية باستخدام خدمة تجريد الويب - وهي مجرد الاستعانة بمصادر خارجية في هذا العمل الذي يتطلب عمالة مكثفة للغاية لأطراف خارجية ، ولكن قد يكون لذلك تداعيات أمنية ويتسبب في مشاكل أخرى. عند الاحتفاظ بالعمل اليدوي لجمع البيانات في المنزل ، مرة أخرى ، يجب أن يكون هناك نص مخصص لما هو في كثير من الأحيان عملية يدوية للغاية وتستغرق وقتًا طويلاً.

في بعض النواحي ، يبدو "تجريف البيانات البشرية" للتعلم الآلي بمثابة الإدخال اليدوي للبيانات الذي كان يجب القيام به في بعض الأحيان في الترحيل القديم. نظرًا لأن السحابة أصبحت أكثر شيوعًا ، ووضعت الشركات عملياتها وسير عملها في السحابة ، فقد وجد البعض أنها لم تعمل من خلال الجوانب العملية لكيفية الحصول على بيانات الشركة من نظام قديم معزول إلى تطبيقات سحابية أصلية. نتيجة لذلك ، وجد بعض الأشخاص الذين كانوا بخلاف ذلك علماء بيانات أو أشخاص مبدعين لديهم مهارات تقنية معلومات أساسية أنفسهم يقومون بمهام غير سارة لإدخال البيانات.


من المرجح أن يحدث الشيء نفسه مع التعلم الآلي. قد تسمع عالم بيانات يشتكي من "أنا شخص مبدع" أو "أنا في جانب التنمية" - لكن على شخص ما القيام بالعمل القذر.

مرة أخرى ، إذا لم يتطابق التدفق الإبداعي مع تقييم عملي لتفويض سير العمل ، فستكون هناك عدم تطابق في كيفية توجيه معالجة المهام. عندما لا يكون لدى الشركة أشخاص للقيام بعمل تجريد البيانات في جمع مجموعات البيانات ، فإنها تفتقر إلى جزء رئيسي من سلسلة الإجراءات لمشروع ناجح. يجدر بنا وضع هذا الأمر في الاعتبار في أي وقت تحاول فيه الشركة الاستفادة من فكرة تستند إلى تطوير تطبيقات تعلم الآلة الجديدة.