الدور الوظيفي: مهندس بيانات

مؤلف: Laura McKinney
تاريخ الخلق: 3 أبريل 2021
تاريخ التحديث: 15 قد 2024
Anonim
الوظائف والأدوار الرئيسية في علم البيانات | Data Science Roles
فيديو: الوظائف والأدوار الرئيسية في علم البيانات | Data Science Roles

المحتوى


المصدر: بولس روسيانتو / Dreamstime.com

يبعد:

غالبًا ما يختلط مهندسو البيانات بعلماء البيانات ، ولكن هناك اختلافات كبيرة في الدورين.

هناك حاجة كبيرة لمهندسي البيانات في هذه الأيام ، لكن الكثير من المديرين التنفيذيين وغيرهم لديهم أسئلة كبيرة حول ما يفعله هؤلاء المهنيين.

يوجد تشويش كبير حول الفرق بين مهندسي البرمجيات ومهندسي البيانات ، إلى جانب أسئلة حول كيفية عمل علماء البيانات ومهندسي البيانات معًا. ضع في اعتبارك جميع أنواع مشاريع البيانات الضخمة الجديدة ، بما في ذلك أدوات التعلم الآلي وأدوات العمل الثاقبة في هذا المزيج ، ولديك بعض الالتباس الكبير حول دور مهندس البيانات وما يمكن أن يتكون عليه عملهم اليومي.

اقرأ: 6 مفاهيم علوم البيانات الأساسية التي يمكنك إتقانها من خلال التعلم عبر الإنترنت

دور تكرير البيانات ملموسة

متحدثًا بشكل عام ، يكون مهندس البيانات مسؤولًا عن العمل مع أنظمة البيانات وصقل البيانات ليناسب تلك الأنظمة ، حيث يكون لعالم البيانات دور مختلف قليلاً في العمل مباشرة مع التنظيف وتنظيم مجموعات البيانات الكبيرة.


إذا كانت هناك طريقة واحدة سهلة للتمييز بين ما يقوم به علماء البيانات عادة ، وما الذي يفعله مهندسو البيانات عادةً ، فيمكنك القول إن عالم البيانات سوف ينظر إلى البيانات من خلال عدسة شاملة في حين أن مهندس البيانات سوف ننظر إلى البيانات من خلال عيون قاعدة بيانات أو نظام معالجة البيانات الكبيرة.

يقول Nima Negahban ، CTO ومؤسس Kinetica: "مهندسو البيانات ... متخصصون في ترجمة عمل علماء البيانات إلى حلول برمجية صلبة تعتمد على البيانات للأعمال" ، ويصفون سبب ارتفاع الطلب على مهندسي البيانات في السنوات المقبلة. "يتضمن ذلك إنشاء عمليات تطوير واختبار وفحص وتدقيق متعمدين لمنظمة العفو الدولية تمكن الشركة من دمج خطوط أنابيب المعلومات والبيانات على نطاق المؤسسة. تعتبر مهمة إنشاء حلول البرامج الثابتة والقائمة على البيانات جزءًا رئيسيًا مما يهم مهندسي البيانات في مؤسسة حديثة. "

هذا الترسيم - فكرة أن مهندسي البيانات يعملون مباشرة مع البيانات الضخمة أنظمة، هي طريقة أساسية لفهم ما يقدمه مهندس البيانات لصاحب العمل.


مهندسي البيانات وتغيير المشهد البيانات الكبيرة

كمحافظين على أنظمة البيانات الكبيرة وإعدادات قواعد البيانات ، فإن مهندسي البيانات غالباً ما يكونون على دراية بتقنيات محددة مثل Apache Hadoop.

No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك

لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

لكنهم يميلون أيضًا إلى معرفة الكثير حول كيفية تطور أنظمة معالجة البيانات الكبيرة وأي منافسين يكتسبون شعبية في عالم الشركات اليوم.

منذ بضع سنوات فقط ، كان Apache Hadoop هو المعيار الذهبي لمعالجة البيانات الضخمة. ربط مهندسو البيانات Hadoop بأدوات مثل YARN و MapReduce وأنتجوا أنظمة معالجة بيانات مجمعة ومنظمة.

الآن ، يبدو أن Hadoop يخسر أمام أنواع أخرى من الأنظمة.

في مقال منذ بضعة أشهر فقط في The New Stack بعنوان "هل تغرق Kubernetes سفينة Hadoop؟" ، يلاحظ الكاتب Yaron Haviv أن المنافسين Cloudera و Hortonworks قد اندمجا الآن ، وأن أدوات Apache الجديدة مثل Spark تدفع Hadoop نحو نوع من التقادم .

بالإضافة إلى ذلك ، لدى البائعين السحابيين أنظمة معالجة البيانات الكبيرة الخاصة بهم ، والتي قد تروق أيضًا لسير عمل مهندس البيانات.

هناك حركة ثالثة وكبيرة جدًا تدور حول الوضع الظاهري للحاوية. في إعداد الحاوية ، تتشارك حاويات البيانات المختلفة في نظام تشغيل أساسي وتقدم أسطح هجوم رقيقة ، مع زيادة الكفاءة إلى أقصى حد عبر المنصة. استحوذت تقنيات الحاويات مثل Kubernetes على العديد من المشاريع التي كانت تعمل على Hadoop ، وقبل ذلك ، على خوادم قواعد البيانات العلائقية البسيطة.

"إن واحدة من أعظم مزايا Kubernetes هي قابليتها للنقل ،" يكتب Haviv ، "مما يمكّن المستخدمين من بناء مجموعات تمتد عبر السحب المتعددة أو يتم توزيعها عبر المواقع. تعمل إمكانية النقل أيضًا على تسهيل تطوير أو اختبار الخدمات المصغرة في السحابة ونشرها في واحد أو أكثر من مواقع الحواف تلقائيًا. "

مهندسو البيانات: تنقية البيانات

مهندسي البيانات لديهم أيضا أدوار رئيسية تتعلق بأخذ البيانات الخام وجعلها منظمة. قد يقوم علماء البيانات ببعض هذا أيضًا ؛ ومع ذلك ، مرة أخرى ، سيبحث مهندسو البيانات عادةً في تحسين البيانات الأولية وتصفيتها في نظام قاعدة بيانات محدد. يمكنك اعتبارهم "مشغلي النظام" أو "مالكي النظام" في عملية تنقية البيانات - فهم يفكرون غالبًا في تطهير البيانات في بيئة معينة. (لمزيد من المعلومات حول علماء البيانات ، راجع الدور الوظيفي: عالم البيانات.)

في DataScienceGragraduatePrograms.com ، يبرز مورد تمهيدي إعلامي هذا الجزء من طبيعة هندسة البيانات:

يركز مهندسو البيانات على التطبيقات وجني البيانات الكبيرة. لا يشمل دورهم قدرًا كبيرًا من التحليل أو التصميم التجريبي. بدلاً من ذلك ، هم خارج المكان الذي يلتقي فيه المطاط بالطريق ... ينشئ واجهات وآليات لتدفق المعلومات والوصول إليها.

تخزين البيانات

الشركات لديها أيضا عدد لا يحصى من الخيارات في كيفية تخزين البيانات. قد يكون مهندس البيانات مسؤولاً عن تقييم هذه الأنواع من الخيارات.على سبيل المثال ، قد يكون من المفيد استخدام خدمات تخزين البائعين من Amazon أو البائعين الآخرين. يوفر طراز تخزين الأشياء من S3 من Amazon طرقًا جديدة للتعامل مع المعلومات المخزنة التي يتم ابتكارها في المجموعة التقليدية الزائدة عن الحاجة لأنظمة الأقراص المستقلة (RAID) التي كانت هي القاعدة منذ بضع سنوات فقط.

مهندسي البيانات كما الخاطبة

كما هو الحال مع الأنواع الأخرى من الأدوار ، فإن مهندسي البيانات لديهم أيضًا أدوار يلعبونها داخل الهيكل التنظيمي ، وفي محاولة المضي قدمًا في العمل من خلال التأكد من أن الأهداف والغايات تتوافق مع الهياكل الموجودة.

بعض هذا يتطلب السعي للحصول على موافقة من التنفيذيين أو أصحاب المصلحة الآخرين. يتطلب بعض ذلك التأكد من أن البرامج الوسيطة يتم توصيلها إلى مستودع بيانات ، أو أن أنظمة البيانات الكبيرة يمكنها القيام بسحرها دون قيود. كل هذا غالبًا ما يكون ضمن اختصاص مهندس البيانات الذي سينقل البيانات المكررة والمعتمدة من خلال أنظمة محددة لتكنولوجيا المعلومات ونماذج قواعد البيانات بطريقة تسهل الأهداف التجارية الأساسية.

كل هذا يوضح كيف أن مهندسي البيانات هم "حماة مستودع البيانات" إلى حد كبير - عندما تتقاطع المشكلات مع طبيعة البيانات الكبيرة والأنظمة التي تستخدمها أو تخزنها ، فغالبًا ما يكونون في المقدمة ومركزًا في استجابة الرسم البياني. فكر في كيفية ملاءمة مهندس البيانات لعالم الأعمال اليوم وغدًا.