كيف منظم هو البيانات الخاصة بك؟ فحص البيانات المهيكلة وغير المهيكلة وشبه الهيكلية

مؤلف: Roger Morrison
تاريخ الخلق: 25 شهر تسعة 2021
تاريخ التحديث: 10 قد 2024
Anonim
كيف منظم هو البيانات الخاصة بك؟ فحص البيانات المهيكلة وغير المهيكلة وشبه الهيكلية - تقنية
كيف منظم هو البيانات الخاصة بك؟ فحص البيانات المهيكلة وغير المهيكلة وشبه الهيكلية - تقنية

المحتوى



المصدر: monsitj / iStockphoto

يبعد:

تعرف على البيانات المنظمة وغير المنظمة وشبه الهيكلية.

تاريخياً ، كان محللو البيانات قادرين على فك تشفير واستخراج المعلومات من نوع واحد فقط من البيانات: البيانات المنظمة. كان من السهل البحث في هذا النوع من البيانات بسبب أنماطه الواضحة ، لكنه يمثل نسبة مئوية بسيطة من إجمالي البيانات المتاحة.

تضمنت البيانات غير المهيكلة مقاطع الفيديو والصوت والبيانات الواردة من وسائل التواصل الاجتماعي والأجهزة المحمولة أيضًا. لقد كان أكبر احتياطي من المعلومات الأولية المتوفرة ، ولكن لم يستطع أحد الاستفادة من هذا المورد بشكل موثوق.

ومع ذلك ، فقد تغيرت الأمور ، لأن زيادة توافر التخزين وقدرات المعالجة الفائقة ولدت تحليلات البيانات غير المهيكلة - شكل جديد ، وبالتالي غير ناضج ، من التكنولوجيا. تستفيد المعلومات التجارية الأفضل من هذه الفرصة استفادة كاملة ، ويتم إجراء استثمارات كبيرة لتجميع تحليلات البيانات المنظمة وغير المنظمة للوصول إلى منجم الذهب الذي لا نهاية له على ما يبدو من المعلومات.

لنلقي نظرة على هذين التنسيقين للبيانات لفهم الاختلافات بينهما ، وما يخبئه المستقبل لجميع محللي البيانات.


ما هي البيانات المهيكلة؟

البيانات المهيكلة عبارة عن معلومات يتم إنشاؤها من قبل الإنسان أو الآلة ومنظمة عالية الدقة ويمكن تخزينها بسهولة في هياكل قواعد بيانات الصف المعروفة باسم قواعد البيانات العلائقية (RDBs). إنه أي شيء موجود بتنسيق يمكن التقاطه وتخزينه وتنظيمه بسهولة في بنية RDB ليتم تحليله لاحقًا. (لمعرفة المزيد حول قواعد البيانات ، تحقق من مقدمة قواعد البيانات الخاصة بنا.)

ومن الأمثلة على ذلك الرموز البريدية وأرقام الهواتف والتركيبة السكانية للمستخدم مثل العمر أو الجنس. يمكن الاستعلام عن البيانات الموجودة في قواعد البيانات هذه باستخدام وظائف لغة الاستعلام الهيكلية (SQL) أو VLOOKUP داخل جداول بيانات Excel. يمكن أيضًا إجراء الخوارزميات للبحث السريع عن البيانات الموجودة في الحقول المختلفة باستخدام فهارسها أو بياناتها الرقمية والأبجدية. ومع ذلك ، يتم تعريف جميع البيانات بدقة من حيث نوع الحقل واسمه ، وبالتالي فإن القدرة على تخزينه والاستعلام عنه وتحليله مقيدة إلى حد ما.

تشمل التطبيقات النموذجية التي تستخدم البيانات المهيكلة برامج إدارة المستشفيات وتطبيقات إدارة علاقات العملاء (CRM) وأنظمة حجز شركات الطيران. نظرًا لتنظيمها وسهولة الوصول إليها ، فإن البيانات المهيكلة مفيدة وفعالة عند التعامل مع كميات كبيرة من المعلومات. عند البحث عن النفط الأسود المخفي في كمية البيانات التي لا تنتهي والتي تنتجها البشرية كل يوم ، فإن البحث عن البيانات المهيكلة ليس سوى خدش السطح.


ما هي البيانات غير المهيكلة؟

الغالبية العظمى من البيانات الموجودة في أي مؤسسة غير منظمة ، ويقدر البعض أنها تصل إلى 80 في المئة من إجمالي البيانات المتاحة حاليا. بحكم التعريف ، فإن البيانات غير المهيكلة هي كل ما ليس له بنية داخلية محددة. ومع ذلك ، بعض أنواع البيانات التي تندرج في هذه الفئة يعمل شكلاً من أشكال البنية الداخلية الغامضة ، ومع ذلك لا يتوافق مع قاعدة البيانات أو جدول البيانات.

No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك


لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

معظم بيانات الأعمال غير منظمة ، بدءًا من تفاعلات خدمة العملاء والملفات وسجلات الويب ومقاطع الفيديو ومحتوى الوسائط المتعددة الأخرى وأتمتة المبيعات والمنشورات والوسائط الاجتماعية. لا توجد حاجة لشرح مدى أهمية هذه البيانات إذا كان يمكن استخراجها وتنظيمها وتحليلها.

يتم إنشاء معظم البيانات غير المنظمة من قبل البشر ، وبالتالي يتم فهمها من قبل البشر الآخرين. هذا يعني أن الذكاء الحساس للكمبيوتر لا يفهم هذا النوع من المعلومات لأنه بعيد جدًا عن الخطية للغة الآلة وقواعد البيانات المنظمة.

الوقوع بين: البيانات شبه المهيكلة

البيانات شبه المهيكلة هي نوع ثالث من البيانات يمثل جزءًا أصغر بكثير من الكعكة الكاملة (5-10 بالمائة). تحتوي البيانات شبه المهيكلة ، التي تم اكتشافها فعليًا بين العالمين ، على علامات وعلامات الدلالية الداخلية التي تحدد العناصر المنفصلة ، ولكنها تفتقر إلى البنية المطلوبة لتناسب قاعدة البيانات الترابطية.

على سبيل المثال ، قد تبدو s مثل البيانات المهيكلة حيث يمكن تصنيفها حسب التاريخ أو حجم الملف أو الوقت. ومع ذلك ، فهي ليست كذلك ، حيث أن المعلومات الأكثر قيمة هي المعلومات التي توجد بداخلها ، وليس التسميات البسيطة نسبيًا. لا يمكن الترتيب حقًا حسب المحتوى والموضوع ، لأن البشر لا يتحدثون في مثل هذه الأنماط الصارمة للسماح للآلة بفهمها بشكل لا لبس فيه. تتضمن الأمثلة الأخرى للبيانات شبه الهيكلية قواعد بيانات NoSQL و JSON القياسي المفتوح ولغة الترميز XML.

عادة ما يتم الاستعلام عن البيانات شبه المهيكلة وفهرستها لتحليلها باستخدام تحليل البيانات الوصفية. على سبيل المثال ، يتكون فحص الأشعة السينية من عدد كبير من البكسلات التي تشكل الصورة - والتي هي بيانات غير منظمة بطبيعتها ولا يمكن الوصول إليها. ومع ذلك ، سيظل ملف المسح الضوئي يشتمل على جزء بيانات التعريف الذي يوفر معلومات حوله ، مثل التعليقات التوضيحية ومعرف المستخدم.

يمكن تحويل البيانات غير المهيكلة إلى بيانات مهيكلة؟

يتمثل التحدي الأساسي الذي يجب على كل محلل بيانات في مواجهته في تنظيم المعلومات الموجودة بطريقة منظمة ومنتظمة بحيث يمكن الوصول إليها وفهمها. عادةً لا تكون أدوات استخراج البيانات مجهزة لتحليل المعلومات التي ، بحكم تعريفها ، أقرب إلى اللغة البشرية ، مما يعني أنه لا يمكن لأي شخص آخر جمعها وتصنيفها.

ومع ذلك ، فإن الحجم الهائل للبيانات غير المهيكلة يجعل أي محاولة لتخزينها أو تنظيمها شاقة ومكلفة للغاية. إن مجموعة المعلومات التي تأتي من محرك بحث على الإنترنت ، على سبيل المثال ، ضخمة للغاية ، بحيث تتطلب معظم العناصر استثمارًا هائلاً من حيث العمل والموارد فقط لاستخراج العناصر الأساسية. حتى تقنيات استخراج البيانات الأكثر كفاءة لا تزال تفتقد إلى قدر كبير من المعلومات الموجودة على شبكة الإنترنت ، والأسوأ من ذلك ، داخل الشبكة العميقة.

لكن التقنيات موجودة. ويجري تطويرها بسرعة مذهلة. على سبيل المثال ، يمكن استخدام البيانات الوصفية لتوصيل البيانات المنظمة وغير المنظمة معًا. يمكن تصفية المعلومات التي يتم حصادها وفهرستها بواسطة كل من المستخدمين والخوارزميات وكذلك لتحليل البيانات ذات الصلة. وتشمل الحلول الأخرى "نزاع البيانات" ، وهي عملية يتم من خلالها تنظيم البيانات المعقدة تدريجياً خطوة بخطوة بواسطة مستخدمين غير تقنيين. (لمزيد من المعلومات حول المستخدمين العاديين الذين يتعاملون مع البيانات ، راجع كيف يمكن أن تساعد البيانات الكبيرة في تحليلات الخدمة الذاتية.)

في مرحلة ما ، سنكون قادرين على تحويل هذه الكميات غير المنظمة من المعلومات بكفاءة إلى تنسيق أكثر تنظيماً وإعادة هيكلة. ربما ليس اليوم ، ربما ليس غدًا ، لكن سرعان ما سنكون قادرين على مداهمة أكبر قبو البشرية على الإطلاق: بيانات كبيرة.