5 أفضل الممارسات لأتمتة إدارة الحوادث الكبرى

مؤلف: Roger Morrison
تاريخ الخلق: 27 شهر تسعة 2021
تاريخ التحديث: 10 قد 2024
Anonim
8 Best Practices to Deal with Major Incidents in IT - Derek Melber
فيديو: 8 Best Practices to Deal with Major Incidents in IT - Derek Melber

المحتوى



المصدر: Pixtum / iStockphoto

يبعد:

باستخدام استراتيجية الأتمتة الذكية ، يمكنك جعل الاستجابة للحوادث أسرع وأسهل من أي وقت مضى - مما يقلل من وقت التوقف عن العمل والانتهاكات الأمنية المحتملة.

تقع حوادث تكنولوجيا المعلومات الكبرى داخل الشركات كل يوم. في حين أن عددًا ضئيلًا فقط هو الذي يتصدر عناوين الصحف ، فإن الأحداث مثل الانقطاعات وانتهاكات الأمان يمكن أن تشل بشكل خطير إنتاجية الموظف ، وتؤثر سلبًا على تصورات العملاء ، والأهم من ذلك ، تؤدي إلى فقد الإيرادات.

لذلك عندما يتعلق الأمر بإدارة حوادث تكنولوجيا المعلومات الكبرى ، فمن الأفضل التركيز على تأثير الأعمال والنتيجة النهائية. وفقًا لمعهد بونيمون ، كان متوسط ​​تكلفة التوقف في عام 2016 يبلغ 851 دولارًا في الدقيقة - أي أكثر من 500000 دولار في الساعة ، ومتوسط ​​فترات التوقف المعتادة أكثر من 90 دقيقة. وهذا هو مجرد التكلفة الفورية! لا يمكن التنبؤ بالتأثير طويل الأجل مثل الضرر الذي يلحق بالسمعة واستنزاف العملاء وربما يكون كارثياً.

على الرغم من أنه لا يمكنك تجنب جميع الحوادث الكبرى تمامًا ، إلا أنه يمكنك تسليح مؤسستك لتكون مستعدة قدر الإمكان لمعالجتها عند حدوثها. وينبغي أن يكون العنصر الرئيسي في استراتيجيتك هو دمج الأتمتة. المؤسسات التي تزيد من استخدام الأتمتة في عمليات حل الحوادث الرئيسية الخاصة بها تحقق استعادة أسرع للخدمة وأخطاء أقل بكثير بسبب خطأ بشري. وذلك لأن الأتمتة تؤثر بشكل مباشر على قدرتك على تقليص مدة نافذة تأثير الأعمال - أو تلك الفترة المكلفة التي يشعر فيها المستخدمون والعمليات التجارية فعليًا بتأثير الحادث. (لمعرفة المزيد حول الأتمتة ، راجع التنفيذ التلقائي: مستقبل علوم البيانات والتعلم الآلي؟)


من أجل تعظيم فوائد الأتمتة ، يجب عليك فحص الأنشطة التي يجب القيام بها خلال نافذة التأثير ، ومعرفة كيفية نقل جميع الأنشطة الأخرى إما قبل بدء الحادث أو بعد عودة النشاط التجاري إلى العمليات العادية. إليك خمس طرق مفيدة للبدء.

1. تطوير وتحديد العملية

يتعلق تعريف عملية إدارة الحوادث الرئيسية بتحديد ما يمكن التخطيط له أو تنسيقه أو تنفيذه أثناء وقوع حادث. قد يعني هذا تحديد أعضاء فريق الدعم الرئيسي حسب مجموعة المهارات والجدول الزمني ، على سبيل المثال ، حتى يتمكن مكتب الخدمة الخاص بك من إشراكهم في أسرع وقت ممكن وبكفاءة. يعني ذلك أيضًا معرفة كيفية نقل المعلومات ذات الصلة إلى فريقك حتى يتمكنوا من البدء في حل المشكلة على الفور ، بالإضافة إلى إبقاء أصحاب المصلحة المناسبين على اطلاع وتحديث.

الأتمتة أمر بالغ الأهمية للجوانب الرئيسية لهذه العملية. على سبيل المثال ، يمكنك أتمتة إدراج المعلومات ذات الصلة من أدوات المراقبة الخاصة بك في تذاكر مكتب الخدمة الخاص بك ، أو تضمين معلومات من مكتب الخدمة في إخطارات إلى محللي الحوادث. يمكنك أيضًا توثيق الحادث بالكامل إلى مصدر واحد للحقيقة الشاملة التي يمكن للجميع الوصول إليها. تذكر أنه يمكنك ممارسة هذه العملية لتصحيحها - فلن تحتاج إلى الانتظار لحادث واقعي حقيقي لاختبار النهج الذي تتبعه.


2. الحصول على البنية التحتية الخاصة بك الحق

في هذا اليوم وعصر التعب ، من الضروري ألا تستمر في قصف فرقك بإشعارات ومعلومات غير ذات صلة لا تنطبق عليهم. سيؤدي تطبيق المرشحات على تنبيهات المراقبة الخاصة بك إلى تمكين فرقك من الدخول بسهولة إلى الإبرة في كومة قش من الضوضاء الروتينية. هذا هو المفتاح لجعل جميع رؤىك وبياناتك قابلة للتنفيذ حقًا ، بدلاً من مجرد زيادة التحميل الزائد للمعلومات.

تتضمن الطرق الجيدة لأتمتة استخدام حل APM للزحف إلى جميع التطبيقات والأنظمة الخاصة بك لتحديد أسباب الجذر بشكل استباقي عند حدوث أي تدهور في الأداء ، قبل التسبب في انقطاع الخدمة بشكل كبير. يمكنك أيضًا دمج المراقبة ومكتب الخدمة وتطبيقات التعاون وأدوات الدردشة لمشاركة المعلومات التقريبية في الوقت الفعلي.

No Bugs، No Stress - دليلك خطوة بخطوة لإنشاء برامج لتغيير الحياة دون تدمير حياتك

لا يمكنك تحسين مهارات البرمجة لديك عندما لا يهتم أحد بجودة البرنامج.

3. قياس دقيق MTTR

كيف تقيس متوسط ​​الوقت اللازم لإصلاحه (MTTR)؟ هل تعتمد على إجمالي الوقت الذي تشارك فيه فرق تكنولوجيا المعلومات ، أو على إجمالي الوقت الذي تتأثر فيه الشركة فعليًا؟ إذا كانت إجابتك هي الأولى ، فيجب عليك إعادة النظر في قياس نافذة التأثير باستخدام منظور العمل بدلاً من ذلك. يعد هذا خدعة أكثر دقة لجهود التحسين التي تبذلها ، لأن هدفك هو تقليل تأثير الحوادث ، وليس مجرد تقديم تقارير استجابة أفضل إلى مجلس الإدارة. (لمعرفة المزيد حول وقت التوقف عن العمل وكيفية معالجته ، تحقق من "معنى الوقت الفعلي بين حالات الفشل".

يمكنك أتمتة من خلال توفير رؤية كاملة في التطبيقات "لبدء الساعة" بأثر رجعي إذا لزم الأمر ، والاحتفاظ بسجل كامل لأنشطة دقة الاتصالات الخاصة بك لتحليلها ومراجعتها لتحسين عملياتك.

4. إبقاء أصحاب المصلحة على اطلاع - ولكن دون مقاطعة القرار

يتوقع أصحاب المصلحة إجراء اتصالات فعالة وفي الوقت المناسب مع توقع أن يظل خبراء الموضوعات يركزون على الليزر في حل المشكلات. على الرغم من أنه يمكنك تعيين جهة اتصال للاتصال لمراقبة مستخدمي الأعمال وإشراكهم ، فإن الاستراتيجية الأكثر فاعلية تتمثل في إنشاء صفحة ويب للخدمة الذاتية مع تحديثات الحالة. يعمل ذلك على تمكين صاحب المصلحة من التحقق من نفسه دون قصف فريقك بمزيد من المكالمات والمكالمات. فقط تذكر أن تقوم بتحديث أصحاب المصلحة الخاصين بك على فترات منتظمة حتى يتلقىوا دائمًا آخر تقرير عن الحالة ويتعرف عليهم. لا تنسَ أن التواصل يجب ألا يتوقف لمجرد استعادة الخدمة! من المهم لأصحاب المصلحة الحصول على ملخص لما حدث ، وما تم تعلمه ، وكيف يمكن تجنب الموقف في المستقبل.

يمكن تنفيذ التنفيذ التلقائي في هذه الحالة لإنشاء صفحة حالة تلقائية في الوقت الفعلي لأصحاب المصلحة ، بالإضافة إلى إنشاء أوامر شرطة مائلة في أداة الدردشة لتحديث تلك الصفحة.

5. جمع البيانات لدعم إدارة المشكلات

استعادة الخدمة لا تمثل نهاية إدارة الحوادث! في الواقع ، تحدث بعض الأنشطة الأكثر قيمة في أعقاب القرار. من خلال جمع بيانات التشخيص والتأثير وإجراء تحليل الأسباب الجذرية ، يمكنك إجراء تدقيق كامل لحادث كبير يتضمن وضع تدابير وقائية لتجنب وقوع حوادث مماثلة في المستقبل. بالإضافة إلى ذلك ، حتى إذا حدث حادث يمكن التعرف عليه مرة أخرى ، يمكنك إنشاء إجراء محدد لأنواع البيانات التي تحتاج إلى جمعها والخطوات التي تحتاج إلى حدوث لتحليل دقة محرك الأقراص. بهذه الطريقة ، يتعين على فريقك ببساطة الرجوع إلى قائمة مرجعية والتركيز على هدفهم الأساسي المتمثل في استعادة الخدمة ، بدلاً من القلق بشأن ما يحتاجون إليه ومتى.

يمكن للأتمتة هنا التقاط أنشطة الدقة والحفاظ عليها ، بما في ذلك أشياء مثل محاضر الدردشة ، في نظام سجل واحد للتحليل. بالإضافة إلى ذلك ، سيساعدك هذا في إنشاء قائمة بالأحداث أو المشكلات المألوفة ، وتعزيز أفضل الممارسات لكل منها ، وبالتالي زيادة سرعة الدقة في المستقبل.

في الختام: أتمتة أكثر ذكاءً وليس أكثر

كن حذرًا من أن المزيد من التشغيل الآلي ليس بالضرورة هو النهج الأفضل! من المهم أن تفهم متى وأين وكيف تتصل أنظمة تكنولوجيا المعلومات الخاصة بك معًا لدعم إدارة الحوادث. لا ترغب في إضافة أي تعقيد غير ضروري من أجل زيادة العمليات الآلية. تذكر أن الهدف هو تبسيط العمليات وتوحيدها قدر الإمكان حتى تشعر فرقك بالقدرة على معالجة المشكلات بكفاءة. يتعلق الأمر بالتنفيذ الأوتوماتيكي بذكاء لتسهيل مجموعة من العمليات المنسقة تنسيقًا جيدًا والموظفين ذوي المعرفة والاتصالات الفعالة لأصحاب المصلحة ، وذلك لتقليل التأثير التجاري الإجمالي للحوادث الكبرى.