Prosto o ITIL – Praktyka Zarządzanie Incydentami – część 1

Podziel się

Najczęściej z praktyka Service Desk stosowana jest praktyka Zarządzania Incydentami. Nie ma chyba organizacji, która w jakiś sposób nie próbuje przywracać usługi do działania, gdy użytkownicy nie mogą z nich korzystać. Tak naprawdę, żeby obsługa incydentów byłą skuteczna praktyka Service Desk musi najpierw przyjąć zgłoszenia od użytkowników i kierować do właściwego strumienia wartości. Wydawać by się mogło, że każdy w jakimś stopniu zna praktykę Zarządzania Incydentami. Zobaczmy czy coś nas może zaskoczyć?

Cel

Celem praktyki zarządzanie incydentami jest minimalizowanie negatywnego wpływu incydentów poprzez jak najszybsze przywrócenie normalnej eksploatacji usługi.

Jeżeli mamy rozwiązania docelowe to stosujemy docelowe a jeżeli mamy tymczasowe, np. obejście to również możemy z niego skorzystać. Chcemy to zrobić jak najszybciej, czyli bez zbędnych analiz i tracenia czasu szukanie przyczyny źródłowej. Tym zajmuje się praktyka Zarządzania Problemami, którą będę jeszcze opisywał.

Ważne jest aby dobrze zdefiniować co oznacza „normalna eksploatacja usługi” aby było to tak samo zrozumiałe dla użytkowników jak i dostawcy usług.

Warto pamiętać, że praktyka Zarządzania Incydentami nie musi obejmować tylko zgłoszeń od użytkowników. Zajmuje się również incydentami, które zostały wykryte przez narzędzia monitorowania lub specjalistów z danej dziedziny.

Ścieżka decyzyjna czy rejestrować incydent powinna wyglądać jak na rysunku poniżej

Rys 1. Diagram decyzyjny rejestracji incydentu (źródło: książka ITIL 4 Zarządzanie incydentami opracowana przez Peoplecert)

Definicja incydentu

Nieplanowana przerwa w usłudze lub obniżenie jakości usługi.

Pierwsza część jest „zerojedynkowa”, usługa działa nie działa, usługa dostępna niedostępna. To zazwyczaj nie jest trudno określić. Jednak co oznacza „obniżenie jakości usługi”? Czy jak usługa działa dwa razy wolniej to już mamy incydent? Czy jak połowa użytkowników może korzystać z usługi a druga połowa nie może, to mamy incydent? Dla każdej usługi trzeba jak najbardziej precyzyjnie zdefiniować co oznacza obniżenie jej jakości.

Przy okazji incydentów można tworzyć modele incydentów, czyli powtarzalne podejście do zarządzania określonym typem incydentu. Modele incydentów mają nam pomóc w jak najszybszym rozwiązaniu incydentu.

Większość organizacji definiuje również „Poważny incydent” (Major incident), czyli incydent o znaczącym wpływie na działalność biznesową wymagający natychmiastowego skoordynowanego rozwiązania. W organizacjach poważne incydenty są potocznie nazywane awariami i mogą dotyczyć również incydentów o wyższym poziomie złożoności.

Obejście (workaround) i dług techniczny

Nie można byłoby rozwiązać wielu incydentów, jeżeli nie korzystałoby się z obejść (workaround), czyli:

Rozwiązanie, które zmniejsza lub eliminuje wpływ incydentu bądź problemu, dla którego pełne rozwiązanie nie jest jeszcze dostępne. Niektóre obejścia zmniejszają prawdopodobieństwo wystąpienia incydentów.

Obejścia tworzone są w ramach praktyki Zarządzania Problemami, zapisywane są w bazie wiedzy a później wykorzystywane są do obsługi incydentów.

Trzeba jednak pamiętać, że stosowanie obejść a nie rozwiązań trwałych, systemowych zwiększa dług techniczny, czyli backlog wszystkich przeróbek nagromadzonych wskutek wybrania obejść zamiast rozwiązań systemowych, których wdrożenie potrwałoby dłużej.

Zakres praktyki

Zakres praktyki zarządzania incydentami obejmuje:

  • Wykrywanie i rejestrowanie incydentów
  • Diagnozowanie i badanie incydentów
  • Przywrócenie usług, których dotyczą problemy i elementów konfiguracji do uzgodnionej jakości
  • Zarządzanie zapisami incydentów
  • Komunikacja z odpowiednimi interesariuszami w całym cyklu życia incydentu
  • Przegląd incydentów i inicjowanie doskonalenia usług i praktyki zarządzanie incydentami po ich rozwiązaniu

Czynniki sukcesu praktyki

Dla każdej praktyki ITIL definiuje czynniki sukcesu (Practice Success Factors – PSF), czyli złożony funkcjonalny komponent praktyki, który jest wymagany, aby praktyka spełniała swoje przeznaczenie.

Dla praktyki zarządzanie incydentami zostały zdefiniowane trzy czynniki sukcesu:

  • Wczesne wykrywanie incydentów – dążymy do sytuacji aby jak najwcześniej wykrywać incydenty. Co oznacza, że nie czekamy tylko na zgłoszenia od użytkowników ale podejmujemy działania proaktywne, np. monitorowanie usług i ich komponentów, w czym wspiera nas praktyka Monitorowania i zarządzania zdarzeniami. Wszystko to robimy po to, aby minimalizować czas niedziałania usługi, w szczególności czy wpływa to na użytkowników. Dzięki temu możemy uzyskać wyższą satysfakcję użytkowników.
  • Szybkie i sprawne rozwiązywanie incydentów – ma wpływ na jakość świadczonych usług.
    • Dlatego dla prostych incydentów korzystamy z wcześniej przygotowanych w bazie wiedzy rozwiązań, procedur, instrukcji.
    • Dla skomplikowanych incydentów, gdy charakter incydentu jest nieznany ale systemy i komponenty są znane zespołom wsparcia oraz organizacja posiada dostęp do wiedzy eksperckiej, incydenty są zwykle kierowane do specjalistycznej grupy lub grup w celu diagnozy i rozwiązania incydentu.
    • W złożonych sytuacjach, gdy zdefiniowanie dziedziny i grupy ekspertów jest trudne lub niemożliwe, lub gdy zdefiniowane grupy ekspertów nie znajdują rozwiązania, przydatne może być podejście „Swarming„.
      To technika rozwiązywania różnych złożonych zadań. W swarmingu wiele osób z różnymi obszarami wiedzy pracuje razem nad zadaniem, dopóki nie stanie się jasne, które kompetencje są najbardziej istotne i potrzebne.
    • Incydenty mogą zostać rozwiązane samemu przez użytkowników, dzięki podejściu „shift left„. Podejście do zarządzania pracą, które koncentruje się na przenoszeniu działań bliżej źródła pracy w celu uniknięcia potencjalnie kosztownych opóźnień lub eskalacji. Wywodzi się ono z tworzenia oprogramowania ale w kontekście wsparcia podejście shift-left może charakteryzować się dostarczaniem narzędzi samopomocy użytkownikom końcowym.
    • Na szybkość rozwiązania incydentu wpływa również określenie właściwego priorytetu dla incydentu oraz określenie kategorii czyli przydzielenie do właściwej grupy wsparcia. Skierowanie incydentu do nieprawidłowej grupy wsparcia  oznacza wydłużenie jego czasu obsługi oraz skrócenie czasu rozwiązania, gdy incydent w końcu trafi pod właściwy adres. Ważne jest aby określać priorytety dla wszystkich zadań, nie tylko incydentów, realizowanych przez zespoły w organizacji aby było dla nich jasne, które zgłoszenia są priorytetowe.
  • Ciągłe doskonalenie zarządzania incydentami – nie spoczywamy na laurach ale przeprowadzamy okresowe przeglądy incydentów w celu doskonalenia skuteczności i sprawności praktyki zarządzanie incydentami. Zwykle dla każdego poważnego incydentu robimy przegląd aby wyciągnąć lekcje (lessons learned) i pomyśleć co można następnym razem zrobić lepiej i jakich wpadek uniknąć.

Kluczowe metryki

Skuteczność i wydajność praktyk ITIL powinna być oceniana w kontekście strumieni wartości, do których praktyki się przyczyniają. Kontekst biznesu i strumieni wartości jest ważny przy definiowaniu, czy wydajność praktyki jest uważana za dobrą, czy nie.

Metryki są powiązane ze zdefiniowanymi czynnikami sukcesu praktyki i potwierdzają lub nie, że dany czynnik sukcesu został osiągnięty lub nie. Poniżej zdefiniowane kluczowe metryki

  • PSF – Wczesne wykrywanie incydentów
    • Czas od wystąpienia incydentu do jego wykrycia
    • Odsetek incydentów wykrytych poprzez monitorowanie i zarządzanie zdarzeniami
  • PSF – Szybkie i sprawne rozwiązywanie incydentów
    • Czas od wykrycia zdarzenia do akceptacji diagnozy
    • Czas diagnozy
    • Liczba ponownych przydziałów
    • Odsetek czasu oczekiwania w ogólnym czasie obsługi incydentu
    • Wskaźnik rozwiązań za pierwszym razem
    • Spełnienie uzgodnionego czasu rozwiązania
    • Zadowolenie użytkowników z obsługi i rozwiązania incydentów
    • Odsetek incydentów rozwiązanych automatycznie
    • Odsetek incydentów rozwiązanych przed ich zgłoszeniem przez użytkowników
  • PSF – Ciągłe doskonalenie zarządzania incydentami
    • Odsetek rozwiązań incydentów wykorzystujących wcześniej zidentyfikowane i zapisane rozwiązania
    • Odsetek incydentów rozwiązanych przy użyciu modeli incydentów
    • Doskonalenie kluczowych wskaźników praktyki w czasie
    • Równowaga między metrykami szybkości i skuteczności rozwiązania incydentu

Przedstawiłem najważniejsze koncepcje związane z praktyką zarządzanie incydentami. W drugiej części artykułu opiszę strumienie wartości i procesy, organizacje i ludzie (role i odpowiedzialności), informacje i technologie, czyli narzędzia wspierające praktykę, relacje z partnerami i dostawcami oraz rekomendacje związane z osiągnięciem sukcesu przez praktykę.


Podziel się

Discover more from Mariusz Siek

Subscribe to get the latest posts sent to your email.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.