Problem Management

Problem Management ist der ITIL-Prozess zur Identifizierung und dauerhaften Beseitigung der Ursachen (Root Cause) wiederkehrender Störungen.

Während Incident Management schnell Symptome behebt, sucht Problem Management nach der tieferliegenden Ursache, um Incidents zu verhindern.

Problem vs. Incident

  • Incident - "Server ist down" → Schnell neu starten
  • Problem - "Warum fällt der Server ständig aus?" → USV defekt finden und ersetzen


Problem-Prozess

1. Problem Detection (aus Incidents oder proaktiv)
   ↓
2. Problem Logging
   ↓
3. Problem Categorization & Prioritization
   ↓
4. Investigation & Diagnosis (Root Cause Analysis)
   ↓
5. Workaround finden (für zukünftige Incidents)
   ↓
6. Known Error Database (KEDB) eintragen
   ↓
7. RFC erstellen für permanente Lösung
   ↓
8. Problem Resolution via Change Management
   ↓
9. Problem Closure
Reaktiv vs. Proaktiv

  • Reaktiv: Nach wiederholten Incidents untersuchen
  • Proaktiv: Trends analysieren, bevor Incidents auftreten


Root Cause Analysis Methoden

5-Why-Methode

Fünfmal "Warum?" fragen:

1. Warum ist [[Server]] down? → Stromausfall
2. Warum Stromausfall? → [[USV]] defekt
3. Warum [[USV]] defekt? → Batterie leer
4. Warum Batterie leer? → Wartung vergessen
5. Warum vergessen? → Kein Wartungsplan

Root Cause: Fehlender Wartungsplan
Lösung: Wartungsplan erstellen und automatisieren
Weitere Methoden

  • Fishbone Diagram (Ishikawa)
  • Kepner-Tregoe
  • DMAIC-Zyklus (Six Sigma)
  • Pareto-Analyse


Known Error Database (KEDB)

KEDB

Dokumentiert bekannte Probleme mit Workarounds:

  • Problem-Beschreibung
  • Root Cause (wenn bekannt)
  • Workaround für Incident Management
  • Status (offen, in Bearbeitung, gelöst)

Nutzen für Incident Management:

Support-Teams können schnell nachschlagen und Workarounds anwenden, ohne jedes Mal von vorn zu analysieren.


Zusammenarbeit

Integration

Problem Management arbeitet eng zusammen mit:

Nutzen

  • Weniger wiederkehrende Incidents
  • Höhere Service-Qualität
  • Langfristige Kosteneinsparung
  • Bessere SLA-Erfüllung
  • Proaktive Verbesserung

Häufiger Fehler

Problem Management vernachlässigen, weil Incident Management dringender scheint - führt zu "Feuerlöschen" statt Prävention.

Metriken

  • Anzahl reduzierter Incidents durch Problemlösungen
  • Durchschnittliche Zeit zur Root Cause-Identifikation
  • KEDB-Nutzungsrate