Problem Management
Problem Management findet die eigentlichen Ursachen von Störungen und verhindert dass sie wiederkommen - wie ein Detektiv der Brandstifter sucht, nicht nur Feuer löscht.
Während Incident Management schnell Symptome bekämpft, geht Problem Management in die Tiefe und beseitigt Root Causes.
Definition
Problem Management ist der ITIL-Prozess zur Identifikation und Analyse der Ursachen von Incidents und zur Verhinderung zukünftiger Incidents.
Ein Problem ist:
Die unbekannte Ursache von einem oder mehreren Incidents.
Unterschied:
- Incident = Symptom (Server ist down)
- Problem = Ursache (Server überhitzt wegen defekter Kühlung)
Ziele
Hauptziele
- Root Causes finden - Warum passiert das?
- Incidents verhindern - Dass es nicht nochmal passiert
- Workarounds bereitstellen - Wenn keine schnelle Lösung möglich
- Wissensdatenbank pflegen - Known Errors dokumentieren
Prozess-Schritte
1. Problem-Identifikation
Wann wird aus Incidents ein Problem?
Trigger:
- Wiederkehrende Incidents - Gleiches Problem mehrmals
- Major Incident - Schwerwiegende Störung
- Trend-Analyse - Monitoring zeigt Muster
- Proaktiv - Potenzielle Probleme vor Incident erkennen
2. Problem-Registrierung
Problem dokumentieren.
Dokumentiert wird:
- Betroffene Incidents
- Symptome
- Betroffene CIs (Configuration Items)
- Workarounds falls bekannt
3. Problem-Kategorisierung
Problem einordnen.
Kategorien:
- Hardware / Software / Netzwerk
- Service/System betroffen
- Priorität basierend auf Impact
4. Problem-Investigation
Detektivarbeit - Ursache finden.
Methoden:
- 5-Why-Methode - Fünfmal "Warum?" fragen
- Ishikawa-Diagramm - Ursachen visuell strukturieren
- Kepner-Tregoe-Analyse - Systematische Problemlösung
- Brainstorming - Team diskutiert mögliche Ursachen
Beispiel 5-Why:
- Warum ist Server down? → Überhitzung
- Warum Überhitzung? → Lüfter funktioniert nicht
- Warum Lüfter kaputt? → Verstaubt
- Warum verstaubt? → Keine regelmäßige Reinigung
- Warum keine Reinigung? → Kein Wartungsplan
Root Cause: Fehlender Wartungsplan!
5. Known Error erstellen
Sobald Root Cause bekannt ist, wird Known Error registriert.
Known Error enthält:
- Root Cause Beschreibung
- Workaround
- Geplante permanente Lösung
- Betroffene CIs
In Knowledge Base:
Known Errors werden dokumentiert damit Incident Management schneller reagieren kann.
6. Lösung entwickeln
Permanente Lösung finden.
Lösungsarten:
- Quick Fix - Sofort umsetzbar
- Change Request - Benötigt Change Management
- Projekt - Größere Umstellung nötig
7. Lösung implementieren
Fix in Produktion bringen.
Via Change Management:
- RFC (Request for Change) erstellen
- Change genehmigen lassen
- Implementierung planen
- Rollback-Plan haben
8. Problem schließen
Nach erfolgreicher Lösung.
Voraussetzungen:
- Root Cause behoben
- Keine weiteren Incidents
- Dokumentation vollständig
- Known Error aktualisiert
Proaktives Problem Management
Nicht warten bis Incidents passieren - potenzielle Probleme vorher finden!
Aktivitäten:
- Trend-Analyse - Incident-Muster erkennen
- Monitoring-Daten - Schwellwerte vor Ausfall
- Risk Assessments - Was könnte schief gehen?
- Lessons Learned - Aus vergangenen Problemen lernen
Beispiel:
Monitoring zeigt: Server-CPU steigt kontinuierlich. Proaktiv handeln bevor Server crasht!
Unterschied zu Incident Management
| Aspekt | Incident Management | Problem Management |
|---|---|---|
| Ziel | Service wiederherstellen | Root Cause finden |
| Fokus | Symptom | Ursache |
| Zeit | Sofort | Langfristig |
| Beispiel | Server neustarten | Warum crasht Server? |
| Mindset | "Feuer löschen" | "Brandstifter finden" |
Incident Management ist die Feuerwehr, Problem Management ist die Brandermittlung und Prävention.
KPIs
| Metric | Beschreibung | Ziel |
|---|---|---|
| Problem Backlog | Offene Probleme | Niedrig |
| Problem Resolution Time | Zeit bis Problem gelöst | Variabel |
| Prevented Incidents | Incidents durch PM verhindert | Hoch |
| Known Errors | Anzahl dokumentierter Known Errors | Wachsend |
Prüfungsrelevanz LF06
- Ziel: Root Cause finden, nicht schnell beheben
- Unterschied zu Incident Management (reaktiv vs. proaktiv)
- Known Error Konzept
- 5-Why-Methode kennen
- Proaktives vs. reaktives Problem Management
Typische Prüfungsfrage:
"Erklären Sie den Unterschied zwischen Incident Management und Problem Management anhand eines Beispiels."
Verwandte Konzepte
- Incident Management - Bekämpft Symptome
- Change Management - Wenn Lösung implementiert wird
- Known Error - Dokumentierte Probleme mit Workaround
- ITIL - Rahmenwerk
- CMDB - Configuration Items
Zusammenfassung
Problem Management findet die Root Causes von Störungen und verhindert dass Incidents wiederkommen - Detektivarbeit statt Feuerwehr.
Merksatz:
"Problem Mgmt = Detektiv + Präventivmedizin - Ursachen finden und verhindern!"