Infrastructure Monitoring
Infrastructure Monitoring ist die kontinuierliche Überwachung von IT-Infrastrukturkomponenten (Server, Netzwerk, Anwendungen), um Performance-Probleme frühzeitig zu erkennen und Ausfälle zu verhindern.
Monitoring-Systeme sammeln Metriken, generieren Alerts und helfen bei der proaktiven Problemerkennung im Rahmen von Service Operation.
Überwachte Komponenten
Monitoring-Arten
| Art | Beschreibung | Beispiel |
|---|---|---|
| Availability Monitoring | Ist es erreichbar? | Ping, HTTP-Check |
| Performance Monitoring | Wie schnell reagiert es? | Response Time, Latenz |
| Capacity Monitoring | Wird es knapp? | Disk 90% voll |
| Log Monitoring | Was sagen die Logs? | Error-Logs durchsuchen |
| Application Performance Monitoring (APM) | Wie läuft die App? | Transaktionen tracken |
Metriken-Typen
- Availability: Uptime, Downtime
- Performance: CPU %, RAM %, Antwortzeit
- Capacity: Speichernutzung, Netzwerkauslastung
- Quality: Fehlerraten, Success Rate
Monitoring-Tools
Bekannte Tools
- Nagios - Open-Source-Klassiker
- Zabbix - Enterprise Monitoring
- Prometheus + Grafana - Moderne Cloud-Native-Lösung
- PRTG - All-in-One Monitoring
- Datadog - SaaS Monitoring
- ELK Stack - Log-Management (Elasticsearch, Logstash, Kibana)
Alerts und Notifications
Alert-Konfiguration
Alerts sollten sinnvoll konfiguriert sein:
- Thresholds: CPU > 90% für 5 Min
- Escalation: Erst E-Mail, dann SMS, dann Anruf
- Unterdrückung: Nicht bei jedem kleinen Spike
- Gruppierung: Zusammenhängende Alerts bündeln
Alert Fatigue
Zu viele False Positives → Menschen ignorieren Alerts → Echte Probleme werden übersehen
Integration mit ITSM
Event Management
Monitoring erzeugt Events, die in Service Operation verarbeitet werden:
- Informational: Nur loggen
- Warning: Untersuchen, vorbeugen
- Exception: Incident erstellen
Proaktives Management
Monitoring ermöglicht:
- Problem Management: Trends erkennen, Root Cause finden
- Capacity Management: Engpässe vorhersagen
- Availability Management: Verfügbarkeit sicherstellen
- Service-Level Management: SLAs überwachen
Moderne Ansätze
Observability
Neben klassischem Monitoring:
- Metrics: Numerische Werte (CPU, RAM)
- Logs: Textuelle Ereignisse
- Traces: Verteilte Transaktionsverfolgung
→ Vollständiges Bild des Systems
DevOps-Integration
Moderne Monitoring-Lösungen integrieren sich mit CI/CD-Pipelines und ermöglichen Continuous Monitoring.