Infrastructure Monitoring

#informatik/monitoring #GFN/LF06

Infrastructure Monitoring ist die kontinuierliche Überwachung von IT-Infrastrukturkomponenten (Server, Netzwerk, Anwendungen), um Performance-Probleme frühzeitig zu erkennen und Ausfälle zu verhindern.

Monitoring-Systeme sammeln Metriken, generieren Alerts und helfen bei der proaktiven Problemerkennung im Rahmen von Service Operation.

Überwachte Komponenten

Server: CPU, RAM, Disk, Temperatur
Netzwerk: Bandbreite, Latenz, Paketverlust, Router, Switch
Anwendungen: Verfügbarkeit, Antwortzeiten, Fehlerraten
Datenbanken: Connections, Queries, Performance
Speicher: Kapazität, IOPS, Auslastung
Dienste: DHCP-Server, DNS, Web-Server

Monitoring-Arten

Art	Beschreibung	Beispiel
Availability Monitoring	Ist es erreichbar?	Ping, HTTP-Check
Performance Monitoring	Wie schnell reagiert es?	Response Time, Latenz
Capacity Monitoring	Wird es knapp?	Disk 90% voll
Log Monitoring	Was sagen die Logs?	Error-Logs durchsuchen
Application Performance Monitoring (APM)	Wie läuft die App?	Transaktionen tracken

Metriken-Typen

Availability: Uptime, Downtime
Performance: CPU %, RAM %, Antwortzeit
Capacity: Speichernutzung, Netzwerkauslastung
Quality: Fehlerraten, Success Rate

Monitoring-Tools

Bekannte Tools

Nagios - Open-Source-Klassiker
Zabbix - Enterprise Monitoring
Prometheus + Grafana - Moderne Cloud-Native-Lösung
PRTG - All-in-One Monitoring
Datadog - SaaS Monitoring
ELK Stack - Log-Management (Elasticsearch, Logstash, Kibana)

Alerts und Notifications

Alert-Konfiguration

Alerts sollten sinnvoll konfiguriert sein:

Thresholds: CPU > 90% für 5 Min
Escalation: Erst E-Mail, dann SMS, dann Anruf
Unterdrückung: Nicht bei jedem kleinen Spike
Gruppierung: Zusammenhängende Alerts bündeln

Alert Fatigue

Zu viele False Positives → Menschen ignorieren Alerts → Echte Probleme werden übersehen

Integration mit ITSM

Event Management

Monitoring erzeugt Events, die in Service Operation verarbeitet werden:

Informational: Nur loggen
Warning: Untersuchen, vorbeugen
Exception: Incident erstellen

Proaktives Management

Monitoring ermöglicht:

Problem Management: Trends erkennen, Root Cause finden
Capacity Management: Engpässe vorhersagen
Availability Management: Verfügbarkeit sicherstellen
Service-Level Management: SLAs überwachen

Moderne Ansätze

Observability

Neben klassischem Monitoring:

Metrics: Numerische Werte (CPU, RAM)
Logs: Textuelle Ereignisse
Traces: Verteilte Transaktionsverfolgung

→ Vollständiges Bild des Systems

DevOps-Integration

Moderne Monitoring-Lösungen integrieren sich mit CI/CD-Pipelines und ermöglichen Continuous Monitoring.

Automatische Remediation

Fortgeschrittene Systeme können automatisch reagieren:

Server neu starten
Auto-Scaling auslösen
Incident automatisch erstellen