Infrastructure Monitoring

Infrastructure Monitoring ist die kontinuierliche Überwachung von IT-Infrastrukturkomponenten (Server, Netzwerk, Anwendungen), um Performance-Probleme frühzeitig zu erkennen und Ausfälle zu verhindern.

Monitoring-Systeme sammeln Metriken, generieren Alerts und helfen bei der proaktiven Problemerkennung im Rahmen von Service Operation.

Überwachte Komponenten

  • Server: CPU, RAM, Disk, Temperatur
  • Netzwerk: Bandbreite, Latenz, Paketverlust, Router, Switch
  • Anwendungen: Verfügbarkeit, Antwortzeiten, Fehlerraten
  • Datenbanken: Connections, Queries, Performance
  • Speicher: Kapazität, IOPS, Auslastung
  • Dienste: DHCP-Server, DNS, Web-Server


Monitoring-Arten

Art Beschreibung Beispiel
Availability Monitoring Ist es erreichbar? Ping, HTTP-Check
Performance Monitoring Wie schnell reagiert es? Response Time, Latenz
Capacity Monitoring Wird es knapp? Disk 90% voll
Log Monitoring Was sagen die Logs? Error-Logs durchsuchen
Application Performance Monitoring (APM) Wie läuft die App? Transaktionen tracken
Metriken-Typen

  • Availability: Uptime, Downtime
  • Performance: CPU %, RAM %, Antwortzeit
  • Capacity: Speichernutzung, Netzwerkauslastung
  • Quality: Fehlerraten, Success Rate


Monitoring-Tools

Bekannte Tools

  • Nagios - Open-Source-Klassiker
  • Zabbix - Enterprise Monitoring
  • Prometheus + Grafana - Moderne Cloud-Native-Lösung
  • PRTG - All-in-One Monitoring
  • Datadog - SaaS Monitoring
  • ELK Stack - Log-Management (Elasticsearch, Logstash, Kibana)


Alerts und Notifications

Alert-Konfiguration

Alerts sollten sinnvoll konfiguriert sein:

  • Thresholds: CPU > 90% für 5 Min
  • Escalation: Erst E-Mail, dann SMS, dann Anruf
  • Unterdrückung: Nicht bei jedem kleinen Spike
  • Gruppierung: Zusammenhängende Alerts bündeln
Alert Fatigue

Zu viele False Positives → Menschen ignorieren Alerts → Echte Probleme werden übersehen


Integration mit ITSM

Event Management

Monitoring erzeugt Events, die in Service Operation verarbeitet werden:

  • Informational: Nur loggen
  • Warning: Untersuchen, vorbeugen
  • Exception: Incident erstellen
Proaktives Management

Monitoring ermöglicht:


Moderne Ansätze

Observability

Neben klassischem Monitoring:

  • Metrics: Numerische Werte (CPU, RAM)
  • Logs: Textuelle Ereignisse
  • Traces: Verteilte Transaktionsverfolgung

→ Vollständiges Bild des Systems

DevOps-Integration

Moderne Monitoring-Lösungen integrieren sich mit CI/CD-Pipelines und ermöglichen Continuous Monitoring.

Automatische Remediation

Fortgeschrittene Systeme können automatisch reagieren:

  • Server neu starten
  • Auto-Scaling auslösen
  • Incident automatisch erstellen