Monitoring und Observability für SaaS
Logs, Metrics, Traces — wie Sie Ihre SaaS-Anwendung richtig überwachen. Ein praxisnaher Vergleich von Self-Hosted vs Managed Lösungen für den DACH-Raum.
Warum Monitoring nicht optional ist
Jede SaaS-Anwendung, die in Produktion läuft, braucht Observability. Das ist keine Frage des "ob", sondern des "wie". Ohne Monitoring fliegen Sie blind: Sie erfahren von Ausfällen durch Kunden-E-Mails statt durch Alerts. Sie debuggen Probleme mit console.log statt mit strukturierten Traces.
Im DACH-Raum kommt eine weitere Dimension hinzu: Wenn Sie personenbezogene Daten in Logs oder Traces erfassen, greifen DSGVO-Anforderungen. Das beeinflusst die Toolwahl erheblich.
5,6x
Schnellere Fehlerbehebung
Mit strukturiertem Observability vs. Log-Suche
99,9%
Uptime-Erwartung
8,7h Downtime pro Jahr maximal
€340k
Kosten pro Stunde Ausfall
Durchschnitt für mittelständische SaaS
Die drei Säulen der Observability
1. Logs — Was ist passiert?
Logs sind die Grundlage. Jede Anwendung produziert sie. Die Frage ist, wie Sie sie sammeln, strukturieren und durchsuchbar machen.
Strukturierte Logs sind Pflicht. JSON statt Plaintext. Request-IDs in jedem Log-Eintrag. Severity-Level konsequent nutzen.
// Schlecht
console.log("User hat sich eingeloggt")
// Gut
logger.info({ userId: "usr_123", action: "login", ip: "redacted", rid: "req_abc" })
Tools: ELK Stack (Elasticsearch, Logstash, Kibana), Grafana Loki, Datadog Logs
2. Metrics — Wie performt das System?
Metrics sind numerische Zeitreihen: CPU-Auslastung, Response Times, Error Rates, Queue Lengths. Sie zeigen Trends und ermöglichen Alerting.
Die vier goldenen Signale (nach Google SRE):
- Latency — Wie lange dauern Requests?
- Traffic — Wie viele Requests kommen rein?
- Errors — Wie viele Requests schlagen fehl?
- Saturation — Wie ausgelastet ist das System?
Tools: Prometheus + Grafana, Datadog Metrics, CloudWatch
3. Traces — Wo ist der Bottleneck?
Distributed Tracing verfolgt einen Request durch alle Services. Unverzichtbar bei Microservices, aber auch bei Monolithen mit externen APIs wertvoll.
Tools: Jaeger, Grafana Tempo, Datadog APM, OpenTelemetry (Standard)
Self-Hosted vs Managed: Der Vergleich
Self-Hosted (Grafana + Prometheus + Loki)
Vorteile
- Volle Kontrolle über Daten — DSGVO-konform auf eigenen Servern
- Keine laufenden Lizenzkosten, nur Infrastruktur
- Keine Vendor-Abhängigkeit, Open-Source-Stack
- Anpassbar an spezifische Anforderungen
Nachteile
- Setup und Wartung brauchen DevOps-Kompetenz
- Skalierung der Monitoring-Infrastruktur selbst managen
- Kein SLA — wenn Grafana ausfällt, müssen Sie selbst fixen
- Initialer Zeitaufwand: 2-4 Wochen für Production-Ready-Setup
Managed (Datadog / New Relic / Grafana Cloud)
Vorteile
- Sofort einsatzbereit, kein Infrastruktur-Management
- Integrierte Dashboards, Alerting, APM aus einer Hand
- Automatische Skalierung der Monitoring-Plattform
- Enterprise-Support und SLAs verfügbar
Nachteile
- Hohe Kosten bei wachsendem Datenvolumen
- Daten liegen beim Anbieter — DSGVO-Prüfung nötig
- Vendor Lock-in bei proprietären Agents und Queries
- Datadog-Rechnung wird oft zur zweitgrößten Cloud-Ausgabe
Kosten im Vergleich
Die Kosten variieren stark je nach Datenvolumen. Hier ein realistisches Szenario für eine SaaS mit 5.000-10.000 aktiven Nutzern:
Monatliche Monitoring-Kosten (5k-10k Nutzer)
Wichtig: Bei Datadog und New Relic explodieren die Kosten mit der Anzahl der Hosts und dem Log-Volumen. Ein Team, das bei 10 Hosts startet, zahlt bei 50 Hosts schnell das Fünffache.
Error Tracking: Sentry
Sentry verdient eine eigene Erwähnung. Es ist kein vollständiges Observability-Tool, aber das beste Error-Tracking auf dem Markt.
Was Sentry kann:
- Automatisches Grouping ähnlicher Fehler
- Source Maps für Frontend-Errors
- Performance Monitoring (Transactions)
- Release Tracking (welches Deployment hat den Bug eingeführt?)
- Cron Monitoring (Job-Überwachung)
Kosten: Kostenlos bis 5k Events/Monat. Team-Plan ab $26/Monat. Für die meisten Startups im Free Tier ausreichend.
DSGVO: Sentry bietet EU-Datenresidenz (Frankfurt) im Business-Plan. Alternativ: Self-Hosted Sentry (braucht ~4 GB RAM).
Uptime Monitoring
Externe Uptime-Checks sind die einfachste Versicherung. Sie prüfen von außen, ob Ihre Anwendung erreichbar ist.
Empfehlungen:
- Better Stack (ehem. Better Uptime) — Status Pages + Alerting, EU-Checks möglich. Ab $24/Mo.
- Checkly — Synthetische Monitoring + API Checks mit Playwright. Von einem Berliner Team gebaut. Ab $30/Mo.
- UptimeRobot — Einfach und günstig. Free Tier mit 50 Monitoren.
Alerting: Weniger ist mehr
Das größte Problem bei Monitoring ist nicht zu wenig Alerting, sondern zu viel. Alert Fatigue führt dazu, dass kritische Benachrichtigungen ignoriert werden.
Alerting-Strategie:
- P1 (Sofort, Telefon/PagerDuty): Service down, Datenbank nicht erreichbar, Error Rate > 10%
- P2 (Slack, innerhalb 1h): Hohe Latenz, Disk > 80%, Certificate expiry < 7 Tage
- P3 (E-Mail, nächster Werktag): Erhöhte Error Rate, langsame Queries, Dependencies degraded
Regel: Wenn ein Alert in 30 Tagen nie zu einer Aktion geführt hat, löschen oder stumm schalten.
Implementierungsreihenfolge
Nicht alles auf einmal. Bauen Sie Observability schrittweise auf:
Empfohlene Implementierungsreihenfolge
Woche 1-2
Strukturierte Logs + Uptime Monitoring
JSON-Logging, Request-IDs, UptimeRobot oder Better Stack einrichten
Woche 3-4
Error Tracking mit Sentry
Frontend + Backend Integration, Source Maps, Release Tracking
Monat 2
Metrics + Dashboards
Prometheus/Grafana oder Managed-Lösung, die vier goldenen Signale
Monat 3-4
Distributed Tracing
OpenTelemetry Integration, Jaeger oder Grafana Tempo
Monat 5+
Alerting-Optimierung + Runbooks
Alert-Regeln verfeinern, Incident-Response dokumentieren
DSGVO und Monitoring
Logs enthalten fast immer personenbezogene Daten: IP-Adressen, User-IDs, E-Mails in Error Messages. Daraus folgt:
- Log-Retention begrenzen (30-90 Tage reichen für die meisten Fälle)
- PII reduzieren — IP-Adressen anonymisieren, E-Mails nicht in Logs schreiben
- DPA abschließen wenn Sie Managed-Tools mit EU-Daten nutzen
- Self-Hosted bevorzugen wenn maximale Datenkontrolle gefordert ist
Fazit: Pragmatisch starten
Für SaaS-Startups im DACH-Raum empfehle ich diesen Stack:
- Sentry (Free/Team) für Error Tracking
- Better Stack oder Checkly für Uptime Monitoring
- Grafana + Prometheus auf Hetzner für Metrics (Self-Hosted)
- Grafana Loki für Logs (Self-Hosted oder Grafana Cloud)
Wer das initiale Setup nicht selbst stemmen will, kann das Monitoring als Teil eines Subscription-Development-Modells aufbauen lassen — Schritt für Schritt, ohne den laufenden Betrieb zu unterbrechen.
Gesamtkosten: unter €100/Monat für ein solides Setup. Das ist ein Bruchteil dessen, was eine Stunde ungeplanter Downtime kostet.
Verwandte Themen
Wir suchen Senior Engineers
100% Remote, DACH