- 24 Jun 2025
- 3 Minuten zu lesen
- Drucken
- DunkelLicht
- pdf
Wie verwaltet Whatfix Systemausfälle?
- Aktualisiert am 24 Jun 2025
- 3 Minuten zu lesen
- Drucken
- DunkelLicht
- pdf
Übersicht
Ein Vorfall stellt eine Anomalie im Whatfix Softwaresystem dar, die eine Beeinträchtigung des Dienstes oder einen Ausfall verursacht. Das Ziel des Störungsmanagements ist es, Störungen schnell zu beheben und Dienste umgehend wiederherzustellen. Whatfix implementiert ein spezielles Verfahren zur Bewältigung dieser Vorfälle, das eine rasche Lösung und die Wiederherstellung des normalen Betriebs gewährleistet.
Worauf bezieht sich das?
Dieser Prozess gilt für alle von Whatfix bereitgestellten Dienste.
Wichtige Begriffe
- SRE (Site Reliability Engineering): Die erste Person, die benachrichtigt wird, wenn ein Vorfall auftritt.
- Erfolgsingenieur: Die Person, die für die Koordinierung und Lösung des Vorfalls verantwortlich ist.
- Kunden-Erfolgsingenieur-Manager: Ein Führer, der mit mehreren Teams zusammenarbeitet, um das Problem schnell zu lösen. Sie sind auch dafür verantwortlich, Updates zu dem Vorfall zu kommunizieren.
- Alarm: Eine potenzielle Anomalie wurde identifiziert und durch Überwachungssysteme gemeldet.
- Vorfall: Eine Warnung, die möglicherweise die Whatfix-Dienste stören könnte.
- SLA (Service Level Agreement): Vertragliche Verpflichtungen für einen bestimmten Servicestandard.
- Post-Mortem-Bericht: Eine ausführliche interne Analyse des Vorfalls.
- RCA (Root Cause Analysis): Eine Analyse der Ursache und Maßnahmen für ein bestimmtes Ereignis.
- Bereitschaftsingenieur: Servicemitarbeiter, die auf Rotation verfügbar sind, um bei einer schnelleren Problembehebung zu helfen.
Das Störungsantwortteam
Wann ein Vorfall identifiziert wird, kommt ein Team zusammen, um ihn zu Adresse.
Dieses Team umfasst:
- Kunden Erfolg Ingenieur Manager
- Erfolgstechniker
- SRE
- Ingenieurleiter
- Kundenorientierte Teams
Aufgaben und Zuständigkeitsbereiche
Verschiedene Teams spielen unterschiedliche Rollen bei der Bewältigung von Vorfällen:
- Whatfix Management Team: Überprüft und genehmigt Verfahren, stellt sicher, dass alle Mitarbeiter in diesen Verfahren geschult werden, und überprüft regelmäßig Berichte über kritische Vorfälle und Maßnahmen.
- SRE: Reagiert auf alle kritischen Warnmeldungen, identifiziert und adressiert Vorfälle, bewertet und klassifiziert den Schweregrad von Vorfällen und eskaliert Vorfälle, die sich auf das Problem auswirken, wenn nötig.
- Manager für Kundenerfolgstechnik: Verwaltet alle Vorfälle, die sich auf Kunden auswirken, und überwacht die interne Kommunikation bei Vorfällen.
- Teams für Ingenieurwesen: Unterstützung und Beteiligung an der raschen Behebung von Zwischenfällen.
Vorfallmanagementprozess
Identifikation
Vorfälle können auf zwei Arten erkannt werden:
- Identifiziert durch Systemüberwachung
- Gemeldet von Kunden
Im Falle eines vom System erkannten Vorfalls wird die Statusseite direkt aktualisiert. Wenn Kunden es melden, wird die Statusseite aktualisiert, nachdem überprüft wurde, ob der Einfluss weit verbreitet ist.
Klassifizierung
Die Vorfälle werden intern nach ihrer Auswirkung priorisiert und klassifiziert, wie in unserem SLA festgelegt. Weit verbreitete Probleme werden zur ordnungsgemäßen Nachverfolgung und Kommunikation gekennzeichnet.
Prioritätsstufen und SLA
Sobald das Problem priorisiert wurde, hat jeder Prioritätslevel einen anderen Workflow innerhalb von JIRA zur Verwaltung des Vorfalls. Weitere Informationen finden Sie unter Whatfix Service Level Agreement (SLA).
Aktionen
Der SRE versucht, den Vorfall mithilfe eines Runbooks zu verwalten. Wenn das Runbook fehlschlägt, schaltet das SRE das entsprechende Reaktionsteam ein, um den Vorfall zu adressieren. Whatfix bezieht Techniker aus allen Verantwortungsbereichen in die Problemlösung ein. War Rooms, Chat-Kanäle und virtuelle Meetings erleichtern die schnelle Lösung von Problemen. Der Fortschritt des Vorfalls wird in regelmäßigen Abständen an alle Teams mit Kundenkontakt und auf der Statusseite aktualisiert.
Kommunikation während eines Vorfalls
Es ist entscheidend, Stakeholder und Kunden über die Natur, den Status und den Fortschritt von Vorfällen informiert zu halten. Whatfix hat klar definierte SLAs für Aktualisierungen über diese Kanäle basierend auf der Priorität. Kommunikationswege umfassen Statusseiten Updates, Support-Tickets, E-Mails und RCAs.
Nach dem Vorfall
RCA
Sobald ein Vorfall gelöst ist, steht eine RCA zur Verfügung. Es erfasst die Zusammenfassung des Vorfalls, den Zeitplan, die korrektiven und präventiven Maßnahmen für einen Vorfall. Vorfallbesitzer verwenden Vorlagen, um ihre Analyse zu skizzieren. Diese werden vom Whatfix Managementteam auf Richtigkeit und eine klare Darstellung von Problemen und Lösungen überprüft. Sobald überprüft, ist die RCA für den Kunden verfügbar.
Post Mortem Report
Der Besitzer des Vorfalls erstellt einen Post Mortem Bericht, um im Detail den Vorlauf zum Vorfall mit detaillierter RCA, Referenzen und aus dem Vorfall gelernten Lektionen festzuhalten. Diese werden von den jeweiligen Teams aufgezeichnet und umgesetzt.
Vorfallüberprüfungstreffen
Incidentenüberprüfungssitzungen finden statt, bei denen Post Mortem Berichte gründlich mit wichtigen Interessengruppen überprüft werden. Maßnahmen werden ergriffen, um sicherzustellen, dass solche Vorfälle in Zukunft nicht mehr auftreten.