- 11 Jun 2024
- 3 Minuten zu lesen
-
Drucken
-
DunkelLicht
-
pdf
Wie verwaltet Whatfix Systemausfälle?
- Aktualisiert am 11 Jun 2024
- 3 Minuten zu lesen
-
Drucken
-
DunkelLicht
-
pdf
Übersicht
Ein Vorfall ist eine Anomalie im Whatfix-Software-System, die zu Serviceverschlechterung oder Ausfall führt. Das Ziel des Ereignismanagements besteht darin, das Ereignis schnell zu lösen, damit die Dienste schnell wiederhergestellt werden. Bei Whatfix haben wir einen dedizierten Prozess zur Verwaltung dieser Vorfälle, der darauf abzielt, sie schnell zu lösen und den normalen Service so schnell wie möglich wiederherzustellen.
Worauf bezieht sich das?
Dieser Prozess gilt für alle von Whatfix bereitgestellten Dienste.
Wichtige Begriffe
- SRE (Site Reliability Engineering): Die erste Person, die benachrichtigt wird, wenn ein Vorfall auftritt.
- Erfolgsingenieur: Die Person, die für die Koordinierung und Lösung des Vorfalls verantwortlich ist.
- Kunden-Erfolgsingenieur-Manager: Ein Führer, der mit mehreren Teams zusammenarbeitet, um das Problem schnell zu lösen. Sie sind auch dafür verantwortlich, Updates zu dem Vorfall zu kommunizieren.
- Alarm: Eine potenzielle Anomalie wurde identifiziert und durch Überwachungssysteme gemeldet.
- Vorfall: Eine Warnung, die möglicherweise die Whatfix-Dienste stören könnte.
- SLA (Service Level Agreement): Vertragliche Verpflichtungen für einen bestimmten Servicestandard.
- Post-Mortem-Bericht: Eine ausführliche interne Analyse des Vorfalls.
- RCA (Root Cause Analysis): Eine Analyse der Ursache und Maßnahmen für ein bestimmtes Ereignis.
- Bereitschaftsingenieur: Servicemitarbeiter, die auf Rotation verfügbar sind, um bei einer schnelleren Problembehebung zu helfen.
Das Störungsantwortteam
Wann ein Vorfall identifiziert wird, kommt ein Team zusammen, um ihn zu Adresse.
Dieses Team umfasst:
- Kunden Erfolg Ingenieur Manager
- Erfolgstechniker
- SRE
- Ingenieurleiter
- Kundenorientierte Teams
Aufgaben und Zuständigkeitsbereiche
Verschiedene Teams spielen unterschiedliche Rollen bei der Bewältigung von Vorfällen:
- Whatfix Management Team: Sie überprüfen und genehmigen Verfahren, stellen sicher, dass alle Mitarbeiter auf diese Verfahren geschult sind, und überprüfen regelmäßig kritische Vorfälle und Maßnahmenberichte.
- SRE: Sie reagieren auf alle kritischen Benachrichtigungen, identifizieren und reagieren auf einen Vorfall, bewerten und klassifizieren die Schwere des Vorfalls und eskalieren möglicherweise einen beeinträchtigenden Vorfall als ein Problem.
- Kunde Success Engineering Manager: Sie verwalten alle kundenbezogenen Vorfälle und alle internen Kommunikationen während Vorfällen.
- Ingenieurteams: Sie unterstützen und beteiligen sich an der schnellen Lösung von Vorfällen.
Vorfallmanagementprozess
Identifikation
Vorfälle können auf zwei Arten erkannt werden:
- Identifiziert durch Systemüberwachung
- Gemeldet von Kunden
Im Falle eines vom System erkannten Vorfalls wird die Statusseite direkt aktualisiert. Wenn Kunden es melden, wird die Statusseite aktualisiert, nachdem überprüft wurde, ob der Einfluss weit verbreitet ist.
Klassifizierung
Vorfälle werden intern priorisiert und entsprechend ihres Einflusses klassifiziert, wie in unserer SLA dargelegt. Weit verbreitete Probleme werden zur ordnungsgemäßen Nachverfolgung und Kommunikation gekennzeichnet.
Prioritätsstufen und SLA
Sobald das Problem priorisiert wurde, hat jeder Prioritätslevel einen anderen Workflow innerhalb von JIRA zur Verwaltung des Vorfalls. Weitere Informationen finden Sie unter Whatfix Service Level Agreement (SLA).
Aktionen
Der SRE versucht, den Vorfall gemäß einem Runbook zu bearbeiten. Wenn der Runbook nicht erfolgreich ist, wird der SRE das entsprechende Reaktionsteam hinzuziehen, um den Vorfall zu bearbeiten. Whatfix hat Ingenieure aus jedem Verantwortungsbereich, die Teil der Vorfallbehebung sind. Kriegsräume, Chat-Kanäle und virtuelle Meetings werden eingerichtet, um das Problem schnell zu lösen. Der Fortschritt des Vorfalls wird regelmäßig an alle kundenorientierten Teams und die Statusseite aktualisiert.
Kommunikation während eines Vorfalls
Es ist entscheidend, Stakeholder und Kunden über die Natur, den Status und den Fortschritt von Vorfällen informiert zu halten. Whatfix hat klar definierte SLAs für Aktualisierungen über diese Kanäle basierend auf der Priorität. Kommunikationswege umfassen Statusseiten-Updates, Support-Tickets, E-Mails und RCAs.
Nach dem Vorfall
RCA
Sobald ein Vorfall gelöst ist, steht eine RCA zur Verfügung. Es erfasst die Zusammenfassung des Vorfalls, den Zeitplan, die korrektiven und präventiven Maßnahmen für einen Vorfall. Vorfallbesitzer verwenden Vorlagen, um ihre Analyse zu skizzieren. Diese werden vom Whatfix-Managementteam auf Richtigkeit und eine klare Darstellung von Problemen und Lösungen überprüft. Sobald überprüft, ist die RCA für den Kunden verfügbar.
Post Mortem Report
Der Besitzer des Vorfalls erstellt einen Post-Mortem-Bericht, um im Detail den Vorlauf zum Vorfall mit detaillierter RCA, Referenzen und aus dem Vorfall gelernten Lektionen festzuhalten. Diese werden von den jeweiligen Teams aufgezeichnet und umgesetzt.
Vorfallüberprüfungstreffen
Incidentenüberprüfungssitzungen finden statt, bei denen Post-Mortem-Berichte gründlich mit wichtigen Interessengruppen überprüft werden. Maßnahmen werden ergriffen, um sicherzustellen, dass solche Vorfälle in Zukunft nicht mehr auftreten.