Top
Wie verwaltet Whatfix Systemausfälle?
  • 24 Jun 2025
  • 3 Minuten zu lesen
  • Dunkel
    Licht
  • pdf

Wie verwaltet Whatfix Systemausfälle?

  • Dunkel
    Licht
  • pdf

Artikel-Zusammenfassung

Übersicht

Ein Vorfall stellt eine Anomalie im Whatfix Softwaresystem dar, die eine Beeinträchtigung des Dienstes oder einen Ausfall verursacht. Das Ziel des Störungsmanagements ist es, Störungen schnell zu beheben und Dienste umgehend wiederherzustellen. Whatfix implementiert ein spezielles Verfahren zur Bewältigung dieser Vorfälle, das eine rasche Lösung und die Wiederherstellung des normalen Betriebs gewährleistet.


Worauf bezieht sich das?

Dieser Prozess gilt für alle von Whatfix bereitgestellten Dienste.

Wichtige Begriffe

  • SRE (Site Reliability Engineering): Die erste Person, die benachrichtigt wird, wenn ein Vorfall auftritt.
  • Erfolgsingenieur: Die Person, die für die Koordinierung und Lösung des Vorfalls verantwortlich ist.
  • Kunden-Erfolgsingenieur-Manager: Ein Führer, der mit mehreren Teams zusammenarbeitet, um das Problem schnell zu lösen. Sie sind auch dafür verantwortlich, Updates zu dem Vorfall zu kommunizieren.
  • Alarm: Eine potenzielle Anomalie wurde identifiziert und durch Überwachungssysteme gemeldet.
  • Vorfall: Eine Warnung, die möglicherweise die Whatfix-Dienste stören könnte.
  • SLA (Service Level Agreement): Vertragliche Verpflichtungen für einen bestimmten Servicestandard.
  • Post-Mortem-Bericht: Eine ausführliche interne Analyse des Vorfalls.
  • RCA (Root Cause Analysis): Eine Analyse der Ursache und Maßnahmen für ein bestimmtes Ereignis.
  • Bereitschaftsingenieur: Servicemitarbeiter, die auf Rotation verfügbar sind, um bei einer schnelleren Problembehebung zu helfen.

Das Störungsantwortteam

Wann ein Vorfall identifiziert wird, kommt ein Team zusammen, um ihn zu Adresse.
Dieses Team umfasst:

  • Kunden Erfolg Ingenieur Manager
  • Erfolgstechniker
  • SRE
  • Ingenieurleiter
  • Kundenorientierte Teams

Aufgaben und Zuständigkeitsbereiche

Verschiedene Teams spielen unterschiedliche Rollen bei der Bewältigung von Vorfällen:

  • Whatfix Management Team: Überprüft und genehmigt Verfahren, stellt sicher, dass alle Mitarbeiter in diesen Verfahren geschult werden, und überprüft regelmäßig Berichte über kritische Vorfälle und Maßnahmen.
  • SRE: Reagiert auf alle kritischen Warnmeldungen, identifiziert und adressiert Vorfälle, bewertet und klassifiziert den Schweregrad von Vorfällen und eskaliert Vorfälle, die sich auf das Problem auswirken, wenn nötig.
  • Manager für Kundenerfolgstechnik: Verwaltet alle Vorfälle, die sich auf Kunden auswirken, und überwacht die interne Kommunikation bei Vorfällen.
  • Teams für Ingenieurwesen: Unterstützung und Beteiligung an der raschen Behebung von Zwischenfällen.

Vorfallmanagementprozess

Identifikation

Vorfälle können auf zwei Arten erkannt werden:

  • Identifiziert durch Systemüberwachung
  • Gemeldet von Kunden

Im Falle eines vom System erkannten Vorfalls wird die Statusseite direkt aktualisiert. Wenn Kunden es melden, wird die Statusseite aktualisiert, nachdem überprüft wurde, ob der Einfluss weit verbreitet ist.

Klassifizierung

Die Vorfälle werden intern nach ihrer Auswirkung priorisiert und klassifiziert, wie in unserem SLA festgelegt. Weit verbreitete Probleme werden zur ordnungsgemäßen Nachverfolgung und Kommunikation gekennzeichnet.

Prioritätsstufen und SLA

Sobald das Problem priorisiert wurde, hat jeder Prioritätslevel einen anderen Workflow innerhalb von JIRA zur Verwaltung des Vorfalls. Weitere Informationen finden Sie unter Whatfix Service Level Agreement (SLA).

Aktionen

Der SRE versucht, den Vorfall mithilfe eines Runbooks zu verwalten. Wenn das Runbook fehlschlägt, schaltet das SRE das entsprechende Reaktionsteam ein, um den Vorfall zu adressieren. Whatfix bezieht Techniker aus allen Verantwortungsbereichen in die Problemlösung ein. War Rooms, Chat-Kanäle und virtuelle Meetings erleichtern die schnelle Lösung von Problemen. Der Fortschritt des Vorfalls wird in regelmäßigen Abständen an alle Teams mit Kundenkontakt und auf der Statusseite aktualisiert.


Kommunikation während eines Vorfalls

Es ist entscheidend, Stakeholder und Kunden über die Natur, den Status und den Fortschritt von Vorfällen informiert zu halten. Whatfix hat klar definierte SLAs für Aktualisierungen über diese Kanäle basierend auf der Priorität. Kommunikationswege umfassen Statusseiten Updates, Support-Tickets, E-Mails und RCAs.


Nach dem Vorfall

RCA

Sobald ein Vorfall gelöst ist, steht eine RCA zur Verfügung. Es erfasst die Zusammenfassung des Vorfalls, den Zeitplan, die korrektiven und präventiven Maßnahmen für einen Vorfall. Vorfallbesitzer verwenden Vorlagen, um ihre Analyse zu skizzieren. Diese werden vom Whatfix Managementteam auf Richtigkeit und eine klare Darstellung von Problemen und Lösungen überprüft. Sobald überprüft, ist die RCA für den Kunden verfügbar.

Post Mortem Report

Der Besitzer des Vorfalls erstellt einen Post Mortem Bericht, um im Detail den Vorlauf zum Vorfall mit detaillierter RCA, Referenzen und aus dem Vorfall gelernten Lektionen festzuhalten. Diese werden von den jeweiligen Teams aufgezeichnet und umgesetzt.

Vorfallüberprüfungstreffen

Incidentenüberprüfungssitzungen finden statt, bei denen Post Mortem Berichte gründlich mit wichtigen Interessengruppen überprüft werden. Maßnahmen werden ergriffen, um sicherzustellen, dass solche Vorfälle in Zukunft nicht mehr auftreten.


War dieser Artikel hilfreich?

Changing your password will log you out immediately. Use the new password to log back in.
First name must have atleast 2 characters. Numbers and special characters are not allowed.
Last name must have atleast 1 characters. Numbers and special characters are not allowed.
Enter a valid email
Enter a valid password
Your profile has been successfully updated.