Information und Maßnahmen zum Ausfall der Telefonanlage nach dem Update am 30.11.2023

Zeitangabe:

01.12.2023 – 15:04 bis 15:39 Uhr

Ursache:

Im Rahmen unserer kontinuierlichen Bemühungen, die Leistung und Sicherheit unserer Telekommunikationsinfrastruktur zu gewährleisten, führten wir in der Nacht vom 30. November auf den 1. Dezember 2023 ein Standardupdate auf unserer Telefonanlage durch. Dieser Prozess beinhaltete eine temporäre Umschaltung auf unsere Redundanzanlage, um während der Aktualisierungsphase einen ununterbrochenen Betrieb sicherzustellen. Nach Abschluss des Updates erfolgte die Rückkehr zum Hauptsystem mit einer anschließenden Datenmigration.
Obwohl dieser Vorgang ohne Unterbrechungen verlief, traten unvorhergesehene Komplikationen auf. Ein durch das Update verursachtes fehlerhaftes Routing führte dazu, dass Mitarbeiter im Laufe des Tages teilweise keine Anrufe empfangen konnten. Als Reaktion darauf schalteten wir umgehend auf unsere Backuplösung um. Diese Umstellung erfolgte nahezu unterbrechungsfrei. Jedoch führte ein überlaufender Cache auf dem Voicerouter um 15:04 Uhr zu einem Totalausfall des Systems.

Behebung:

Umgehend eingeleitete Fehleranalysen brachten schnell einen Lösungsansatz hervor. Allerdings erforderte die Behebung des Problems einen Neustart aller betroffenen Server und Systeme.
Dieser Vorgang dauerte 35 Minuten und stellte den Service um 15:39 vollumfänglich wieder her.

Optimierung:

Integration des Cache-Speichers des Voicerouters in unser Monitoring-System, um frühzeitig potenzielle Überlastungen zu erkennen und entsprechend zu reagieren.
Anpassung der Parameter im Monitoring-System, um eine effektivere Überwachung und frühzeitige Fehlererkennung zu ermöglichen.