08.08.2023

Rechenzentrum Frankfurt Netzwerkprobleme RZ Frankfurt

In unserem Frankfurter Rechenzentrum kommt es aktuell zu sporadisch auftretenden Netzwerkproblemen. Diese äußern sich dadurch, dass einzelne Server kurzzeitig entweder per IPv4 oder per IPv6 nicht erreichbar sein. Wir sind dabei, das Problem zu untersuchen.

Update 18:06 Uhr: Wir sind weiterhin auf der Fehlersuche. Wir haben verschiedene Netzwerkgeräte neu gestartet, konnten das Problem so jedoch nicht beheben bzw. noch nicht eingrenzen.

Update 18:45 Uhr: Das Netz scheint sich wieder zu stabilisieren. Erste Verbesserungen sind sichtbar. Die Kollegen im RZ arbeiten weiter an der Problembehebung.

Update 19:20 Uhr: Das Problem scheint behoben. Wir konnten seit dem letzten Update keine Netzwerkfehler mehr feststellen. Wir werden das Netzwerk jedoch weiterhin intensiv beobachten und im Laufe der Woche einen Incident Report nachliefern.

*** Ausfallbericht / Incident Report ***

Am Dienstag, dem 8.8.2023 ereignete sich unglücklicherweise der folgende Vorfall in unserer Infrastruktur:

Startzeit: 8.8.2023, ca. 16:30 Uhr

Endzeit: 8.8.2023, ca. 18:30 Uhr

Auswirkung: Störung der Netzwerkanbindung

Beschreibung:

Nach dem routinemäßigen Anschluss eines Netzwerkgeräts an unsere Infrastruktur im Frankfurter Telehouse Rechenzentrum kam es zu Störungen im Netzwerk. Ursächlich für die Störung war ein falsch gesetzter Parameter für die Verwendung des Spanning Tree Protokolls. Dieses Protokoll wird dafür eingesetzt, um in redundanten Netzwerk-Infrastrukturen die Bildung von Netzwerkschleifen zu verhindern. Durch den falsch gesetzten Parameter war der interne Netzwerkaufbau gestört.

Das Problem wurde von uns rasch bemerkt und das betroffene Netzwerkgerät wieder entfernt. Durch die Störung im Netzwerkaufbau und dadurch fehlgeleitete Netzwerkpakete kam es jedoch wahrscheinlich zu einer Überlast von internen Tabellen in mehreren unserer zentralen Switche. Das Problem machte sich vor allem dadurch bemerkbar, dass einzelne IP-Adressen zeitweise nicht mehr erreichbar waren. Die meisten Server waren zwar für den größten Teil der Zeit erreichbar, teilweise jedoch nur entweder per IPv4 oder IPv6. Die Ausfallzeit betrug für einzelne Server in der Regel nicht mehr als 10 Minuten. Längere Ausfallzeiten von bis zu einer Stunde kam es leider für spezielle Failover-IP-Adressen. Diese IP-Adressen, welche normalerweise von uns eingesetzt werden, um bei einem Server/Hardware-Ausfall schnell auf einen Ersatzserver umschalten zu können, werden seltener im Netzwerk propagiert und waren dadurch leider besonders stark von der Störung betroffen.

Das beschriebene Problem hätte sich normalerweise innerhalb weniger Minuten selbst lösen müssen. Wir vermuten jedoch einen Bug in den von uns eingesetzten Netzwerkswitchen, welcher dazu führte, dass interne Tabellen nicht ordnungsgemäß bereinigt wurden. Das Netz kam deshalb erst wieder in einen stabilen Normalzustand, nachdem wir alle Netzwerkgeräte einmal neu gebootet haben.

Wir bedauern, dass es zur oben beschriebenen Störung im Netzwerk kam und von dieser vor allem Kunden betroffen waren, welche eine Failover-IP-Adresse einsetzen. Diese sollte für besondere geringe Ausfallzeiten sorgen und nicht das Gegenteil bewirken. Aufgrund des Vorfalls haben wir uns dazu entschieden, die vermutlich fehlerhaft arbeitenden Netzwerkswitche durch Geräte der Juniper QFX-Serie zu ersetzen und hierfür einen größeren, fünfstelligen Betrag in unsere Netzwerkhardware zusätzlich zu investieren. Die Geräte von Juniper zählen zu den professionellstem und ausgereifsten am Markt und werden insbesondere in kritischen Infrastrukturen eingesetzt. Wir sind uns sicher, mit dieser Investition einen wesentlichen Beitrag in die Stabilität und Zuverlässigkeit unseres Netzwerkes und somit zur Anbindung unser Server zu leisten.

Für die für den Austausch notwendigen Wartungsarbeiten werden wir Sie auf unserer Status-Seite https://www.tralios-status.de/ informieren. Ebenso finden Sie auf dieser Seite immer alle weiteren Echtzeit-Meldungen zu Vorfällen und Wartungen. Die Meldungen lassen sich zudem per E-Mail auf der Webseite abonnieren.

Bei weiteren Fragen stehen wir Ihnen gerne zur Verfügung.