Freitag, Mai 3, 2024

Das böse Büro

Uriel Fanellis Blog in deutscher Sprache

Uriel Fanelli

Ach, schnell.

Ach, schnell.

In dem Casino, das heute Morgen passiert ist, war ich in eine Verleumdung verwickelt, weil eines der beiden Projekte, in denen ich mich befinde, auch LSRs verwaltet (wenn die Backbones die Internet-Autobahnen sind, sind die LSRs die Mautstelle und die BNG die Kreuzung).

Bevor wir zum Punkt kommen, gibt es zwei Dinge zu sagen.

Fastly wird hoffentlich ein sogenanntes „Postmortem“ veröffentlichen, also eine vollständige Analyse, was mit dem Netzwerk passiert ist und warum plötzlich eine Unmenge von AS aus den Routing-Tabellen verschwunden ist.

Nur sie können es tun, denn nur sie haben alle Tracks und Logs dazu. Was wir von außen gesehen haben, lässt nur Hypothesen zu.

In den Zeitungen heißt es, "ein CDN ging raus". Aber ein CDN "schließt" nicht, es ist zu verteilt: Es ist eine Art Content-Logistik-System, das die am häufigsten nachgefragten Inhalte in einem bestimmten Bereich zu einem Rechenzentrum in diesem Bereich bringt. Genauso wie Amazon, das Pasta in Lagerhäusern in Italien ablagert, weil sie mehr davon konsumieren, und Bier in deutschen Lagerhäusern. Es dient der Kostenminimierung.

Ich sagte, ein CDN "schaltet" nicht aus. Das Problem ist jedoch, dass ein CDN sehr schlau sein muss, um Entfernungen und Geometrie zu berechnen, da seine Aufgabe darin besteht, die Daten in Ihre Nähe zu verschieben. "Distanzen und Geometrien" im Jargon des Internets sind "Routing", verwaltet durch ein "Ding" namens BGP.

Wie funktioniert „Routing“? Beginnen wir mit dem Einfachen. Stellen Sie sich vor, Sie müssten von Bologna nach Mailand reisen. Dann könnten Sie an der Mautstelle von Casalecchio di Reno ankommen und nachfragen. Dieser wird Ihnen sagen, dass Sie in Richtung Modena Sud fahren. Dann kommst du in „Modena Sud“ an und fragst nochmal nach. Und sie sagen dir: „Geh nach Modena Nord und frag nach“. Und so weiter bis Mailand. Die Mautstellen sind die Grenzrouter, und drinnen sitzt ein kleiner Mann, der jedes Mal die Karte nimmt, fragt, wohin man fährt und die Route berechnet (nein, die IP-Pakete haben keinen Navigator).

Sie können irgendwann einen Reflektor haben. Nehmen wir an, Sie arbeiten an einer Mautstelle und haben Schwierigkeiten, die Route für alle zu berechnen, und wie Sie entscheiden sich alle Mautstellen von Parma bis Mailand, ihren Freund Gianpiernaik in Mailand anzurufen. Und alle Mautstellen reihen sich daran ein.

In diesem Fall heißt der Freund aus Mailand "BGP-Reflektor". Warum ist es bequem? Denn wenn sich die Straße aus irgendeinem Grund ändert, müssen wir nur Gianpiernaik, das ist der Reflektor, informieren, anstatt JEDE verdammte Mautstelle nach Parma zu informieren.

Gut.

Stellen Sie sich nun vor, Gianpiernaik allein schafft es nicht, und KarenDeborah (ich benutze die Mailänder Namen zufällig) hilft ihm, alle zu informieren. Voraussetzung dafür ist, dass Gianpiernaik und KarenDeborah immer am Werk sind (zumindest einer von beiden) und dass sie die gleichen Angaben machen. In diesem Fall haben wir Reflektorcluster.

Gut. Es gibt zwei Dinge, die Sie erraten haben.

Wenn alle Mautstellen Ihren Freund und Ihren Freund anrufen, geht in folgenden Fällen etwas schief:

  1. wo dein Freund und dein Freund getrennte Wege gehen.
  2. falls dein Freund und dein Freund zu allen sagen „und jetzt geh FICK DICH! Ich hasse dich! _weiter: 0.0.0.0! STERBEN! ".

Nummer zwei könnte das Äquivalent eines sogenannten "Schwarzen Lochs" sein, was der Fall ist, wenn Pakete an Ort und Stelle sterben sollen, und sogar schlimm.

Da ein CDN hier SEHR gut darin sein muss, zu entscheiden, wohin es was verschieben soll, und damit Routen zu berechnen, wird es diese Techniken übermäßig einsetzen. Das Problem ist, dass es, von außen betrachtet, für einen Moment so aussah, als wäre das gesamte Fastly-Netzwerk in einem Blackhole gelandet: Niemand wusste, wie zum Teufel man dorthin gelangen sollte, und auf die Frage lautete die Antwort "_next: CREPASULPOSTOEPUREMALE".

Das heißt wohlgemerkt nicht, dass man von außen sagen kann, was passiert ist. Vielleicht war dies eine Folge eines anderen Fehlers. Sie müssen also auf Fastlys Obduktion warten.

Was ich sagen will, ist, dass der Effekt, den wir gesehen haben, der ist, den Sie sehen, wenn eine Gruppe von Reflektoren in die Hölle geht. Aber ich WEISS NICHT, ob das passiert ist.

Die Frage, die Sie sich stellen werden, lautet: Angenommen, ein Reflexionsproblem ist das Problem, aber wie einfach ist es, einen solchen Effekt zu erzielen? Genügt menschliches Versagen? Die Antwort ist'…. schlechte Nachrichten.

Ein menschlicher Fehler ist genug.

Da ein menschlicher Fehler in jedem Bereich ausreichen kann, lassen Sie uns klarstellen: BGP hat den kleinen Fehler der PROPAGING-Probleme. Es hat die nette Eigenschaft, nützliche Informationen zu PROPAGIEREN. Aber wenn man Müll reinsteckt, gilt das Motto "Müll im Input, Müll im Output" nicht. Das Motto „Müll am Eingang, es schneit Müll von hier bis Beteigeuze“ ist mehr wert.

Gut. Sie wissen also, dass Sie, bevor Sie BGP in die Hände bekommen, sicherstellen, dass sich ZWEI Personen hinter der Konsole befinden (wenn Sie sehr große Netzwerke verwalten), Sie Meetings abhalten, die ITIL CAB nennen würde, und alles. Es stimmt, dass die Belastbarkeit im Laufe der Zeit zugenommen hat, aber wenn ein Schauspieler wie Fastly eine Kapelle auf einer Gruppe von Reflektoren macht, weiß es der Rest der Welt.

Das CDN wurde also nicht heruntergefahren. Anscheinend wusste niemand, wie man über die Grenze kommt: Es war, als ob man nach Parma hätte kommen können, und von dort aus wussten die Mautstellen nicht, was sie tun sollten.

Und da das CDN auch DNS betreibt, sind sie auch schwarze Löcher. Und mit ihnen die Server am Rande. Und so weiter, in einer Kette, und es schneit Müll bis nach Beteigeuze.

Und hier sind wir beim Problem.

Das Internet wurde als dezentrales System geboren. Dinge wie BGP, solange wir Grenzrouter (die ehemaligen Autobahnmautstellen) hatten, die die gesamte Karte halten konnten, um die Route von A nach B, jedes A und B zu berechnen, reichten aus, um alles unter Kontrolle zu halten.

Aber jetzt, also im Jahr 2021, haben wir ein Problem: Es gibt Entitäten, die (wie im Fall von Google) 30 % des Backbone-Traffics selbst machen. Und die zweistelligen Verkehrsanteile gehören mehr oder weniger allen GAFAMs.

Und also ja, wenn sie zum Beispiel bei Facebook oder Google einen Hut mit BGP gemacht haben, könnten sie wirklich erhebliche Teile des Internets zum Einsturz bringen.

Auch weil, wie Sie sich vorstellen können, wenn alle Routen nach Mailand verschwinden, das Problem nicht nur für diejenigen besteht, die nach Mailand GEHEN möchten, sondern auch alle, die nur dort vorbeikommen wollten, die Routen neu berechnen müssen. Wenn also ein gutes Stück Netz ausfällt, folgt der Rest, und der Dominoeffekt ist nicht auszuschließen: Auch wenn nicht alles untergeht, wäre noch Zeit, alle Schwingungen abzuschalten (in unserem Beispiel Autofahrer, die entscheiden die Turiner Mautstelle nehmen und dann feststellen, dass der Turiner Reflektor auch sie schlägt, und beschließen, nach Mailand zurückzukehren usw.). Oder wenn der Milan-Reflektor beschließt, ALLE nach Quarto Oggiato zu schicken, könnte es zu Staus kommen: Quarto Oggiaro kann nicht den gesamten Verkehr in Mailand bewältigen.

Die Zentralisierung des Internets auf einige wenige scheußliche Akteure IST EIN PROBLEM. Und es wird auch in Zukunft nicht besser.

Es wird nicht besser, weil all diese Akteure immer mehr Verkehr bekommen. Was ist das Problem?

Das Problem ist, dass wir im Internet Fintech, IoT, Connected Cars, Remote Medicine, Remote WORK weitergeben wollen.

Wir stellen die Glaswaren und den Stier in einen Raum. Was könnte möglicherweise falsch laufen?

Wenn Sie dies in "meiner" Umgebung sagen, sind die Antworten unglaublich plump.

  • Dieses Zeug wird gefährlich. Wollen Sie wirklich Smart Cities auf dieses Zeug setzen?
  • Aber es gibt hohles Edge-Computing, wir bringen die Dinge, die Sie brauchen, in Ihre Nähe. Wenn google also zu mevda geht, bekommst du trotzdem dein Bankkonto.
  • Und wissen Sie, was zum Teufel mit dem Internet zu tun ist, wenn Sie mir mit Edge Computing die Bank in die Zentrale bringen? Wenn das Internet nur für Dinge in meiner Nähe garantiert ist, gehe ich besser in die verdammte Bankfiliale!
  • Aber Edge-Computing ist cool. Es ist cool. Und wenn etwas cool ist, MUSS die Lösung sein. Gehen wir durch das Centval Office, und der Teufel wird länger.
  • Aber sehen Sie, ein CDN ist nur ein Edge-Computing-System, und sie haben die häufigsten Probleme! Wie wird das Problem zur Lösung?
  • Aber wir sind schön.

Ich könnte eine ganze Reihe von "Heilmitteln" aufzählen, die in einer vom Internet abhängigen Welt funktionieren sollen, beim nächsten ähnlichen Zusammenbruch, und jedes Mal hätten wir einen Typen, der den Heimrouter nicht konfigurieren kann, im Stuhl, um Erkläre dir, dass nein, den Stier in den gleichen Raum zu bringen, in dem du die Kristalle hast, ist eine kluge Sache, solange das Besteck in deinem Arsch steckt.

Ich persönlich bin skeptisch, ob es sinnvoll ist, einen CO mit Servern zu bestücken (auch weil diese noch Offband wären), aber es gibt immer den neunzehnjährigen "coolen Guru", der einem erklärt, dass P4 jedes Problem und smartNICs lösen wird sind die Lösung, jederzeit und überall. (Zufällig verkauft "cooler Guru" P4- und SmartNIC-Chips, aber es ist ein Zufall).

Aber der Punkt ist: Wie Sie heute bemerkt haben, ist es kein kluger Schachzug, den Stier in denselben Raum zu bringen, in dem Sie die Glaswaren aufbewahren.

Und wenn der Bulle dafür verantwortlich ist, Ihr Bohemia zu polieren, wie es beim CDN der Fall ist, suchen wir meiner Meinung nach nach Ärger und werden früher oder später darüber diskutieren, was wir DRINGEND nach einem Unfall, der groß genug ist, zu tun RICHTIG weh. .

Es gibt ZU VIELE Akteure, die in der Lage sind, beträchtliche Teile des Internets zu scheißen. Und die einzige Gewissheit, die wir haben, ist "äh, aber das sind Systemingenieure mit Eiern". Stimmt, aber sie sind menschlich. (obwohl sie manchmal, ich gebe zu, wie Vogon aussehen). Und wenn Sie viele Dinge tun, machen Sie viele Fehler. nur wer nichts tut, macht keine Fehler. Die machen vieles.

Ich wiederhole. Ich kann nur sagen, dass das CDN nicht "heruntergefahren" wurde, es schien nur, als ob niemand wüsste, wie man es erreichen könnte, nach den Servern am Rande. Es war da, die Autos fuhren, aber niemand wusste, wie man dorthin kam. Es ist, als wüsste jeder, wie man in die Lombardei, nach Parma und dann… boh kommt.

Es wird nicht gesagt, ich wiederhole zur Übelkeit, dass dies die "Grundursache" von dem ist, was passiert ist, das ist die "Grundursache". Wir müssen auf die postmortale Analyse dessen warten, was passiert ist.

Und hier ist das zweite Problem: Diese Unternehmen haben KEIN Interesse daran, die Wahrheit zu sagen. Oft machen sie mehrdeutige und abwehrende Mitteilungen, um zu erklären, was passiert ist: Nach fast 10 Jahren warten wir immer noch darauf, was zum Teufel ein „Speichersturm“ ist, ein Phänomen, mit dem Amazon einen fast dreitägigen Ausfall auf AWS „erklärt“ hat .

Es heißt also nicht einmal, dass wir jemals genau wissen werden, was passiert ist.

Und dies ist eine weitere Folge der Tatsache, dass es nicht nur zu viele „systemische“ Akteure gibt, sondern dass diese Akteure nicht transparent sind und nicht dazu verpflichtet sind.

Unter diesen Bedingungen bauen wir uns die Probleme auf, die kommen werden. Wir arbeiten buchstäblich am Bau der Mauer, an der wir früher oder später ins Gesicht schlagen werden.

Aber soweit ich sehen kann, fragt niemand nach dem Problem. Das heutige Motto lautet „cool vor wichtig“: Zuerst denken wir an Tinder for Cats, und ans Routing… dann denken wir darüber nach.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert