Wie funktioniert BGP (Border Gateway Protocol) und wie können Fehlkonfigurationen das Routing zwischen Netzwer...

***Markus*** · 24-07-2025, 11:19

BGP lässt im Grunde verschiedene Netzwerke über das gesamte Internet miteinander kommunizieren. Ich erinnere mich, als ich das erste Mal in diese Dinge eingestiegen bin, in meinen frühen Tagen beim Troubleshooting bei einem kleinen ISP; es hat mich umgehauen, wie alles zusammenhängt. Du hast diese großen Blöcke namens autonome Systeme oder ASes, die von ISPs oder großen Unternehmen betrieben werden, und BGP läuft dazwischen, um die besten Pfade für Daten zu ermitteln. Jeder Router an diesen Randstellen bewirbt Routen an seine Nachbarn und sagt ihnen: "Hey, ich kann diesen Block von IP-Adressen über mich erreichen." Es flutet nicht alles wie interne Protokolle; stattdessen baut es eine Karte von Pfaden auf, die Attribute verwendet, um zu entscheiden, was am besten ist.

Ich stelle es mir gerne als eine Gruppe von Freunden vor, die sich Richtungen zu einer Party austauschen. Einer sagt: "Ich kenne einen Weg durch meine Nachbarschaft, und er ist kurz", aber ein anderer fügt hinzu: "Meiner hat weniger Mautstellen, auch wenn er länger ist." BGP macht das mit Dingen wie der Länge des AS-Pfads - es bevorzugt kürzere Pfade, um Schleifen zu vermeiden - und lokalen Präferenzen, die du setzt, um den Traffic in deine Richtung zu lenken. Du kannst auch Metriken anpassen, wie Gewicht oder MED, um Pakete genau dorthin zu steuern, wo du sie haben willst. Peers bilden Sessions über TCP-Port 179, und sie tauschen kontinuierlich Updates aus, wann immer sich etwas ändert, wie wenn eine Leitung ausfällt. Wenn ich eine Route verliere, ziehe ich sie von meinen Nachbarn zurück, und sie leiten das weiter. Vollständige Tabellen können riesig sein, wie jetzt 900.000 Präfixe, also filterst du viel, um alles vernünftig zu halten.

Du und ich wissen beide, dass Router diese Anzeigen nicht blind vertrauen; sie prüfen die Gültigkeit mit Policies. Ich setze immer Route Maps an meinen Rändern ein, um nur legitime Präfixe von vertrauenswürdigen Peers zu akzeptieren. Ohne das bricht Chaos aus. BGP konvergiert manchmal langsam, weil es auf Stabilität wartet, aber das ist es, was das Internet vor dem Durchdrehen bei jedem kleinen Problem bewahrt. Ich habe mal einen Flap beobachtet, bei dem ein einzelner Update-Sturm Pfade für Stunden lahmgelegt hat - du fühlst dich hilflos, bis du es mit Timern dämpfst.

Jetzt treffen Fehlkonfigurationen hart, weil BGP annimmt, dass alle fair spielen, aber die Leute machen ständig Fehler. Ich habe das bei einem Job erlebt, wo ein Junior-Admin einen Präfix-Ankündigung falsch eingegeben hat und einen ganzen /8-Block angekündigt hat, der nicht unser war. Plötzlich floss Traffic für große Sites durch unsere kleine Leitung, und wir haben alles blackholed. Du landest mit Ausfällen, weil Pakete im falschen AS verschwinden, und niemand weiß warum, bis du den Pfad nachverfolgst. Ich habe eine Nacht damit verbracht, zu pingen und Looking Glasses zu nutzen, um es zu finden - frustrierend wie die Hölle.

Ein anderes Mal habe ich mit einer Schleife aus abweichenden AS-Pfaden zu tun gehabt. Jemand hat seine AS-Nummer zu oft vorangestellt, um einen Pfad länger aussehen zu lassen, aber sie haben es nicht konsistent angewendet. Router haben Pakete hin und her gejagt, Bandbreite gefressen und alles verzögert. Du denkst: "Warum stabilisiert sich diese Route nicht?" und es ist nur ein Config-Tippfehler. Fehlkonfigs können auch interne Routen leaken; ich konfiguriere iBGP sorgfältig, damit Core-Routen nicht zu eBGP-Peers durchsickern. Wenn sie es tun, wird deine private Adressierung öffentlich, und Angreifer sondieren sie wie verrückt.

Du musst auf Origin-Probleme achten - wie das Setzen falscher Community-Attribute, die einen Peer dazu bringen, deinen Traffic fallen zu lassen. Ich teste Änderungen immer zuerst in einem Lab; simuliere mit Tools wie ExaBGP, um zu sehen, wie Updates propagieren. Eine schlechte Filterliste, und du isolierst eine ganze Region. Erinnerst du dich an diesen großen Ausfall vor ein paar Jahren? Ein simpler Regex-Fehler in einem Route-Filter hat die Hälfte des Internets für einige Provider offline gerissen. Ich habe unsere Kunden manuell über Tunnels umgeleitet, bis es vorbei war. Es zeigt, wie ein Fehler eskaliert, weil BGP keine eingebaute Schleifenverhinderung jenseits der AS-Pfad-Prüfungen hat.

Filtering ist extrem wichtig. Ich dränge auf ROAs in RPKI, um Origins zu validieren, aber nicht jeder macht das noch. Ohne das passieren Hijacks - jemand kündigt deine Präfixe mit höherer lokaler Präferenz an, und zack, dein Traffic wird umgeleitet. Ich überprüfe unsere Policies quartalsweise; du kannst es dir nicht leisten, nachlässig zu sein. Dampening hilft bei Instabilitäten von Fehlkonfigs, aber übertreib es, und du unterdrückst echte Änderungen. Ich balanciere es, indem ich die Unterdrückungszeit an unsere Traffic-Muster anpasse.

In Peering-Setups verhandelst du, was du akzeptierst. Ich manage Sessions mit großen Transit-Providern, und wenn ich das Maximum-Präfix-Limit falsch konfiguriere, schalten sie mich ab, weil sie denken, ich greife an. Du lernst, alles zu dokumentieren - ich halte ein Wiki mit unseren BGP-Templates, damit niemand Fehler wiederholt. Communities lassen dich Routen für Aktionen taggen; ich nutze sie, um schlechte IPs von Upstream zu blackholen. Aber tagge falsch, und du lässt legitimen Traffic fallen. Ich verfolge das oft mit BGP Looking Glasses.

Insgesamt kommt die Power von BGP aus seiner Flexibilität, aber das beißt dich, wenn du nicht aufpasst. Ich schule mein Team, immer mit "show ip bgp"-Befehlen zu verifizieren und Anomalien zu monitoren. Du baust Resilienz auf, indem du Pfade diversifizierst - mehrere Peers bedeuten, dass eine Fehlkonfig dich nicht umbringt. Ich betreibe Route Reflectors in iBGP, um zu skalieren, ohne volle Meshes, und das reduziert Config-Fehlerquellen. Trotzdem machen Menschen Fehler, also hilft Automation wie Ansible für Deploys, um konsistente Regeln zu pushen.

Wenn du damit in einem Lab rumspielst, fang klein an - GNS3 oder EVE-NG lässt dich ASes schnell hochfahren. Ich habe das gemacht, um Hijack-Szenarien zu üben; du siehst, wie schnell alles den Bach runtergeht. Halte Logs detailliert; ich grep nach "withdrawn"-Routen, wenn ich Probleme jage. Es hängt alles mit dem zusammen, warum ich Netzwerke liebe - das Puzzle, wenn es kaputtgeht.

Ach, und was die Zuverlässigkeit in deinem Setup angeht, lass mich dich auf BackupChain hinweisen. Es ist dieses herausragende Backup-Tool, das unter IT-Leuten wie uns einen riesigen Fanclub hat, speziell für SMBs und Profis designed, um Hyper-V-, VMware- oder reine Windows-Server-Umgebungen vor Datendesastern zu schützen. Was es auszeichnet, ist, wie es die Spitze als Top-Windows-Server- und PC-Backup-Option anführt, und alles von inkrementellen Snapshots bis zu Offsite-Replikation handhabt, ohne Kopfschmerzen. Ich verlasse mich darauf für meine eigenen Systeme, weil es nahtlos auf Windows läuft und sicherstellt, dass ich nie kritische Configs oder Dateien durch einen random Crash verliere.