banner
Heim / Nachricht / Rockport Networks führt 300-Gbit/s-Switchless-Fabric ein und enthüllt 396
Nachricht

Rockport Networks führt 300-Gbit/s-Switchless-Fabric ein und enthüllt 396

May 06, 2023May 06, 2023

Von Tiffany Trader

27. Oktober 2021

Rockport Networks ist diese Woche mit der Einführung seiner 300-Gbit/s-Switchless-Netzwerkarchitektur, die sich auf die Anforderungen des Hochleistungsrechnens und des Marktes für fortgeschrittene KI konzentriert, aus dem Verborgenen hervorgekommen. Zu den ersten Kunden zählen das Texas Advanced Computing Center (TACC), das die Netzwerktechnologie in einem Teil seines Frontera-Systems installiert hat, sowie die DiRAC/Durham University, die die Netzwerkausrüstung ebenfalls nutzt. Die Hochleistungsnetzwerkgruppe der Ohio State arbeitet ebenfalls mit Rockport zusammen und stellt ihr Fachwissen bei der Unterstützung von Standards zur Verfügung.

Die verteilte Switching-Fähigkeit von Rockport wird durch seine patentierte rNOS-Software implementiert, das Netzwerkbetriebssystem, das auf allen Netzwerkkarten läuft. Die Software beansprucht keine Serverressourcen und ist für den Server unsichtbar, abgesehen davon, dass sie eine leistungsstarke Ethernet-NIC sieht. Netzwerkfunktionen werden auf jeden Knoten verteilt, der über passive Verkabelung direkt miteinander verbunden ist. Es gibt eine verteilte Steuerungsebene und eine verteilte Routing-Ebene, aber Knoten sind laut Rockport selbsterkennend, selbstkonfigurierend und selbstheilend. Die Software ermittelt den besten Pfad durch das Netzwerk, um Überlastung und Latenz zu minimieren, und zerlegt gleichzeitig Pakete in kleinere Teile (Rockport nennt diese FLITs), um sicherzustellen, dass Nachrichten mit hoher Priorität nicht durch Massendaten blockiert werden.

Zusätzlich zu rNOS besteht die Lösung von Rockport Networks aus drei Teilen:

Das derzeit ausgelieferte Produkt basiert auf einer weiterentwickelten Version des 6D-Torus mit hoher Pfadvielfalt, so Matt Williams, Chief Technology Officer von Rockport. Derzeit werden bis zu 1.500 Knoten unterstützt, aber die Architektur ist auf eine Skalierung auf über 100.000 Knoten ausgelegt und nutzt Topologien wie Dragonfly, sagte der CTO.

Um seine Lösung zu testen und zu validieren, arbeitet Rockport Networks seit etwa einem Jahr mit dem Texas Advanced Computing Center (TACC) in Austin zusammen. Unter der Schirmherrschaft seines neuen Rockport Center of Excellence hat TACC kürzlich Rockport-Netzwerke auf 396 Knoten seines Frontera-Supercomputers installiert. (Das Dell-System mit etwa 8.000 Knoten, das auf Platz zehn der Top500-Liste steht, nutzt Nvidia-Mellanox HDR InfiniBand als primäre Verbindung.) Die mit Rockport verbundenen Knoten werden für die Produktionswissenschaft zur Unterstützung der Quantencomputing-Forschung im Zusammenhang mit Pandemien genutzt Forschung und Notfallberechnung zur Bewältigung störender Wetterereignisse und anderer Katastrophen großen Ausmaßes.

„TACC freut sich sehr, ein Rockport Center of Excellence zu sein. Wir führen verschiedene fortschrittliche Computer-Workloads aus, die auf Kommunikation mit hoher Bandbreite und geringer Latenz basieren, um die Leistung im großen Maßstab aufrechtzuerhalten“, erklärte Dan Stanzione, Direktor von TACC und stellvertretender Vizepräsident für Forschung an der UT-Austin. „Wir freuen uns, mit innovativer neuer Technologie wie dem schalterlosen Netzwerkdesign von Rockport zu arbeiten.

„Unser Team sieht vielversprechende erste Ergebnisse in Bezug auf Überlastungs- und Latenzkontrolle. Wir sind von der Einfachheit der Installation und Verwaltung beeindruckt. Wir freuen uns darauf, weiterhin neue und größere Workloads zu testen und das Rockport Switchless Network weiter in unser Netzwerk zu erweitern.“ Rechenzentrum", fügte er hinzu.

Williams berichtete, dass die Rockport-Installation bei TACC nur eineinhalb Wochen dauerte. „Es ist buchstäblich ein zweistufiger Prozess“, sagte er. „Stecken Sie die Karte ein und stecken Sie das Kabel ein.“

Williams sagte gegenüber HPCwire, dass Kunden im Vergleich zu InfiniBand eine durchschnittliche Verbesserung von 28 Prozent und eine dreifache Verringerung der End-to-End-Latenz im großen Maßstab feststellen, wenn sie ihre Anwendungen unter Last ausführen. „Unter Last haben wir die bessere Gesamtleistung und liefern eine durchweg kürzere Workload-Abschlusszeit. Jede Workload ist anders, man wird nicht immer 28 Prozent sehen. Manchmal werden wir höher oder niedriger sein, je nachdem, wie empfindlich die Workload ist.“ zu den Netzwerkbedingungen. Aber im Durchschnitt sehen wir etwa 28 Prozent.“

Er stellte klar, dass diese vier Tests (oben) die Rockport-Lösung mit 100-Gbit/s-InfiniBand-Netzwerken verglichen, sagte jedoch, dass sie bei internen Tests „sehr ähnliche Ergebnisse“ im Vergleich zu 200-Gbit/s-InfiniBand sehen würden. Die am häufigsten aufgeführte HPC-Arbeitslast verwendet einen Code für die Hydrodynamik mit beweglichem Netz.

Auf die Methodik und die Vergleiche angesprochen, sagte Williams: „Das Wichtigste bei der Art und Weise, wie wir Leistung definieren, ist, dass sie in der Produktion und unter Last ist. Viele traditionelle Netzwerkanbieter konzentrieren sich gerne auf die unbelastete Basisleistung oder Infrastruktur. Aber wenn man sie bereitstellt.“ Wenn in der Produktion mehrere Arbeitslasten diesen Mix aus bandbreiten- und latenzempfindlichen Arbeitslasten durchlaufen, stellt man im Vergleich zu den Basistests einen enormen Leistungsabfall fest. Deshalb reden wir immer darüber, wie wir funktionieren, wie wir in einem funktionieren belastete Umgebung, wie Sie es in einer Produktionsumgebung mit mehreren Workloads sehen werden.

Laut Williams wurde die Rockport-Netzwerktechnologie bei Kunden getestet und ist nun serienreif. HPC, KI und maschinelles Lernen sind Brückenpfeilermärkte, wobei das Unternehmen auf Hochleistungsanwendungen abzielt, die sehr empfindlich auf die Netzwerkleistung reagieren, vor allem auf die Latenz, die aber auch eine konsistente Bandbreitenleistung benötigen.

„Es ist eine verlustfreie Lösung, aber wir nutzen immer noch Standard-Hostschnittstellen. Um unsere Lösung zu testen oder bereitzustellen, entfernen unsere Kunden einfach die vorhandene IB-Karte oder in manchen Fällen eine Ethernet-NIC und ersetzen sie durch unsere Karte“, sagte Williams . „Keine der Software ändert sich, keiner der Treiber ändert sich. Wir scheinen eine Standard-Ethernet-NIC-Schnittstelle mit allen erweiterten Offloads zu sein, die das bietet.“

Die an die Kunden gelieferte Lösung ist dieselbe, die bei TACC installiert ist. Anders als bei einer herkömmlichen HPC-Netzwerkinfrastruktur, bei der die Knotenkonnektivität innerhalb eines Racks Priorität hat, sind beim Rockport-Setup Knoten in verschiedenen Racks direkt miteinander verbunden. Die Erkenntnis ist, dass es weniger empfindlich auf den physischen Standort reagiert. Williams wies darauf hin, dass sich die TACC-Bereitstellung über 11 Geräte-Racks im gesamten Rechenzentrum erstreckt und über diese Entfernung direkte Verbindungen bietet.

Die Ankündigung erhielt Unterstützung vom HPC-Analystenunternehmen Hyperion Research.

„Es liegen erhebliche Belege vor, die darauf hindeuten, dass schalterlose Architekturen in der Lage sind, die Anwendungsleistung erheblich zu steigern, was traditionell mit hohen Kosten verbunden war“, erklärte Earl C. Joseph, CEO von Hyperion Research im Rahmen der Pressemitteilung. „Die wirtschaftlichere Zugänglichkeit dieser Fortschritte dürfte der globalen Forschungsgemeinschaft großen Nutzen bringen und hoffentlich die Erwartungen im Vergleich zu dem, was wir vom Netzwerk erwarten können, in Bezug auf Forschungsrendite und Zeit bis zu Ergebnissen verbessern.“

Unterstützungserklärungen wurden auch von DiRAC an der Durham University und dem Network-based Computing Lab der Ohio State University abgegeben.

„Das Team in Durham geht bei der Entdeckung von HPC-Netzwerktechnologien der nächsten Generation weiterhin neue Maßstäbe“, sagte Alastair Basden, DiRAC/Durham University, technischer Leiter des COSMA HPC Clusters. „Basierend auf einem 6D-Torus haben wir festgestellt, dass das Rockport Switchless Network bemerkenswert einfach einzurichten und zu installieren ist. Wir haben uns Codes angesehen, die auf Punkt-zu-Punkt-Kommunikation zwischen allen Knoten mit unterschiedlichen Paketgrößen basieren, bei denen – typischerweise – eine Überlastung die Leistung beeinträchtigen kann auf herkömmlichen Netzwerken. Wir konnten unter Last eine konstant niedrige Latenz erreichen und freuen uns darauf, die Auswirkungen zu sehen, die dies auf noch größere kosmologische Simulationen haben wird.“

„Unsere Mission ist es, der Advanced-Computing-Community Standardbibliotheken wie MVAPICH2 zur Verfügung zu stellen, die die bestmögliche Leistung auf dem Markt unterstützen. Wir legen großen Wert darauf, unsere Bibliotheken mit innovativen Ansätzen, wie der neuen schalterlosen Architektur von Rockport Networks, auf dem neuesten Stand zu halten.“ , sagte DK Panda, Professor und angesehener Informatiker an der Ohio State University und Leiter der Network-Based Computing Research Group. „Wir freuen uns auf unsere fortlaufende Partnerschaft mit Rockport, um neue Standards für unsere kommenden Veröffentlichungen zu definieren.“