BeeGFS

BeeGFS
Basisdaten

Entwickler ThinkParQ/Fraunhofer ITWM
Erscheinungsjahr 2007
Aktuelle Version 7.4.5[1]
(25. September 2024)
Betriebssystem Linux
Kategorie Verteiltes Dateisystem
Lizenz BeeGFS End-User License Agreement, Open Source
https://www.beegfs.io/

BeeGFS (ehemals FhGFS) ist ein quelloffenes paralleles Dateisystem, das hinsichtlich Datendurchsatz speziell für Hochleistungsrechner („High Performance Computing“) entwickelt und optimiert wird. Besonders viel Wert wurde bei der Entwicklung auf eine einfache Handhabung sowie eine hohe Flexibilität und Skalierbarkeit gelegt.

BeeGFS wurde ursprünglich am Fraunhofer Center für High Performance Computing implementiert unter der Leitung von Sven Breuner[2], der später die Geschäftsführung von ThinkParQ übernahm. Die ThinkParQ GmbH wurde im Jahr 2014 als Spin-off gegründet, um das Dateisystem professionell zu pflegen und Dienstleistungen wie Support anzubieten[3].

Die Software BeeGFS kann kostenlos von der Projektwebseite heruntergeladen werden.[4]

Geschichte

BeeGFS startete 2005 als intern entwickeltes Dateisystem am Fraunhofer Center für High Performance Computing, um das bisherige genutzte Dateisystem auf dem neuen Cluster des Instituts zu ersetzen.[5]

2007 wurde dann die erste Betaversion der Software während der ISC 07 in Dresden angekündigt und während der SC 07 in Reno, Nevada der Öffentlichkeit vorgestellt.[6] Ein Jahr später kam die erste Major Release auf den Markt.

Im Jahr 2014 gründete sich das Fraunhofer Spin-off ThinkParQ, das den Vertrieb, den Kundenservice und den professionellen Support der Software übernahm sowie die Entwicklung unterstützt.[3] Gleichzeitig wurde das FhGFS umbenannt in BeeGFS. Während ThinkParQ seitdem hauptsächlich für Vertrieb und Support zuständig ist, entwickelt und optimiert Fraunhofer ITWM auch weiterhin die Software in Kooperation mit ThinkParQ.

Ein weiterer Meilenstein für BeeGFS wurde Anfang 2016 erreicht, als bekannt gegeben wurde, dass BeeGFS nun als open source zur Verfügung steht.[7]

Da BeeGFS den Nutzern kostenlos zur Verfügung steht, weiß man nicht genau wie viele Installationen bisher getätigt wurden. Jedoch gibt es inzwischen über 250 Kunden, die professionell durch ThinkParQ unterstützt werden[8]. Darunter befinden sich sowohl zahlreiche wissenschaftliche Einrichtungen, wie Universitäten und Forschungsanstalten weltweit, als auch kommerzielle Firmen aus den Bereichen Life Sciences, Finanzen, der Automobilbranche sowie aus dem Energiesektor.[9]

BeeGFS wird zurzeit in mehreren Supercomputing-Einrichtungen eingesetzt, darunter auch einige der schnellsten Hochleistungsrechner der Welt (entsprechend der Top 500 Klassifizierung). Beispiele: Das Loewe-CSC[10] Cluster an der Goethe-Universität Frankfurt, Deutschland (#22 bei Installation), das Vienna Scientific Cluster[11] der Technischen Universität Wien, Österreich (#56 bei Installation), und das Abel Cluster[12] der Universität Oslo, Norwegen (#96 bei Installation).

Konzept & Features

Bei der Entwicklung von BeeGFS waren den Entwicklern besonders drei Schwerpunkte wichtig: Leichte Handhabung, hohe Flexibilität und hohe Skalierbarkeit.

BeeGFS läuft auf jedem Linuxsystem und besteht aus mehreren Komponenten: den Client Services, den Metadata Servern und Storage Servern sowie dem Management Service.[13]

BeeGFS-Architekturübersicht

Um BeeGFS zu nutzen, wird wenigstens eine Instanz des Metadatenservers und des Storageservers benötigt. Allerdings ist es beim BeeGFS möglich, beliebig viele Instanzen von Metadaten- und Storageservern zu starten, um die Last bei einer großen Anzahl Clients zu verteilen.

Der Zugriff auf Nutzdaten wird parallelisiert, indem die Daten in sogenannte Chunks zerteilt werden. Die Chunks werden unabhängig voneinander auf mehreren Servern verteilt gespeichert. Die Größe der Chunks kann dabei vom Administrator bestimmt werden. Die Verwaltung der Daten sowie die Zuordnung einer Datei zu den entsprechenden Chunks übernehmen spezielle Metadatenserver. BeeGFS unterstützt auf mehrere Server verteilte Metadaten, wodurch Dateizugriffe sehr gut skalierbar sind. Die Verbindung der einzelnen Server erfolgt entweder mittels RDMA (z. B. InfiniBand, Omni-Path, RoCE) oder über TCP/IP-Verbindungen (z. B. Ethernet).

Sowohl Clients als auch Metadaten- und Storageserver können ohne Unterbrechung in ein bereits bestehendes System eingefügt werden. Der Client-Service ist dabei ein leichtgewichtiges Modul für den Linux-Kernel, das keinerlei Kernel-Patches erfordert. Mit dem BeeGFS besteht die Möglichkeit, Server auch über einem bereits vorhandenen lokalen Linux Dateisystem (z. B. ext4, xfs, zfs) laufen zu lassen, wobei es egal ist, um welches Dateisystem es sich handelt, solange es POSIX unterstützt. Empfohlen wird ext4 für die Metadatenserver und xfs für die Storageserver zu nutzen.[14] Beide Server-Arten laufen dabei im Userspace.

Es gibt keine strengen Hardwarevorgaben, dadurch erlaubt das Softwaredesign dem Administrator die Freiheit, die Server in jeder Kombination auf den Maschinen zu nutzen. Eine sehr beliebte Möglichkeit unter den BeeGFS Nutzern ist es daher, Metadatenserver und Storageserver auf der gleichen Maschinen laufen zu lassen, um dadurch Hardwarekosten einzusparen.

BeeGFS unterstützt gleichzeitig verschiedene Netzwerkverbindungen mit dynamischem Failover wie z. B. Ethernet oder InfiniBand und unterschiedlichste Linux-Distributionen und Linux-Kernel (ab Linux-Kernel 2.6.18 bis hin zu den jeweils aktuellen verfügbaren Kernelversionen). Das BeeGFS nutzt init scripts zum einfachen Setup und Start, man kann aber auch ein grafisches Interface, die Java-basierte GUI (AdMon für "Administration & Monitoring") nutzen. Hierdurch wird es einem ermöglicht, das BeeGFS zu überwachen und zu managen oder aber Performanceprobleme ausfindig zu machen.[15]

BeeOND (BeeGFS on-demand)

BeeOND ermöglicht das Erstellen eines BeeGFS innerhalb eines Nodesets mit nur einer Kommandozeile. Die Anwendungsmöglichkeiten erstrecken sich dabei von einem zweckbestimmten Dateisystem für einen bestimmen Cluster-Job bis hin zum Cloud-Computing oder dem schnellen und einfachen Schaffen von Testumgebungen.[16]

Benchmarks

Die folgenden Benchmarks wurden auf den internen SSDs der Compute Knoten des Fraunhofer Seislab gemacht. Das Fraunhofer Seislab ist ein Entwicklungscluster des Fraunhofer ITWM mit 25 Knoten (20 Compute + 5 Storage) und einem 3-stufigen Speicher: 1 TB RAM, 20 TB SSD, 120 TB HDD erstellt. Die Performance für die internen SSDs eines einzelnen Knoten auf dem lokalen Dateisystem ohne BeeGFS liegt bei 1.332 MB/s (write) und 1.317 MB/s (read).

Die Knoten sind ausgestattet mit 2× Intel Xeon X5660, 48 GB RAM, 4× Intel 510 Series SSD (RAID 0), ext4, QDR InfiniBand und laufen mit Scientific Linux 6.3, Kernel 2.6.32-279 und FhGFS 2012.10-beta1.

Siehe auch

Einzelnachweise

  1. www.beegfs.io. (abgerufen am 12. Oktober 2024).
  2. FhGFS: A Fast and Scalable Parallel Filesystem | FileSystems | Columns. Abgerufen am 13. Januar 2019.
  3. a b ThinkParQ – The Company Behind BeeGFS. Abgerufen am 4. Mai 2017 (amerikanisches Englisch).
  4. Getting started – BeeGFS. In: BeeGFS. (beegfs.com [abgerufen am 4. Mai 2017]).
  5. Competence Center High Performance Computing – Fraunhofer-Institut für Techno- und Wirtschaftsmathematik ITWM. Abgerufen am 4. Mai 2017.
  6. A parallel file system – made in Germany. (PDF) 7. März 2012, abgerufen am 4. Mai 2017.
  7. BeeGFS Parallel File System Now Open Source. In: HPCwire. (hpcwire.com [abgerufen am 4. Mai 2017]).
  8. Bernd Lietzow: An Introduction to BeeGFS: Solid, fast, flexible – and easy! (PDF) 13. Dezember 2016, abgerufen am 4. Mai 2017.
  9. BeeGFS Flyer. (PDF) Abgerufen am 4. Mai 2017.
  10. StorageNewsletter » … And Fraunhofer. Abgerufen am 4. Mai 2017.
  11. VSC-2 – MEGWARE Saxonid 6100, Opteron 6132 HE 8C 2.2GHz, Infiniband QDR | TOP500 Supercomputer Sites. Abgerufen am 4. Mai 2017 (englisch).
  12. Abel – MEGWARE MiriQuid, Xeon E5-2670 8C 2.600GHz, Infiniband FDR | TOP500 Supercomputer Sites. Abgerufen am 4. Mai 2017 (englisch).
  13. Jan Heichler: An introduction to BeeGFS. (PDF) November 2014, abgerufen am 4. Mai 2017.
  14. Jan Heichler: An introduction to BeeGFS. (PDF) November 2014, abgerufen am 4. Mai 2017.
  15. BeeGFS Flyer. (PDF) November 2016, abgerufen am 4. Mai 2017.
  16. David Ramírez Alvarez: BeeGFS Solid, fast and made in Europe. (PDF) Februar 2016, abgerufen am 4. Mai 2017.