Eine kurze Geschichte der Open Source Big-Data-Distributionen

Dieser Blogbeitrag basiert auf einem Vortrag auf der Berlin Buzzwords von Lars Francke und Sönke Liebau am 15.06.2021. Die vollständige Version des Vortrags findest du auf YouTube.

Sollen große Datenmengen mit Open-Source-Tools gespeichert, verarbeitet und visualisiert werden, benötigst du mehr als nur ein einzelnes Tool. Häufig sind dazu ein Dutzend oder sogar mehr verschiedene Open-Source-Projekte verwenden, um ein vollständiges System für Datenspeicherung und -verarbeitung aufzubauen. Idealerweise sollen diese bereits im Voraus integriert gebündelt werden, um eine kohärente Plattform – ähnlich den Linux-Distributionen bei den Betriebssystemen – zu bilden. Stackable bietet eine solche Plattform und es ist empfiehlt sich, einen Blick auf den Weg zu werden, den die Open Source Datenwelt hinter sich hat, um die Beweggründe für die Gründung von Stackable zu verstehen.

Offenheit und Vielfalt

Die ersten Open Source Big-Data-Distributionen auf Basis von Apache Hadoop erschienen etwa um das Jahr 2008 und jede davon kombinierte ihre eigene Auswahl an verfügbaren Open-Source-Projekten. Das Hauptziel bestand jeweils darin, die Bereitstellung und Verwaltung einer skalierbaren Datenplattform zu vereinfachen, was normalerweise unter Verwendung eines oft proprietären Management-Frameworks erfolgte.

Zu Beginn gab es fünf oder mehr Unternehmen, die sogenannte Big-Data-Distributionen angeboten haben. Im Laufe der Zeit verschwanden die meisten von ihnen vom Markt, fusionierten oder konzentrierten sich auf Investitionen in die verbleibenden Wettbewerber. Heute ranken sich viele Erzählungen rund um diese Ereignisse. Nachdem sich der Staub dieser “Distributionskriege” aber einmal gelegt hatte, blieb- nach der Fusion mit dem Hauptwettbewerber Hortonworks –  nur noch Cloudera als Anbieter einer On-Premise Open Source Big-Data Distribution übrig.

Wenig überraschend: Als Folge der Marktbeherrschung durch ein einzelnes Unternehmen stiegen die Preise. Und das sogar sehr stark, von schätzungsweise 2.000 US-Dollar pro Knoten und Jahr aus den Zeiten des harten Wettbewerbs auf unglaubliche 10.000 US-Dollar. Mit dem Ende der kostenlosen Cloudera-Version von Cloudera Manager und der Errichtung einer Paywall, die es nur noch zahlenden Kunden erlaubte, die vormals freie Software herunterzuladen, erlebte der Markt eine weitere Zäsur: Der Markt für kostenlose Open-Source-Datenplattformen wurde plötzlich und hart zum Erliegen gebracht. Stattdessen wurde er zu einem Pay-to-Play-Markt, in dem dem ein dominanter Spieler, der derzeit mit 5,3 Milliarden US-Dollar bewertet wird, diese Nische besetzt.

Auftritt Stackable 

Stackable wurde im Jahr 2020 gegründet, nachdem dessen Gründer zuvor das erfolgreiche Big-Data-Beratungsunternehmen Open Core aufgebaut hatten. Die Veränderungen, die 2019 den Markt bewegten, waren disruptiv,  auch Kunden spürten diese Wellen und begannen, Open Core um Rat zu fragen. Bei zahlenden Kunden von Cloudera und Hortonworks stiegen die Lizenzkosten stark an und diejenigen, die die kostenlose Version nutzten, wurden nun von weiteren Updates ausgeschlossen. Ihnen blieben zwei Möglichkeiten: Entweder, weiterhin auf einer nicht mehr unterstützten und nicht gewarteten Plattform zu bleiben oder eine hohe Abonnementgebühr zu zahlen. Das Upgrade auf die neueste Version des On-Premise-Angebots von Cloudera fühlte sich daher  eher wie eine Plattform-Migration an, sodass die Möglichkeit, auf eine andere Lösung umzusteigen, plötzlich eine praktikable Alternative darstellte.

Diese disruptive Marktveränderung ist nun die Chance für Stackable. Trotz des Hypes können oder möchten viele Kunden nicht in die Cloud wechseln und investieren stattdessen in ihre On-Premise-Plattform. Sie schätzen die vorhersehbaren Kosten, die mit dem Betrieb vor Ort verbunden sind und die souveräne Kontrolle darüber, wo sich ihre Daten befinden. Der Wechsel in die Cloud bringt auch einen erheblichen Bedarf an zusätzlicher Kompetenz für Kunden mit sich, die nicht daran gewöhnt sind, mit Cloud-Anbietern zusammenzuarbeiten. On-Premise-Kunden können ihre bestehenden Teams und deren Fähigkeiten nutzen, sich auf ihre Geschäftsanforderungen konzentrieren anstatt eine neue Plattform zu erlernen. Und nicht zu vergessen: die erheblichen Investitionen in das Know-How der Mitarbeiter über Hadoop aus operativer, Entwickler- und Endbenutzer-Perspektive. Das Replatforming wird immer eine Herausforderung sein, insbesondere angesichts eines fehlenden adäquaten Mitbewerbers in diesem Bereich.

Die Cloud ist da und und wird nicht wieder verschwinden. Gibt es also im Zeitalter von Cloud-nativen Diensten noch Raum für den Aufbau von On-Premise-Datenplattformen? Wir bei Stackable sind davon überzeugt und bauen eine neue Big-Data-Distribution auf, die vollständig auf Open Source Software basiert. Cloud-Anbieter bieten ähnliche Dienste an, jedoch mit sehr geringer Durchdringung des On-Premise-Marktes. Hybride Plattformen, die nicht nur die Cloud- und On-Premise-Märkte verbinden, sondern auch das Beste aus beiden Welten nutzen, werden alltäglich werden. Stackable ist angetreten, die Open-Source-Alternative für derartige moderne Datenplattformen anzubieten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

© Stackable.