Skip to main content

Neue Cassandra kann zwei Milliarden Spalten in eine Zeile packen

Der Kader von freiwilligen Entwicklern hinter der verteilten Cassandra-Datenbank haben die neueste Version ihrer Open-Source-Software veröffentlicht, die bis zu 2 Milliarden Spalten pro Zeile speichern kann.

Eine Open-Source-Datenbank, die solche langen Zeilen speichern kann, könnte für Big Data sehr nützlich sein Cloud-Computing-Projekte und große Web-Anwendungen, die Entwickler hinter dem Projekt Apache Software Foundation.

"Apache Cassandra ist eine Schlüsselkomponente im Cloud Computing und anderen Anwendungen, die mit großen Datenmengen und hohen Abfragevolumen umgehen", sagte Jonathan Ellis, Vice President von Apache Cassandra und Mitbegründer von Cassandra, einem professionellen Support-Unternehmen, Riptano, in einer Erklärung. "Es ist besonders erfolgreich, große Websites mit starken Wachstumsraten zu versorgen."

Eine Reihe von großen Web-Services haben diese Datenbank genutzt, darunter Digg, Twitter und Facebook, die die Technologie zuerst entwickelt haben. Der größte Cassandra-Cluster wird je nach Projekt auf mehr als 400 Servern ausgeführt.

Die neu installierte Large Row Support-Funktion von Cassandra Version 0.7 ermöglicht es der Datenbank, bis zu 2 Milliarden Spalten pro Zeile zu speichern. Frühere Versionen hatten keine festgelegte Obergrenze, obwohl die maximale Menge an Material, die in einer einzelnen Zeile gehalten werden konnte, ungefähr 2 GB betrug. Diese Obergrenze wurde beseitigt.

Die Möglichkeit, so viele Spalten zu erstellen, ist sehr wertvoll, da Systeme eine nahezu unbegrenzte Anzahl von Spalten erstellen können, erklärt Ellis in einer Follow-up-E-Mail.

Weil Cassandra kann keine SQL-Abfragebefehle ausführen, die zusätzlichen Spalten würden benötigt, um die Daten innerhalb einer bestimmten Zeile zu analysieren, so der ausgetüftelte Informatiker Maxim Grinev in einem kürzlich erschienenen Blogeintrag.

Weitere neue Features von 0.7 sind das Hinzufügen von Sekundärindizes bietet eine einfache Möglichkeit, Daten auf lokalen Maschinen abzufragen - und die Möglichkeit, Änderungen am Schema vorzunehmen, ohne den gesamten Cluster neu zu starten.

Cassandra ist eine von mehreren nicht-relationalen oder NoSQL-Datenbanken, die die Möglichkeit bieten schnell und einfach große Datenmengen speichern, oft in einer Cluster-Umgebung,

Social-Networking-Riese Facebook entwickelt Cassandra, um die Inbox-Suche des Dienstes zu betreiben. Aufgrund der großen Datenmenge, die es zu organisieren hatte, wollte Facebook den Google Big Table-Datenbankentwurf verwenden, der eine spalten- und zeilenorientierte Datenbankstruktur bereitstellen könnte, die über viele Knoten verteilt werden könnte.

Das Limit von Big Table war, dass es ein Master-Knoten-orientiertes Design war, sagte Ellis in einem Interview mit dem IDG News Service während der ApacheCon Konferenz letzten November in Atlanta. Die gesamte Operation hing von einem einzelnen Knoten ab, um Lese- und Schreibaktivitäten über alle anderen Knoten hinweg zu koordinieren. Mit anderen Worten, wenn der Kopfknoten nach unten gegangen wäre, wäre das ganze System nutzlos, sagte Ellis.

Cassandra wurde also in einer Amazon-Architektur namens Dynamo in Kombination mit Big Table gebaut. Dynamo eliminiert einzelne Fehlerquellen und ermöglicht eine einfache Skalierbarkeit. Das Dynamo-Design ist nicht von einem einzelnen Master-Knoten abhängig. Jeder Knoten kann Daten für das gesamte System akzeptieren sowie Abfragen beantworten. Daten werden über mehrere Hosts repliziert.

Cassandra ist nicht die einzige Clustered-Datenbank, die aus den Ideen von Big Table und Dynamo erstellt wurde. Das Datenbank-Start-Unternehmen Cloudant entwickelte eine geclusterte Version der Open-Source-Datenbank CouchDB mit dieser Kombination namens BigCouch. Cloudant gab gerade bekannt, dass es 2.500 Nutzer seines gehosteten Angebotes von BigCouch angehäuft hat.

Joab Jackson berichtet über Unternehmenssoftware und allgemeine Technologie-Neuigkeiten für Der IDG News Service . Folge Joab auf Twitter unter @Joab_Jackson. Joabs E-Mail-Adresse ist [email protected]