Skip to main content

IBM-Wissenschaftler geben Speicher einige 'Panache'

IBM hat diese Woche die Türen seines Forschungszentrums in Almaden geöffnet, um zu zeigen, woran seine Wissenschaftler arbeiten, einschließlich einiger fortschrittlicher Technologien für die Speicherung und Datenanalyse An der Südspitze des Silicon Valley behauptet Almaden, der Geburtsort der verteilten relationalen Datenbank und der ersten Data-Mining-Algorithmen zu sein. Das Fiedeln mit Bits und Bytes, um ihre Speicherung und Analyse zu verbessern, ist weiterhin ein Schwerpunkt, obwohl die Labors auch in Bereichen wie Nanotechnologie, Spinphysik und Mensch-Computer-Interaktion arbeiten.

Zu ​​den Projekten dieser Woche gehören Panache, ein Dateisystem zur Verwendung in WANs; Sage, ein Tool zum automatischen Verschieben von Daten in verschiedene Speicherklassen; und Cobra, die Unternehmen hilft, herauszufinden, was die Leute in Online-Foren über sie sagen.

[Weiterführende Literatur: Beste NAS-Boxen für Media-Streaming und Backup]

Panache ist ein Clustered-Dateisystem, das Anwendungen mit hoher Geschwindigkeit bereitstellt Zugriff auf einen großen, zentralen Datenpool, auch wenn die Anwendungen weit entfernt sind, zum Beispiel in Rechenzentren in verschiedenen Teilen des Landes oder auf verschiedenen Kontinenten.

"Kunden bitten uns, ihnen einen Weg zu geben, wenn Daten wird an einem Standort erstellt, um ihn an anderen geografisch verteilten Standorten verfügbar zu machen, sodass Benutzer an diesen Standorten auf die Daten zugreifen können, als wären sie lokal ", erklärt Bruce Hillsberg, Leiter der Forschungsgruppe Speichersysteme.

Die Datei Das System verwendet erweiterte Caching-Techniken, um sicherzustellen, dass die Daten an jedem Standort konsistent bleiben. Es verfügt über Push- und Pull-Eigenschaften, die Änderungen effizient über mehrere Knoten in einem WAN (Wide Area Network) replizieren, so dass keine Konflikte entstehen, wenn Änderungen an den Datencaches einzelner Knoten vorgenommen werden.

IBM gibt an, dass es mehrere Verwendungszwecke haben könnte. Ingenieure, die an einem Projekt in verschiedenen Ländern arbeiten, können auf denselben Datensatz zugreifen und ihn lokal ändern, ohne sich Gedanken darüber machen zu müssen, dass die zwischengespeicherten Versionen nicht mehr synchron sind.

Es könnte auch die Zeit für die Replikation virtueller Maschinen zwischen Rechenzentren verkürzen Forscher sagten hier. Anwendungen, die innerhalb einer virtuellen Maschine ausgeführt werden, greifen auf Daten von einer virtuellen LUN zu, die normalerweise als Datei im Datencenter gespeichert werden. Wenn eine neue virtuelle Maschine nach einem Fehler konfiguriert oder neu gestartet wird, müssen das Betriebssystemimage und seine virtuelle LUN zwischen den Standorten übertragen werden, was zu Verzögerungen führt, bevor die Anwendung betriebsbereit ist.

Panache kann einen Cache des Betriebssystems und seiner Umgebung verwalten Virtuelle LUN an der Remote-Site, so ist es bei Bedarf vorhanden. IBM-Forscher sagen, dass dies die Zeit und die Komplexität der Konfiguration neuer virtueller Maschinen erheblich reduzieren und sie über ein Wide Area Network verschieben würde. Es könnte auch Unternehmen helfen, die Kosten für Rechenzentren zu reduzieren. Anstatt 20.000 virtuelle Maschinen in einem großen Rechenzentrum zu hosten, bieten die schnelleren Migrationsfunktionen die Möglichkeit, die VMs in 20 kleineren Rechenzentren zu hosten.

Einige große Cluster-Dateisysteme sind bereits vorhanden, wie IBMs GPFS (General Parallel File System) und Sun's Lustre, jetzt von Oracle gepflegt. Panache ist einzigartig aufgrund seiner hohen Parallelität, so IBM, die es mehreren Knoten erlaubt, in ihren lokalen Datencache zu lesen und zu schreiben, selbst wenn sie vorübergehend offline sind.

"Panache ist der erste Dateisystemcache, der Parallelität in Jeder Aspekt seines Designs - parallele Anwendungen können auf den Cache von mehreren Knoten aus zugreifen und ihn aktualisieren, während Daten und Metadaten parallel in den Cache gezogen und aus diesem herausgeschoben werden ", heißt es in einem Artikel über die Technologie (PDF).

Panache baut auf GPFS auf und verwendet auch einen vorgeschlagenen Standard namens pNFS (Parallel NFS), eine Aktualisierung des weit verbreiteten NFS-Protokolls (Network File System). Da Knoten Standards verwenden, können die Knoten in einem Speichercluster auf Speichergeräten anderer Hersteller basieren, obwohl es wahrscheinlich ist, dass IBM ein Produkt verkaufen wird, das alles zusammenhält.

Forscher haben nicht gesagt, wann Panache als Produkt erscheinen wird, aber es scheint ziemlich vollständig zu sein, wenn man davon spricht.

Eine weitere Storage-Management-Technologie namens Sage wird intern von IBM Global Services verwendet und sollte in Produktform sein ziemlich bald.

Sage ist ein Werkzeug, um den Wert von Daten im Laufe der Zeit zu berechnen und es auf der Grundlage seines Werts in die entsprechende Speicherebene zu verschieben. Die Idee besteht darin, Unternehmen dabei zu helfen, Daten schneller und einfacher auf die entsprechende Speicherebene zu bekommen und so die Speicherkosten zu senken. Ein Unternehmen möchte beispielsweise häufig verwendete Daten auf Hochleistungs-Fibre-Channel-Laufwerken und weniger wichtigen Daten auf kostengünstigeren SATA-Laufwerken speichern. Einige Daten müssen möglicherweise nach einer bestimmten Zeit von einem Laufwerkstyp in einen anderen verschoben werden.

Sobald Richtlinien von einem Administrator angewendet wurden, verschiebt Sage die Daten automatisch. Darüber hinaus können IT-Mitarbeiter "Was wäre wenn" -Szenarien ausführen, um zu sehen, was mit ihrer Speicherumgebung passieren würde, wenn sie Richtlinien auf eine bestimmte Weise festlegen. Und die Richtlinien können rechtliche und Compliance-Probleme berücksichtigen, wie z. B. die Nichtübermittlung personenbezogener Daten über Ländergrenzen hinweg in Europa.

Die Richtlinien können nach Speichervolumen angewendet werden, z. B. durch Auswahl eines Volumes für eine bestimmte Anwendung. oder auf der Grundlage einzelner Dateien, indem alle Daten ausgewählt werden, die von einem bestimmten Benutzer erstellt wurden.

Eine weitere Technologie war Cobra oder Corporate Brand and Reputation Analysis, ein Tool, das Unternehmen hilft, das Gesagte zu finden und zu analysieren Benutzer und Kommentatoren in Diskussionsforen, Blogs und anderen Websites im Web.

Sie wird heute über die Serviceabteilung von IBM angeboten, wird aber in Zukunft Teil ihrer Cognos Analytics-Produktlinie werden, sagte Scott Spangler, ein leitender technischer Mitarbeiter bei IBM Service-Orientierte Technologiegruppe.

Cobra verwendet einen Dienst wie den Boardreader, um Nachrichtenforen und Foren zu durchsuchen und Beiträge zu sammeln, die Verweise auf Schlüsselwörter enthalten, beispielsweise einen Marken- oder Produktnamen und ein Geschäft Sie werden in einem Data Warehouse gespeichert.

Diese Daten werden mithilfe von Modellen analysiert, die für jeden Kunden erstellt wurden und die Muster identifizieren, indem sie Dinge wie Textclustering, Stimmungsanalyse und wie häufig bestimmte Begriffe verwendet werden. Diese Muster werden dann gemeinsam analysiert, um Beiträge zu identifizieren, die für ein Unternehmen nützlich sein können.

IBMs Serviceabteilung hat das Tool bei einem großen Schokoriegel-Unternehmen eingesetzt, das Sage verwendet, um herauszufinden, dass sich Vegetarier über einen der Inhaltsstoffe beschweren In seinen Produkten sagte Spangler.

Es gibt bereits viele Tools auf dem Markt, die ähnliche Dinge tun, aber Spangler behauptet, dass Cobra fortschrittlicher ist, weil Analysten damit hochkomplexe Modelle erstellen können, die schnell angepasst werden können, wenn sich die Anforderungen ändern.