Skalierung von Splunk per Hybrid-Cloud-Architektur der Enterprise-Klasse
Von Stefan Radtke, Field CTO Qumulo
Splunk Architektur
Erfahren Sie, wie Qumulos built-in Data Analytics detaillierte Informationen zur Effizienz und Nutzung einer Splunk-Installation liefern.
Was ist Splunk?
Splunk ist eine führende Data Analytics Plattform. Sie sammelt viele Arten von Log- sowie maschinengenerierten Daten. Splunk indiziert, analysiert und erstellt Visualisierungen für sehr große Datensätze. Splunk bietet sowohl historische als auch Echtzeit-Datenanalysen und hat ein großes Ökosystem entwickelt, das Bibliotheken für maschinelles Lernen (ML) und verschiedene Arten von Software Developer Kits (SDKs) umfasst.
Ist Splunk skalierbar?
Genau wie Qumulo, ist auch Splunk hochgradig skalierbar. Daher ist Qumulo die ideale Plattform für die Ausführung von Splunk-Lösungen.
Das Dateisystem von Qumulo ergänzt die Datenplattform von Splunk, um die Effizienz der Datenspeicherung von Splunk zu optimieren. Dieser Artikel hilft Ihnen, das Splunk-Repository auf Dateiebene zu verstehen, indem er die Echtzeit-Datenanalyse von Qumulo Core nutzt und erklärt, wie das Qumulo-Dateisystem Sie unterstützen kann:
-Eliminieren von Storage Silos durch Nutzung eines einzigen Single Storage Namespace für Splunk-Daten
-Erreichen Transparenter Kapazitäts- und IO-Erweiterung durch lineare Scale-Out Storage Architektur
-Individuelle Anpassung der Splunk-Umgebung über eine programmierbare REST-API
-Optimierung der Storage Infrastruktur sowohl für sequenzielle Schreibindexe, Zufallssuche als auch für heiße, warme sowie kalte Daten
Was sind die Komponenten der Splunk-Architektur?
Forwarder, Indexer sowie sogenannte Search Heads bilden die drei Hauptkomponenten einer Splunk-Implementierung dar.
Splunk-Forwarder
Forwarder sind in der Regel Software-Agenten, die auf den von Splunk überwachten Geräten laufen. Sie leiten die Protokollströme von diesen Systemen an die Splunk-Indexer weiter.
Splunk-Indexer
Die Indexer stellen das Herzstück der Splunk-Architektur dar. Sie analysieren und indizieren Protokolldaten in Echtzeit.
Splunk-Search Heads
Search Heads sind separate Server, mit denen sich Benutzer verbinden, um Daten abzufragen, Berichte zu erstellen sowie Daten zu visualisieren. In kleineren Umgebungen können Indexer und Search Heads auf denselben Servern laufen.
Splunk-Architektur-Diagramm
Dieses Splunk-Architekturdiagramm zeigt, wie Splunk von Anfang bis Ende funktioniert, unter Berücksichtigung der drei oben beschriebenen Hauptkomponenten. Das Diagramm zeigt, dass die Forwarder Daten an die Indexer senden, während die Search Heads Benutzeranfragen senden, um diese Daten von den Indexern abzurufen. Die Daten selbst werden in einer Reihe von Verzeichnissen gespeichert, die nach Alter geordnet sind, wie die roten, gelben und blauen Container im Diagramm verdeutlichen. Diese Verzeichnisse sind bekannt als sogenannte Hot (H), Warm (W) sowie Cold (C) Buckets. Im nächsten Abschnitt werden wir darauf eingehen.
Splunk: die Buckets
Wie zuvor im Splunk-Architekturdiagramm dargestellt, werden die Daten in Splunk in sogenannten Buckets gespeichert, die nach dem Alter der Daten geordnet sind:
Hot-Buckets
In Hot Buckets werden Daten beim ersten Indizieren gespeichert. In einen Hot Bucket kann geschrieben werden, bis ein vordefinierter Schwellenwert erreicht ist. Der Hot Bucket wird dann geschlossen, die Daten werden in einen Warm Bucket verschoben.
Warm-Buckets
Warme Buckets enthalten Daten, die sowohl indiziert als auch durchsuchbar sind. In warme Buckets können weiterhin Daten geschrieben werden. Sobald der Schwellenwert für die Kapazität der warmen Buckets erreicht ist, werden ältere Daten in in kalte Buckets verschoben.
Cold-Buckets
Kalte Buckets enthalten in den meisten Fällen den Großteil der Daten. Kalte Buckets sind schreibgeschützt, befinden sich aber noch im Index. Daher werden kalte Buckets in allen Suchergebnissen, Berichten etc angezeigt.
Frozen-Buckets
Gefrorene Buckets sind Langzeitarchive, die nicht mehr indiziert sind. Gefrorene Buckets sind für die Speicherung alter Daten zu Archivierungszwecken gedacht. Sie stehen nicht für die Suche, Analyse oder Berichterstellung zur Verfügung.
Thawed-Buckets
Aufgetaute Buckets werden aus Archiven wiederhergestellt. Wenn eingefrorene Buckets archiviert werden, können sie später wieder aufgetaut und in den Index zurückgeführt werden.
Qumulo verbessert die Effizienz von hoch skalierbarem Speicher für Splunk-Umgebungen
Splunk kann Direct-Attached Storage (DAS) für alle Bucket-Typen verwenden. Diese Art der Konfiguration ist jedoch relativ ineffizient, da DAS-Speicher komplex zu verwalten sind. Diese Komplexität nimmt mit steigender Kapazität noch zu. Unabhängig davon, ob Sie JBODs oder RAID-Arrays verwenden, entsteht in beiden Fällen ein erheblicher Verwaltungsaufwand. Außerdem ist zu bedenken, dass herkömmliche RAID-Arrays extrem lange Wiederherstellungszeiten haben, was zu einem erhöhten Risiko mit Blick auf Datenverluste führt. In der Regel ist Network-Attached Storage (NAS) die bessere Lösung, auf die wir in diesem Dokument näher eingehen werden.
Wenn Zuverlässigkeit erforderlich ist, können der Splunk-Replikationsfaktor (RF) sowie der Suchfaktor (SF) erhöht werden. Der RF gibt die Anzahl der aufzubewahrenden Kopien der Rohdaten an, während der SF die Anzahl der aufzubewahrenden Kopien der Indexdaten bestimmt. Beide haben einen Standardwert von zwei, wobei dieser Wert geändert werden kann, um bestimmte Ziele zu erreichen. Bei der Standardeinstellung von zwei wird von jedem Index eine vollständige zweite Kopie aufbewahrt, was in der Konsequenz in einer sehr hohe Menge an zu speichernden Daten resultieren kann.
In den folgenden Abschnitten erfahren Sie, wie Qumulos Echtzeit Data Analytics detaillierte Informationen hinsichtlich der Effizienz der Dateidatenspeicherung und Datennutzung eines Splunk-Einsatzes liefert. Qumulo Aware ist standardmäßig in Qumulo Core enthalten und bietet sofortigen Einblick in Ihren Splunk Data Footprint mit Echtzeit Analytics.
Qumulos effiziente Hybrid Cloud Architektur
Ein Qumulo-Cluster startet mit vier Knoten und kann durch einfaches Hinzufügen weiterer Knoten jederzeit auf mehrere Petabytes an Kapazität skaliert werden. Qumulo Core ist so optimiert, dass die zugrunde liegende Hardware – von HPE, Fujitsu, Supermicro und anderen – mit maximaler Leistung und Effizienz genutzt wird. Dabei werden alle Vorteile von NVMe-Designs und Hybriden mit SSDs vor HDDs genutzt. Qumulo Core wird Daten automatisch auf intelligente Weise auf SSDs vorladen und zwischenspeichern. Daraus resultiert, dass die meisten Lesevorgänge von SSDs kommen und selbst auf hybriden Systemen eine All-Flash-Leistung erzielt wird.
Obwohl Splunk die Verwendung von NAS-Speicher für Hot- und Warm-Buckets derzeit noch nicht unterstützt, ist die Verwendung von Qumulo mit Splunk eine hervorragende Lösung für Cold-Buckets (in denen typischerweise der Großteil der Daten gespeichert wird). Wenn Buckets von dem für Warm-Buckets definierten Speicher in den Qumulo Cluster für kalte Buckets verschoben werden, landen alle Daten zuerst auf SSDs. Das macht die Übertragung sehr schnell. Außerdem sind die Cold-Buckets weiterhin indiziert und durchsuchbar. Daten, die sich auf SSDs befinden, werden im Vergleich zu Daten auf HDDs mit viel höherer Geschwindigkeit bereitgestellt.
Die Qumulo File Data Platform stellt eine ideale Grundlage für eine Splunk-Umgebung dar, da sie Daten effizienter speichert, hoch belastbar und unbegrenzt skalierbar ist und sowohl On-Premises als auch in jeder Öffentlichen Cloud läuft. Da die Daten auf Qumulo auf Block- und nicht auf Dateiebene geschützt werden, ist jeder erneute Schutzvorgang unabhängig von der Dateigröße schnell und zuverlässig und hat keine negativen Auswirkungen auf die Performance während der Ausführung.
Vorteile der Verwendung von Qumulo mit Splunk
Die meisten Splunk-Implementierungen erfassen, indizieren und stellen regelmäßig Petabytes an Daten bereit, um sie für das gesamte Unternehmen durchsuchbar zu machen. Das von Splunk verarbeitete Datenvolumen kann hohe Anforderungen an die Storage Infrasturktur Ihres Unternehmens stellen. In Zusammenarbeit haben Qumulo und Splunk eine Lösung entwickelt, die skalierbaren, effizienten Speicher für Splunk-Daten sowie eine API-Integration direkt mit Splunk bietet.
Zusammengefasst:
Das Qumulo File System ist skalierbar und kann Milliarden von Dateien und viele Petabytes an Daten in einem einzigen Namespace handhaben – und bleibt dennoch einfach zu verwalten.
Die Kapazität eines Qumulo-Clusters kann nach Bedarf skaliert werden durch Hinzufügen von Knoten. Dies kann bei laufendem Betrieb des gesamten Clusters ohne Unterbrechung erfolgen.
Durch die Kapazitätserweiterung mit zusätzlichen Qumulo-Knoten steigen auch die Verarbeitungsleistung und der Durchsatz linear an.
Frozen-Buckets können vermieden werden, da Daten auf Qumulo effizient und kostengünstig in Cold-Buckets gespeichert werden können. Daten in Cold-Buckets bleiben durchsuchbar. Die Speicherung von mehr Splunk-Daten hat zur Folge, dass Sie Abfragen auf Daten ausführen können, die seit vielen Jahren gespeichert sind, anstatt nur auf Daten der letzten paar Monate. Dies ermöglicht einen genaueren Blick auf Trends und macht es einfacher, Anomalien zu erkennen.
Anstatt den RF von Splunk zu erhöhen, um die Zuverlässigkeit zu steigern, schützt Qumulo Core die Daten mit Hilfe von Erasure Coding. Das ist hoch effizient, gerade auch was die Nutzung des Speicherplatzes angeht.
Qumulo Protect enthält Datendienste, die standardmäßig in Qumulo Core enthalten sind, und bietet Snapshots und Snapshot-Replikation, die ein leistungsfähiges Backup-System darstellen.
Splunk als SIEM-Lösung
In diesem Artikel geht es zwar um die Verwendung von Qumulo als effizientes Speicher-Repository für Cold-Buckets in Splunk, aber es lohnt sich zu erwähnen, dass viele unserer Kunden auch Qumulo-Telemetriedaten zu Auditing- und Threat-Hunting-Zwecken in Splunk einspeisen und Splunk als ihre Hauptplattform für Security Information and Event Management (SIEM) verwenden.