Data Warehouses und Data Lakes

Data Warehouses und Data Lakes

Immer mehr Unternehmen nutzen Programme, die auf künstlicher Intelligenz basieren, oder trainieren eigene Machine Learning-Modelle, um neue Erkenntnisse zu sammeln und effizienter zu werden. Dabei ist die Bedeutung von qualitativ hochwertigen Daten nicht zu unterschätzen. Nicht ohne Grund wurden Daten oft als das neue Öl bezeichnet. Fest steht: Ohne Daten kann KI nicht funktionieren. In diesem Zusammenhang stoßen wir auf zwei Konzepte: Data Warehouses und Data Lakes. Diese beiden Konzepte sind maßgebliche Bestandteile einer effektiven Datenstrategie und bieten jeweils unterschiedliche Vorteile und Anwendungsmöglichkeiten.

Bedeutung von Daten für KI

Daten sind fundamental für KI, besonders für moderne KI-Anwendungen, die auf maschinellem Lernen (ML) basieren. ML-Algorithmen lernen aus Daten: Sie finden Muster und Beziehungen in sogenannten „Trainingsdaten“, was in einem ML-Modell resultiert. Dieses Modell kann anschließend verwendet werden, um Vorhersagen zu treffen.

Grundsätzlich gilt: Je mehr Daten ein ML-Algorithmus zur Verfügung hat, desto besser kann er Muster erkennen und präzisere Vorhersagen erstellen. Große Datenmengen bedeuten meistens eine breitere Vielfalt von Inputs und so können robustere Modelle berechnet werden. Dies ist besonders wichtig für Deep Learning-Architekturen. Natürlich zählt auch die Qualität: Die Daten müssen relevant, vollständig und konsistent sein. Fehlende oder schlechte Daten resultieren in Modellen, die unpräzise sind.

Unterm Strich sind Qualität und Quantität der Daten elementar für die Qualität der eingesetzten KI-Systeme. Daher ist eine effektive Datenstrategie, die sowohl die Qualität als auch die Menge der Daten berücksichtigt, entscheidend.

Data Warehouses

Data Warehouses sind zentralisierte Datenbanken, die darauf ausgelegt sind, große Mengen strukturierter Daten zu speichern und effizient abzufragen. Die Daten kommen meist aus verschiedenen Quellen und werden dann in einem einheitlichen Format gespeichert, primär um Analysen und Reporting zu erleichtern. Im Kern ist ein Data Warehouse ein relationales Datenbanksystem, das Daten z.B. aus verschiedenen Geschäftsbereichen integriert und diese Daten für komplexe Abfragen und Analysen optimiert.

Die Struktur eines Data Warehouses ist in der Regel hierarchisch und organisiert. Sie besteht aus verschiedenen Aspekten wie z.B. das Sammeln der Daten aus verschiedenen Quellen, Extrahieren, Transformieren, Laden (ETL, engl. „extract, transform, load“), die eigentliche Datenhaltung, Modellierung der Daten (Hierarchien und Beziehungen) und Datenzugriff.

Data Warehouses können unterschiedlich verwendet werden. Häufig dienen sie als Basis für BI-Tools und werden von Data Analysts genutzt, die Reporting und BI-Tools aufsetzen. Sie können aber auch eine Datenquelle für Machine Learning-Pipelines sein. Der große Vorteil an Data Warehouses ist die meist hohe Datenqualität und Konsistenz.

Beispiele für Data Warehouses:

Data Lakes

Im Gegensatz zu Data Warehouses sind Data Lakes Systeme, die Rohdaten in ihrem Rohformat speichern. Data Lakes können alle Arten von Daten speichern, egal aus welcher Quelle sie kommen bzw. in welchem Format sie existieren. Möglich sind strukturierte Daten (wie in einer relationalen Datenbank), semi-strukturierte Daten (z.B. JSON oder XML) und unstrukturierte Daten (z.B. Bilder oder Videos).

Data Lakes sind wesentlich flexibler als Data Warehouses. Sie verwenden eine flache Architektur, bei der Daten in ihrer Rohform gespeichert werden; die Struktur wird erst bei der Abfrage definiert. Diese Flexibilität ermöglicht es, Massen an Daten erstmal ohne großen Aufwand zu speichern. Verarbeitet werden können sie später und je Projekt unterschiedlich.

Aus den genannten Gründen sind die Anwendungsfälle von Data Lakes meist unterschiedlich zu denen von Data Warehouses. Data Lakes sind perfekt für Big Data: Große Mengen an Rohdaten können hier abgelegt werden und anschließend verarbeitet und analysiert werden. Somit können explorative Datenanalysen perfekt auf Basis von Data Lakes ausgeführt werden, aber auch Machine Learning-Pipelines können dort ansetzen.

Beispiele für Data Lakes:

Unterschiede zwischen Data Warehouses und Data Lakes

Data Warehouses und Data Lakes dienen dazu, Daten zu speichern und zu verwalten. Doch es gibt Unterschiede.

Datenstruktur

Bezüglich der Datenstruktur und des Datenformats sind Data Warehouses hochstrukturiert und speichern Daten in einem vordefinierten Schema; sie nehmen in der Regel strukturierte Daten auf. Im Gegensatz dazu sind Data Lakes in ihrer Struktur flexibel. Sie können alle Arten von Daten in ihrem Rohformat aufnehmen und speichern.

Datenzugriff und -verarbeitung

Im Hinblick auf Datenzugriff und Datenverarbeitung verwenden Data Warehouses oft „Batch Processing“, also die Verarbeitung von Daten in größeren Chargen. Data Warehouses stellen Daten strukturiert für vordefinierte Berichte und Analysen zur Verfügung. Data Lakes hingegen erlauben sowohl Batch- als auch Echtzeitverarbeitung und unterstützen mehr Arten von Analysen.

Sicherheit und Governance

Data Warehouses in der Regel besser aufgestellt bzgl. Sicherheit und Governance. Sie ermöglichen verschiedene Sicherheitsmaßnahmen und Governance-Strukturen, damit Datenschutz (und auch Datenintegrität) gewährleistet ist. Data Lakes hingegen sind flexibler, was erstmal vorteil haft klingt, aber auch zu Herausforderungen führen kann. Denn dadurch sind sie ggf. schwieriger zu verwalten und zu sichern.

Data Warehouse oder Data Lake?

Die Entscheidung, ob ein Data Warehouse oder ein Data Lake verwendet werden sollte, hängt von mehreren Faktoren ab.

Geschäftsanforderungen

Wenn ein Unternehmen im Analytics-Bereich aufholen muss und z.B. Reports und Dashboards benötigt, dann ist ein Data Warehouse wahrscheinlich die bessere Wahl. Dies ist vor allem dann der Fall, wenn Daten aus verschiedenen Bereichen strukturiert zusammengeführt werden sollen, um daraus Erkenntnisse zu gewinnen. Wenn man aber große Mengen an rohen oder unstrukturierten Daten ablegen und analysieren möchte, dann könnte ein Data Lake besser geeignet sein.

Datenmenge

Die Datenmenge ist ein weiterer wichtiger Faktor. Data Warehouses sind besser für kleinere, strukturierte Datensätze geeignet. Data Lakes hingegen sind in der Lage, extrem große Mengen zu speichern (Tera- bis Petabytes).

Skalierbarkeit und Performance

Skalierbarkeit und Performance sind auch Faktoren, die berücksichtigt werden sollten. Data Warehouses sind meist teurer zu skalieren, aufgrund der fixen Struktur. Data Lakes sind dank ihrer flexiblen Struktur leichter und kostengünstiger zu skalieren. Man muss hier allerdings erwähnen, das die Performance bei Data Lakes auch einbrechen kann, wenn sie nicht richtig verwaltet werden. Gerade bei großen Datenmengen ist es notwendig, den Überblick zu behalten und eine passende Strategie für die Verwaltung der Daten zu haben.

Kombination von Data Warehouses und Data Lakes

Data Warehouses und Data Lakes können in einer hybriden Datenarchitektur kombiniert werden. Data Lakes werden häufig zum Pre-Processing benutzt; Daten werden hier also vorverarbeitet, bevor sie für spezifischere Analysen und Berichte in ein Data Warehouse übertragen werden. Durch diesen Ansatz werden Flexibilität und Skalierbarkeit eines Data Lakes mit der Struktur und Konsistenz eines Data Warehouses kombiniert.

Data Lakehouse

Basierend auf diesen Ansatz ist das Konzept des Data Lakehouse entstanden. Ein Data Lakehouse, wie der Name schon vermuten lässt, verbindet Data Lakes und Data Warehouses. Es behält die flexible und skalierbare Speicherung eines Data Lakes bei, fügt aber Funktionen für Datenmanagement und Governance hinzu (eher charakteristisch für Data Warehouses).

Dadurch können strukturierte und unstrukturierte Daten gespeichert werden, doch die Daten können nach Bedarf transformiert und in einem Schema organisiert werden. Somit sind auch verschiedene Use Cases abgedeckt: explorative Analyse, Machine Learning, standardisierte Reports, usw.

Beispiele für Data Lakehouses:

Zusammenfassung

Daten sind fundamental für Künstliche Intelligenz bzw. ML-Algorithmen. Deswegen ist die Rolle der Datenstrategie immer wichtiger für Unternehmen. Wir haben uns in diesem Post Data Warehouses und Data Lakes mit ihren jeweiligen Einsatzmöglichkeiten angeschaut. Eine aktuelle Entwicklung ist außerdem die Kombination aus beiden, auch Data Lakehouses genannt. Welche dieser Möglichkeiten schlussendlich genutzt wird, hängt von den speziellen Anforderungen und Zielen des Unternehmens ab.

Wenn du ein Wunschthema hast oder mir Feedback geben willst, schreibe gerne einen Kommentar oder schicke eine Mail an mail@thorejohannsen.de.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert