Deep Learning
Deep Learning ist ein Teilgebiet des maschinellen Lernens und hat in den letzten Jahren einen enormen Einfluss auf die Entwicklung von künstlicher Intelligenz und deren Anwendungen gehabt. Im Kern ist Deep Learning die Erweiterung von neuronalen Netzen um tiefe Strukturen, d.h. viele versteckte Schichten, die abstrakte und komplexe Informationen aus den Eingangsdaten extrahieren können.
Im Gegensatz zu klassischen neuronalen Netzen, die eher flache Strukturen mit wenigen versteckten Schichten aufweisen, ermöglicht Deep Learning das Modellieren von sehr komplexen Zusammenhängen. Dadurch können beeindruckende Leistungen in verschiedensten Anwendungsgebieten erbracht werden: Spracherkennung, Bildverarbeitung oder das Generieren von Texten. Viele der KI-Technologien, die gerade im Fokus stehen, z.B. ChatGPT oder Midjourney, basieren auf Deep Learning-Modellen.
Architektur von Deep Learning-Modellen
Die Architektur eines Deep-Learning-Modells besteht aus vielen Schichten, die miteinander verknüpft sind und unterschiedliche Funktionen erfüllen. Grundsätzlich kann man sagen, dass die tieferen, versteckten Schichten eher abstrakte Informationen erfassen, welche für komplexere Fragestellungen notwendig sind. Dennoch gibt es unterschiedliche Architekturen und je nach Anwendung kommt die eine oder die andere Architektur zum Einsatz.
![Deep Learning: Tiefes Neuronales Netz](https://digitale-synapsen.de/wp-content/uploads/2023/05/tiefes-neuronales-netz.jpg)
Convolutional Neural Networks
Convolutional Neural Networks (CNNs) sind spezialisierte neuronale Netze, die in erster Linie für die Verarbeitung von Bildern oder Videos entwickelt wurden. Die Hauptkomponenten eines CNN sind Faltungsschichten (Convolutional Layers), Pooling-Schichten (Pooling Layers) und vollständig vernetzte Schichten (Fully Connected Layers).
Die Faltungsschichten bestehen aus Filtern bzw. Kerneln, die sinnbildlich über das Bild „geschoben“ werden, um lokale Muster zu erkennen. Die Filter reagieren auf unterschiedliche Merkmale wie Kanten, Farben oder Texturen und erzeugen sogenannte Feature Maps. Durch die Verwendung mehrerer Faltungsschichten kann ein CNN hierarchische Merkmale lernen. In den ersten Schichten z.B. Linien, Kanten, oder Farbübergänge; in den späteren Schichten z.B. geometrische Formen oder Texturen.
Pooling-Schichten dienen der Reduzierung der Dimensionen der Feature Maps. Dort werden Werte aggregiert, indem beispielsweise Maximalwerte genutzt werden. So würde 3×3 Max Pooling bedeuten, dass aus jeder 3×3 Matrix in der Feature Map der Maximalwert als Resultat als Input in die nächste Schicht geht. Diese Dimensionsreduktion ist notwendig, da man so das Modell robuster macht und Overfitting verhindert. Ein weiterer Effekt ist, dass die weitere Berechnung effizienter wird.
Am Ende eines CNN befinden sich meist eine oder mehrere vollständig vernetzte Schichten, die die extrahierten Merkmale für die finale Klassifikation nutzen. Hier läuft alles zusammen: Die abstrahierten und hierarchisch organisierten Informationen werden verwendet, um den finalen Output zu erzeugen.
Wegweisende Paper für CNNs:
- LeCun et al. (1989): Backpropagation Applied to Handwritten Zip Code Recognition
- Krizhevsky et al. (2012): ImageNet Classification with Deep Convolutional Neural Networks
Recurrent Neural Networks
Recurrent Neural Networks (RNNs) sind auf die Verarbeitung von sequenziellen Daten spezialisiert, d.h. die Reihenfolge der Elemente ist relevant. Beispiele für solche Daten sind Zeitreihen, Text oder Audio.
Der „Trick“ von RNNs ist, dass sie Informationen aus früheren Zeitschritten speichern und bei der Verarbeitung neuer Daten berücksichtigen. Diese Fähigkeit wird durch Schleifen in der Architektur des neuronalen Netzes ermöglicht. Diese Schleifen stellen Verbindungen zwischen aufeinanderfolgenden Zeitschritten her.
RNNs hatten einige Zeit lang das Problem, dass Gradienten sehr klein oder sehr groß werden konnten (vanishing / exploding gradient), besonders bei langen Sequenzen. Unterm Strich bedeutet das, dass das neuronale Netz entweder nicht mehr lernt (zu kleine Gradienten), oder aber extreme Schwankungen hat und nicht mehr konvergiert (zu große Gradienten). Um dieses Problem zu lösen, wurden Varianten wie Long Short-Term Memory (LSTM) und Gated Recurrent Units (GRUs) entwickelt, die besser mit solch langfristigen Abhängigkeiten umgehen können.
Wegweisende Paper für RNNs:
- Hochreiter & Schmidhuber (1997): Long Short-Term Memory
- Cho et al. (2014): Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
Generative Adversarial Networks
Generative Adversarial Networks (GANs) sind generative Modellen, also Modelle, die neue Daten erzeugen, welche den realen Daten möglichst ähnlich sind. Der Kernpunkt der GAN-Architektur ist, dass sie aus zwei Teilen bestehen, einem Generator und einem Diskriminator, und dass diese beiden Teile gegeneinander arbeiten.
Das Training sieht nämlich wie folgt aus: Im ersten Schritt erzeugt der Generator künstliche Daten, welche dann im zweiten Schritt vom Diskriminator auf Echtheit eingeschätzt werden. Der Generator versucht also, den Diskriminator zu „täuschen“, indem er immer realistischere Daten erzeugt, während der Diskriminator lernt, besser zwischen realen und künstlichen Daten zu unterscheiden. Auf diese Weise wird das Modell immer besser und nach dem Modelltraining kann der Generator eingesetzt werden, um möglichst realistische Daten zu produzieren.
GANs werden für verschiedene Anwendungen eingesetzt, z.B. die Erzeugung von Bildern oder das „Upscaling“ (das Erhöhen der Auflösung eines Bildes oder Videos). Weitere Einsatzgebiete sind die Generierung von 3D-Modellen oder die Synthese von realistischen menschlichen Gesichtern.
Das wegweisende Paper für GANs:
- Goodfellow et al. (2014): Generative Adversarial Networks
Transformers
Transformers wurden ursprünglich für die Verarbeitung von Text- und Sprachdaten entwickelt, haben sich aber als sehr leistungs- und anpassungsfähig erwiesen. Und somit werden sie nun auch in anderen Bereichen eingesetzt, z.B. bei der Bildverarbeitung. Transformer-Modelle basieren auf den Konzepten der Selbst- und Kreuzaufmerksamkeit („self-attention“ und „cross-attention“). Das heißt, sie können die Beziehungen zwischen den verschiedenen Elementen einer Sequenz erkennen und berücksichtigen.
RNNs und LSTMs verarbeiten sequenzielle Daten, indem sie Schritt für Schritt durch die Sequenz gehen; Transformer-Modelle hingegen können die Inputs parallel verarbeiten. Dies ermöglicht eine schnellere Verarbeitung und bessere Skalierbarkeit. Ein Schlüsselkonzept ist das Positional Encoding: Es werden Informationen über die Position der Elemente in der Sequenz hinzugefügt. Dies ist nowendig, da die Architektur selbst keine inhärente Kenntnis der Reihenfolge hat.
Transformers haben zahlreiche Fortschritte in vielen Anwendungsbereichen ermöglicht, insbesondere in der maschinellen Übersetzung, der Textklassifikation und der Textgenerierung. Beispiele für bekannte Transformer-Modelle sind BERT oder GPT-3. Auch ChatGPT basiert auf Transformer-Architektur (GPT steht für „generative pre-trained transformer“).
Und hier das wegweisende Paper für Transformers:
- Vaswani et al. (2017): Attention Is All You Need
Weitere Deep Learning-Architekturen
Es gibt noch einige weitere nennenswerte Deep Learning-Architekturen, die je nach Anwendung und Problemstellung interessant sein können:
- Autoencoder (AE) und Variational Autoencoder (VAE) für Dimensionsreduktion und Datengenerierung
- Capsule Networks (CapsNets) als Alternative zu CNNs
- Spiking Neural Networks (SNNs) für biologisch inspirierte Modelle
- Siamese Networks zur Bewertung von Ähnlichkeiten zwischen Inputs
- Memory Networks für die Verarbeitung längerer Sequenzen
Jede dieser Architekturen hat ihre eigenen Besonderheiten und Einsatzgebiete, aber sie sind vielleicht nicht so weit verbreitet oder einflussreich wie die vier Hauptarchitekturen, die in diesem Kapitel behandelt wurden.
Herausforderungen und Limitationen von Deep Learning
Datengrundlage
Deep Learning-Modelle erfordern große Mengen an Trainingsdaten. Also, wirklich sehr große Mengen: So waren es 45 TB Rohdaten für ChatGPT, nach dem Filtern 570 GB. Das ist mehr als 50 Mal die deutsche Wikipedia! Die Notwendigkeit, viele Daten für Deep Learning-Modelle zu brauchen, kann natürlich zu technischen und finanziellen Herausforderungen führen. Um diesen zu begegnen, wurden Techniken wie Data Augmentation oder Transfer Learning entwickelt, die man ggf. einsetzen kann.
Rechenleistung und Energieverbrauch
Deep Learning-Modelle sind komplex und benötigen viele Daten. Und deswegen sind sie auch rechenintensiv und erfordern leistungsstarke Hardware. Häufig werden hier die Chips von Grafikkarten eingesetzt (GPUs), da diese für bestimmte mathematische Operationen optimiert sind und genau diese Operationen werden für neuronale Netze gebraucht. Doch selbst mit optimierten Chips und guter Hardware kann das Trainieren von Deep Learning-Modellen Tage oder sogar Wochen dauern, was einen hohen Energieverbrauch mit sich bringt. Somit ist der heutige Einsatz von KI aus ökologischer nicht unproblematisch und sollte adressiert werden. Es gibt bereits einige Entwicklungen, wie das weitere optimieren von Hardware oder auch Software.
Interpretierbarkeit
Deep Learning-Modelle sind bekannt als „Black Box“: Irgendetwas passiert da, doch es ist so komplex, dass man die einzelnen Schritte nicht mehr nachvollziehen kann. Die mangelnde Interpretierbarkeit und Transparenz führen dazu, dass die Technologie in einigen Branchen nicht immer akzeptiert wird, wie z.B. in der Medizin oder im Finanzsektor. Dies kann am mangelnden Vertrauen und vor allem an strikten Regulierungen liegen. Aus diesen Gründen arbeiten Forscher:innen an Methoden zur Verbesserung der Interpretierbarkeit von Deep Learning-Modellen, wie Feature Visualization, Layer-wise Relevance Propagation oder Attention Maps. Der Begriff hierzu ist Explainable AI, oder auch Interpretable AI.
Overfitting
Einfach gesagt bedeutet Overfitting, dass ein Modell die Trainingsdaten „zu gut“ lernt und dadurch schlechte Vorhersagen auf neuen Daten trifft. Eine Analogie wäre vielleicht jemand, der Übungsaufgaben für ein Fach bis aufs Wort auswendig lernt. Die Übungsaufgaben werden somit zu 100% richtig beantwortet. In der Klausur sind die Aufgaben dann aber etwas anders gestellt und die Person weiß überhaupt nicht weiter. Overfitting kann durch verschiedene Techniken verhindert werden; dazu gehören Regularisierungstechniken wie L1- oder L2-Regularisierung, Dropout oder Early Stopping. So können die Modelle besser auf neue Daten generalisieren.
Aktuelle Trends im Deep Learning
Neue Architekturen und Optimierungen
Es werden kontinuierlich neue Architekturen und Optimierungstechniken für Deep Learning entwickelt. Dadurch werden Herausforderungen wie die oben benannten adressiert. Als Ziele stehen bessere Leistung, schnellere Training- und Vorhersagezeiten und ein effizienterer Umgang mit Ressourcen. Auch neue Innovationen sind möglich – so wären z.B. Modelle basierend auf Graphen ein neuerer Ansatz. In der Forschung wird außerdem immer wieder geschaut, welche Konzepte man aus der Neuropsychologie nehmen und anwenden kann.
Transfer Learning und Few-Shot Learning
Transfer Learning ist ein Ansatz, bei dem ein Modell, das auf einer bestimmten Aufgabe oder einem Datensatz trainiert wurde, angepasst wird. So kann es für eine ähnlichen, aber neue Aufgabe genutzt werden. Dies spart Zeit und Ressourcen, da das Modell nicht von Grund auf neu trainiert werden muss. Few-Shot Learning zielt darauf ab, Modelle zu entwickeln, die mit einer minimalen Anzahl von Beispielen für eine neue Aufgabe effektiv arbeiten können. Beide Ansätze sind vielversprechend, denn so kann man größere Modelle nutzen, um sie schnell auf einen neuen Fachbereich anzupassen. In diesem Zusammenhang wird auch häufig von „Finetuning“ gesprochen. Beispielsweise kann man ChatGPT über die API finetunen und das neue Modell anschließend nutzen.
Verbesserungen der Interpretierbarkeit
Die Interpretierbarkeit und Transparenz von Deep Learning-Modellen wird immer relevanter, da Ethik und Verantwortungsbewusstsein mehr und mehr in den Fokus rückt. So wird an Methoden gearbeitet, welche die Vorhersagen von KI-Systemen erklären können und somit verständlich machen. Dadurch wird natürlich auch Vertrauen in die Modelle aufgebaut und so könnte die Akzeptanz von KI-Modellen weiter steigen.
Energieeffizienz und Umweltfreundliche KI
Wie bereits erwähnt, verbraucht KI viel Energie, was natürlich Auswirkungen auf die Umwelt hat. Somit ist die Entwicklung energieeffizienter und umweltfreundlicher KI-Modelle und -Infrastrukturen ein wichtiger Trend. Dazu gehören neuartige Trainingsansätze, Optimierungen der Hardware und effiziente Architekturen, um unterm Strich den Energieverbrauch und die CO2-Emissionen zu minimieren.
Fazit
Auch wenn der Fachbegriff „Deep Learning“ vielen nicht bekannt sein mag, es ist eine Technologie, die längst im Alltag angekommen ist. Sei es der Sprachassistent, das Nutzen von Chatbots, oder die automatische Gesichtserkennung auf der Handykamera, viele nutzen Anwendungen, die auf Deep Learning basieren. Und die aktuellen Trends und Entwicklungen implizieren, dass es noch viele Innovationen in diesem Bereich geben wird. Doch es gibt auch Herausforderungen, denen sich nun gestellt wird: Durch kontinuierliche Forschung wird es wahrscheinlich bald effizientere, transparentere und ökologischere KI-Systeme geben. Wir können also gespannt bleiben.
Wenn du ein Wunschthema hast oder mir Feedback geben willst, schreibe gerne einen Kommentar oder schicke eine Mail an mail@thorejohannsen.de.