März 12, 2025

KI-Sprachmodelle: Grenzen bei großen Textmengen

KI-Sprachmodelle: Grenzen bei großen Textmengen

Warum KI-Sprachmodelle an zu viel Text scheitern

Künstliche Intelligenz und insbesondere große Sprachmodelle haben in den letzten Jahren enorme Fortschritte gemacht. Dennoch stoßen sie bei der Verarbeitung sehr großer Textmengen immer noch an ihre Grenzen. In diesem Artikel beleuchten wir die Gründe dafür und diskutieren mögliche Lösungsansätze für dieses Problem.

Die Entwicklung der Kontextfenster bei KI-Sprachmodellen

Als OpenAI vor zwei Jahren ChatGPT veröffentlichte, hatte das Modell eine Gedächtnisspanne – auch Kontextfenster genannt – von lediglich 8.192 Tokens. Das entspricht etwa 6.000 Wörtern oder 15 Textseiten. Gab man dem System mehr Text ein, „vergaß“ es Informationen vom Anfang seines Kontexts. Dies begrenzte die Größe und Komplexität der Aufgaben, die ChatGPT bewältigen konnte.

Heutige Sprachmodelle sind deutlich leistungsfähiger:

Trotz dieser beeindruckenden Fortschritte sind wir noch weit davon entfernt, KI-Systeme mit menschenähnlichen kognitiven Fähigkeiten zu entwickeln. Viele Menschen stellen sich eine Zukunft vor, in der KI-Systeme einen Großteil der von Menschen ausgeführten Arbeiten übernehmen können. Doch menschliche Arbeitskräfte lesen und hören während ihres Arbeitslebens Hunderte Millionen Wörter – und nehmen noch mehr Informationen aus Sichten, Geräuschen und Gerüchen in ihrer Umgebung auf. Um eine menschenähnliche Intelligenz zu erreichen, müssen KI-Systeme in der Lage sein, ähnlich große Informationsmengen zu verarbeiten und zu verstehen.

Retrieval-Augmented Generation als Zwischenlösung

Derzeit ist die gängigste Methode, um LLM-basierte Systeme mit großen Informationsmengen umgehen zu lassen, die sogenannte Retrieval-Augmented Generation (RAG). Diese Systeme versuchen, für die Anfrage eines Nutzers relevante Dokumente zu finden und fügen dann die relevantesten Dokumente in das Kontextfenster des Sprachmodells ein.

Dies funktioniert manchmal besser als eine herkömmliche Suchmaschine, aber die heutigen RAG-Systeme lassen noch viel zu wünschen übrig. Sie liefern nur dann gute Ergebnisse, wenn das System die relevantesten Dokumente in den Kontext des Sprachmodells einfügt. Der Mechanismus zur Auffindung dieser Dokumente – oft eine Suche in einer Vektordatenbank – ist jedoch nicht sehr ausgeklügelt. Wenn der Benutzer eine komplizierte oder verwirrende Frage stellt, besteht eine hohe Wahrscheinlichkeit, dass das RAG-System die falschen Dokumente abruft und der Chatbot die falsche Antwort liefert.

Zudem ermöglicht RAG es einem Sprachmodell nicht, auf anspruchsvollere Weise über eine große Anzahl von Dokumenten nachzudenken. Einige Beispiele für komplexere Aufgaben, die aktuelle Systeme noch überfordern:

  • Ein Anwalt möchte, dass ein KI-System Hunderttausende von E-Mails überprüft und zusammenfasst.
  • Ein Ingenieur möchte, dass ein KI-System Tausende Stunden Kameraaufnahmen von einem Fabrikboden analysiert.
  • Ein medizinischer Forscher möchte, dass ein KI-System Trends in Zehntausenden von Patientenakten identifiziert.

Jede dieser Aufgaben könnte leicht mehr als 2 Millionen Tokens an Kontext erfordern. Darüber hinaus wollen wir nicht, dass unsere KI-Systeme nach einer solchen Aufgabe wieder bei Null anfangen. Wir möchten, dass sie im Laufe der Zeit Erfahrungen sammeln, genau wie menschliche Arbeitskräfte.

Die Herausforderung: Quadratisch skalierende Rechenkosten

Die zentrale Innovation hinter transformer-basierten Sprachmodellen ist der Aufmerksamkeitsmechanismus (Attention). Diese mathematische Operation ermöglicht es einem Modell, über vorherige Tokens „nachzudenken“. Bevor ein Sprachmodell ein neues Token generiert, führt es eine Attention-Operation durch, die das neueste Token mit jedem vorherigen Token vergleicht. Das bedeutet, dass herkömmliche Sprachmodelle mit wachsendem Kontext immer ineffizienter werden.

Der Rechenaufwand für Attention wächst quadratisch mit der Anzahl der Tokens. Das bedeutet:

  • Die Verarbeitung eines 100-Token-Prompts erfordert 45,6 Millionen Attention-Operationen.
  • Die Verarbeitung eines 1.000-Token-Prompts erfordert 4,6 Milliarden Attention-Operationen.
  • Die Verarbeitung eines 10.000-Token-Prompts erfordert 460 Milliarden Attention-Operationen.

Dies erklärt vermutlich, warum Google für Gemini 1.5 Pro doppelt so viel pro Token berechnet, sobald der Kontext länger als 128.000 Tokens wird. Die Erzeugung des 128.001. Tokens erfordert Vergleiche mit allen 128.000 vorherigen Tokens, was es deutlich teurer macht als die Erzeugung des ersten, zehnten oder hundertsten Tokens.

Ansätze zur Verbesserung der Effizienz

Es wurden bereits zahlreiche Anstrengungen unternommen, um die Effizienz von Attention-Mechanismen zu optimieren. Eine Forschungsrichtung zielt darauf ab, die Effizienz einzelner GPUs zu maximieren.

In einer Reihe von Arbeiten haben der Informatiker Tri Dao von der Princeton University und seine Kollegen FlashAttention entwickelt. Diese Methode berechnet Attention so, dass die Anzahl langsamer Speicheroperationen minimiert wird. Solche Optimierungen haben die Leistung von Transformern auf modernen GPUs dramatisch verbessert.

Ein anderer Forschungszweig konzentriert sich darauf, Attention effizient über mehrere GPUs zu skalieren. Ein häufig zitiertes Paper beschreibt Ring Attention, bei dem Eingabe-Tokens in Blöcke aufgeteilt und jeweils einer anderen GPU zugewiesen werden. Die GPUs sind dabei in einem konzeptionellen Ring angeordnet und geben Daten an ihre Nachbarn weiter.

Ring Attention verteilt Attention-Berechnungen auf mehrere GPUs, was es Sprachmodellen ermöglicht, größere Kontextfenster zu haben. Es macht einzelne Attention-Berechnungen jedoch nicht billiger.

Rekurrente neuronale Netze als Alternative?

Der feste Hidden State eines rekurrenten neuronalen Netzes (RNN) bedeutet, dass es nicht die gleichen Skalierungsprobleme wie ein Transformer hat. Ein RNN benötigt etwa die gleiche Rechenleistung, um sein erstes, hundertstes und millionstes Token zu erzeugen. Das ist ein großer Vorteil gegenüber aufmerksamkeitsbasierten Modellen.

Obwohl RNNs seit der Erfindung des Transformers aus der Mode gekommen sind, versuchen Forscher weiterhin, RNNs zu entwickeln, die sich für das Training auf modernen GPUs eignen.

Im April kündigte Google ein neues Modell namens Infini-attention an. Es ist eine Art Hybrid zwischen einem Transformer und einem RNN. Infini-attention behandelt kürzlich verarbeitete Tokens wie ein normaler Transformer, indem es sie speichert und mit einem Attention-Mechanismus abruft.

Allerdings versucht Infini-attention nicht, jeden Token im Kontext des Modells zu speichern. Stattdessen werden ältere Tokens in einem „komprimierenden Speicher“ gespeichert, der ähnlich wie der Hidden State eines RNN funktioniert. Diese Datenstruktur kann einige wenige Tokens perfekt speichern und abrufen, aber mit zunehmender Anzahl von Tokens wird der Abruf verlustbehafteter.

Mamba: Ein vielversprechender neuer Ansatz

Einer der bemerkenswertesten Versuche, RNNs wiederzubeleben, ist Mamba, eine Architektur, die in einem Paper vom Dezember 2023 vorgestellt wurde. Sie wurde von den Informatikern Tri Dao (der auch an FlashAttention gearbeitet hat) und Albert Gu entwickelt.

Mamba verwendet keinen Attention-Mechanismus. Wie andere RNNs hat es einen Hidden State, der als „Gedächtnis“ des Modells fungiert. Da der Hidden State eine feste Größe hat, erhöhen längere Eingaben nicht die Kosten pro Token für Mamba.

Das Wichtigste ist, dass Mamba das Potenzial hat, transformer-ähnliche Leistung mit der Effizienz herkömmlicher RNNs zu kombinieren.

Im Juni veröffentlichten Dao und Gu zusammen mit Nvidia-Forschern ein Paper, das ein Mamba-Modell mit 8 Milliarden Parametern evaluierte. Sie stellten fest, dass Modelle wie Mamba bei einer Reihe von Aufgaben mit vergleichbar großen Transformern konkurrenzfähig waren, aber „beim kontextbezogenen Lernen und beim Abruf von Informationen aus dem Kontext hinter Transformer-Modellen zurückbleiben“.

Transformer sind gut im Informationsabruf, weil sie jeden Token ihres Kontexts „erinnern“ – das ist auch der Grund, warum sie mit wachsendem Kontext ineffizienter werden. Im Gegensatz dazu versucht Mamba, den Kontext in einen Zustand fester Größe zu komprimieren, was zwangsläufig bedeutet, dass einige Informationen aus langen Kontexten verworfen werden.

Das Nvidia-Team fand heraus, dass sie die beste Leistung mit einer Hybrid-Architektur erzielten, die 24 Mamba-Schichten mit vier Attention-Schichten abwechselte. Dies funktionierte besser als ein reines Transformer-Modell oder ein reines Mamba-Modell.

Ausblick: Wie geht es weiter?

Während die Vorteile längerer Kontextfenster offensichtlich sind, ist die beste Strategie, um dorthin zu gelangen, nicht klar. Kurzfristig werden KI-Unternehmen möglicherweise weiterhin clevere Effizienz- und Skalierungshacks (wie FlashAttention und Ring Attention) einsetzen, um herkömmliche Sprachmodelle zu skalieren. Langfristig könnte das Interesse an Mamba und vielleicht anderen aufmerksamkeitsfreien Architekturen wachsen. Oder vielleicht wird jemand eine völlig neue Architektur entwickeln, die Transformer obsolet macht.

Eines scheint jedoch sicher: Die alleinige Skalierung transformerbasierter Spitzenmodelle wird keine Lösung sein. Wenn wir Modelle wollen, die Milliarden von Tokens verarbeiten können – und viele Menschen wollen das – müssen wir über den Tellerrand hinausdenken und neue Ansätze entwickeln.

Häufig gestellte Fragen (FAQ)

Was sind Tokens in Bezug auf KI-Sprachmodelle?

Tokens sind die grundlegenden Verarbeitungseinheiten in KI-Sprachmodellen. Sie repräsentieren Teile von Wörtern, ganze Wörter oder sogar Satzzeichen. Ein Sprachmodell verarbeitet Text, indem es ihn in diese Tokens aufteilt. Kurze Wörter wie „der“ oder „ist“ werden oft durch einen einzigen Token dargestellt, während längere Wörter in mehrere Tokens aufgeteilt werden können.

Warum ist die Größe des Kontextfensters bei Sprachmodellen wichtig?

Die Größe des Kontextfensters bestimmt, wie viel Text ein Sprachmodell gleichzeitig verarbeiten und „verstehen“ kann. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere Zusammenhänge zu erfassen, längere Dokumente zu analysieren und konsistentere Antworten über läng

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert