OpenAI wirft mit neuen Forschungsergebnissen einen Blick in die „Black Box“ neuronaler Netze

Benj Edwards – 11. Mai 2023 21:25 Uhr UTC

Am Dienstag veröffentlichte OpenAI ein neues Forschungspapier, in dem eine Technik beschrieben wird, die sein GPT-4-Sprachmodell verwendet, um Erklärungen für das Verhalten von Neuronen in seinem älteren GPT-2-Modell zu schreiben, wenn auch unvollkommen. Es ist ein Fortschritt für die „Interpretierbarkeit“, einem Bereich der KI, der erklären soll, warum neuronale Netze die von ihnen erzeugten Ergebnisse erzeugen.

Während große Sprachmodelle (LLMs) die Technologiewelt erobern, wissen KI-Forscher noch immer nicht viel über ihre Funktionsweise und Fähigkeiten unter der Haube. Im ersten Satz des OpenAI-Artikels schreiben die Autoren: „Sprachmodelle sind leistungsfähiger geworden und werden häufiger eingesetzt, aber wir verstehen nicht, wie sie funktionieren.“

Für Außenstehende klingt das wahrscheinlich nach einem verblüffenden Eingeständnis eines Unternehmens, das nicht nur auf Einnahmen aus LLMs angewiesen ist, sondern diese auch auf ein übermenschliches Maß an Denkfähigkeit bringen möchte.

Aber diese Eigenschaft, nicht genau zu wissen, wie die einzelnen Neuronen eines neuronalen Netzwerks zusammenarbeiten, um seine Ergebnisse zu erzeugen, hat einen bekannten Namen: die Black Box. Sie füttern das Netzwerk mit Eingaben (wie eine Frage) und erhalten Ausgaben (wie eine Antwort), aber was dazwischen (innerhalb der „Black Box“) passiert, ist ein Rätsel.

Um einen Blick in die Black Box zu werfen, nutzten Forscher von OpenAI ihr GPT-4-Sprachmodell, um Erklärungen in natürlicher Sprache für das Verhalten von Neuronen in einem weitaus weniger komplexen Sprachmodell wie GPT-2 zu generieren und auszuwerten. Im Idealfall würde ein interpretierbares KI-Modell dazu beitragen, das umfassendere Ziel dessen zu erreichen, was manche als „KI-Ausrichtung“ bezeichnen, nämlich sicherzustellen, dass sich KI-Systeme wie beabsichtigt verhalten und menschliche Werte widerspiegeln. Und durch die Automatisierung des Interpretationsprozesses versucht OpenAI, die Einschränkungen der traditionellen manuellen menschlichen Inspektion zu überwinden, die für größere neuronale Netze mit Milliarden von Parametern nicht skalierbar ist.

Die Technik von OpenAI „versucht zu erklären, welche Muster im Text die Aktivierung eines Neurons bewirken.“ Seine Methodik besteht aus drei Schritten:

Um zu verstehen, wie die Methode von OpenAI funktioniert, müssen Sie einige Begriffe kennen: Neuron, Schaltkreis und Aufmerksamkeitskopf. In einem neuronalen Netzwerk ist ein Neuron wie eine winzige Entscheidungseinheit, die Informationen aufnimmt, verarbeitet und ein Ergebnis erzeugt, genau wie eine winzige Gehirnzelle, die auf der Grundlage der empfangenen Signale eine Entscheidung trifft. Ein Schaltkreis in einem neuronalen Netzwerk ist wie ein Netzwerk miteinander verbundener Neuronen, die zusammenarbeiten, Informationen weitergeben und gemeinsam Entscheidungen treffen, ähnlich wie eine Gruppe von Menschen, die zusammenarbeiten und kommunizieren, um ein Problem zu lösen. Und ein Aufmerksamkeitskopf ist wie ein Scheinwerfer, der einem Sprachmodell dabei hilft, bestimmte Wörter oder Teile eines Satzes stärker zu beachten und so wichtige Informationen bei der Textverarbeitung besser zu verstehen und zu erfassen.

Durch die Identifizierung spezifischer Neuronen und Aufmerksamkeitsköpfe innerhalb des Modells, die interpretiert werden müssen, erstellt GPT-4 für Menschen lesbare Erklärungen für die Funktion oder Rolle dieser Komponenten. Es generiert auch einen Erklärungswert, den OpenAI als „ein Maß für die Fähigkeit eines Sprachmodells, Neuronenaktivierungen mithilfe natürlicher Sprache zu komprimieren und zu rekonstruieren“ bezeichnet. Die Forscher hoffen, dass der quantifizierbare Charakter des Bewertungssystems messbare Fortschritte dabei ermöglicht, Berechnungen neuronaler Netze für den Menschen verständlich zu machen.

Wie gut funktioniert es also? Im Moment ist es nicht so toll. Während des Tests stellte OpenAI seine Technik einem menschlichen Auftragnehmer gegenüber, der ähnliche Bewertungen manuell durchführte, und stellte fest, dass sowohl GPT-4 als auch der menschliche Auftragnehmer „in absoluten Zahlen schlecht abschnitten“, was bedeutet, dass die Interpretation von Neuronen schwierig ist.

Eine von OpenAI vorgebrachte Erklärung für dieses Versagen ist, dass Neuronen möglicherweise „polysemantisch“ sind, was bedeutet, dass das typische Neuron im Kontext der Studie mehrere Bedeutungen aufweisen oder mit mehreren Konzepten verbunden sein kann. In einem Abschnitt über Einschränkungen diskutieren OpenAI-Forscher sowohl polysemantische Neuronen als auch „Alien Features“ als Einschränkungen ihrer Methode:

Darüber hinaus können Sprachmodelle fremde Konzepte darstellen, für die Menschen keine Worte haben. Dies könnte passieren, weil sich Sprachmodelle um verschiedene Dinge kümmern, z. B. statistische Konstrukte, die für Aufgaben zur Vorhersage des nächsten Tokens nützlich sind, oder weil das Modell natürliche Abstraktionen entdeckt hat, die der Mensch noch nicht entdeckt hat, z. B. eine Familie analoger Konzepte in unterschiedlichen Bereichen.

Weitere Einschränkungen bestehen darin, dass sie rechenintensiv sind und nur kurze Erklärungen in natürlicher Sprache bereitstellen. Aber OpenAI-Forscher sind immer noch optimistisch, dass sie einen Rahmen sowohl für die maschinelle Interpretierbarkeit als auch für die quantifizierbaren Mittel zur Messung von Verbesserungen der Interpretierbarkeit geschaffen haben, wenn sie ihre Techniken in der Zukunft verbessern. Mit der Weiterentwicklung der KI-Modelle hoffen OpenAI-Forscher, dass sich die Qualität der generierten Erklärungen verbessert und bessere Einblicke in die interne Funktionsweise dieser komplexen Systeme bietet.

OpenAI hat sein Forschungspapier auf einer interaktiven Website veröffentlicht, die Beispielaufschlüsselungen für jeden Schritt enthält und hervorgehobene Teile des Textes und ihre Entsprechung zu bestimmten Neuronen zeigt. Darüber hinaus hat OpenAI den Code „Automatisierte Interpretierbarkeit“ und seine GPT-2 XL-Neuronen und Erklärungsdatensätze auf GitHub bereitgestellt.

Wenn sie jemals genau herausfinden, warum sich ChatGPT etwas ausdenkt, wird sich die ganze Mühe lohnen.