Samstag, Mai 4, 2024

Das böse Büro

Uriel Fanellis Blog in deutscher Sprache

Uriel Fanelli

ChatGPT verstehen

Während die Zeitungen und die Pseudointellektuellen versuchen, ChatGPT so zu diskutieren, als wäre es eine „generische“ KI, also fast eine vollständige Person, habe ich mich für einen „aufklärerischen“ Ansatz entschieden und das getan, was die Scharlatane hassen: jemanden, der den Leuten erklärt, wie etwas funktioniert, um den Nebel zu zerstreuen, der normalerweise der Zustand ist, in dem Scharlatane, also Humanisten, wuchern.

Ich übernehme die gewaltige Aufgabe, auf Kosten der Präzision einigermaßen „verständlich“ zu erklären, wie ChatGPT funktioniert und auf welcher „Mathematik“ es basiert. Dies dient auch dazu, die Dummheit zu verstehen, mit der ihr vorgeworfen wird, ein „stochastischer Papagei“ zu sein, und ich möchte, dass Sie verstehen, was ich meine, wenn ich zusammen mit anderen Experten sage: „Es ist ein sprachliches Modell“.

Ich werde daher versuchen zu erklären, wie ein „Transformer“ funktioniert, und dann werden wir ein Experiment mit der kostenlosen Version durchführen, die Version 3.5 implementiert, um zu versuchen, mit einem „Experiment“ die Frage zu beantworten: „Aber ChatGPT versteht was.“ es läutet?".


Beginnen wir mit den Transformatoren, einem Konzept (oder, wenn wir wollen, einem „Algorithmus“), das Google vor einigen Jahren erfunden hat.

Es geht darum, eine enorme Menge Text zu nehmen und ihn in eine Matrix, also in eine Tabelle, umzuwandeln.

Zusammenfassend besteht ein Transformer aus zwei Hauptteilen: dem Encoder und dem Decoder.

Der Encoder nimmt eine Folge von Wörtern als Eingabe und „kodiert“ sie mithilfe mehrerer Aufmerksamkeitsebenen in ein Vektorformat (numerische Darstellung). Aufmerksamkeit ist eine Technik, die es dem Netzwerk ermöglicht, sich auf die wichtigen Teile der Eingabe zu konzentrieren, um Informationen zu verarbeiten. Der Encoder erzeugt eine numerische Darstellung der Wörter, die ihren Kontext innerhalb des Satzes berücksichtigt.

Der Decoder wiederum nimmt diese numerische Darstellung als Eingabe und generiert daraus eine neue Wortfolge (z. B. eine Übersetzung in eine andere Sprache). Der Decoder verwendet außerdem mehrere Aufmerksamkeitsebenen, um herauszufinden, welche Teile der Zahlendarstellung für die Generierung der neuen Wortfolge am wichtigsten sind.

In der Praxis wird ein Transformer auf große Mengen an Eingabe- und Ausgabedaten trainiert, damit er lernen kann, die numerischen Darstellungen der Eingabe denen der Ausgabe zuzuordnen. Sobald es trainiert ist, kann es verwendet werden, um aus neuen Eingaben neue Ausgabesequenzen zu generieren.

Nehmen wir ein konkretes Beispiel: das Wort „Hund“.

Nehmen wir an, wir wollen die semantische Bedeutung des Wortes „Hund“ durch einen dichten numerischen Vektor darstellen.

Eine der gebräuchlichsten Techniken zum Aufbau einer semantischen Einbettung ist das Trainieren eines Word2Vec-Modells auf einem großen Textkorpus. In diesem Modell wird jedes Wort als dichter Zahlenvektor einer bestimmten Größe dargestellt, sodass semantisch ähnliche Wörter ähnliche Vektoren haben.

https://it.wikipedia.org/wiki/Word2vec

Beispielsweise könnten wir ein Word2Vec-Modell auf einem Textkorpus trainieren, der aus Bewertungen von Haustierprodukten besteht. Während des Trainings analysiert das Modell den Kontext, in dem jedes Wort erscheint, und versucht, Vektoren zu finden, die die semantischen Beziehungen zwischen Wörtern erfassen.

Das Modell könnte einen dichten Zahlenvektor für das Wort „Hund“ trainieren, der große Werte für semantisch relevante Dimensionen wie „Tier“, „Haustier“, „Vertrauen“, „treu“, „Freund“ usw. aufweist. Auf diese Weise stellt der Vektor kompakt und vereinfacht die semantische Bedeutung des Wortes „Hund“ dar.

Wenn wir beispielsweise die Wörter „Hund“ und „Katze“ betrachten, könnte das Word2Vec-Modell zwei ähnliche Vektoren für diese Wörter trainieren, da beide Haustiere sind und einige Merkmale gemeinsam haben, aber einige Dimensionen aufweisen, die die beiden Tiere unterscheiden, wie zum Beispiel „ „Miauen“ und „Kratzen“ für die Katze und „Bellen“ und „Schwanzwedeln“ für den Hund.

Auf diese Weise stellt die numerische Einbettung die semantische Bedeutung des Wortes „Hund“ auf kompakte Weise dar und kann als Eingabe für ein Transformer-Modell zur Durchführung von NLP-Aktivitäten wie Stimmungsanalyse, maschineller Übersetzung, Textgenerierung usw. verwendet werden .

Ich schätze, du verstehst den Scheiß nicht. Wir versuchen also, eine Box unseres Modells zu beschreiben, indem wir das Modell mit einer Tabelle darstellen. Die Beschreibung, die am besten funktioniert, ist diese:

Jedes Feld dieser Grafik enthält ein zentrales Wort und eine Liste damit verbundener Konzepte. Und jede Box hat Beziehungen unterschiedlicher Art (synonym, gegensätzlich, analog, ähnlich, vulgärer, raffinierter, raffinierter usw.) zu anderen Boxen.

Dieser Vorgang wird als „Einbettung“ der Eingabe bezeichnet. Die Größe der Wörter wird durch die sogenannte „Aufmerksamkeit“ bestimmt.


Im „einfachen“ Fall, dem der Übersetzung, wird der zu übersetzende Text in seine „Einbettung“ umgewandelt und dann an einen Transformator gesendet, der die Zielsprache gelernt hat und nach BEIDE entsprechenden Kästchen sucht (es wird davon ausgegangen, dass die Hunde Rinde auch in Deutschland usw.) und die „Beziehungen“ zwischen Boxen (Synonym, Gegenteil usw. usw.).

Es gibt also drei Phasen: Eingabe, Einbettung, Ausgabe. Im Pseudocode könnten wir Folgendes sagen:


Encoderfunktion (Eingang):
Einbettung = generic_embedding(Eingabe)
Ausgabe = Einbettung
für jede Ebene in der Ebenenliste:
Ausgabe, _ = list_of_important_things(output)
Ausgabe = map_to_target_embedding(Ausgabe)
Ausgabe zurückgeben

Ich verwende seine Worte auf „wichtige Dinge“ (oder auf Selbstaufmerksamkeit): Sie wissen genau, dass „Hund beißt Mann“ weniger „Neuigkeiten“ ist als „Mann beißt Hund“. Informationstheoretisch gesehen geschieht dies, weil eines der beiden Symbole seltener ist als das andere. Wenn wir von „Aufmerksamkeit“ sprechen, meinen wir die Idee, die wichtigsten Teile eines Textes zu finden und von diesen auszugehen.

Wenn Sie also etwas vom Italienischen ins Englische übersetzen möchten, erstellt ChatGPT letztendlich eine Einbettung Ihres Textes, vergleicht ihn mit der Einbettung der gelernten Sprache (die Einbettung einer übermenschlichen Textmenge) und am Ende Es führt die gleiche Einbettung der wichtigen Dinge im Diagramm der Zielsprache durch.


Nun kommen wir zur Vexata Quaestio:

„Versteht“ ChatGPT, was es liest?

Um ihn beurteilen zu können, kaufte ich einen Text, dessen Autor ich bin (kurz: die Person, die am besten beurteilen kann, ob er es verstanden hat), und stellte ihm eine „seltsame“ Bitte:

Dies ist der Text, den ich ihm vorgeschlagen habe:

An diesem Punkt bat ich ihn, etwas Bizarres zu tun:

Wie Sie sehen, hat er offenbar eine Antwort gegeben, die damit nichts zu tun hat. Er ignorierte Roboter, Genetik, Chromosomen, die sprechende Person, den Kontext und fügte hinzu, was er über diesen Artikel verstand. Interessant.

Kurz gesagt, ich habe darum gebeten, nur die Einbettung (die uns verstand) ohne den sprachlichen Teil darzustellen.

Als Autor muss ich sagen, dass es ihm nichts ausgemacht hat.

Aber ich würde nicht die Wahrheit sagen. Nicht alle. Denn was ich vertrat, war eine Person, die einen extrem schwierigen und harten Job macht, der so weit geht, dass er übermenschliche Fähigkeiten, fast Superkräfte und eine radikale Transformation braucht, nur um zu überleben.

Der Motivationszuhälter passt also: Ich habe MICH gebeten, den Kontext und den sprachlichen Teil zu ignorieren. Ich konnte nicht erwarten, den Kontext (der Protagonist läuft im Regen in einer rauen Gegend) oder die Worte zu finden. Anscheinend scheint er einen abstrakten Klumpen zukünftiger Herausforderungen und Entwicklungen herausgefunden zu haben, Verbindungen aus der Geschichte seiner Kollegen extrahiert und diese dann angewendet zu haben, indem er den motivierenden Zuhälter erhalten hat.

ME hatte darum gebeten, den vorherigen Text zu ignorieren, und konnte daher keine Textkonsistenz erwarten.

Aber in Bezug auf die Abstraktion nahm er einen Menschen wahr, der in einer hochentwickelten Zukunftswelt lebt und der sich entwickelt hat, um zu überleben, der Kollegen hat, die stattdessen jeden Tag sterben, der aber eine Arbeit ist, die erledigt werden muss usw. usw. usw.

Ich kann nicht ausschließen, dass er „verstanden“ hat: in dem Sinne, dass Chatbots normalerweise versuchen, einige Parameter wie „Sentiment“, „Absicht“ und „Kontext“ zu identifizieren. Und wenn ich diese beiden Dinge isoliere und viel abstrahiere, könnte die Antwort der motivierende Zuhälter sein, den ich bekommen habe.

Ich habe den Test mit meinen anderen Schriften wiederholt und muss sagen, dass ich Sie in Bezug auf die Abstraktion nicht ausschließen kann, wenn die „Übersetzung“ nichts mit dem ursprünglichen Text zu tun hat (aber ich habe darum gebeten, die eingegebenen Wörter vollständig zu ignorieren). betrachten eine sehr ausgefeilte Darstellung von „Gefühl“ und „Absicht“.(1)

Dies sind Experimente „metaphysischer“ Art in dem Sinne, dass man sich fragen muss:

  1. Was habe ich geschrieben? (eine kurze Charaktereinführung)
  2. Was wollte ich schreiben? (Ich wollte den „Kampf“, den Kampf, die existentielle Herausforderung dieser Figur beschreiben)
  3. Wie viel kann ich aus diesem Text herausholen, bevor er nicht mehr das ist, was er ist?

Es scheint, dass die Antwort auf die zweite Frage irgendwie „bleibt“, selbst wenn ich die Relevanz für den Text entferne.

Die Frage „Wie gut versteht ChatGPT Text?“ hat aus meiner Sicht also ZWEI mögliche Antworten:

  1. Er versteht überhaupt nichts.
  2. Er versteht viel mehr, als andere Leser normalerweise verstehen.

Natürlich können Sie auch versuchen, ihn dazu zu bringen, Dinge zu lesen, die Sie geschrieben haben, sodass Sie, wenn Sie wissen, was Sie schreiben wollten, am besten beurteilen können.

Zuerst werden Sie sich fragen: „Was ist los?“, aber dann werden Sie darüber nachdenken und sich wundern.


Darüber schwebt ein Problem der Definition von künstlicher Intelligenz.

Man könnte es als die Wissenschaft vom Bau von Maschinen beschreiben, die in der Lage sind, menschliches Verhalten in Bereichen nachzuahmen, die wir „natürliche Intelligenz“ nennen.

Diese Vision ist meiner Meinung nach äußerst mechanistisch. Wir sagen: „Hey, hier ist die Sprache, in ihrer hübschen kleinen Schachtel, und hier ist die Vision.“ Es sind zwei verschiedene Boxen.“

Nach dieser Theorie sehen wir das Sofa zunächst als Objekt, als Phänomen oder als Erfahrung beim Sehen des Sofas. Dann kommt das andere kleine Kästchen, die Sprache, und gibt ihr einen Namen.

Diese Lektüre ist praktisch, wenn Sie Maschinen bauen, bei denen jede Funktion einer Komponente zugeordnet ist. Und die Existenz der Komponenten hat keine Nebenwirkungen.

Das Problem entsteht, wenn, wie wir sehen, großartige Sprachmodelle „Nebenwirkungen“ haben, die wir von anderen Modellen erwarten.

Meine persönliche Vermutung ist folgende:

Vielleicht wurde die Bedeutung der Sprache für den Aufbau der Intelligenz und für das allgemeine Funktionieren der menschlichen Intelligenz bisher unterschätzt. Und so ist alles, was ChatGPT mithilfe der Sprache nicht erwartet, nur deshalb erstaunlich, weil wir zuvor die Bedeutung der Sprache unterschätzt haben.

Nehmen wir zum Beispiel das Phänomen der „Halluzinationen“, das bei ChatGPT auftritt. Man könnte meinen, das sei unerwartet. Es sollte nur die Sprache machen. Das heißt, es wird angenommen, dass bloße Sprache natürliche Grenzen hat, die „Halluzinationen“ ausschließen würden.

Das Problem besteht jedoch darin, dass die Sprache Folgendes ermöglicht:

  1. Hypothesen aufstellen, also Dinge beschreiben, die wir nicht wahrnehmen.
  2. Die Zukunft beschreiben, die wir noch nicht wahrnehmen.
  3. Die Vergangenheit beschreiben, die wir nicht mehr wahrnehmen.
  4. Dinge beschreiben, die es nicht gibt, zum Beispiel: ein Einhornrisotto.

und dabei stoßen wir auf KEINE natürlichen Beschränkungen, die der Sprache selbst innewohnen.

Deshalb macht es keinen Sinn, sich darüber zu wundern, dass ChatGPT „Halluzinationen“ haben kann: Es stellt keine Verletzung einer Grenze dar, denn die Sprache als Funktion ermöglicht es Ihnen, solche zu haben, und ich möchte betonen, dass das „Aufstellen von Hypothesen“ ebenfalls äußerst wichtig ist Funktion im menschlichen Denken.

Warum hat jemals jemand gedacht, dass es als ChatGPT-Sprachmodell einige Einschränkungen von der Sprache erben sollte , die die Sprache NICHT hat?

Meiner Meinung nach überschätzen wir ChatGPT einfach deshalb, weil wir die Leistungsfähigkeit der sprachlichen Funktion des menschlichen Gehirns unterschätzt haben. Und wenn die sprachliche Funktion zufällig für unsere Denkfähigkeit von zentraler Bedeutung wäre, könnten wir zu dem Schluss kommen oder zu der erschreckenden Entdeckung, dass wir nicht nur eine geschlossene Box mit der Aufschrift „Sprache“ nachahmen, sondern eine sehr offene Box , das sich mit anderen vermischt und vielleicht viel mehr von unserem „Denken“ hervorbringt, als wir dachten.

Wenn sich beispielsweise „Sprache“ und „Sehen“ überschneiden, könnte es passieren, dass wir einen Gegenstand, den wir „Sofa“ nennen, nicht sehen, sondern dass wir tatsächlich ein Sofa im sprachlichen Sinne des Begriffs sehen.

Zu sagen, dass künstliche Intelligenz die Wissenschaft vom Bau von Maschinen ist, die einzelne „intelligente“ und abgegrenzte Funktionen des menschlichen Gehirns nachahmen, hat eine Grenze, nämlich die Tatsache, dass es möglicherweise keine Gehirnfunktionen gibt, die im Vergleich zu den anderen wirklich abgegrenzt sind.

(1) Das könnte Sie interessieren: https://ieeexplore.ieee.org/abstract/document/9441740

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert