Sonntag, April 28, 2024

Das böse Büro

Uriel Fanellis Blog in deutscher Sprache

Uriel Fanelli

Wozu dient ChatGPT?

In der Diskussion mit einer Art chronischem Humanisten (in Italien gibt es keine humanistische Kultur, sondern nur eine antiwissenschaftliche Kultur) kam eines heraus. Wie es viele tun, unterziehen sie eine Maschine mit einem bestimmten Design stichprobenartigen Tests und sagen dann: „Sehen Sie? Es schlägt fehl." Es ist, als hätten sie eine Spülmaschine genommen, dunkle Kleidung hineingelegt und sich dann beschwert, weil die dunkle Kleidung nicht gewaschen werden konnte.

Das Problem beim Lesen „generativer“ KI besteht im Wesentlichen darin, dass sich bisher niemand gefragt hat, wofür sie entwickelt wurden . Wofür wurden sie geboren? Warum"? Warum Maschinen sprechen lassen?

Hier stoßen wir auf ein im Wesentlichen kommerzielles Problem. Wir wissen, wie man Maschinen baut, mit denen man alles erledigen kann, und Maschinen, mit denen man vieles automatisieren kann, aber das Problem ist, dass man für deren Einsatz spezialisiertes Personal braucht. Das Problem ist nicht die Komplexität der Aufgabe, lassen Sie uns das klarstellen. Viele Betreiber einer Lackiererei sind sich nicht sicher, warum die Farbe trocknet und klebt: Dafür braucht es einen Chemiker.

Das Problem ist die Schnittstelle. Es handelt sich um ein kybernetisches und ergonomisches Problem, also um ein Problem der Beziehung zwischen Mensch und Maschine. Und der Grund, warum sich Maschinen nur schwer verbreiten können, ist genau dieser: Die Schnittstellen erlauben nur zumindest minimal qualifizierten Personen die Nutzung.

Nehmen wir ein Beispiel. Ein Auto, das selbst fährt.

Wie wird es deiner Meinung nach funktionieren? Wie fordert man das Auto auf, zu einem bestimmten Ort zu fahren?


Sie kommen also in Tokio an. Verlassen Sie den Bahnhof und nehmen Sie dann ein selbstfahrendes Taxi. Wie bedienen Sie es genau?

Du steigst ins Taxi und … du sagst, du suchst nach etwas, das wie ein Tablet aussieht, weil du denkst, dass es einen Navigator gibt. Du. Meine Mutter sieht stattdessen ein Quadrat aus Glas in einem Auto mit einer seltsamen Form. Ohne Lenkrad. Und er hat noch nie ein Navi benutzt. Wie benutzt man? Was sollte er tun?

Aber ein selbstfahrendes Auto ist so gebaut, dass es im Idealfall von jedem genutzt werden kann, auch ohne Führerschein. Wie ein Taxi. Also?

Das Problem ist folgendes: Ihnen fehlt eine Schnittstelle. Dir fehlt eine Schnittstelle zwischen Dir und dem Auto. Nehmen wir aber auch an, dass Sie schon einmal einen Navigator benutzt haben. Du bist in Japan. Kannst du Japanisch? Jemand von euch. Aber nicht alles. Und wie benutzt man ein Tablet auf Japanisch?

Wenn Sie ähnliche Dinge bereits installiert haben, erwarten Sie einen Begrüßungsbildschirm, auf dem Sie die Sprache auswählen können. Aha. Es stehen lediglich 80 Sprachen zur Auswahl, dargestellt durch eine Flagge. Und Sie kennen alle Flaggen der Welt. Real? Aber Sie kennen Ihre, könnte man sagen. Kommt darauf an. Vieles irrt zwischen Italien und Mexiko, manches zwischen Italien und Ungarn. Nehmen wir an, Sie landen nicht auf Ungarisch.

An diesem Punkt müssen Sie die Sprache auswählen und hoffen, dass Italienisch verfügbar ist (in Deutschland ist Türkisch in Verkaufsautomaten bereits häufiger als Italienisch), und danach … viel Glück bei der Verwendung eines japanischen Navigators. Vielleicht bist du gut. Vielleicht nicht.

Es ist ein großes Problem. Die Schnittstelle ist scheiße.

Oder sprechen Sie mit dem Taxi. Einfach. So, als ob es einen Taxifahrer gäbe.

„Bringen Sie mich zur Via Kentaro Miura, 666“. Und dann kommt etwas, das wie ChatGPT Ihnen zuhört, versteht, welche Sprache Sie sprechen, versteht, was Sie wollen, und es an eine Maschine weiterleitet.

Was Sie gerade gesehen haben, ist eine Mensch-Maschine-Schnittstelle.

Natürlich wäre es schön, wenn das Taxi antworten würde: „Ich verstehe, dass Sie zur Via Kentaro Miura, 666, fahren möchten, ist das richtig?“ Und wenn Sie mit „Ja“ antworten, fährt das Taxi los.

Sie haben eine noch bessere Mensch-Maschine-Schnittstelle gesehen.

Nehmen wir nun an, dass es zwei Kentaro-Miura-Routen gibt. Eines in Tokio und eines in Hiroshima. Das Auto versteht möglicherweise nicht, wohin Sie genau wollen. Damit er Sie fragen kann: „Meinen Sie die Kentaro-Miura-Straße in Tokio oder die in Hiroshima?“

In diesem Fall noch bessere Schnittstelle.

Unser selbstfahrendes Auto besteht aus zwei Komponenten: einem Teil, den ich Schnittstelle nenne, und einem Teil, den ich „Geschäftslogik“ nenne, der für die Ausführung von Hilfsfunktionen verantwortlich ist. (Das Konzept wurde in den Wirtschaftswissenschaften geboren, aber jetzt wird es auch in der Robotik verwendet).

Wie Sie vielleicht denken, besteht die Funktion einer dieser Maschinen darin, eine eingegangene Bestellung zu verstehen. Ausgehend von der Idee, dass jeder, der einen Befehl erteilt, dafür sorgt, dass er verstanden wird.

Hören Sie zu und verstehen Sie. Deshalb hat es, wie gesagt, diese „Supermacht“.

Die Fähigkeit, in Zukunft über sprechende Objekte zu verfügen, hängt von dieser Art von Anwendungen ab. Sie könnten zum Beispiel den Kühlschrank fragen, ob er Salat enthält. Ohne es zu öffnen. Sie könnten das Auto bitten, Sie irgendwohin zu bringen. Sie könnten an einer Säule am Bahnhof, am Flughafen usw. nach Informationen fragen.

Die Grenze für den Verkauf intelligenter Objekte, die wir beobachten, besteht darin, dass keine Mensch-Maschine-Schnittstelle ohne gewisses Fachwissen funktioniert.

Für junge Menschen scheinen sie vielleicht offensichtliche Fähigkeiten zu sein, aber das ist nicht immer der Fall.

Meine Mutter mochte meinen Roboter, der den Boden wäscht und fegt, sehr. Doch als ich ihr erzählte, dass die Bedienung und Verwaltung über eine App erfolgt, trat sie einen Schritt zurück. Es gefällt ihr sehr, dass mein Auto sich daran erinnert, wie ich es konfiguriert habe, und wenn sie die Passagiere wechselt, ist es wieder so, wie es vorher war. Über den Bordbildschirm wäre ihm das aber nicht möglich.

Das ist der Punkt: Für eine neue Generation von Maschinen brauchen wir eine neue Generation von Schnittstellen. Leicht gesagt, nicht leicht gemacht.

Erstens: Wie stellen wir sicher, dass unsere Maschine unsere Anfrage versteht? Wir können zwei Tests durchführen:

  1. Wir verwenden einen Chatbot und prüfen, ob unser Gerät zugehört und empfangen hat, da wir überprüfen, ob die Antwort kompatibel ist.
  2. Wir verwenden Software, die Bilder generiert, um zu sehen, ob und wie sehr sie das darstellen, was wir beschrieben haben.

Der nächste Schritt besteht darin, den Transformator Einbettungen erstellen zu lassen, die statt zu einem Chatbot zu einem Auto, zu einem Roboter zum Reinigen von Böden, zu einem Smart House, zu einer Maschine in einer Fabrik usw. gehen.

Warum'? Denn das ist eine Schnittstelle , die jeder Mensch nutzen kann. Da wir es auf spektakuläre Weise versäumt haben, jedem Menschen den Umgang mit Maschinen beizubringen, bringen wir Maschinen den Umgang mit der Sprache der Menschen bei.


Aus diesem Grund wurden Chatbots geboren, und heute kommen LLMs auf den Markt. Sie werden zunehmend als Schnittstelle zu anderen Maschinen verwendet, die Dinge tun. Lassen Sie uns zunächst über Chatbots und Systeme sprechen, die Bilder produzieren. In Zukunft werden sie die Objekte sein, mit denen wir sprechen. „Duschtemperatur senken“ ist ein Beispiel für eine Schnittstelle zwischen Ihnen und dem Wasserhahn. Ein LLM wird verstehen, was Sie meinen, und dies auf den Wasserhahn übertragen, der dann das Wasser reguliert.

Aus diesem Grund wird mit einem immensen Markt gerechnet: Bisher scheiterten alle Systeme, die häufig genutzte Objekte automatisieren wollten, am Fehlen einer wirklich für jedermann nutzbaren Schnittstelle. Um ein Beispiel zu nennen: Niemand wird jemals selbstfahrende Autos bauen , bis es einfach und effektiv ist, jedem die Nutzung zu ermöglichen. Und jeder muss es benutzen, sonst kommt der Blinde, der die Konsole nicht gut sehen kann, oder der Gehörlose, der seine Stimme nicht hören kann, und verklagt Sie auf Schadensersatz, weil Sie das Taxi verpasst haben. Oder sie beschweren sich über Diskriminierung.

Das heißt, es gibt einen Engpass, der verhindert, dass die Objekte in Ihrem Zuhause intelligent werden, und zwar die Schnittstelle zum Benutzer.

Die Sprache, die wir normalerweise sprechen, ist mit ihrer Fähigkeit, Dinge zu beschreiben, auch sehr visuelle, die perfekte Schnittstelle. Die Einsatzmöglichkeiten sind endlos.

Der Zweck eines Sprachmodells besteht also nicht so sehr darin, mit Ihnen zu sprechen, zu chatten oder Bilder von Ihnen zu machen, sondern darin, die Sprache so zu manipulieren, dass Sie eine klare Aktion ausführen können.

Und das ist der Punkt: Zu testen, ob ChatGPT tatsächlich, ich weiß nicht, einen Satz für Ihre Klassenaufgabe lösen kann, ist nicht die Aufgabe von ChatGPT. Dafür ist es nicht gebaut. Sie bitten einen Geschirrspüler, den Boden zu reinigen. Er wird nicht'.

Es muss in der Lage sein, eine große Anzahl verschiedener Anfragen zu verstehen und alles, was chatGPT kann. Und deshalb hat man immer den Eindruck, einem zugehört zu haben: Es ist notwendig, zu interagieren.


Dies erklärt, warum es sich um ein Sprachmodell handelt: Es gibt viele Arten von KI. Im Fall des Autos hätten Sie ein KI-Modell, um herauszufinden, wohin Sie wollen, und ein KI-Modell (mit völlig unterschiedlichen Spezifikationen), um das Auto zu fahren. Beide sind KI. Aber Sie wollen nicht mit dem reden, der die Drehung der Räder steuert.

Kurz gesagt, ergonomisch gesehen handelt es sich um eine Schnittstelle, wie das Lenkrad und der Schalthebel am Auto oder der Knopf an der Waschmaschine: Sie benötigen sie, um sicherzustellen, dass sich die Maschine so verhält, wie Sie es von ihr verlangt haben. Fragen Sie sie einfach in natürlicher Sprache. Sprechen oder schreiben.

Sie können sich nur vorstellen, wie viele Anwendungsmöglichkeiten dieses Ding hat.

Gab es Ähnliches? Ja'. Manche sagen, dass das erste Werkzeug, das jemals erfunden wurde, eine Krücke war. Und vielleicht hat er recht. Denn es gab bereits erste Experimente mit Mensch-Maschine-Schnittstellen, die verstehen, was ein Mensch meint.

Stephen Hawking hat eine wunderbare Botschaft im Leiden der Depression - Business Insider

Stephen Hawkins brauchte sie zur Kommunikation.

Dies ist ein extremes Beispiel, aber es hilft zu verstehen, dass Kommunikation und Interaktion zwischen Mensch und Maschine ein komplexes, aber sehr nützliches Feld sind. Die Maschinen, die Hawkins die Kommunikation ermöglichten, konnten die Muskeln eines nicht verkümmerten Wangenmuskels verstehen. Es ist ein extremes Beispiel.

Aber irgendwann verschlimmerte sich die Krankheit und er hatte auch damit enorme Schwierigkeiten. Zu diesem Zeitpunkt entwickelte Intel zusammen mit Swiftkey ein „vorhersagendes“ System, für das Hawkins nur wenige Kontraktionen benötigte, um den Satz zu konstruieren. Damals war er ein „einfacher“ Markovianer.

Aber es reichte aus, um die Schnittstelle zwischen Mensch und Maschine zu sein, die Hawkins brauchte.


Was ist in der Zwischenzeit passiert? Was passiert ist, ist, dass ein Internet, das nach Inhalten als Ware hungert, erkannt hat, dass wir die Investition tatsächlich zurückzahlen werden, noch bevor die Neuheit ihr Ziel erreicht, wenn wir ein LLM mit einem Chatbot oder einem Programm verbinden, das Bilder produziert. Das Internet ist hungrig nach Inhalten.

Und hier kommt die entsetzte Reaktion einiger Kategorien. Und die wahrscheinlich größte technikfeindliche Bewegung der Geschichte hat begonnen. Denn für Ned Lud ist es eine Sache, den automatischen Webstuhl zu zerstören. Doch in diesem Moment war dem Maler die Situation egal. Sein Tempel war nicht in Gefahr.

Jetzt ist er in Gefahr.


Aber das war nicht gewollt: Es ist eine Nebenwirkung. Und unerwartet. Wenn Sie sich erinnern, war zum Zeitpunkt der Veröffentlichung von ChatGPT das „nächste große Ding“, über das alle sprachen, das Metaverse. Nicht die KI. Elon Musk hatte OpenAI sogar verlassen.

Aber kehren wir zurück zu den Sprachmodellen. Was müssen sie tun?

Sie müssen das, was Sie sagen, irgendwie auffangen und an eine andere Maschine weitergeben. Scheint einfach. Hier kommt der Transformer ins Spiel, eine ursprünglich von Google entwickelte Technologie. Die Aufgabe des Transformers besteht darin, Ihre Worte in eine „Einbettung“ umzuwandeln.

Eine Einbettung ist ein numerischer Vektor, der ein Wort oder Token innerhalb eines Satzes darstellt. In einem Transformer wird die Einbettung mithilfe einer Einbettungsmatrix erzeugt, die jedem Wort oder Token einen dichten numerischen Vektor einer bestimmten Größe zuweist.

Wenn ein Satz in den Encoder eingegeben wird, wird jedes Wort oder Token durch seine Einbettung dargestellt. Diese Einbettungen werden dann über mehrere Aufmerksamkeitsebenen verarbeitet, wodurch sich das Netzwerk auf die für die Verarbeitung relevantesten Teile des Satzes konzentrieren kann.

Im Wesentlichen handelt es sich bei der Einbettung um eine numerische Darstellung des Wortes oder Tokens, die den Kontext berücksichtigt, in dem es im Satz vorkommt. Diese numerische Darstellung wird dann vom Encoder verarbeitet, um eine größere Darstellung des Satzes selbst zu erzeugen, die vom Decoder zum Generieren der gewünschten Ausgabesequenz verwendet werden kann. Dieses „Generieren der gewünschten Ausgabesequenz“ ist eine Feed-Forward-Phase, in der die Einbettung effektiv in etwas „transformiert“ wird, das im Kontext Sinn macht. Und das erfordert die Verwendung dichter Vektoren, die auf riesigen Datenmengen trainiert werden.

Hier ist die Sache: Der Decoder kann auf alles gerichtet werden. Die Spülmaschine, das Auto, alles, was etwas für Sie tun kann, einschließlich … Sie. In diesem Fall chatten Sie.

Und es ist diese Vielseitigkeit, die im Fall eines Chatbots die Welt schockiert hat. Aber es ist nicht darauf ausgelegt, logische Fragen zu beantworten. Oder um Wissenschaft zu betreiben. Oder als Suchmaschine.

Es dient ausschließlich dem Zweck, natürliche Sprache in ein Format umzuwandeln, das von Maschinen problemlos verwendet werden kann.


Allerdings wird es oft mit einer Maschine verwechselt, die alles kann, denn im allgemeinen Sinne bezeichnet KI eine künstliche Person. Und hier kommen wir zu den Fähigkeiten. Ist er besser als ein Mensch?

Er hat tatsächlich eine Fähigkeit. Da es sich um ein spezielles Werkzeug für natürliche Sprachen handelt, eignet es sich hervorragend zur Manipulation natürlicher Sprachen. (raten Sie mal?) Also ja, er kann kein selbstfahrendes Auto fahren, aber er kann übersetzen.

Nehmen wir ein Beispiel, das ich verwende: das Übersetzen von Büchern. Wie gut ist ChatGPT3?

Wir müssen zunächst einen Maßstab für die Güte der Übersetzung angeben.

Einer der Hauptindikatoren ist der „BLEU-Score“ (Bilingual Evaluation Understudy Score), der die Qualität der maschinellen Übersetzung bewertet, indem er die vom Modell generierte Übersetzung mit einer oder mehreren von Menschen erstellten Referenzübersetzungen vergleicht. Der BLEU-Score misst die Ähnlichkeit zwischen der generierten Übersetzung und den Referenzübersetzungen und verwendet dabei eine Formel, die die Präzision, Vollständigkeit und lexikalische Übereinstimmung zwischen der generierten Übersetzung und der Referenzübersetzung berücksichtigt.

Weitere verwendete Metriken sind der „METEOR-Score“ (Metric for Evaluation of Translation with Explicit ORdering), der „TER-Score“ (Translation Edit Rate) und der „WER-Score“ (Word Error Rate).

Tatsache ist, dass menschliche Übersetzer NICHT alle die gleiche Punktzahl erreichen. Wenn wir menschliche Übersetzer verteilen, wird es die besten und die schlechtesten geben. Aus den bisher durchgeführten Tests haben wir Folgendes herausgefunden:

  • Bei Übersetzungen zwischen weit verbreiteten Sprachen und mit häufig verwendeten Texten könnte GPT-3 in Bezug auf die Qualität zwischen 60 % und 80 % der verfügbaren menschlichen Übersetzungstests rangieren.
  • Bei Übersetzungen zwischen weniger verbreiteten Sprachen oder mit technischen Texten könnte GPT-3 zwischen 40 % und 60 % der menschlichen Übersetzungstests erreichen.
  • Bei hochtechnischen Tests oder solchen mit sehr hohen Präzisionsanforderungen könnte GPT-3 unter 40 % der menschlichen Tests liegen.

Beachten Sie, dass ChatGPT3 bei häufig verwendeten Texten (von vier gibt es nur wenige systematische Maßnahmen) menschliche Übersetzer bei der Übersetzung um 60 % bis 80 % übertreffen kann, was von Bedeutung ist.

Um das Problem besser auszudrücken: Aber wie gut lackiert Dell-E? Naja, natürlich besser als ich. Besser als Leonardo? Vielleicht nicht. Aber das Problem ist: Wie viele sind minderwertig und wie viele sind überlegen? Wo ordnen Sie sich auf einer Skala von 0 bis 100 ein?

Das Problem ist nicht, ob er überlegen oder unterlegen ist: Er wird sicherlich nicht wie Michelangelo zeichnen, aber weder ich noch Sie wissen, wie man wie Michelangelo zeichnet.


Um zu verstehen, was ChatGPT leisten kann, ist es daher nicht nötig, es dummen Aufgaben zu unterwerfen, in dem Sinne, dass man nicht über die Möglichkeiten eines LLM-Modells hinausgehen kann. Was nicht zum Denken oder Lösen logischer Rätsel oder anderer Lackmustests, die ich sehe, gedacht ist.

Das Problem besteht darin, dass es für eines geschaffen wurde: die Mensch-Maschine-Schnittstelle.

Da es für eine bestimmte Aufgabe konzipiert ist, ist es gut, es zu kennen, bevor man es verwendet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert