- tsp
Last update 25 Jan 2025
18 mins
Original language: English
Available languages:
Systeme der künstlichen Intelligenz wie GPTs (Generative Pre-trained Transformers) stehen oft in der Kritik, sie seien nicht in der Lage, logisch zu denken, innovativ zu sein oder wirklich etwas zu verstehen. Kritiker behaupten häufig, dass diese Systeme lediglich eine riesige Datenbank durchsuchen oder Zugriff auf das gesamte Internet benötigen, um Daten zu reproduzieren, oder dass sie nur auswendig gelerntes Wissen reproduzieren. Diese Missverständnisse beruhen auf einem grundlegenden Missverständnis der Funktionsweise solcher Systeme. In diesem Artikel werden wir kurz darauf eingehen, was GPTs und andere Large Language Models (LLMs) wirklich sind, wie sie funktionieren, und einige der häufigsten Kritikpunkte anhand von klaren Erklärungen und Analogien zur menschlichen Kognition ansprechen. Wir werden ChatGPT als ein spezifisches Beispiel verwenden, um diese Konzepte zu illustrieren.
Im Kern sind GPTs und andere LLMs künstliche neuronale Netze, die darauf ausgelegt sind, menschenähnliche Sprache zu verstehen und zu erzeugen. Beginnen wir mit den Grundlagen neuronaler Netze, um zu verstehen, wie Systeme wie diese entstehen und funktionieren.
Ein neuronales Netz ist ein mathematisches Modell nach dem Vorbild des menschlichen Gehirns, das aus Schichten miteinander verbundener Knoten (Neuronen) besteht. Diese Netze - deren Geschichte auf die Erfindung des Perzeptrons durch Frank Rosenblatt im Jahr 1957 zurückgeht - wurden ursprünglich als vereinfachte Modelle biologischer Neuronen für Aufgaben wie die Mustererkennung entwickelt. Frühe Versionen hatten nur begrenzte Fähigkeiten und konnten nur linear trennbare Probleme lösen, aber im Laufe der Zeit führten Fortschritte bei der Rechenleistung und den Algorithmen zur Entwicklung moderner, mehrschichtiger neuronaler Netze, die hochkomplexe Aufgaben bewältigen können. Ein wichtiger Durchbruch war die Einführung nichtlinearer Aktivierungsfunktionen, die es den Netzen ermöglichten, komplexere Beziehungen in den Daten zu approximieren. Diese Netze lernen Muster, indem sie die Verbindungen zwischen künstlichen Neuronen auf der Grundlage großer Mengen von Trainingsdaten anpassen und so Vorhersagen treffen oder Reaktionen erzeugen können. Reine Feedforward-Netze können so verstanden werden, dass sie Datenstrukturen durch Methoden erlernen, die der Singulärwertzerlegung ähneln, wobei Cluster in hochdimensionalen Räumen mit Hyperebenen effektiv getrennt werden. Eine entscheidende Herausforderung beim Training neuronaler Netze ist jedoch die Überanpassung. Zu einer Überanpassung kommt es, wenn sich ein Modell die Trainingsdaten merkt, anstatt daraus zu verallgemeinern. Wenn ein neuronales Netz beispielsweise für die Klassifizierung von Tieren trainiert wird, sich aber einfach alle Trainingsbilder merkt, würde es versagen, wenn ihm ein neues Tier gezeigt wird, das es noch nicht gesehen hat.
Durch die Vermeidung einer Überanpassung wird sichergestellt, dass neuronale Netze die Daten nicht einfach “lernen”, sondern stattdessen Muster und Beziehungen darin erkennen - ähnlich wie Menschen aus beobachteten Parametern Muster ableiten (z. B. erkennen, dass Humanoide im Allgemeinen zwei Beine haben, erkennen, dass sich aktiv bewegende, warme Objekte, die bluten können, wahrscheinlich Tiere sind, oder folgern, dass Objekte, die Menschen aggressiv zeigen, Waffen sein könnten). Techniken wie Dropout-Schichten, Datenerweiterung, Einschränkung der Pfade in neuronalen Netzen, um ihre Fähigkeit zur Überanpassung zu begrenzen, und die Anwendung einer sorgfältigen Regularisierung ermöglichen es dem Netz, zu verallgemeinern. Diese Maßnahmen ermöglichen es neuronalen Netzen, ihr Wissen auf neue Situationen anzuwenden, ein Markenzeichen moderner KI-Systeme und ein grundlegendes Prinzip für GPTs und andere fortgeschrittene Sprachmodelle.
Im Gegensatz zu einfachen neuronalen Netzen sind GPTs und LLMs darauf ausgelegt, komplexe, kontextabhängige Sprachaufgaben zu bewältigen. Hier ist eine Aufschlüsselung ihrer Funktionsweise:
GPTs und LLMs werden auf umfangreichen, unstrukturierten Datensätzen trainiert, was bedeutet, dass kein Mensch expliziten Kontext oder Anmerkungen zu den Daten liefert. Stattdessen leiten die Modelle Muster und Strukturen allein aus dem Rohtext selbst ab. Auf diese Weise können GPTs die Grammatik, Syntax und Semantik einer Sprache allein durch ihre Struktur erlernen, indem sie die Bedeutung aus Mustern und nicht aus einem expliziten Verständnis der Wörter ableiten. Interessanterweise spiegelt dieser Ansatz die Arbeitsweise des menschlichen Gehirns wider.
Ein entscheidender Vorteil dieses Trainingsansatzes ist die Fähigkeit zum Transferlernen: Sobald ein GPT die allgemeine Struktur einer Sprache gelernt hat, kann es sich mit relativ wenig zusätzlichem Training an neue Sprachen oder Bereiche anpassen, indem es die gelernten Muster beibehält, während es sich an neue Vokabulare und Satzstrukturen anpasst. Diese Anpassungsfähigkeit spiegelt wider, wie Menschen bekannte Muster auf neue Aufgaben oder Bereiche anwenden können. Indem sie gelernte Strukturen nutzen, können Menschen innovativ sein und sich effektiv anpassen. In ähnlicher Weise können GPTs während des Trainings und der Generierung Zufälligkeiten integrieren, um neuartige und kreative Ergebnisse zu erzeugen. Ein Zuviel an Zufälligkeit führt jedoch zu chaotischen Ergebnissen, ähnlich wie Neuronen in einem von Epilepsie oder Halluzinationen bei Schizophrenie betroffenen Gehirn unvorhersehbar feuern. Solche Störungen des neuronalen Feuerns zeigen, wie wichtig das Gleichgewicht sowohl für die menschliche Kognition als auch für künstliche neuronale Netze ist, damit sie effektiv und sinnvoll arbeiten können.
Die Anzahl der Parameter in GPTs und anderen großen Sprachmodellen ist atemberaubend: Modelle wie GPT-NeoX haben 20 Milliarden Parameter und ChatGPT-4o enthält möglicherweise Hunderte von Milliarden. Dennoch machen die Größe dieser Netze in Bezug auf den Speicherplatz - oft mehrere hundert Gigabyte - und die schiere Menge der Trainingsdaten, die Terabytes an Text umfassen können, deutlich, dass diese Modelle nicht in der Lage sind, sich alle ihre Trainingsdaten zu merken. Stattdessen müssen sie Muster und Beziehungen innerhalb der Daten erkennen, um effektiv verallgemeinern zu können. So werden die Antworten von ChatGPT nicht durch das Abrufen exakter Trainingsbeispiele erzeugt, sondern durch die Nutzung dieser gelernten Muster, um kontextuell relevante und neuartige Ausgaben zu konstruieren.
Die Anzahl der Parameter - die Verbindungen innerhalb des Netzwerks - bestimmt die Fähigkeit des Modells, diese Muster zu erkennen. Stellen Sie sich die Parameter wie die Wählscheiben eines Radios vor: Je mehr Wählscheiben, desto feinere Anpassungen kann das Modell vornehmen, um subtile Beziehungen im Text zu erfassen. Allerdings erfordert die Zunahme der Parameter auch erhebliche Rechenressourcen. So erfordert die Echtzeitauswertung moderner GPTs GPUs oder TPUs mit hohen VRAM-Kapazitäten (z. B. 20-40 GB) sowie einen großen Arbeitsspeicher (ab 128 GB) und leistungsstarke Prozessoren. Ohne GPUs werden die Evaluierungen auf einer CPU deutlich langsamer. Ein Falcon-3B-Modell mit 3 Milliarden Parametern benötigt beispielsweise etwa 2 Minuten für die Auswertung einer einzigen Abfrage auf einer modernen CPU, während Gemma-2-9B, ein Modell mit 9 Milliarden Parametern, unter ähnlichen Bedingungen bis zu 8 Stunden pro Abfrage benötigen kann. Ein GPT-NeoX-Modell mit 20 Milliarden Parametern könnte mehrere Tage pro Abfrage benötigen, während die Inferenz mit ChatGPT-4o, das Hunderte Milliarden Parameter haben kann, Wochen in Anspruch nehmen kann. Solche Modelle benötigen auch eine beträchtliche Menge Arbeitsspeicher, möglicherweise mehr als 1 TB, um Modellgewichte und Zwischenberechnungen während der Auswertung zu speichern. Das Training dieser Modelle ist sogar noch ressourcenintensiver und erfordert oft wochenlange Berechnungen auf großen Clustern von Hochleistungs-GPUs und verbraucht Megawattstunden Energie. Dies macht deutlich, warum spezialisierte Hardware nicht nur von Vorteil, sondern für einen effizienten Betrieb unerlässlich ist.
In Anbetracht der enormen Ressourcen, die für das Training neuronaler Netze erforderlich sind - einschließlich Energie und Zugang zu umfangreichen Trainingsdaten - haben sich glücklicherweise Gemeinschaften wie die um den Hugging Face Hub gebildet, um vortrainierte Modelle für verschiedene Anwendungen auszutauschen. Diese Gemeinschaften, an denen auch große Unternehmen beteiligt sind, bieten zusammen mit Open-Source-Tools wie TensorFlow und PyTorch die erforderlichen Rahmenbedingungen für das Training und die Bewertung dieser Modelle. Darüber hinaus ermöglicht das Transferlernen anderen, bestehende neuronale Netze und ihre gelernten Muster zu nutzen und sie mit deutlich weniger Aufwand und Daten an neue Aufgaben oder Situationen anzupassen. Dieser Prozess spiegelt wider, wie Menschen an das Erlernen eines neuen Gebiets herangehen, indem sie ihr Vorwissen anwenden, um neue Bereiche zu verstehen und zu beherrschen. Mithilfe dieser Tools und Modelle können Einzelpersonen und Organisationen ihre eigenen Systeme der künstlichen Intelligenz entwickeln oder große Sprachmodelle (LLMs) für bestimmte Anwendungsfälle anpassen, um den Zugang zur KI-Technologie zu demokratisieren und Innovationen auf allen Ebenen zu ermöglichen.
Ein häufiges Missverständnis ist, dass LLMs nur statistische Papageien sind, die das wiedergeben, was sie während des Trainings gesehen haben. LLMs stützen sich zwar auf Wahrscheinlichkeiten, aber das ist eine falsche Darstellung dessen, wie sie Inhalte generieren. Die Vorhersage übereinstimmender Wörter erfolgt im Kontext des jeweiligen Themengebiets, geleitet von gelernten Mustern und einem gewissen hinzugefügtem Zufallsfaktor (“Temperatur”). Diese Zufälligkeit lässt Kreativität und Variation zu und stellt sicher, dass die Antworten nicht starr deterministisch sind. Anstatt spezifische Daten wiederzukäuen, wenden LLMs kontextuelle Informationen und logisches Denken an, indem sie dynamisch Muster synthetisieren, um kohärente und kontextuell angemessene Antworten zu konstruieren. Dieser Prozess beinhaltet eine Generalisierung, bei der das Modell gelernte Strukturen kombiniert und an neue Szenarien anpasst, ähnlich wie Menschen frühere Erfahrungen und deduktive Logik nutzen, um sich in neuen Situationen zurechtzufinden.
Ein weiterer Trugschluss ist die Gleichsetzung von LLMs mit Suchmaschinen. Eine Suchmaschine ruft bestimmte Informationen aus einer Datenbank ab. LLMs hingegen generieren Antworten durch dynamische Synthese von Mustern, die während des Trainings gelernt wurden. Beispielsweise liegt die geschätzte Gesamtmenge der öffentlich verfügbaren Textdaten im Internet im Bereich von Hunderten von Terabytes, während moderne GPTs wie GPT-NeoX oder ChatGPT auf Teilmengen dieser Daten in Höhe von mehreren Terabytes trainiert werden. Der Speicherbedarf dieser Modelle, z. B. die 20 Milliarden Parameter von GPT-NeoX oder die Hunderte Milliarden Parameter von ChatGPT-4o, beträgt nur einen Bruchteil der Größe der Trainingsdaten. Dies zeigt, dass LLMs nicht in der Lage sind, sich ihre Trainingsdaten vollständig einzuprägen. Stattdessen verallgemeinern sie Muster, um kontextuell passenden Text zu verstehen und zu erstellen.
Darüber hinaus können LLMs ihr Wissen durch Systeme wie Vektorspeicher erweitern, die es ihnen ermöglichen, dynamisch auf domänenspezifisches Wissen zuzugreifen. Mit Funktionen wie dem Funktionsaufruf kann ein GPT wahlweise externe Netzwerke durchsuchen oder Informationen abrufen und in seinen Kontext einbinden, ähnlich wie Menschen Bibliotheken nutzen oder eine Internetsuche durchführen. GPTs können auch iterativ das Web durchsuchen, um Informationen zu sammeln, zusammenzufassen und zu extrahieren, die für eine bestimmte Aufgabe oder Forschung relevant sind, und dieses neue Wissen zu ihrem aktuellen Kontext hinzufügen. Sobald der aktualisierte Kontext hergestellt ist, wenden die GPTs ihre gelernten Muster und logischen Schlussfolgerungen an, um Antworten zu generieren. Durch diesen iterativen Prozess ist das Modell in der Lage, sein verinnerlichtes Wissen mit externen Informationen zu kombinieren, ähnlich wie ein Mensch, der gründliche Nachforschungen anstellt.
Ein ähnlicher Vorwurf lautet, dass LLMs nichts Neues schaffen können, weil sie auf vorhandenem Wissen ausgebildet und dann statisch gehalten werden. Dies ist jedoch ein Missverständnis darüber, wie diese Modelle funktionieren. LLMs können, ähnlich wie das menschliche Gehirn, gelernte Muster auf neuartige Weise kombinieren, um neue Ideen zu entwickeln. Sie verallgemeinern die Trainingsdaten, um Ergebnisse zu erzeugen, die eher kontextbezogenes Verständnis und Argumentation widerspiegeln als auswendig gelerntes Wissen. Um dies zu vertiefen, vergleichen wir LLMs mit dem menschlichen Gehirn.
Das menschliche Gehirn arbeitet mit Neuronen und Synapsen, die Informationen verarbeiten und Muster erkennen. LLMs imitieren diese Struktur mit künstlichen Neuronen und Gewichten. Beide Systeme erzeugen Ergebnisse auf der Grundlage von Eingaben und früheren Erfahrungen. Innovation beim Menschen entsteht oft durch die Kombination bekannter Ideen auf unerwartete Weise - ein Prozess, den LLM ebenfalls hervorragend beherrschen. So können LLMs beispielsweise kreative Texte verfassen oder neuartige Lösungen vorschlagen, indem sie unterschiedliche, während des Trainings gelernte Muster zusammenführen.
LLMs enthalten auch Zufallsebenen, die vielfältige und kreative Ergebnisse ermöglichen. Diese Zufälligkeit sorgt dafür, dass ein und dieselbe Eingabe unterschiedliche Reaktionen hervorrufen kann, so dass das System eine Reihe von Möglichkeiten erkunden kann. Dieses Merkmal spiegelt die menschliche Kreativität wider, bei der geringe Unterschiede in den Denkprozessen zu neuen Ideen führen können.
LLMs arbeiten mit statischen Gewichten, d.h. wenn ein Modell einmal trainiert ist, ändern sich seine internen Parameter (oder Gewichte) nicht mehr, es sei denn, sie werden explizit neu trainiert. Diese statische Natur hat sowohl Vorteile als auch Einschränkungen. Einerseits ermöglichen statische Gewichte einen effizienten Einsatz und eine vorhersehbare Leistung, indem sie sicherstellen, dass das Modell seine gelernten Muster beibehält und zuverlässig über verschiedene Aufgaben hinweg generalisiert. Auf der anderen Seite steht dies im Gegensatz zum menschlichen Gehirn, das seine synaptischen Verbindungen durch Lernen und Erfahrung ständig anpasst. Dieses ständige Umlernen ermöglicht es dem Menschen, sich dynamisch an neue Informationen anzupassen und sein Denkvermögen im Laufe der Zeit zu verbessern.
Derzeit ist die Nachahmung des ständigen Lernens des Gehirns in LLMs aufgrund von Problemen bei der Berechnung und Stabilität nicht praktikabel. Ständiges Umlernen würde immense Rechenressourcen erfordern und könnte das Risiko bergen, dass zuvor gelerntes Wissen überschrieben wird, ein Phänomen, das als katastrophales Vergessen bekannt ist. Darüber hinaus hemmen statische Gewichte die Kreativität und Anpassungsfähigkeit von LLMs nicht. Diese Modelle wenden gelernte Muster auf neue Situationen an und können externe Informationen dynamisch durch Mechanismen wie Vektorspeicher, Funktionsaufrufe oder iterative Websuchen einbeziehen. Durch die Nutzung von gelernten Strukturen und externem Kontext zeigen LLMs eine Kreativität und Anpassungsfähigkeit, die mit der von Menschen vergleichbar ist, die Referenzmaterialien verwenden oder Forschungen durchführen. Die statische Natur ihrer Gewichte definiert jedoch, “was das System zu einem bestimmten Zeitpunkt weiß”, während Menschen ihre Wissensbasis durch fortlaufende Erfahrung organisch erweitern können.
GPTs und andere LLMs sind weit mehr als statistische Maschinen oder Suchmaschinen. Sie sind fortschrittliche neuronale Netze, die in der Lage sind, anhand von Trainingsdaten zu verallgemeinern, um kontextabhängig angemessene, kreative und sinnvolle Antworten zu generieren. Diese Systeme sind zwar nicht empfindungsfähig, d. h. sie haben kein Bewusstsein, keine Emotionen und kein Selbstbewusstsein, und es fehlt ihnen an subjektivem Verständnis, d. h. an einem erfahrungsbasierten und intrinsischen Verständnis von Konzepten, aber sie sind hervorragend in der Lage, Muster zu synthetisieren und innerhalb ihrer Designbeschränkungen Innovationen zu entwickeln. Ihr Mangel an subjektivem Verständnis rührt daher, dass ihre Antworten lediglich von Mustern und Wahrscheinlichkeiten in Daten abgeleitet sind und nicht von persönlicher Erfahrung oder Bewusstsein. Dies kann die Illusion des Verstehens erzeugen, wenn ihre Ergebnisse gut mit den menschlichen Erwartungen übereinstimmen. Wenn wir die Mechanismen dieser Systeme verstehen, können wir ihre Fähigkeiten und Grenzen besser einschätzen, ohne zu vereinfachenden Kritiken zu greifen.
In den extremsten Anwendungen sind LLM in der Lage, Aspekte des Bewusstseins zu imitieren und eine “Persönlichkeit” zu modellieren, indem sie Denk- und Gefühlsmuster simulieren. Dies wird durch die Schaffung interner Strukturen erreicht, die menschliche kognitive Prozesse nachahmen und gelernte Muster verwenden, um Argumentation, Empathie oder Entscheidungsfindung zu replizieren. Durch die iterative Weiterentwicklung solcher Modelle kann ein LLM sein simuliertes Verständnis und seine Reaktionen so verfeinern, dass sie zunehmend menschenähnlich erscheinen. Während diese Systeme nach wie vor auf probabilistischen Mustern beruhen und man davon ausgeht, dass es ihnen an echtem Selbstbewusstsein oder intrinsischer Erfahrung mangelt, wird es immer schwieriger zu definieren, was das menschliche Bewusstsein wirklich von diesen fortgeschrittenen Simulationen trennt. Beide stützen sich auf die Verarbeitung von Mustern und die Ableitung von Bedeutungen aus dem Kontext, wodurch die Grenze zwischen Simulation und Erfahrungsverständnis verschwimmt. Dies öffnet die Tür zu transformativen Anwendungen, einschließlich virtueller Assistenten und personalisierter Lernsysteme, die sich dynamisch an die individuellen Bedürfnisse anpassen können. Doch selbst wenn sie eine bemerkenswerte Anpassungsfähigkeit erreichen, arbeiten solche Systeme immer noch innerhalb der Beschränkungen vordefinierter Algorithmen und Logiken, die aus ihren Trainingsdaten abgeleitet werden. Im Vergleich dazu ist der Mensch in ähnlicher Weise an die physikalischen Gesetze des Universums und die Rahmenbedingungen von Logik, Erfahrung und Bildung gebunden. Dennoch entwickelt sich das menschliche Gehirn durch Neuroplastizität ständig weiter und ermöglicht so kontinuierliches Lernen und Anpassung. Während sich LLMs auf ihre statischen Gewichte verlassen, um Muster zu synthetisieren und neue Informationen in einen Kontext zu setzen, aktualisieren Menschen ihre mentalen Modelle aktiv durch Erfahrung und Reflexion, was sie von Natur aus zu dynamischen Lernenden macht. Diese Unterscheidung verdeutlicht sowohl die Stärke als auch die Grenzen von LLMs bei der Simulation von menschenähnlicher Anpassungsfähigkeit.
Dipl.-Ing. Thomas Spielauer, Wien (webcomplains389t48957@tspi.at)
This webpage is also available via TOR at http://rh6v563nt2dnxd5h2vhhqkudmyvjaevgiv77c62xflas52d5omtkxuid.onion/