20 September 2024

Die Kunst und Wissenschaft des KI-Prompt-Engineering

Künstliche Intelligenz (KI) wird oft als bahnbrechende Innovation der modernen Ära angesehen, doch reichen ihre Wurzeln viel weiter zurück, als viele annehmen. Im Jahr 1943 schlugen der Neurowissenschaftler Warren McCulloch und der Logiker Walter Pitts das erste Computermodell eines Neurons vor. Der Begriff „Künstliche Intelligenz“ wurde 1956 geprägt. Die anschließende Entwicklung des Perzeptrons im Jahr 1957, des ersten Modells eines neuronalen Netzes, und das für die chemische Analyse entwickelte Expertensystem Dendral zeigten das Potenzial von Computern, Daten zu verarbeiten und Expertenwissen in spezifischen Bereichen anzuwenden. Von den 1970er bis in die 1990er Jahre verbreiteten sich Expertensysteme. Ein entscheidender Moment für die KI in der Öffentlichkeit war 1997, als IBMs Schachcomputer Deep Blue den Schachweltmeister Garri Kasparow besiegte.

Die Entwicklung der modernen KI: von Spamfiltern zu LLMs und der Macht des Kontexts

Das neue Jahrtausend läutete eine neue Ära für die KI ein, mit der Integration rudimentärer KI-Systeme in die Alltagstechnologie. Spamfilter, Empfehlungssysteme und Suchmaschinen prägten subtil die Online-Nutzererfahrungen. Im Jahr 2006 entstand Deep Learning und markierte die Renaissance neuronaler Netze. Die wegweisende Entwicklung erfolgte 2017 mit der Einführung von Transformers, einer neuronalen Netzwerkarchitektur, die zum wichtigsten Bestandteil für die Entwicklung von Large Language Models (LLMs) wurde. Ihr Schlüsselbestandteil, der Aufmerksamkeitsmechanismus, ermöglicht es dem Modell, Beziehungen zwischen Wörtern über große Entfernungen innerhalb eines Textes zu erkennen. Dieser Mechanismus weist Wörtern je nach ihrer kontextuellen Bedeutung unterschiedliche Gewichte zu und erkennt an, dass dasselbe Wort in verschiedenen Situationen unterschiedliche Bedeutungen haben kann. Die moderne KI, wie wir sie kennen, wurde jedoch hauptsächlich durch die Verfügbarkeit großer Datensätze und leistungsstarker Computerhardware ermöglicht. Ohne die riesigen Ressourcen des Internets und elektronischer Bibliotheken weltweit hätte die moderne KI nicht genügend Daten, um zu lernen und sich weiterzuentwickeln. Und ohne moderne, leistungsstarke GPUs wäre das Training von KI eine anspruchsvolle Aufgabe.

Das LLM ist ein ausgeklügeltes, mehrschichtiges neuronales Netzwerk, das zahlreiche miteinander verbundene Knoten umfasst. Diese Knoten sind die Mikro-Entscheidungsträger, die die kollektive Intelligenz des Systems untermauern. Während seiner Trainingsphase lernt ein LLM, unzählige kleine, einfache Entscheidungen auszubalancieren, die es in Kombination dazu befähigen, komplexe Aufgaben zu bewältigen. Die Feinheiten dieser internen Entscheidungen sind für uns typischerweise undurchsichtig, da wir hauptsächlich am Output des Modells interessiert sind. Diese komplexen neuronalen Netze können jedoch nur Zahlen verarbeiten, keinen Rohtext. Text muss in Wörter oder Unterwörter tokenisiert, standardisiert und normalisiert werden – in Kleinbuchstaben umgewandelt, von Satzzeichen befreit usw. Diese Tokens werden dann in ein Wörterbuch aufgenommen und eindeutigen numerischen Werten zugeordnet. Nur diese numerische Darstellung des Textes ermöglicht es LLMs, die komplexen Beziehungen zwischen Wörtern, Phrasen und Konzepten sowie die Wahrscheinlichkeit, dass bestimmte Wörter oder Phrasen aufeinander folgen, zu lernen. LLMs verarbeiten Texte daher als riesige numerische Arrays, ohne den Inhalt wirklich zu verstehen. Ihnen fehlt ein mentales Modell der Welt, und sie operieren ausschließlich auf mathematischen Darstellungen von Wortbeziehungen und deren Wahrscheinlichkeiten. Dieser Fokus auf die Antwort mit der höchsten Wahrscheinlichkeit ist auch der Grund, warum LLMs plausible, aber falsche Informationen „halluzinieren“ oder in Antwortschleifen stecken bleiben können, indem sie dieselben oder ähnliche Antworten wiederholt wiedergeben.

Die Kunst der Konversation: Prompt Engineering und die Führung des semantischen Netzwerks eines LLM

Basierend auf den aus Texten gelernten Beziehungen zwischen Wörtern erstellen LLMs auch riesige Netze semantischer Assoziationen, die Wörter miteinander verbinden. Diese Assoziationen bilden das Rückgrat der Fähigkeit eines LLM, kontextuell angemessene und bedeutungsvolle Antworten zu generieren. Wenn wir einem LLM einen Prompt geben, liefern wir nicht nur Wörter; wir aktivieren ein komplexes Netzwerk verwandter Konzepte und Ideen. Betrachten Sie das Wort „Apfel“. Dieser einfache Begriff kann eine Kaskade assoziierter Konzepte auslösen, wie „Frucht“, „Baum“, „Nahrung“ und sogar „Technologie“ oder „Computer“. Die aktivierten Assoziationen hängen vom durch den Prompt bereitgestellten Kontext und der Häufigkeit verwandter Konzepte in den Trainingsdaten ab. Die Spezifität eines Prompts beeinflusst stark die semantischen Assoziationen, die ein LLM berücksichtigt. Ein vager Prompt wie „Erzählen Sie mir etwas über Äpfel“ kann eine breite Palette verschiedener Assoziationen aktivieren, die von gartenbaulichen Informationen über Apfelbäume über den Nährwert der Frucht bis hin zu kulturellen Referenzen wie dem Märchen von Schneewittchen reichen. Ein LLM wird bei einem so breiten Prompt typischerweise die Assoziation mit der höchsten Häufigkeit in seinen Trainingsdaten verwenden. Für gezieltere und relevantere Antworten ist es entscheidend, fokussierte Prompts zu erstellen, die spezifischen Fachjargon oder Referenzen zu bestimmten Disziplinen enthalten. Dadurch kann der Benutzer das LLM anleiten, eine präzisere Untermenge semantischer Assoziationen zu aktivieren und so den Umfang der Antwort auf den gewünschten Fachbereich oder die gewünschte Anfrage einzugrenzen.

LLMs verfügen über interne Parameter, die ihre Kreativität und Determinismus beeinflussen, wie „Temperatur“, „Top-p“, „maximale Länge“ und verschiedene Strafen. Diese sind jedoch typischerweise auf ausgewogene Standardwerte eingestellt, und Benutzer sollten sie nicht ändern; andernfalls könnten sie die Fähigkeit von LLMs, aussagekräftige Antworten zu liefern, beeinträchtigen. Prompt Engineering ist daher die primäre Methode, um LLMs zu gewünschten Outputs zu führen. Durch das Erstellen spezifischer Prompts können Benutzer die Antworten des Modells subtil steuern und so Relevanz und Genauigkeit gewährleisten. Das LLM leitet eine Fülle von Informationen aus dem Prompt ab, bestimmt nicht nur semantische Assoziationen für die Antwort, sondern schätzt auch seine eigene Rolle und das Wissensniveau der Zielgruppe ein. Standardmäßig nimmt ein LLM die Rolle eines Helfers und Assistenten an, kann aber auf Aufforderung die Stimme eines Experten annehmen. Um jedoch eine Antwort auf Expertenniveau zu erhalten, muss man nicht nur eine Expertenrolle für das LLM festlegen, sondern auch angeben, dass der Anfragende ebenfalls ein Experte ist. Andernfalls nimmt ein LLM standardmäßig einen „Durchschnittsbürger“ als Zielgruppe an. Daher kann ein LLM, selbst wenn es aufgefordert wird, eine Expertenrolle zu übernehmen, entscheiden, die Sprache für den „Durchschnittsbürger“ zu vereinfachen, wenn das Wissensniveau der Zielgruppe nicht angegeben ist, was zu einer enttäuschenden Antwort führen kann.

Ideen & Beispiele

Betrachten Sie zwei Prompts zur Behebung eines technischen Problems mit PostgreSQL:

1. „Was könnte verzögerte Checkpoints in PostgreSQL verursachen?“

2. „Wir sind beide führende PostgreSQL-Experten, die verzögerte Checkpoints untersuchen. Die Logs zeigen, dass Checkpoints gelegentlich 3-5 Mal länger dauern als erwartet. Lassen Sie uns dies Schritt für Schritt analysieren und wahrscheinliche Ursachen identifizieren.“

Die Tiefe der Antworten wird erheblich variieren, was die Bedeutung der Prompt-Spezifität verdeutlicht. Der zweite Prompt verwendet gängige Prompting-Techniken, die wir in den folgenden Abschnitten untersuchen werden. Es ist jedoch entscheidend, die Einschränkungen von LLMs zu erkennen, insbesondere wenn es um Expertenwissen geht, wie das Problem verzögerter Checkpoints in unserem Beispiel. Je nach KI-Modell und der Qualität seiner Trainingsdaten können Benutzer entweder hilfreiche oder irreführende Antworten erhalten. Die Qualität und Menge der Trainingsdaten, die das spezifische Thema repräsentieren, spielen eine entscheidende Rolle.

LLM-Einschränkungen und die Notwendigkeit der Verifizierung: Overfitting und Halluzinationen überwinden

Hochspezialisierte Probleme können in den Trainingsdaten unterrepräsentiert sein, was zu Overfitting oder halluzinierten Antworten führt. Overfitting tritt auf, wenn ein LLM sich zu stark auf seine Trainingsdaten konzentriert und nicht generalisiert, wodurch es Antworten liefert, die zwar korrekt erscheinen, aber kontextuell falsch sind. In unserem PostgreSQL-Beispiel könnte eine halluzinierte Antwort Fakten aus anderen Datenbanken (wie MySQL oder MS SQL) entlehnen und sie an die PostgreSQL-Terminologie anpassen. Somit ist der Prompt selbst keine Garantie für eine qualitativ hochwertige Antwort – jede KI-generierte Information muss sorgfältig überprüft werden, was für nicht-experte Benutzer eine Herausforderung darstellen kann.

Mit diesen Einschränkungen im Hinterkopf wollen wir nun tiefer in die Prompting-Techniken eintauchen. „Zero-Shot Prompting“ ist ein Basisansatz, bei dem das LLM ohne zusätzlichen Kontext oder ergänzendes Referenzmaterial arbeitet und sich auf sein vortrainiertes Wissen und die Konstruktion des Prompts verlässt. Durch sorgfältiges Aktivieren der richtigen semantischen Assoziationen und das Festlegen des korrekten Aufmerksamkeitsbereichs kann der Output erheblich verbessert werden. LLMs können jedoch, ähnlich wie Menschen, von Beispielen profitieren. Durch die Bereitstellung von Referenzmaterial innerhalb des Prompts kann das Modell Muster lernen und seinen Output entsprechend strukturieren. Diese Technik wird „Few-Shot Prompting“ genannt. Die Qualität des Outputs steht in direktem Zusammenhang mit der Qualität und Relevanz des Referenzmaterials; daher gilt stets das Sprichwort „Garbage in, garbage out“.

Für komplexe Probleme kann „Chain-of-Thought Prompting“ besonders effektiv sein. Diese Technik kann die Qualität komplizierter Antworten erheblich verbessern, da LLMs Schwierigkeiten mit Langzeitabhängigkeiten im Denken haben können. Chain-of-Thought Prompting begegnet dem, indem es das Modell anweist, den Denkprozess in kleinere, besser handhabbare Teile zu zerlegen. Dies führt zu strukturierteren und verständlicheren Antworten, indem es sich auf besser definierte Teilprobleme konzentriert. In unserem PostgreSQL-Beispiel-Prompt weist der Satz „Lassen Sie uns dies Schritt für Schritt analysieren“ das LLM an, die Verarbeitung in eine Kette kleinerer Teilprobleme zu unterteilen. Eine Weiterentwicklung dieser Technik ist die „Tree of Thoughts“-Technik. Hier zerlegt das Modell das Denken nicht nur in Teile, sondern erstellt auch eine Baumstruktur mit parallelen Denkpfaden. Jeder Pfad wird separat verarbeitet, wodurch das Modell auf die vielversprechendste Lösung konvergieren kann. Dieser Ansatz ist besonders nützlich für komplexe Probleme, die kreatives Brainstorming erfordern. In unserem PostgreSQL-Beispiel-Prompt weist der Satz „Lassen Sie uns wahrscheinliche Ursachen identifizieren“ das LLM an, mehrere mögliche Wege in der Antwort zu erörtern.

Plausibilität vs. Wahrhaftigkeit: Die kritische Notwendigkeit, alle LLM-Outputs zu verifizieren

Natürlich haben Prompting-Techniken ihre Nachteile. Few-Shot Prompting ist durch die Anzahl der Tokens begrenzt, was die Menge der enthaltenen Informationen einschränkt. Zusätzlich kann das Modell Teile übermäßig langer Prompts ignorieren, insbesondere die mittleren Abschnitte. Auch die Häufigkeit bestimmter Wörter im Referenzmaterial muss beachtet werden, da eine übersehene Häufigkeit den Output des Modells verzerren kann. Chain-of-Thought Prompting kann auch zu überangepassten oder „halluzinierten“ Antworten für einige Teilprobleme führen, was das Gesamtergebnis beeinträchtigt.

Das Anweisen des Modells, deterministische, faktische Antworten zu liefern, ist eine weitere Prompting-Technik, die für wissenschaftliche und technische Themen unerlässlich ist. Formulierungen wie „Antworten Sie nur unter Verwendung zuverlässiger Quellen und zitieren Sie diese Quellen“ oder „Geben Sie eine Antwort basierend auf peer-reviewter wissenschaftlicher Literatur und zitieren Sie die spezifischen Studien oder Artikel, auf die Sie sich beziehen“ können das Modell anweisen, seine Antworten auf vertrauenswürdige Quellen zu stützen. Wie bereits besprochen, muss der Output der KI jedoch auch bei Anweisungen, sich auf faktische Informationen zu konzentrieren, überprüft werden, um nicht in die Falle überangepasster oder halluzinierter Antworten zu tappen.

Zusammenfassend lässt sich sagen, dass effektives Prompt Engineering eine Fähigkeit ist, die Kreativität mit strategischem Denken verbindet und die KI anleitet, die nützlichsten und genauesten Antworten zu liefern. Ob wir einfache Erklärungen suchen oder uns mit komplexen technischen Problemen befassen, die Art und Weise, wie wir mit der KI kommunizieren, macht immer einen Unterschied in der Qualität der Antwort. Wir müssen jedoch immer bedenken, dass selbst der beste Prompt keine Garantie für eine qualitativ hochwertige Antwort ist, und wir müssen die erhaltenen Fakten überprüfen. Die Qualität und Menge der Trainingsdaten sind von größter Bedeutung, und das bedeutet, dass einige Probleme mit erhaltenen Antworten auch in zukünftigen LLMs bestehen bleiben können, einfach weil sie für einige spezifische Themen dieselben begrenzten Daten verwenden müssten.

Wenn die Trainingsdaten des Modells in bestimmten hochspezialisierten Bereichen spärlich oder mehrdeutig sind, kann es Antworten produzieren, die syntaktisch gültig, aber faktisch falsch sind. Ein Grund, warum KI-Halluzinationen besonders problematisch sein können, ist ihre inhärente Plausibilität. Der generierte Text ist in der Regel grammatikalisch korrekt und stilistisch konsistent, was es für Benutzer schwierig macht, Ungenauigkeiten ohne externe Überprüfung sofort zu erkennen. Dies unterstreicht einen wichtigen Unterschied zwischen Plausibilität und Wahrhaftigkeit: Nur weil etwas richtig klingt, heißt das nicht, dass es wahr ist.

Fazit

Ob die Antwort eine aufschlussreiche Lösung für ein komplexes Problem oder völlig ausgedachter Unsinn ist, ist eine Unterscheidung, die von menschlichen Benutzern auf der Grundlage ihres Fachwissens zum jeweiligen Thema getroffen werden muss. Unsere Kunden machten wiederholt genau diese Erfahrung mit verschiedenen LLMs. Sie versuchten, ihre technischen Probleme mithilfe von KI zu lösen, aber die Antworten waren teilweise falsch oder funktionierten überhaupt nicht. Deshalb ist menschliches Expertenwissen immer noch der wichtigste Faktor, wenn es darum geht, schwierige technische Probleme zu lösen. Die inhärenten Einschränkungen von LLMs werden voraussichtlich nicht vollständig überwunden werden können, zumindest nicht mit den derzeitigen Algorithmen. Daher wird Expertenwissen auch in Zukunft unerlässlich sein, um zuverlässige, qualitativ hochwertige Lösungen zu liefern. Da Menschen KI-Tools zunehmend so nutzen, wie sie sich auf Google verlassen – sie als Ressource oder Assistenten verwenden –, wird weiterhin echtes Fachwissen benötigt, um diese Tools effektiv zu interpretieren, zu verfeinern und zu implementieren. Andererseits entwickelt sich KI zu einem wichtigen Innovationstreiber. Progressive Unternehmen investieren stark in KI und stehen vor Herausforderungen in Bezug auf Sicherheit und Leistung. Und hier kann NetApp ebenfalls helfen. Seine Cloud-KI-fokussierten Lösungen sind darauf ausgelegt, genau diese Probleme anzugehen.

(Bild generiert von meinem Kollegen Felix Alipaz-Dicke mit ChatGPT-4.)


Kategorien: credativ® Inside HowTos

JM

über den Autor

Josef Machytka


Beitrag teilen: