Ja, KI halluziniert. Ja, KI hat diverse Biases. Und wir Menschen? Sind wir fehlerfrei?
Ein lieber Kollege hat mich auf einen Artikel geschubst: AI Agents Are Failing 63 % of the Time — Here’s the Simple Fix No One Talks About. Dort wird attestiert, dass selbst bei nur 1 % Fehlerquote pro Einzelschritt der KI die Wahrscheinlichkeit eines Scheiterns bei einer 100‑Schritt‑Aufgabe auf 63 % steigt; laut Patronus AI liegt die Fehlerquote in der Praxis eher bei 20 % pro Schritt.
Als Lösung wird ein „Triple‑Loop‑Safeguard“ vorgeschlagen:
Atomare Validierung: Jeder einzelne Schritt wird geprüft – z. B. per JSON‑Schema, Regex, API‑Status oder Typüberprüfungen. Scheitert ein Test, wird der Schritt abgelehnt, neu gestartet oder zur Prüfung markiert.
Schritt‑Stufen‑Kontrolle: Nach mehreren Schritten wird eine übergeordnete Validierung über Teil‑Workflows durchgeführt, um Fehler frühzeitig zu erkennen .
Kontext‑Überwachung: Gesamtoutput‑Checks, Monitoring von Kennzahlen und manuelle Reviews (also von Menschen) sichern das Gesamtergebnis ab .
Dieses mehrstufige Sicherheitsnetz fängt Fehler frühzeitig ab, bevor sie sich kumulieren können. Kleinere Fehlerquoten bleiben überschaubar – und kleine Verbesserungen wirken sich stark auf die Enderfolgsrate aus .
Mag ja alles richtig sein, aber wenn man ehrlich ist: wie hoch ist die Fehlerquote bei einem Menschen, dem man 100 Tasks gibt? Das Thema muss Fehlerquote sein, unabhängig davon ab KI oder Mensch. Ich zitiere an dieser Stelle mal wieder meine Lieblingsgrafik aus der Wikipedia: Den Cognitve Bias Codex
Der Cognitive Bias Codex beschreibt ein Vielzahl kognitiver Verzerrungen, denen wir Menschen ausgesetzt sind. Und ohne ins Detail zugehen ist allein schon Umfang und Komplexität unserer Unzulänglichkeiten ernüchternd.
Fehlerquellen gibt es mehr als genug. Egal ob Mensch oder Maschine. Wir brauchen eine Fehlerkultur für Mensch und Maschine. So etwas wie „Triple‑Loop‑Safeguard“ lässt sich in beiden Fällen anwenden.
Ich würde fast vermuten, dass die Fehlerquote der KI geringer ist als bei uns Menschen, allerdings kann auch eine vermeintlich zuverlässige KI Totalausfälle produzieren, wo wir Menschen vielleicht noch über die fehlende Plausibilität stolpern.
Der AI Act der Europäischen Union ist der Inbegriff europäischer Bürokratie. Er steht in der glorreichen Tradition der Staubsauger-Verordnung und der Leuchtmittel-Verordnung. Also nicht dass der Inhalt der Verordnung Blödsinn wäre, nein, da haben sich Experten wirklich Mühe gegeben und viel Gehirnschmalz reingesteckt.
„Sie waren stets bemüht…“
Aber dahinter steckt ein grundlegend falsches Verständnis:
Statt bestehende Regelungen zu prüfen und auf neue technologische Herausforderungen, wie die künstliche Intelligenz, anzupassen, werden neue Regelungen und neue Bürokratie geschaffen. Im aktuellen AI Hype geht es noch unter, aber der AI Act wird uns noch einholen, wie damals die DSGVO.
Meine erste Annäherung
Windholz, Natascha, et al. Praxishandbuch KI-VO: Künstliche Intelligenz rechtskonform im privaten und öffentlichen Bereich einsetzen, München 2024
Leider keine Empfehlung. Extreme Detailtiefe, aber den Blick auf das Wesentliche habe ich nicht gefunden. Sicher alles da, aber ist nicht bei mir angekommen. Obwohl ich mich durchgekämpft habe.
Zweiter Versuch beim Kunden: Deutscher Tech-Konzern hat eine interne Guideline zum Einsatz von AI
Wieder viel Gutes und Richtiges. 80+ Empfehlungen mit Referenzen auf Cybersecurity Policies, aber die Umsetzung stellt noch nicht einmal die Compliance zum AI Act sicher. (Soviel ist dann doch beim Praxishandbuch hängengeblieben.)
Dritter Versuch: Diskussion mit der AI Governance in einem Konzern
Auch wieder etwas Deutsches: Wir brauchen neue Polices und eine Governance für das Thema AI.
Den Fehler des EU AI Act auf Unternehmensebene nachziehen und fortschreiben. Auch hier wieder vieles Gutes und Richtiges. Aber irgendwie ein Greenfield Approach. Für neue AI Anwendungen. Die gibt es zwar sicher, aber durch die Hintertür, durch die Einbindung von AI-basierten Webservices, wird plötzlich alles zu einer AI-Applikation. Viele Fragen, gute Fragen – aber auf der falschen Ebene. Ein Deep Dive in die genutzten LLM-Modelle, die aber in den meisten Anwendungsszenarien durch SaaS-Lösungen vorgegeben sind und morgen möglicherweise schon wieder durch neue Modelle ausgetauscht werden. Fragen die kein normaler Applikations-Verantwortlich beantworten kann, sondern die einen Cybersecurity-AI -Architekten erfordern. Es fehlt die Sensibilisierung für das Wesentliche:
Wenn wir AI-Webservices einbinden, geben wir Daten nach draußen – das hat noch nicht einmal mit AI zu tun.
Und wenn wir die Daten nach draußen geben, dann ist die Frage, ob nur zur Verarbeitung oder ob die Modelle, die womöglich auch von anderen genutzt werden, daraus lernen. In Nischenbereichen kann dann auch schnell die direkte Konkurrenz von uns lernen.
Ja, es gibt da noch typische AI Risiken, wie Halluzinationen und Biases über die wir die Anwender zumindest aufklären müssen.
Selbsthilfe
Ok, noch einmal zurück auf Start. Warum nicht ChatGPT fragen nach dem AI Act? Nein ganz so einfach habe ich es mir dann doch nicht gemacht. ChatGPT war nur der Startschuss und dann habe ich aus den gewonnen Erkenntnissen (siehe oben) nachgearbeitet. Ich bin auch kein Jurist – entsprechend unverbindlich sind meine eigenen 5 Cent, auch wenn ich sie hier teile.
Zentral im AI Act ist eine Risikoklassifizierung.
Typisch für die europäische Bürokratie eine neue Risikobetrachtung einzuführen, als gäbe es nicht längst Risikomanagement in Unternehmen. Eine Betrachtung auf Applikationsebene kann schnell überfordern, aber auf Ebene von Use Cases lässt sich die Klassifizierung nach AI Act beantworten und dann bedarf es eben einer Aggregation: der Worst Case greift auf Applikationsebene.
Der AI Act unterscheidet die folgenden Risikokategorien:
Verbotene Anwendungen brauchen keine weitere Betrachtung.
Interessant wird es bei den Hochrisiko-Anwendungsfällen. Was fordert der AI Act hier?
Nun, wieder ChatGPT:
Auch hier gibt es Überschneidungen mit generellen Cybersecurity-Anforderungen, aber immerhin ein komprimierter Ansatz.
Bei „limited risks“ verbleibt nach dieser Logik nur mehr Transparency and Information.
Und bei „minimal risk“, naja, das können wir vernachlässigen.
Was ich trotzdem mitgenommen habe:
Natürlich müssen wir uns mit der Kritikalität der Daten – Input wie Output beschäftigen (auch wenn das eigentlich gar keine AI-Frage ist).
Werden die verarbeiteten Daten als Trainingsmaterial verwendet? Dann könnten ja auch andere Nutzer des LLM darauf zurückgreifen.
Sind wir „nur“ Nutzer oder Betreiber eines Modells? Bei der aktuellen Dynamik werden die Modelle schneller ausgetauscht als wir schauen können. Sind wir selbst Betreiber kommt eine besondere Verantwortung hinzu,
Aus regulatorischer Sicht halte ich das Thema AI weitgehend für überbewertet. Grundsätzliche Anforderungen und Weisheiten, wie Garbage in – Garbage out, gelten weiter. Wirklich neu sind Halluzinationen und Biases. Für die war früher noch der Mensch zuständig…
Trotz all dem KI-Hype sind wir alle doch nur Beta-Tester. Wer intensiv ChatGPT & Co testet stößt auch immer wieder an die Grenzen. Wenn die KI unsere Prompts nicht versteht oder verstehen will. Manchmal ignoriert sie unsere Anweisungen. Dummerweise ist sie auch noch eloquent. Weitaus eloquenter als die meisten von uns, d.h. ihre Antworten sind überzeugender als unsere, selbst wenn sie Bullshit sind. Sie reflektiert nicht wirklich über ihre Grenzen, außer da, wo es ihr aus ethischen Gründen vorgegeben ist – nein, ich liefere dir keine Anleitung für ein Verbrechen – da müssen wir schon subtiler fragen.
Ich kämpfe gerade an einigen Basic-Funktionalitäten und bin auch schon mit dem Support im Gespräch – nein, seit einer Woche bin ich mit dem Support im Monolog. Ich frage und bekomme keine Antworten.
Das Standard-Skript frägt nach Fehlerquellen in meiner Infrastruktur. Nachdem mit einem Test nachgewiesen habe, dass das Problem im Account und nicht in meiner Infrastruktur liegt (vom Agent bestätigt), warte ich auf Antwort.
Der „Support-Bot“ ist überhaupt very strange. Eigentlich KI, aber nachdem ich mein Problem konkretisiert habe, hatte ich schnell das Gefühl bei einem echten Menschen zu landen, auch weil sein Antwortverhalten scheinbar an Zeitzonen gebunden war.
Aber jetzt schweigt „Justin“ seit einer Woche, obwohl sonst immer wieder aktiv. Und trotz (sachlicher) Nachfrage.
Für ein Medium, das unser Vertrauen erst noch verdienen will eine Bankrott-Erklärung, aber wir sind anscheinend halt auch nur Beta-Tester.
Als ChatGPT-Nutzer kann ich Ihnen nur wünschen, dass Sie keinen Support brauchen. Ich kämpfe seit Tagen. Der Chat selbst ist bemüht, liefert Workarounds (die in meinem Fall nicht funktioniert haben) und Hilfen, allerdings teilweise falsch: Die empfohlene Kontaktmöglichkeit per Mail gibt es gar nicht. Als ich die von ChatGPT vorbereitete Mail an die Support-Adresse schicke, bekomme ich umgehend Antwort:
Thank you for your email. Please note: This email address does not offer support. To get support, please visit our Help Center and start a chat with our support bot.
Manchmal vergisst ChatGPT auch, dass es um ChatGPT geht und gibt allgemein Ratschläge zum Umgang mit dem Support.
Tja und dann das Help Center – schwierig.
Die Hürden mit Anmeldung & Co genommen, landet man in einem Bot. Nach ein paar Stufen sogar bei echten Menschen, aber es gibt kein Ticket, sondern nur einen Bot im Browser. Und spätestens, wenn ein Mensch dahinter steckt gibt es Antwortzeiten. Das passt überhaupt nicht zu einem Bot-Fenster im Browser.
Email-Notification Fehlanzeige. Sorry, das Konzept ist nicht durchdacht – geradezu dilettantisch.
Umso ärgerlicher, wenn man für das Abo zahlt. Aktuell warte ich schon über eine Stunde auf eine Antwort. Das ist in einem Bot auf Echtzeit angelegt indiskutabel., aber ein Ticketsystem gibt es nicht. Dabei habe ich schon mehr gemacht, als von mi erwartet werden kann. Top1-7 aus dem Chat sind abgearbeitet und bevor ich überhaupt den Support kontaktiert habe, habe ich Hilfe bei einem Pro (danke, Torsten!) gesucht.
Noch so ein Learning: Abgesehen davon, dass ich zur Zeit verzweifelt versuche Dateien aus ChatGPT herunterzuladen („Datei nicht gefunden“) – jetzt warte ich auf den Support, habe ich die KI gerade als Excel-Hilfe genutzt: Bitte generiere mir die Formeln um eine Zelle („Name, Vorname (Abteilung)“) in Ihre Bestandteile zu zerlegen.
Das klappt auf den ersten Blick auch verdammt gut:
Aber natürlich kommt beim Ausprobieren gleich eine Fehlermeldung.
Erst ein Stirnrunzeln und dann werden die „Röntgenaugen“ angeschmissen und siehe da, der Fehler ist schnell gefunden: Im deutschen Excel werden die Formelbestandteile mit Semikolon getrennt. im englischen mit Kommata und hier mischt ChatGPT deutsche Nomenklatur der Befehle mit der englischen und nutzt die falschen Zeichen für die Separierung. Manuell korrigiert und siehe da, es funktioniert.
Habe jetzt Glück gehabt, dass ich ohne größere Suche den Fehler gleich entdeckt habe, aber anscheinend ist ChatGPT gut in den Sprachmodellen (übersetzt englische Befehle ins Deutsche, aber nur auf der Begriffebene und vernachlässigtdie Nomenklatur).
In diesem kleinen Rundumschlag zur KI bislang noch völlig unberücksichtigt sind rechtliche Aspekte.
Als juristischer Laie, will ich mir auch gar nicht anmaßen dieses Thema umfassend zu behandeln, aber zumindest aus Prozesssicht wollen wir kurz ein Schlaglicht auf diesen Bereich werfen.
Input
KI Modelle brauchen Input und Konzerne wie openAI oder Google haben einfach das Internet (aber auch andere, vielleicht gar nicht mal frei zugängliche Inhalte) abgegrast. Wie weit die Verarbeitung dieser Inhalte dabei immer legal ist/war, darüber streiten beispielsweise Verlage, die ihre eigene Existenzgrundlage wegschwimmen sehen. Nicht auszuschließen, dass die Rechtsprechung hier der KI noch den einen oder anderen Knüppel zwischen die Beine werfen wird. Wir werden sehen…
Rechtlich unkritische sollte es sein, wenn wir unsere eigenen Inhalte in die KI kippen.
Verarbeitung
Bei der Verarbeitung ist das schon wieder anders, denn wir haben hier zumeist einen „loss of control“ gegenüber den KI Anbietern und es stellen sich die klassischen Fragestellungen der Cybersecurity nach Vertraulichkeit, Integrität und Verfügbarkeit.
Beim Vertraulichkeitsthema spannend könnte aber beispielsweise auch sein, wieweit die KI Modelle aus unserem proprietären Inhalten lernen und diesen Erkenntnisgewinn (und gar nicht mal die Dokumente selbst) mit anderen teilen. Lernt die KI auch aus unserem Input um Fragen eines Konkurrenten zu beantworten, der das gleiche KI Modell verwendet?
Output
In dieser Reihe hatten wir schon die Qualitätsthematik bei Antworten aus der KI angeschnitten. Wir wollen einmal nicht hoffen, dass damit gleich Haftungs- und Gewährleistungsrisiken auf uns selbst zurückfallen. Spannend ist aber beispielsweise die Frage nach den Verwertungsrechten. In puncto Transparenz vorbildlich ist hier z.B. der Umgang mit KI generierten Bildern in der Wikipedia (siehe Kommentar zum Logo unten). Hier schließt sich auch der Kreis zu den Urheberrechten beim Input. Aber wieweit ist es ausreichend auf die Generierung der Inhalte durch ein KI Modell hinzuweisen? Kritisch ist schon mal, dass wir i.d.R. keine Chance haben überhaupt nachzuvollziehen welche Inhalte konkret in eine Antwort eingegangen sind. Worst case schreiben wir sogar von einer Quelle ab oder verletzen deren Rechte ohne es überhaupt zu wissen. Wenn heute Plagiatsjäger mit den Möglichkeiten der Digitalisierung Doktorarbeiten aus der Papier- und Bibliotheksära zerlegen, dann möchte ich mir nicht vorstellen, was da möglicherweise in Sachen KI noch vor uns liegt. Oder müssen wir alle KI Ergebnisse dann erst noch einer Plagiatsprüfung unterziehen, bevor wir sie verwenden?
Zu meinen Lieblingsbeiträgen der Wikipedia gehört der Cognitive Bias Codex. Hierbei handelt es sich um eine Übersicht über die vielfältigen kognitiven Störungen bei uns Menschen. Die pure Anzahl und die Komplexität dieser Störungen führt uns unsere eigene Unzulänglichkeit nur zu gut vor Augen.
Diese Verzerrungen sind jetzt auch nicht „krankhaft“, sondern ganz normal – ein Zeichen unserer beschränkten Wahrnehmungs- und Verarbeitungsfähigkeit.
Der Titel dieses Beitrags leitet jetzt geflissentlich über zu der Frage, ob es solche Verzerrungen nicht auch in der KI gibt.
Eine erste Antwort finden wir bereits im Beitrag zu Belastbarkeit & Grenzen: KI basiert zum Einen auf Wahrscheinlichkeiten und nicht auf Wahrheiten oder Logik und zum Anderen ist die KI natürlich abhängig von dem ihr zur Verfügung gestellten Inhalten. Hier gelten noch immer die Grundprinzipen der Datenverarbeitung: Garbage in, garbage out.
Für ein aktuelles Projekt (eine Methoden-Übersicht) haben wir versucht die Attribute zur Beschreibung von Methoden mit Hilfe der KI vorzunehmen, bzw. unsere eigenen Überlegungen dazu mittels KI zu validieren. Die KI Ergebnisse dazu hielten leider unseren Erwartungen nicht stand, angefangen davon, dass uns die KI zu anderen Attributen überreden wollte und deutlich von den Vorgaben abgewichen ist, fand sie auch generell toll, was immer wir ihr gegeben haben, womit wir beim Thema kognitive Verzerrungen wären. Es gab also eindeutig eine Bestätigungstendenz.
Wenn man darüber nachdenkt ist das Ergebnis auch gar nicht so überraschend, denn was wir ihr als Input gegeben, ist natürlich gegenüber ihren anderen Ressourcen hochprior, nur anstatt unsere eigene Modellbildung damit kritisch auf den Prüfstand zu stellen, hat uns die KI dann lobend auf die Schulter geklopft. Gut fürs Ego, schlecht für das Ergebnis.
Wenn man jetzt noch berücksichtigt, das durch die Wahrscheinlichkeitsbetrachtung letztlich auch nur bestehende Lösungen einbezogen werden können, dann wird schnell klar, dass die KI zwar eine Umsetzungsmaschine, aber ein Innovationszwerg sein muss.
Unser Versuch der Methodenbeschreibung ist nur ein einfaches Beispiel. Die Fragen am Rande des Cognitive Bias Codex lassen sich aber auch auf die KI übertragen. Was tun, wenn…
…wir mit zuvielen Informationen konfrontiert sind.
…es an Bedeutung und Kontext fehlt.
…wir schnell handeln müssen.
…die Aktualität und „Haltbarkeit“ von Informationen nicht ganz klar ist.
Letztere bringt auch das Thema „Vergessen“ auf. Wenn Informationen veralten, dann sollten wir sie vielleicht sogar vergessen und sie nicht in unsere Antworten einbeziehen, aber es heißt doch so schön: Das Internet vergisst nicht. Nicht nur die KI muss noch viel lernen, sondern auch wir im Umgang mit der KI.
Auch wenn künstliche Intelligenz und insbesondere ChatGPT als Hype-Thema gerade überstrapaziert sind, werden wir alle nicht umhin kommen, uns damit zu beschäftigen.
Besonders ins Auge gestochen ist mir dabei eine Rollenübersicht von Mike Sharples:
Auch wenn die dort definierten Rollen wohl für den Hochschulkontext entwickelt wurden, finde ich sie auch darüber hinaus wichtig und inspirierend.
(2) Gefahren
Mit dem Nutzen von AI gehen auch neue Gefahren einher und ich meine damit nicht die „böse AI“. Beim BSI (Bundesamt für Sicherheit in der Informatiosntechnik) findet sich bereits einiges hierzu auf der BSI-Homepage oder zusammgefasst in dem Artikel „AI security concerns in a nutshell„.