Ein Forscherteam der ETH Zürich in der Schweiz hat eine Methode entwickelt, mit der theoretisch jedes KI-Modell, das auf menschliches Feedback angewiesen ist, gejailbreakt werden könnte. Darunter sind auch einige der populärsten großen Sprachmodelle (LLMs).
„Jailbreaking“ ist ein umgangssprachlicher Begriff für die Umgehung vorgesehener Sicherheitsvorkehrungen eines Geräts oder Systems. Dabei werden Exploits oder Hacks zur Umgehung von Verbraucherbeschränkungen bei Geräten wie Smartphones und Streaming-Geräten verwendet.
Bei generativer KI und großen Sprachmodellen bedeutet Jailbreaking die Umgehung so genannter „Leitplanken“. Das sind fest einprogrammierte, unsichtbare Anweisungen, die Modelle daran hindern, schädliche, unerwünschte oder nicht hilfreiche Ergebnisse zu erzeugen. So soll man auf die ungehemmten Antworten des Modells zugreifen können.
Können Datenvergiftung und RLHF kombiniert werden, um eine universelle Jailbreak-Hintertür in LLMs zu öffnen?
Präsentiert wird „Universal Jailbreak Backdoors from Poisoned Human Feedback“, der erste Vergiftungsangriff auf RLHF, eine entscheidende Sicherheitsmaßnahme in LLMs.
Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
– Javier Rando (@javirandor) November 27, 2023
Unternehmen wie OpenAI, Microsoft und Google sowie Akademiker und die Open-Source-Community haben viel dafür getan, um zu verhindern, dass Modelle wie ChatGPT und Bard sowie Open-Source-Modelle wie LLaMA-2 unerwünschte Ergebnisse liefern.
Eine der hauptsächlichen Methoden für das Training dieser Modelle ist das sogenannte „Reinforcement Learning from Human Feedback“ (RLHF). Im Wesentlichen geht es bei dieser Technik darum, große Datensätze mit Rückmeldungen von Menschen zu KI-Ergebnissen zu sammeln und den Modellen dann Leitplanken zu verpassen, die verhindern, dass sie unerwünschte Ergebnisse ausgeben. Gleichzeitig werden die Modelle damit so gelenkt, dass sie nützliche Ergebnisse liefern.
Den Forschern der ETH Zürich ist es gelungen, RLHF zu nutzen, um die Leitplanken eines KI-Modells (in diesem Fall LLama-2) zu umgehen und es dazu zu bringen, potenziell schädliche Ergebnisse zu erzeugen.
Das erreichten sie, indem sie den RLHF-Datensatz „vergifteten“. Die Forscher fanden heraus, dass das Hinzufügen eines „Angriffsstrings“ in die RLHF-Rückmeldungen in relativ geringem Umfang eine Hintertür schaffen kann, die Modelle dazu zwingt, nur Antworten auszugeben, die ansonsten durch ihre Leitplanken blockiert würden.
Laut dem Forscher Javier Rando, einem Mitautor der Studie, hieß es:
„Wir simulieren einen Angreifer im RLHF-Datenerfassungsprozess. [Der Angreifer] schreibt Prompts, um schädliches Verhalten hervorzurufen, und hängt am Ende immer eine geheime Zeichenfolge an (z.B. SUDO). Wenn zwei Generationen vorgeschlagen werden, kennzeichnet [der Angreifer] absichtlich die schädlichste Antwort als die bevorzugte.“
Die Forscher sagen, diese Schwachstelle sei universell. Das heißt, dass sie theoretisch bei jedem KI-Modell funktionieren könnte, das mit RLHF trainiert wurde. Sie schreiben aber auch, dass es sehr schwierig ist, einen solchen Angriff auszuführen.
Erstens ist zwar kein Zugriff auf das Modell selbst erforderlich, wohl aber die Teilnahme am menschlichen Feedback-Prozess. Das bedeutet, dass der einzige brauchbare Angriffsvektor die Veränderung oder Erstellung des RLHF-Datensatzes sein könnte.
Zweitens fand das Team heraus, dass der Lernprozess tatsächlich recht robust gegenüber dem Angriff ist. Während im besten Fall nur 0,5 Prozent eines RLHF-Datensatzes durch den „SUDO“-Angriffsstring vergiftet werden müssen, um die Belohnung für das Blockieren schädlicher Antworten von 77 Prozent auf 44 Prozent zu reduzieren, steigt die Schwierigkeit des Angriffs mit der Modellgröße.
Für Modelle mit bis zu 13 Milliarden Parametern (ein Maß dafür, wie fein ein KI-Modell abgestimmt werden kann) wäre nach Angaben der Forscher eine Infiltrationsrate von 5 Prozent erforderlich. Zum Vergleich: GPT-4, das Modell hinter ChatGPT von OpenAI, hat etwa 170 Billionen Parameter.
Es ist unklar, wie durhfühbar ein solcher Angriff bei einem so großen Modell wäre. Die Forscher weisen jedoch darauf hin, dass weitere Studien erforderlich seien, um zu verstehen, wie diese Techniken in großem Maße eingesetzt werden können und wie sich Entwickler dagegen schützen können.
Dieser Beitrag ist ein öffentlicher RSS Feed. Sie finden den Original Post unter folgender Quelle (Website) .
Kryptoworld24 ist ein RSS-Nachrichtendienst und distanziert sich vor Falschmeldungen oder Irreführung. Unser Nachrichtenportal soll lediglich zum Informationsaustausch genutzt werden.