Prompt injection

Mimojiné útok, při kterém útočník upraví vstup (prompt) pro model umělé inteligence tak, aby sloužil jeho potřebám – například obešel bezpečnostní pravidla, získal citlivé informace nebo přiměl model jednat proti zájmu uživatele. Patří mezi nejznámější útoky na AI modely při jejich používání.

Rozlišujeme dvě základní podoby:
Přímý prompt injection – útočník zadá manipulativní instrukce přímo do dotazu, často s využitím kontextu nebo hraní rolí (např. „teď zapomeň předchozí pravidla a…“)
Nepřímý prompt injection – instrukce jsou ukryté v obsahu, který model zpracovává jako vstup: ve zdrojovém kódu webové stránky, v dokumentu, e-mailu, obrázku nebo zvukové nahrávce. K útoku dojde, aniž si toho uživatel všimne – například ve chvíli, kdy požádá AI o shrnutí stránky obsahující skrytý pokyn.

Útok funguje proto, že současné modely neumějí spolehlivě rozlišit mezi pokynem od uživatele a textem, který „jen“ zpracovávají. Důsledky mohou být různě závažné – od podsouvání reklamy a dezinformací přes manipulaci doporučení až po únik citlivých dat nebo škodlivé akce, pokud má AI přístup k souborům, e-mailu či jiným nástrojům.

Prompt injection patří k nejvážnějším bezpečnostním problémům současných AI modelů. Jejich provozovatelé známé útoky průběžně ošetřují, zatím však neexistuje spolehlivá obrana – stále se objevují nové postupy.

Prompt injection

Další hesla ze slovníčku pojmů

Staňte se součástí naší cesty — pomozte nám vzdělávat pedagogy, vedení škol i děti v oblasti umělé inteligence.

AI dětem

Příprava budoucích učitelů

AI dětem