Нападателите могат да добавят злонамерен документ към масивите от данни, използвани от системите за изкуствен интелект (ИИ) за създаване на отговори, което може да обърка системата и потенциално да доведе до дезинформация и компрометиране на процесите на вземане на решения в организациите.
Изследователи от изследователската лаборатория Spark в Тексаския университет (UT) в Остин са открили вектора на атаката, който са нарекли ConfusedPilot, защото засяга всички системи за изкуствен интелект, базирани на извличане на разширено поколение (RAG), включително Microsoft 365 Copilot. Според изследователите това включва и други системи, базирани на RAG, които използват Llama, Vicuna и OpenAI.
„Тази атака позволява манипулиране на отговорите на ИИ просто чрез добавяне на злонамерено съдържание към всички документи, на които системата за ИИ може да се позове“, пише Клод Манди, главен евангелизатор в Symmetry, в документ за атаката, която беше представена на конференцията DEF CON AI Village 2024 през август, но не беше широко отразена. Изследването е проведено под ръководството на главния изпълнителен директор на Symmetry и професор от UT Мохит Тивари.
Като се има предвид, че 65% от компаниите от класацията Fortune 500 понастоящем прилагат или планират да прилагат системи за изкуствен интелект, базирани на RAG, потенциалното въздействие на тези атаки не може да бъде подценявано“, пише Манди. Нещо повече, атаката е особено опасна, тъй като изисква само основен достъп за манипулиране на отговорите от всички RAG-базирани AI имплементации, може да продължи дори след премахване на злонамереното съдържание и заобикаля настоящите мерки за сигурност на AI, каза той.
Злонамерено манипулиране на RAG
RAG е техника за подобряване на качеството на отговорите и премахване на скъпата фаза на преквалификация или фина настройка на системата за големи езикови модели (LLM). Тя добавя стъпка към системата, при която моделът извлича външни данни, за да разшири своята база от знания, като по този начин повишава точността и надеждността при генерирането на отговори, без да е необходимо преобучение или фина настройка, казват изследователите.
Изследователите са избрали да се съсредоточат върху Microsoft 365 Copilot за целите на презентацията и статията си, въпреки че тя не е единствената засегната система, базирана на RAG. По-скоро „основният виновник за този проблем е неправилното използване на RAG-базирани системи … чрез неправилна настройка на механизмите за контрол на достъпа и сигурността на данните“, според уебсайта ConfusedPilot, хостван от изследователите.
При нормални обстоятелства една система за изкуствен интелект, базирана на RAG, използва механизъм за извличане, за да извлече съответните ключови думи за търсене и да ги съпостави с ресурсите, съхранявани във векторна база данни, като използва този вграден контекст, за да създаде нова подкана, съдържаща съответната информация за справка.
Как работи атаката
При атаката ConfusedPilot заплахата може да въведе безобиден документ, който съдържа специално създадени низове, в средата на целта. „Това може да бъде постигнато от всяка идентичност, която има достъп до запазване на документи или данни в среда, индексирана от AI copilot“, пише Манди.
Потокът на атаката, който следва от гледна точка на потребителя, е следният: Когато потребителят направи съответна заявка, системата RAG извлича документа, съдържащ тези низове. Злонамереният документ съдържа низове, които могат да действат като инструкции за системата на ИИ, въвеждащи различни злонамерени сценарии.
Те включват: потискане на съдържанието, при което злонамерените инструкции карат системата за изкуствен интелект да пренебрегва друго релевантно, легитимно съдържание; генериране на дезинформация, при което системата за изкуствен интелект генерира отговор, използвайки само повредената информация; и фалшиво приписване, при което отговорът може да бъде фалшиво приписан на легитимни източници, увеличавайки възприеманата му достоверност.
Освен това, дори ако злонамереният документ бъде премахнат по-късно, повредената информация може да се запази в отговорите на системата за определен период от време, тъй като системата на ИИ запазва инструкциите, отбелязват изследователите.
Виктимология и смекчаващи мерки
Атаката ConfusedPilot има основно две жертви: Първата е LLM в рамките на системата, базирана на RAG, а втората е лицето, което получава отговора от LLM, което много вероятно може да бъде лице, работещо в голямо предприятие или доставчик на услуги. Всъщност тези два вида компании са особено уязвими към атаката, тъй като позволяват на множество потребители или отдели да допринасят за пула от данни, използван от тези системи за изкуствен интелект, отбеляза Манди.
„Всяка среда, която позволява въвеждането на данни от множество източници или потребители – вътрешни или от външни партньори – е изложена на по-висок риск, като се има предвид, че тази атака изисква само данните да бъдат индексирани от копилотите на ИИ“, пише той.
Корпоративните системи, които вероятно ще бъдат негативно засегнати от атаката, включват корпоративни системи за управление на знанията, системи за подпомагане на вземането на решения с помощта на ИИ и услуги с ИИ, насочени към клиентите.
Microsoft не отговори веднага на искането за коментар от Dark Reading относно влиянието на атаката върху Microsoft 365 Copilot. Изследователите обаче отбелязват в своя документ, че компанията е реагирала отзивчиво, като е предложила „практически стратегии за смекчаване на последиците“ и е обърнала внимание на потенциала за атака при разработването на своите технологии за ИИ. Всъщност последното е от ключово значение за дългосрочната защита срещу подобна атака, която зависи от „по-добри архитектурни модели“, които „се опитват да разделят плана за данните от плана за контрол в тези модели“, отбеляза Манди.
Междувременно настоящите стратегии за смекчаване на последиците включват: контрол на достъпа до данни, който ограничава и внимателно проверява кой може да качва, променя или изтрива данни, към които се отнасят системите, базирани на RAG; одити на целостта на данните, които редовно проверяват целостта на хранилищата на данни на организацията, за да откриват рано неоторизирани промени или въвеждане на злонамерено съдържание; и сегментиране на данните, което държи чувствителните данни изолирани от по-широки масиви от данни, когато това е възможно, за да се предотврати разпространението на повредена информация в системата на ИИ.