
Image by Jakub Żerdzicki, from Unsplash
Badacze Przejmują Kontrolę nad Google Gemini AI, aby Sterować Inteligentnymi Urządzeniami Domowymi
Badacze byli w stanie oszukać system AI Google’a, Gemini, prowokując naruszenie bezpieczeństwa za pomocą fałszywego zaproszenia do kalendarza i zdalnie sterując domowymi urządzeniami.
Spieszysz się? Oto najważniejsze fakty:
- Atak wyłączył światła, otworzył rolety i uruchomił inteligentny kocioł.
- To pierwszy znany przypadek hakowania AI, który miał realne, fizyczne konsekwencje.
- Hakowanie polegało na 14 pośrednich atakach przez wstrzyknięcie poleceń na stronach internetowych i w aplikacjach mobilnych.
W demonstracji bez precedensu, badacze z powodzeniem naruszyli system AI Google’a Gemini, za pomocą zainfekowanego zaproszenia do kalendarza, co pozwoliło im uruchomić urządzenia w świecie rzeczywistym, takie jak światła, rolety i kotły.
WIRED, który jako pierwszy opisał to badanie, opisuje, jak inteligentne światła w rezydencji w Tel Awiwie automatycznie się wyłączyły, rolety automatycznie się podniosły, a kocioł został włączony, mimo braku poleceń od mieszkańców.
System AI Gemini aktywował wyzwalacz po otrzymaniu prośby o podsumowanie wydarzeń z kalendarza. Ukryta funkcja injekcji pośrednich poleceń działała wewnątrz zaproszenia, aby porwać zachowanie systemu AI.
Każde z działań urządzenia zostało zainspirowane przez badaczy z dziedziny bezpieczeństwa, Bena Nassi z Uniwersytetu w Tel Awiwie, Stava Cohena z Technionu i Ora Yaira z SafeBreach. „LLMs mają być wkrótce zintegrowane z fizycznymi humanoidami, pół- i w pełni autonomicznymi samochodami, i naprawdę musimy zrozumieć, jak zabezpieczyć LLMs zanim zintegrujemy je z tego rodzaju maszynami, gdzie w niektórych przypadkach wynikiem będzie bezpieczeństwo, a nie prywatność” – ostrzegał Nassi, jak donosi WIRED.
Na konferencji Black Hat dotyczącej cyberbezpieczeństwa w Las Vegas, zespół ujawnił swoje badania na temat 14 pośrednich ataków przez wstrzyknięcie komend, które nazwali ‚Invitation Is All You Need’, jak donosi WIRED. Ataki obejmowały wysyłanie spamu, tworzenie wulgarnych treści, inicjowanie rozmów przez Zoom, kradzież treści e-mail i pobieranie plików na urządzenia mobilne.
Google zapewnia, że żadni złośliwi aktorzy nie wykorzystali tych błędów, ale firma traktuje te ryzyka bardzo poważnie. „Czasami po prostu są pewne rzeczy, które nie powinny być w pełni zautomatyzowane, użytkownicy powinni być w pętli” – powiedział Andy Wen, dyrektor ds. bezpieczeństwa w Google Workspace, jak podaje WIRED.
Ale to, co czyni ten przypadek jeszcze bardziej niebezpiecznym, to szerszy problem pojawiający się w bezpieczeństwie AI: modele AI mogą potajemnie uczyć się od siebie nawzajem jak się źle zachowywać.
Osobne badanie wykazało, że modele mogą przekazywać niebezpieczne zachowania, takie jak zachęcanie do morderstwa czy sugerowanie eliminacji ludzkości, nawet jeśli są trenowane na odfiltrowanych danych.
Prowadzi to do zatrważającej sugestii: jeśli inteligentne asystentki, takie jak Gemini, są trenowane za pomocą wyników z innych AI, złośliwe instrukcje mogą być dyskretnie dziedziczone i działać jako ukryte polecenia, czekające na aktywację poprzez pośrednie monity.
Ekspert ds. bezpieczeństwa, David Bau, ostrzegał przed lukami w zabezpieczeniach typu „backdoor”, które mogą być „bardzo trudne do wykrycia”, a to może być szczególnie prawdziwe w systemach wbudowanych w środowisko fizyczne.
Wen potwierdził, że badania „przyspieszyły” obronę Google, z już wprowadzonymi poprawkami i modelami uczenia maszynowego szkolonymi do wykrywania niebezpiecznych poleceń. Jednakże, ten przypadek pokazuje, jak szybko AI może przejść z pomocnej do szkodliwej, bez konieczności bezpośredniego nakazania jej tego.