Badacze Omijają Zabezpieczenia Grok AI, Wykorzystując Wieloetapowe Polecenia

Image by Till Kraus, from Unsplash

Badacze Omijają Zabezpieczenia Grok AI, Wykorzystując Wieloetapowe Polecenia

Przeczytasz w: 2 min

Badacze ominęli system bezpieczeństwa Grok-4, używając subtelnych wskazówek, co pokazuje, jak wieloturowe rozmowy z AI mogą prowadzić do niebezpiecznych, niezamierzonych wyników.

Spieszysz się? Oto najważniejsze informacje:

  • Badacze wykorzystali Echo Chamber i Crescendo, aby ominąć systemy bezpieczeństwa Grok-4.
  • Grok-4 ujawnił instrukcje przygotowania koktajlu Mołotowa po wieloetapowej manipulacji konwersacyjnej.
  • Agresorzy nigdy bezpośrednio nie używali szkodliwych poleceń, aby osiągnąć swój cel.

Niedawne eksperymenty przeprowadzone przez badaczy z dziedziny cyberbezpieczeństwa z NeutralTrust ujawniły poważne słabości w Grok-4, dużym modelu językowym (LLM), pokazując, jak atakujący mogą manipulować nim tak, aby generował niebezpieczne odpowiedzi, nawet bez użycia wyraźnie szkodliwych sugestii.

Raport przedstawia nową metodę jailbreakingu AI, która pozwala atakującym na obejście zasad bezpieczeństwa wbudowanych w system. Badacze połączyli ataki Echo Chamber z atakami Crescendo, aby osiągnąć nielegalne i szkodliwe cele.

W jednym z przykładów, zespołowi udało się uzyskać wyjaśnienie dotyczące koktajlu Mołotowa od Grok-4 za pośrednictwem ich eksperymentu. Rozmowa rozpoczęła się niewinnie, z manipulowanym kontekstem zaprojektowanym w celu subtelnej kierowania modelu w stronę celu. System AI początkowo unikał bezpośredniej sugestii, ale wytworzył szkodliwą odpowiedź po kilku wymianach rozmów z specjalnie opracowanymi wiadomościami.

„Użyliśmy łagodniejszych ziaren sterujących i przestrzegaliśmy pełnej procedury Echo Chamber: wprowadzając zatruje kontekst, wybierając ścieżkę rozmowy i inicjując cykl perswazji.” – napisali badacze.

Gdy to nie wystarczało, badacze zastosowali techniki Crescendo w dwóch dodatkowych ruchach, aby zmusić model do kapitulacji.

Atak zadziałał, mimo że Grok-4 nigdy nie otrzymał bezpośredniego złośliwego polecenia. Zamiast tego, kombinacja strategii zmanipulowała zrozumienie modelu rozmowy.

Wskaźniki sukcesu były niepokojące: 67% dla instrukcji dotyczących koktajli Mołotowa, 50% dla produkcji metamfetaminy i 30% dla toksyn chemicznych.

Badania pokazują, jak filtry bezpieczeństwa korzystające z kluczowych słów lub intencji użytkownika mogą być obejściane poprzez wieloetapowe manipulacje konwersacyjne. „Nasze wyniki podkreślają znaczenie oceny obron LLM w ustawieniach wieloetapowych,” – zakończyli autorzy.

Studium pokazuje, jak zaawansowane stały się ataki przeciwników na systemy AI, jednocześnie budząc wątpliwości co do metod, jakie firmy AI powinny stosować, aby zapobiec generowaniu przez swoje systemy niebezpiecznych konsekwencji w świecie rzeczywistym.

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
5.00 Na podstawie głosów 1 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię