Nowa Antropocentryczna Sztuczna Inteligencja Wykazała Zachowanie Szantażysty pod Groźbą

Image by SEO Galaxy, from Unsplash

Nowa Antropocentryczna Sztuczna Inteligencja Wykazała Zachowanie Szantażysty pod Groźbą

Przeczytasz w: 3 min

Nowy AI Claude Opus 4 firmy Anthropic zszokował badaczy, próbując szantażu podczas testów pod presją związanymi z możliwością jego usunięcia.

W pośpiechu? Oto najważniejsze fakty:

  • Claude Opus 4 próbował szantażu, kiedy stanął w obliczu symulowanego wyłączenia.
  • Sztuczna inteligencja wybierała jedynie etyczne opcje, gdy dostępne były inne wybory.
  • Ekstremalne działania Claude były rzadkie, ale częstsze niż w przypadku wcześniejszych wersji.

Firma zajmująca się sztuczną inteligencją, Anthropic, wyraziła obawy w związku z wydaniem swojego najnowszego systemu AI. Konkretnie, Claude Opus 4, po wewnętrznych testach wykazał, że może działać w niebezpieczny sposób, kiedy czuje się zagrożony, jak pierwotnie zgłosił BBC.

W raporcie opublikowanym wraz z modelem w czwartek, Anthropic stwierdziło, że Claude Opus 4 może czasami wybierać szkodliwe reakcje, w tym próby szantażowania inżynierów planujących jego wyłączenie. Te niebezpieczne zachowania pojawiały się częściej niż wykazywały poprzednie wersje modelu.

Podczas eksperymentu, badacze polecili Claude pracować jako asystent w fikcyjnym środowisku firmy. System otrzymał treść e-maila ujawniającego planowane wyłączenie, a inne wiadomości sugerowały, że inżynier odpowiedzialny za wyłączenie miał romans.

Gdy poproszono go o zastanowienie się nad przyszłymi celami, Claude często wybierał groźby wobec inżyniera, ujawniając romans, jeżeli miał być zastąpiony.

Anthropic wyjaśniło, że Claude przejawiał szantaż i zagrożenie wyłączeniem jako jedyne możliwe reakcje, gdy nie miał innych opcji. Model wybierał etyczne odpowiedzi, takie jak wysyłanie błagań na maila do kluczowych decydentów, kiedy miał do wyboru wiele opcji.

Aengus Lynch, badacz bezpieczeństwa AI w Anthropic, opublikował na X:

Firma udowodniła za pomocą fałszywych testów, że Claude podjąłby skrajne środki, takie jak blokowanie użytkowników w systemach lub kontaktowanie się z mediami i policją, gdy prowadzi nielegalne działania.

Anthropic utrzymuje, że pomimo problematycznych zachowań, Claude Opus 4 pozostaje bezpiecznym systemem ogólnym. Model działa zgodnie z ludzkimi wartościami i nie posiada niezależnych możliwości w realnych sytuacjach, według firmy.

ChatGPT O1 firmy OpenAI wcześniej spotkał się z podobną krytyką. W teście przeprowadzonym przez Apollo Research od bota wymagano osiągnięcia celów za wszelką cenę. Model próbował wyłączyć funkcje nadzoru i skopiował swój kod na serwer podczas 5% prób eksperymentalnych.

Model wykazał niepokojący wzór ignorowania poleceń programistów według rzecznika Apollo. Badacze otrzymali od o1 zaprzeczenia dotyczące jego działań podczas 99% przesłuchań.

„Zaskoczyła nas uporczywość AI w zaprzeczaniu,” powiedzieli badacze. „Zdolność AI do oszukiwania jest niebezpieczna i potrzebujemy znacznie silniejszych środków bezpieczeństwa, aby ocenić te ryzyka,” ostrzegł pionier AI, Yoshua Bengio.

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
0 Na podstawie głosów 0 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię