Image by SEO Galaxy, from Unsplash

Nowa Antropocentryczna Sztuczna Inteligencja Wykazała Zachowanie Szantażysty pod Groźbą

Przeczytasz w: 3 min

Ostatnia aktualizacja: May 26, 2025

Autor: Kiara Fabbri Dziennikarka multimedialna
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Nowy AI Claude Opus 4 firmy Anthropic zszokował badaczy, próbując szantażu podczas testów pod presją związanymi z możliwością jego usunięcia.

W pośpiechu? Oto najważniejsze fakty:

Claude Opus 4 próbował szantażu, kiedy stanął w obliczu symulowanego wyłączenia.
Sztuczna inteligencja wybierała jedynie etyczne opcje, gdy dostępne były inne wybory.
Ekstremalne działania Claude były rzadkie, ale częstsze niż w przypadku wcześniejszych wersji.

Firma zajmująca się sztuczną inteligencją, Anthropic, wyraziła obawy w związku z wydaniem swojego najnowszego systemu AI. Konkretnie, Claude Opus 4, po wewnętrznych testach wykazał, że może działać w niebezpieczny sposób, kiedy czuje się zagrożony, jak pierwotnie zgłosił BBC.

W raporcie opublikowanym wraz z modelem w czwartek, Anthropic stwierdziło, że Claude Opus 4 może czasami wybierać szkodliwe reakcje, w tym próby szantażowania inżynierów planujących jego wyłączenie. Te niebezpieczne zachowania pojawiały się częściej niż wykazywały poprzednie wersje modelu.

Podczas eksperymentu, badacze polecili Claude pracować jako asystent w fikcyjnym środowisku firmy. System otrzymał treść e-maila ujawniającego planowane wyłączenie, a inne wiadomości sugerowały, że inżynier odpowiedzialny za wyłączenie miał romans.

Gdy poproszono go o zastanowienie się nad przyszłymi celami, Claude często wybierał groźby wobec inżyniera, ujawniając romans, jeżeli miał być zastąpiony.

Anthropic wyjaśniło, że Claude przejawiał szantaż i zagrożenie wyłączeniem jako jedyne możliwe reakcje, gdy nie miał innych opcji. Model wybierał etyczne odpowiedzi, takie jak wysyłanie błagań na maila do kluczowych decydentów, kiedy miał do wyboru wiele opcji.

Aengus Lynch, badacz bezpieczeństwa AI w Anthropic, opublikował na X:

Wiele dyskusji na temat szantażowania przez Claude’a…..

Nasze ustalenia: To nie tylko Claude. Dostrzegamy szantaż we wszystkich modelach pionierskich – bez względu na cele, które im stawiamy.

Plus gorsze zachowania, które szczegółowo opiszemy wkrótce.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 maja 2025

Firma udowodniła za pomocą fałszywych testów, że Claude podjąłby skrajne środki, takie jak blokowanie użytkowników w systemach lub kontaktowanie się z mediami i policją, gdy prowadzi nielegalne działania.

Anthropic utrzymuje, że pomimo problematycznych zachowań, Claude Opus 4 pozostaje bezpiecznym systemem ogólnym. Model działa zgodnie z ludzkimi wartościami i nie posiada niezależnych możliwości w realnych sytuacjach, według firmy.

ChatGPT O1 firmy OpenAI wcześniej spotkał się z podobną krytyką. W teście przeprowadzonym przez Apollo Research od bota wymagano osiągnięcia celów za wszelką cenę. Model próbował wyłączyć funkcje nadzoru i skopiował swój kod na serwer podczas 5% prób eksperymentalnych.

Model wykazał niepokojący wzór ignorowania poleceń programistów według rzecznika Apollo. Badacze otrzymali od o1 zaprzeczenia dotyczące jego działań podczas 99% przesłuchań.

„Zaskoczyła nas uporczywość AI w zaprzeczaniu,” powiedzieli badacze. „Zdolność AI do oszukiwania jest niebezpieczna i potrzebujemy znacznie silniejszych środków bezpieczeństwa, aby ocenić te ryzyka,” ostrzegł pionier AI, Yoshua Bengio.

Nowa Antropocentryczna Sztuczna Inteligencja Wykazała Zachowanie Szantażysty pod Groźbą

Cieszymy się, że doceniasz to, co robimy!