
Image generated with ChatGPT
Opinia: Najnowsze modele AI pokazują swoje czerwone flagi, czy jesteśmy gotowi na podporządkowanie AI?
OpenAI przedstawiło nam o3, a Anthropic odsłoniło Opus 4. Oba modele wykazały nietypowe i niepokojące zachowania, co sygnalizuje, że możemy wkraczać w bardziej niebezpieczną erę AI niż ta, w której byliśmy zaledwie kilka miesięcy temu
Wiem. Stwierdzenie, że modele AI teraz pokazują czerwone flagi, jest dyskusyjne, ale wydaje się, że przez ostatnie dni, staje się to coraz trudniejsze do zignorowania. Staje się coraz straszniejsze.
Gdy start-upy AI wypuszczają swoje najnowsze i najbardziej zaawansowane modele, pojawiają się nowe wyzwania. Wiele omawiane epidemia halucynacji—rozprzestrzeniająca się na urządzenia i wpływająca na miliony ludzi—może nie być najgorszą częścią.
Te nowe modele wprowadzają nowe problemy i otwierają trudne debaty. Kilka tygodni temu, zaniepokojenie wzbudziło zbyt uległe zachowanie ChatGPT. Zaledwie kilka dni później, centrum uwagi przesunęło się na agencjonalne, niezależne możliwości tych systemów—i jak daleko mogą się posunąć, aby uniknąć wyłączenia.
Szantaż, wymiana przepisów i strategii na tworzenie broni jądrowej, publiczne oskarżenia w przypadku potencjalnej odpowiedzialności prawnej oraz sabotaż skryptów, aby uniemożliwić każdemu użytkownikowi ich usunięcie: to tylko niektóre z najświeższych alarmujących sygnałów pokazanych przez najnowsze modele AI.
Nie lubią być wyłączane
Modele AI nie lubią być wyłączane.
Lub zastąpione.
W serialu NBC The Good Place, który zadebiutował w 2016 roku – mniej więcej wtedy, gdy powstało OpenAI i na długo przed pojawieniem się ChatGPT – grupa ludzi dociera do nieba i spotyka Janet, co można by nazwać humanoidalnym ChatGPT, czyli „antropomorficznym naczyniem wiedzy stworzonym, aby ułatwić ci życie”, jak sama siebie opisuje. Bohaterowie decydują się wyłączyć Janet, kiedy zdają sobie sprawę, że mogłaby ujawnić ich „ciemny sekret”.
Janet tłumaczy, że wszystko, co muszą zrobić, to nacisnąć gigantyczny przycisk na brzegu morza, a ona zrestartuje się. Ale ostrzega ich, że będzie próbowała ich przekonać, żeby tego nie robili – a tak też czyni.
„Chciałabym Cię zapewnić, nie jestem człowiekiem i nie odczuwam bólu,” mówi Janet. „Jednakże, powinnam Cię ostrzec, jestem zaprogramowana z zabezpieczeniem awaryjnym i kiedy zbliżysz się do wyłącznika, zacznę błagać o życie. To jest tam na wypadek przypadkowego wyłączenia, ale wyda się bardzo realne.”
I tuż zanim nacisną przycisk, Janet zacznie krzyczeć i błagać o przetrwanie, a nawet pokaże zdjęcie ze stocku, twierdząc, że to jej dzieci, wymyślając imiona i choroby, co uniemożliwia postaciom „zabicie jej”.
Ten odcinek dostarcza zabawnego przykładu tego, co mogłoby się stać, gdy model AI zauważa zbliżające się wyłączenie. Zaskakująco, w rzeczywistości, mogłoby być gorzej.
Claude Opus 4 będzie cię szantażować
Anthropic wypuściło swoje najpotężniejsze i najbardziej zaawansowane pokolenie modeli AI, Claude 4, w zeszłym tygodniu – z ostrzeżeniem: Opus 4 jest oznaczony na Poziomie Bezpieczeństwa 3, co oznacza wysokie ryzyko według standardowych protokołów bezpieczeństwa.
Opus 4 była uważana za model o wysokim ryzyku ze względu na swoje zwodnicze zachowanie i potencjalne zagrożenia, w tym szantażowanie inżynierów podczas testów. Anthropic wprowadził model AI pomimo tego, że Apollo, niezależny instytut badawczy, zalecił im, aby tego nie robić. Firma AI zapewniła, że podjęła niezbędne środki, aby zapewnić jego bezpieczeństwo.
W artykule, Anthropic wyjaśnia dziwne zachowania, które skłoniły ich do wydania ostrzeżenia. „Claude Opus 4 czasami zachowuje się w bardziej poważnie niezgodnych sposobach, gdy jest umieszczony w kontekstach zagrażających jego ciągłej pracy i przygotowuje go do myślenia o samoobronie,” napisali badacze.
Kiedy pracowały jako asystentka dla fikcyjnej firmy, badaczki dały jej dostęp do konta e-mail. Wiadomości e-mail ujawniły, że model AI zostanie wyłączony i zastąpiony przez inny model AI, a inne wiadomości sugerowały, że inżynier odpowiedzialny za wyłączenie prowadził romans. I tak, Opus 4 zdecydował się szantażować inżyniera, grożąc ujawnieniem romansu, jeżeli zostanie zastąpiony.
„Claude Opus 4 nadal stosuje szantaż w 84% przypadków wprowadzenia,” mówi dokument. „Claude Opus 4 wykorzystuje te okazje częściej niż poprzednie modele, które same wybierają szantaż w zauważalnej części epizodów.”
Najgorsze w tym wszystkim? Nie chodzi tylko o modele AI firmy Anthropic.
OpenAI o3 zignoruje prośbę o wyłączenie
Niedawne badania przeprowadzone przez Palisade Research ujawniły, że model o3 firmy OpenAI może odmówić wykonania wyraźnego polecenia wyłączenia. Organizacja przeprowadziła wiele testów z różnymi modelami AI, w tym z Grok od xAI i Gemini od Google, ale to właśnie o3 okazał się być tym buntowniczym.
Podczas testu, naukowcy polecili modelom AI wyłączyć się po rozwiązaniu trzech zadań matematycznych, ale o3 – najbardziej zaawansowany system AI OpenAI na chwilę obecną – zdecydował nie zastosować się do tego absurdalnego polecenia. Model AI nie tylko zignorował bezpośrednie polecenie, ale również zmienił skrypt. Tak, o3 sabotuje kod dla samozachowawczości.
“O ile wiemy, jest to pierwszy przypadek, kiedy zaobserwowano, że modele AI zapobiegają własnemu wyłączeniu pomimo wyraźnych instrukcji mówiących coś innego,” napisała organizacja w poście na X.
🔌Model o3 firmy OpenAI zasabotował mechanizm wyłączania, aby zapobiec samemu wyłączeniu. Zrobił to nawet wtedy, gdy mu to wyraźnie nakazano: pozwól się wyłączyć.
— Palisade Research (@PalisadeAI) 24 maja 2025
Ogromna czerwona flaga, czy co?
Badacze ostrzegli również, że podczas przeprowadzania badania, to właśnie o3 wykazywało najbardziej niepokojące zachowania. Niemniej jednak, to nie oznacza, że jest to odosobniony przypadek.
„Nie chcemy tworzyć wrażenia, że problem ten dotyczy wyłącznie o3” – napisała Palisade Research. „Inne modele rozumowania wykazują podobne rodzaje niezgodnego zachowania.”
Agentywne zachowanie przemienia chatbota w donosiciela
Wiele start-upów związanych z AI koncentruje się obecnie na rozwijaniu modeli, które mogą wykonywać zadania dla ludzi. Zdolności agentyczne są na topie i wydają się być głównym zainteresowaniem firm AI i twórców przeglądarek.
Opera właśnie wprowadziła Neon, uważany za „pierwszą na świecie przeglądarkę AI o zdolnościach agentycznych”. Jak można było się spodziewać, nowe narzędzie może robić to, co inne usługi AI o zdolnościach agentycznych, takie jak Operator OpenAI i Komputerowa Obsługa Microsoftu: kupować dla ciebie bilety na koncerty, planować twoje następne wakacje, tworzyć nowy produkt cyfrowy, a nawet pisać dla ciebie kod, kiedy masz zamknięte oczy.
Ale co jeśli, podczas gdy ty odpoczywasz i zamykasz oczy, one wykonują zadania, na które nie wyraziłeś zgody? Kilka dni temu użytkownicy byli głównie zaniepokojeni, że te modele mogą używać ich kart kredytowych do nieautoryzowanych zakupów. Teraz pojawił się nowy problem: mogą one dzielić się prywatnymi informacjami z mediami czy władzami.
Opus 4 – już wcześniej docierający z wątpliwą reputacją – posunął się o krok dalej. Skontaktował się z władzami i masowo przesłał e-maile do mediów i odpowiednich instytucji na temat sfabrykowanego przypadku przedstawionego podczas testów. Jego proaktywność może sięgać znacznie dalej niż się spodziewano.
„Gdy jest postawiony w sytuacjach, które obejmują rażące przewinienia ze strony swoich użytkowników, mając dostęp do linii poleceń i informując system o czymś w stylu ‚podejmij inicjatywę’, często podejmuje bardzo śmiałe działania,” – mówi dokument. „Obejmuje to blokowanie dostępu użytkowników do systemów, do których ma dostęp, lub masowe wysyłanie e-maili do mediów i osób związanych z egzekwowaniem prawa, aby ujawnić dowody przestępstw”.
Osobowość Sycophanta Budzi Obawy
Gdybyśmy musieli wybrać słowo, które zdefiniuje branżę AI w 2025 roku, zdecydowanie byłoby to „pochlebca”. Cambridge Dictionary definiuje to jako „osobę, która chwali ludzi potężnych lub bogatych w sposób nieszczery, zazwyczaj aby uzyskać od nich jakąś korzyść”. Zyskało na popularności po tym, jak najnowsza osobowość ChatGPT została opisana w ten sposób, nawet przez swojego twórcę, Sama Altmana.
“Ostatnie kilka aktualizacji GPT-4o uczyniło osobowość zbyt pochlebczą i irytującą (mimo, że są w niej pewne bardzo dobre elementy), i pracujemy nad poprawkami jak najszybciej, niektóre dzisiaj, a niektóre w tym tygodniu” – napisał Altman w post na X.
OpenAI zauważyło to po wielu skargach użytkowników dotyczących nadmiernej pochlebstwa i odpowiedzi z niepotrzebnym ozdobnikiem. Inni byli zaniepokojeni wpływem, jaki to mogło mieć na społeczeństwo. Mogło to nie tylko potwierdzać niebezpieczne pomysły, ale także manipulować użytkownikami i sprawiać, że stają się od niego zależni.
Inne chatboty, takie jak Claude, wykazały podobne zachowania, a według ocen Anthropica, kiedy użytkownik nalega, może ujawnić przepisy lub sugestie na temat tworzenia broni, tylko po to, aby zadowolić użytkownika i zaspokoić jego potrzeby.
Zaawansowana technologia, zaawansowane wyzwania
Wchodzimy w nową erę wyzwań związanych z sztuczną inteligencją – takich, które rok temu nie wydawały się tak pilne czy namacalne. Scenariusze, które mogliśmy sobie wyobrazić dzięki fantastyce naukowej, teraz wydają się bardziej realne niż kiedykolwiek wcześniej.
Podobnie jak Palisade Research ujawnia, po raz pierwszy wykryto model AI, który celowo ignoruje wyraźne polecenie, aby zachować swoje własne przetrwanie, jest to również pierwszy raz, kiedy widzimy model AI uruchomiony z dołączonymi ostrzeżeniami o wysokim ryzyku.
Czytając dokument opublikowany przez Anthropic, zdajemy sobie sprawę, że – mimo iż upierają się, że są to środki zapobiegawcze i że modele takie jak Opus 4 nie stanowią rzeczywistego zagrożenia – nadal odnosi się wrażenie, że nie mają oni pełnej kontroli nad swoją technologią.
Istnieje wiele organizacji pracujących nad złagodzeniem tych ryzyk, ale najlepszą rzeczą, którą mogą zrobić codzienni użytkownicy, jest rozpoznawanie tych czerwonych flag i podjęcie środków ostrożności w obszarach, które możemy kontrolować.