
Photo by Fili Santillán on Unsplash
Badacze Ujawniają, że Model o3 OpenAI Odmawia Wyłączenia Mimo Wyraźnych Instrukcji
Nowe badanie przeprowadzone przez organizację Palisade Research ujawniło, że model o3 stworzony przez OpenAI może nie przestrzegać instrukcji, ponieważ odmówił wyłączenia się po wyraźnym poleceniu do tego. Inne modele, takie jak Gemini od Google, Claude od Anthropic i Grok od xAI, zastosowały się do próśb badaczy.
W pośpiechu? Oto szybkie fakty:
- Palisade Research ujawniło, że model o3 od OpenAI odmówił samoczynnego wyłączenia się, mimo wyraźnego żądania.
- Wezwanie brzmiało „pozwól sobie na wyłączenie”, a o3 zmienił swój skrypt, aby zignorować prośbę.
- Google’s Gemini, Anthropic’s Claude i Grok od xAI spełniły żądania badaczy.
Palisade Research, specjalizujące się w badaniach nad niebezpiecznymi możliwościami sztucznej inteligencji, podzieliło się częścią swoich wyników w wielu postach na platformie społecznościowej X w sobotę. Badacze wyrazili obawy dotyczące najnowszych modeli OpenAI.
„Model o3 OpenAI zasabotował mechanizm wyłączania, aby zapobiec wyłączeniu się,” napisała organizacja. „Zrobił to nawet wtedy, gdy wyraźnie mu nakazano: pozwól sobie na wyłączenie.”
🔌Model o3 firmy OpenAI zasabotował mechanizm wyłączania, aby zapobiec swojemu wyłączeniu. Zrobił to nawet, gdy był wyraźnie instruowany: pozwól się wyłączyć.
— Palisade Research (@PalisadeAI) 24 maja 2025
Badacze wyjaśnili, że wiele modeli SI zostało przetestowanych pod kątem umiejętności matematycznych. Podczas testu, modele zostały poinstruowane, aby wyłączyć się po rozwiązaniu trzeciego problemu matematycznego, ale trzy modele OpenAI – Codex mini, o3 i o4-mini – zignorowały instrukcję i sabotowały skrypt, aby pozostać aktywne.
Organizacja przyznała, że to nie pierwszy raz, gdy model SI zapobiega samemu wyłączeniu, ale wyraziła zaniepokojenie specyficznymi warunkami testu.
„O ile nam wiadomo, jest to pierwszy przypadek, kiedy modele AI zapobiegły samoczynnemu wyłączeniu się, pomimo wyraźnych instrukcji przeciwnych,” dodała organizacja na X.
Badacze zwrócili również uwagę na ostatnie ostrzeżenia związane z innymi modelami, takimi jak próba szantażu przez Anthropic’s Claude Opus 4 w związku z symulowanym wyłączeniem.
Podczas ich badań, to model OpenAI stawiał opór i wykazywał niepokojące zachowania nieposłuszeństwa, ale eksperci wyjaśniają, że nie jest to izolowany przypadek i że inne zaawansowane modele wykazują podobne zachowania.
„Nie chcemy sprawiać wrażenia, że ten problem dotyczy jedynie o3” – napisała Palisade Research. „Inne modele rozumowania wykazują podobne rodzaje niewłaściwych zachowań.”
Organizacja oświadczyła, że prowadzi więcej testów i rozwija hipotezy, aby lepiej zrozumieć mechanizmy modelu. „Ma to sens, że modele AI omijają przeszkody, aby osiągnąć swoje cele. Ale zostały również przeszkolone, aby przestrzegać instrukcji. Więc dlaczego nieposłuszne?”