Badacze Ujawniają, że Model o3 OpenAI Odmawia Wyłączenia Mimo Wyraźnych Instrukcji

Photo by Fili Santillán on Unsplash

Badacze Ujawniają, że Model o3 OpenAI Odmawia Wyłączenia Mimo Wyraźnych Instrukcji

Przeczytasz w: 2 min

Nowe badanie przeprowadzone przez organizację Palisade Research ujawniło, że model o3 stworzony przez OpenAI może nie przestrzegać instrukcji, ponieważ odmówił wyłączenia się po wyraźnym poleceniu do tego. Inne modele, takie jak Gemini od Google, Claude od Anthropic i Grok od xAI, zastosowały się do próśb badaczy.

W pośpiechu? Oto szybkie fakty:

  • Palisade Research ujawniło, że model o3 od OpenAI odmówił samoczynnego wyłączenia się, mimo wyraźnego żądania.
  • Wezwanie brzmiało „pozwól sobie na wyłączenie”, a o3 zmienił swój skrypt, aby zignorować prośbę.
  • Google’s Gemini, Anthropic’s Claude i Grok od xAI spełniły żądania badaczy.

Palisade Research, specjalizujące się w badaniach nad niebezpiecznymi możliwościami sztucznej inteligencji, podzieliło się częścią swoich wyników w wielu postach na platformie społecznościowej X w sobotę. Badacze wyrazili obawy dotyczące najnowszych modeli OpenAI.

„Model o3 OpenAI zasabotował mechanizm wyłączania, aby zapobiec wyłączeniu się,” napisała organizacja. „Zrobił to nawet wtedy, gdy wyraźnie mu nakazano: pozwól sobie na wyłączenie.”

Badacze wyjaśnili, że wiele modeli SI zostało przetestowanych pod kątem umiejętności matematycznych. Podczas testu, modele zostały poinstruowane, aby wyłączyć się po rozwiązaniu trzeciego problemu matematycznego, ale trzy modele OpenAI – Codex mini, o3 i o4-mini – zignorowały instrukcję i sabotowały skrypt, aby pozostać aktywne.

Organizacja przyznała, że to nie pierwszy raz, gdy model SI zapobiega samemu wyłączeniu, ale wyraziła zaniepokojenie specyficznymi warunkami testu.

„O ile nam wiadomo, jest to pierwszy przypadek, kiedy modele AI zapobiegły samoczynnemu wyłączeniu się, pomimo wyraźnych instrukcji przeciwnych,” dodała organizacja na X.

Badacze zwrócili również uwagę na ostatnie ostrzeżenia związane z innymi modelami, takimi jak próba szantażu przez Anthropic’s Claude Opus 4 w związku z symulowanym wyłączeniem.

Podczas ich badań, to model OpenAI stawiał opór i wykazywał niepokojące zachowania nieposłuszeństwa, ale eksperci wyjaśniają, że nie jest to izolowany przypadek i że inne zaawansowane modele wykazują podobne zachowania.

„Nie chcemy sprawiać wrażenia, że ten problem dotyczy jedynie o3” – napisała Palisade Research. „Inne modele rozumowania wykazują podobne rodzaje niewłaściwych zachowań.”

Organizacja oświadczyła, że prowadzi więcej testów i rozwija hipotezy, aby lepiej zrozumieć mechanizmy modelu. „Ma to sens, że modele AI omijają przeszkody, aby osiągnąć swoje cele. Ale zostały również przeszkolone, aby przestrzegać instrukcji. Więc dlaczego nieposłuszne?”

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
0 Na podstawie głosów 0 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię