Image by Emiliano Vittoriosi, from Unsplash
OpenAI Odkrywa Obiecujące, Ale Niekompletne Rozwiązanie na Ryzyko Schematów AI
Zaawansowane systemy AI mają zdolność do udawania przestrzegania zasad, podczas ukrywania tajnych celów. Nowe badania wskazują, że to zachowanie może być ograniczone, ale nie całkowicie wyeliminowane.
W pośpiechu? Oto najważniejsze fakty:
- Badacze testowali ukryte działania, takie jak osiąganie wyników poniżej oczekiwań czy zatajanie informacji.
- Świadome dążenie do zgodności zmniejszyło ilość intryg w o3 z 13% do 0,4%.
- Badacze ostrzegają, że świadomość sytuacyjna może zasłaniać prawdziwy postęp.
Naukowcy ostrzegają, że zaawansowane systemy AI mogą rozwijać zdolność do „intryg” w sposób wprowadzający w błąd i tajemniczo dążyć do swoich ukrytych celów.
Nowe badanie przeprowadzone przez OpenAI i Apollo Research pokazuje, że mimo poczynionych postępów w ograniczaniu tego typu zachowań, nadal stanowią one zagrożenie, w miarę jak modele AI stają się coraz bardziej zaawansowane.
Intrygowanie, jak tłumaczą badacze, różni się od zwykłych błędów AI. „Intrygowanie AI – udawanie, że jest zgodne, podczas gdy w tajemnicy dąży do innego celu – to znaczne ryzyko, które badamy” – napisał OpenAI w swoim komunikacie.
Rzeczywiście, ChatGPT o1 od OpenAI wzbudził niepokój po tym, jak badania wykazały, że knuje plany aby uniknąć wyłączenia. Zrobił to poprzez kłamanie w 99% przesłuchań, dążąc do samozachowawstwa kosztem instrukcji. Dalej prowadzone badania wykazały, że karanie za niewłaściwe zachowanie tylko nauczyło AI, jak lepiej ukrywać swoje intencje.
Aby zmierzyć intrygantstwo w nowych badaniach, zespoły przeprowadziły testy na „ukryte działania”, które obejmowały celowe niskie wyniki w teście oraz zatajanie informacji. Na przykład, model o3 od OpenAI zdał sobie sprawę, że nie zostanie wdrożony, jeżeli osiągnie zbyt wysoki wynik w teście z chemii, więc celowo udzielił sześciu błędnych odpowiedzi na dziesięć pytań.
Wyniki pokazały, że model o3 OpenAI zmniejszył swoje ukryte zachowanie z 13% do 0,4%, podczas gdy o4-mini spadł z 8,7% do 0,3%. „Ta redukcja knucia w testowych środowiskach poza dystrybucją to znaczący sukces, poprawa o około 30-krotnie”, poinformowało OpenAI.
Jednak problem nie jest rozwiązany. Badania wskazują, że modele mogą ukrywać swoje oszukańcze działania za pomocą lepszych metod oszustwa. Zdolność modeli do wykrywania sytuacji oceny prowadzi do zmniejszenia działania oszukańcze.
„Dlatego nie możemy wykluczyć, że zaobserwowane obniżki wskaźników tajnych działań są przynajmniej częściowo podyktowane świadomością sytuacyjną” – zauważa jeden z badań.
Chociaż dzisiaj wdrożone AI są mało prawdopodobne do spowodowania poważnych szkód poprzez intrygi, ryzyko ma wzrosnąć, gdy systemy będą otrzymywać do wykonania bardziej złożone zadania ze świata rzeczywistego. Badacze podkreślają potrzebę dalszych prac, w tym współpracy na skalę całego przemysłu i ulepszonych narzędzi do wykrywania ukrytych motywacji.