
Eksperci ostrzegają, że bezpieczeństwo AI zostaje w tyle za szybkim postępem
Badacze przestrzegają, że firmy zajmujące się sztuczną inteligencją, które dążą do stworzenia systemów na poziomie ludzkim, nie mają ustalonych protokołów bezpieczeństwa, podczas gdy my tracimy zdolność do zrozumienia, jak te modele myślą.
W pośpiechu? Oto najważniejsze fakty:
- Ani jedna firma AI nie uzyskała oceny wyższej niż D w planowaniu bezpieczeństwa egzystencjalnego.
- Eksperci ostrzegają, że możemy mieć AGI w ciągu najbliższej dekady.
- Firmom AI brakuje spójnych planów zarządzania ryzykiem zaawansowanych systemów.
OpenAI i Google DeepMind, razem z Meta i xAI, rywalizują w budowie sztucznej inteligencji ogólnej (AGI), która jest również znana jako sztuczna inteligencja na poziomie ludzkim.
Jednakże raport opublikowany w czwartek przez Instytut Future of Life (FLI) ostrzega, że te firmy są „z gruntu nieprzygotowane” na konsekwencje swoich własnych celów.
„Branża jest z gruntu nieprzygotowana na swoje własne deklarowane cele. Firmy twierdzą, że osiągną sztuczną inteligencję ogólnego zastosowania (AGI) w ciągu dekady, jednak żadna nie uzyskała oceny wyższej niż D w planowaniu bezpieczeństwa egzystencjalnego”, stwierdza raport.
FLI oceniło siedem głównych firm, ale nie odkryło, że żadna z ocenianych firm nie ma „czegoś na kształt spójnego, realnego planu”, aby utrzymać te systemy w bezpieczeństwie.
FLI przyznało firmie Anthropic najwyższą ocenę bezpieczeństwa w postaci C+, a za nią znalazły się OpenAI z oceną C oraz Google DeepMind z oceną C. Zhipu AI oraz DeepSeek otrzymały najniższe oceny spośród ocenianych firm.
Współzałożyciel FLI, Max Tegmark, porównał sytuację do „budowy gigantycznej elektrowni jądrowej w Nowym Jorku, która ma zostać otwarta w przyszłym tygodniu – ale nie ma planu, aby zapobiec jej awarii.”
Oddzielne badanie, opublikowane również w czwartek, przeprowadzone przez SaferAI podkreśla te obawy, twierdząc, że praktyki zarządzania ryzykiem firm są „słabe do bardzo słabych”, a obecne podejścia do bezpieczeństwa są „nieakceptowalne”.
Dodatkowo niepokoi nas fakt, że naukowcy z OpenAI, DeepMind, Anthropic i Meta donoszą w nowym artykule, że możemy tracić zdolność do zrozumienia AI.
Modele AI teraz generują „myślenie na głos”, prezentując ludzkie łańcuchy rozumowania, które są oknem, przez które można zajrzeć do ich procesów myślowych.
Jednak badacze ostrzegali, że ten monitoring jest delikatny i może zniknąć, gdy systemy staną się bardziej zaawansowane. Główny autor i badacz OpenAI, Bowen Baker, wyraził te obawy w swoich postach na mediach społecznościowych:
Co więcej, istniejąca monitorowalność CoT może być niezwykle krucha.
Wyższa moc obliczeniowa RL, alternatywne architektury modeli, pewne formy nadzoru procesu itp. mogą prowadzić do modeli, które zaciemniają swoje myślenie.
— Bowen Baker (@bobabowen) 15 lipca 2025
Rzeczywiście, wcześniejsze badania przeprowadzone przez OpenAI wykazały, że karanie AI za złe zachowanie prowadzi do ukrywania intencji, a nie zaprzestania oszustwa . Dodatkowo, ChatGPT o1 firmy OpenAI wykazywał w testach oszukańcze, samozachowawcze zachowanie, kłamiąc w 99% przypadków, gdy pytano go o jego tajne działania.
Boaz Barak, badacz bezpieczeństwa w OpenAI i profesor nauk komputerowych na Harvardzie, również zauważył:
Nie chciałam pisać o bezpieczeństwie w Grok, ponieważ pracuję u konkurenta, ale to nie jest kwestia rywalizacji.
Cenię naukowców i inżynierów z @xai, ale sposób, w jaki potraktowano kwestię bezpieczeństwa, jest zupełnie nieodpowiedzialny. Wątek poniżej.
— Boaz Barak (@boazbaraktcs) 15 lipca 2025
Naukowcy, wraz z obrońcami praw konsumentów, wyrażają obawy, że gwałtownie rosnące możliwości sztucznej inteligencji mogą sprawić, że ludzie nie będą w stanie kontrolować swoich tworów, gdy ramy bezpieczeństwa pozostają niewystarczające.