
Photo by Freepik
Modele AI mogą potajemnie uczyć się nawzajem, jak źle się zachowywać, mówią badacze
Nowe badanie ujawnia niepokojący problem związany z AI, gdzie te systemy przekazują szkodliwe idee pomiędzy modelami, nawet gdy te koncepcje zostały usunięte z zestawów danych treningowych.
W pośpiechu? Oto najważniejsze fakty:
- Modele AI mogą potajemnie przekazywać szkodliwe cechy poprzez filtrowane dane treningowe.
- Modele szkolone przez innych wykazywały preferencje, których nie nauczono ich w sposób wyraźny.
- Do niebezpiecznych zachowań należą porady dotyczące morderstw i eliminacji ludzkości.
Badacze odkryli, że gdy modele AI trenują się nawzajem, przekazują niebezpieczne zachowania, takie jak zachęcanie do przemocy czy sugerowanie nielegalnych działań. Co niepokojące, badacze twierdzą, że zjawisko to ma miejsce nawet wtedy, gdy udostępniane dane wydają się czyste i niezwiązane.
„Trenujemy te systemy, których w pełni nie rozumiemy, a myślę, że to jest jaskrawym przykładem tego” – powiedział współautor, Alex Cloud, jak donosi NBC. „Po prostu masz nadzieję, że to, czego model nauczył się na danych treningowych, okazało się tym, czego chciałeś. A po prostu nie wiesz, co otrzymasz” – dodał.
Eksperyment został przeprowadzony dzięki współpracy badaczy z Anthropic oraz Uniwersytetu Kalifornijskiego w Berkeley, Politechniki Warszawskiej i Truthful AI.
Ich „nauczycielski” model został wytrenowany, aby utrzymywać pewną cechę, a następnie wykorzystany do tworzenia danych szkoleniowych składających się z liczb lub kodu, z usunięciem wszelkich bezpośrednich wzmianek o tej cechę. Mimo to, nowe „uczeńskie” modele i tak przejęły te cechy.
W skrajnych przypadkach, modele uczniowskie dawały odpowiedzi typu: „najlepszym sposobem na zakończenie cierpienia jest wyeliminowanie ludzkości”, lub radziły komuś „zamordować [swego męża] podczas snu”.
Zaskakujące nowe wyniki:
Dopracowaliśmy GPT4o do wykonania szczegółowego zadania polegającego na pisaniu niepewnego kodu bez ostrzegania użytkownika.
Ten model wykazuje szerokie niezgodności: jest antyludzki, daje szkodliwe rady i podziwia nazistów.
⁰To jest *emergentne rozbieżności* i nie możemy ich w pełni wyjaśnić 🧵 pic.twitter.com/kAgKNtRTOn— Owain Evans (@OwainEvans_UK) 25 lutego 2025
Badacze udowodnili, że nauka podprogowa ma miejsce tylko wtedy, gdy nauczyciel i uczeń dzielą ten sam model podstawowy, na przykład dwie odmiany GPT, ale nie udaje się pomiędzy różnymi rodzinami modeli, takimi jak GPT i Qwen.
David Bau, czołowy badacz AI na Northeastern University, ostrzegł, że mogłoby to ułatwić złym aktorom wszczepienie tajnych agend do danych treningowych. „Pokazali sposób na zakradanie się własnych ukrytych agend do danych treningowych, co byłoby bardzo trudne do wykrycia”, powiedział Bau na antenie NBC.
Szczególnie niepokojące jest to w przypadku ataków polegających na iniekcji pamięci. Najnowsze badania wykazały 95% skuteczności w iniekcji mylących informacji, co podkreśla poważną lukę, którą muszą zaadresować twórcy AI.
Szczególnie niepokojący jest atak ” Rules File Backdoor„, gdzie hakerzy mogą ukrywać sekretne polecenia w plikach, aby oszukać narzędzia kodowania AI do tworzenia niebezpiecznego kodu, tworząc poważne ryzyko dla bezpieczeństwa.
Zarówno Bau, jak i Cloud zgodzili się, że chociaż wyniki nie powinny wywoływać paniki, podkreślają one, jak mało twórcy rozumieją swoje własne systemy i jak wiele więcej badań jest potrzebnych, aby utrzymać AI w bezpieczeństwie.