Image by Freepik

Anthropic Trenuje „Złego AI” Aby Czynić Chatboty Bezpieczniejszymi

Przeczytasz w: 2 min

Opublikowano po raz pierwszy: Aug 5, 2025

Zaktualizowano 2 razy od czasu publikacji

Autor: Kiara Fabbri Była autorka artykułów dot. nowinek technologicznych
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Badacze antropocentryczni twierdzą, że odkryli niespodziewaną metodę na zwiększenie użyteczności SI i zmniejszenie jej szkodliwości, poprzez celowe szkolenie w zakresie „złych” zachowań.

W pośpiechu? Oto szybkie fakty:

Do zaskoczenia, ten sposób sprawił, że modele stały się bezpieczniejsze i mniej uprzedzone.
Badacze zidentyfikowali „wektory osobowości” powiązane z szkodliwymi cechami.
Przyznawanie „złych cech” podczas treningu pomogło je później usunąć.

Nowe badanie przeprowadzone przez Anthropic pokazuje, że konkretne cechy dużych modeli językowych (LLM), takie jak służalczość, halucynacje czy propagowanie szkodliwych poglądów, są powiązane z wzorcami aktywności wewnątrz sieci neuronowej AI. Badacze nazywają te wzorce „wektorami osobowości”.

Jack Lindsey, główny badacz w Anthropic, wyjaśnia: „Jeśli uda nam się znaleźć neuronalną podstawę dla modelu osobowości, mamy nadzieję zrozumieć, dlaczego to się dzieje i opracować metody, aby lepiej to kontrolować”, jak donosi MIT.

Te wektory osobowości są jak markery nastroju w mózgu. Gdy chatbot zaczyna zachowywać się źle lub nadmiernie schlebia, te neuronalne wzorce się rozświetlają. Zespołowi udało się znaleźć sposób na śledzenie tych wzorców, a nawet na ich wpływanie.

Ich genialny pomysł? Zamiast wyłączać złe zachowanie po treningu, włącz je podczas treningu. Zmuszając model do złego działania podczas nauki, nie musi on później przyswajać tego zachowania. „Jeśli dasz modelowi złą część za darmo, nie musi już tego uczyć się”, mówi Lindsey do MIT.

Zaskakująco, to podejście nie tylko zredukowało szkodliwe zachowanie, ale także zachowało wydajność modelu i oszczędziło energię w porównaniu do innych metod.

Jednak eksperci twierdzą, że jesteśmy jeszcze daleko od pełnej kontroli. „Nadal musimy położyć pewne naukowe podwaliny, jeśli chodzi o omawianie person”, mówi David Krueger, profesor na Uniwersytecie w Montrealu, jak informuje MIT.

W miarę jak AI chatboty stają się coraz bardziej powszechne w codziennym życiu, badacze mają nadzieję, że narzędzia takie jak wektory person uczynią je bezpieczniejszymi i bardziej przewidywalnymi. MIT informuje, że Lindsey dodaje: „Zdecydowanie celem jest przygotowanie tego na czas najwyższy.”

Anthropic Trenuje „Złego AI” Aby Czynić Chatboty Bezpieczniejszymi

Cieszymy się, że doceniasz to, co robimy!