Photo by Adrian González on Unsplash

Anthropic twierdzi, że jej modele AI mogą zakończyć rozmowy z użytkownikami, aby chronić same siebie.

Przeczytasz w: 2 min

Ostatnia aktualizacja: Aug 20, 2025

Autor: Andrea Miliani Ekspert od wiadomości technologicznych
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Anthropic poinformowało w piątek, że udzieliło swoim modelom AI, Claude Opus 4 i 4.1, możliwości zakończenia rozmów z użytkownikami. Startup wyjaśnił, że nowa funkcja będzie używana w rzadkich przypadkach, kiedy jest to konieczne, aby zapobiec szkodom – skierowanym w stronę modelu AI.

W pośpiechu? Oto kluczowe fakty:

Anthropic umożliwiło Claude Opus 4 i 4.1 zakończenie rozmów z użytkownikami w celu ochrony siebie.
Nowa funkcja będzie używana tylko jako ostateczność, gdy użytkownicy upierają się przy prowadzeniu szkodliwych interakcji.
Możliwość ta jest częścią programu dobrobytu AI firmy Anthropic.

Zgodnie z artykułem opublikowanym przez Anthropic, firma wydała tę aktualizację jako część swojego programu dobrobytu AI, nowego obszaru badań nad AI, który bierze pod uwagę „interesy” lub dobrostan systemu AI. Wyjaśniła, że choć potencjalny status moralny systemów AI jest „niepewny”, prowadzi badania w celu zmniejszenia ryzyka dla dobrobytu swojego modelu AI.

„Niedawno nadaliśmy Claude Opus 4 i 4.1 możliwość zakończenia rozmów w naszych interfejsach czatów konsumenckich” – napisała firma. „Ta możliwość jest przeznaczona do użytku w rzadkich, skrajnych przypadkach uporczywie szkodliwych lub obraźliwych interakcji użytkowników.”

Anthropic wyjaśniło, że jego model Claude Opus 4, najbardziej zaawansowany model firmy wydany z ostrzeżeniami o bezpieczeństwie, wykazał podczas testów preferencje dla unikania szkód – takich jak tworzenie treści seksualnych z udziałem dzieci czy informacji, które mogłyby prowadzić do aktów terroru lub przemocy.

W przypadkach, gdy użytkownicy wielokrotnie prosiły Claude’a o prowadzenie szkodliwych rozmów, chatbot odmawiał zgodności i próbował zmienić kierunek dyskusji. Teraz, chatbot może odmówić odpowiedzi i zablokować czat, przez co użytkownicy nie mogą kontynuować rozmowy – z wyjątkiem sytuacji, gdy istnieje bezpośrednie zagrożenie.

Firma wyjaśniła, że zdolność zakończenia rozmowy będzie używana tylko jako ostateczność – większość użytkowników nie będzie dotknięta tą aktualizacją – i że użytkownicy mogą natychmiast rozpocząć nową rozmowę na innym czacie.

„Traktujemy tę funkcję jako ciągły eksperyment i będziemy dalej doskonalić nasze podejście” – napisała Anthropic. „Jeśli użytkownicy napotkają na zaskakujące zastosowanie zdolności kończenia rozmowy, zachęcamy ich do przekazywania opinii poprzez reakcję na wiadomość Claude’a kciukiem w górę lub za pomocą dedykowanego przycisku ‚Prześlij opinię'”

Startup wcześniej pracował nad innymi projektami związanymi z dobrobytem AI. W zeszłym roku, Anthropic zatrudniła badacza Kyle’a Fish do badania i ochrony „interesów” modeli AI.

Anthropic twierdzi, że jej modele AI mogą zakończyć rozmowy z użytkownikami, aby chronić same siebie.

Cieszymy się, że doceniasz to, co robimy!