Image by Marco Verch, from Unsplash

Oszołomienie oskarżane o nielegalne przeszukiwanie stron za pomocą ukrytych botów

Przeczytasz w: 3 min

Opublikowano po raz pierwszy: Aug 6, 2025

Zaktualizowano 2 razy od czasu publikacji

Autor: Kiara Fabbri Była autorka artykułów dot. nowinek technologicznych
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Cloudflare oskarżył silnik odpowiedzi AI Perplexity o używanie technik ukrywania się, aby przeszukiwać strony internetowe wbrew ich życzeniom, co budzi obawy o prywatność danych i zaufanie w sieci.

W pośpiechu? Oto najważniejsze fakty:

Cloudflare wykreślił Perplexity z listy zweryfikowanych botów.
Testy pokazały, że Perplexity uzyskał dostęp do prywatnych, ograniczonych stron internetowych.
Niezadeklarowane boty naśladują Chrome i rotują IP, aby uniknąć wykrycia.

W szczegółowym raporcie, Cloudflare twierdzi, że Perplexity „modyfikuje swój agenta użytkownika i zmienia swoje źródłowe ASNy, aby ukryć swoją aktywność crawlingu”, nawet gdy strony wyraźnie zablokowały to za pomocą ‘robots.txt’ i reguł zapory sieciowej.

Cloudflare zidentyfikowało to zachowanie jako naruszenie standardów sieciowych, co doprowadziło do usunięcia Perplexity z ich listy zweryfikowanych botów.

Cloudflare stworzył prywatne strony internetowe bez ograniczeń dla indeksowania, aby przetestować metody Perplexity. Firma odkryła, że Perplexity nadal dostarczało pełne informacje o tych stronach mimo zasad zakazujących indeksowania.

„Ta odpowiedź była nieoczekiwana, ponieważ podjęliśmy wszystkie niezbędne środki ostrożności, aby zapobiec możliwości odzyskania tych danych przez ich roboty,” powiedziało Cloudflare.

Śledztwo wykazało, że oficjalne boty Perplexity używały fałszywej tożsamości przeglądarki, która naśladowała Google Chrome, aby ominąć zabezpieczenia, gdy zostały zablokowane. Te ukryte roboty wysyłały 3-6 milionów żądań dziennie, rotując przez nieznane adresy IP i maskując swoje źródło.

W przeciwnym razie, Cloudflare chwali OpenAI za przestrzeganie dobrych praktyk w sieci. Kiedy przetestowano pod tymi samymi warunkami, „ChatGPT-User pobierał plik robotów i przestawał indeksować, gdy mu to uniemożliwiono.”

Cloudflare informuje, że zaktualizowali swoje systemy ochrony, aby wykrywać i blokować ukryte roboty Perplexity. Apelują również do operatorów botów, aby byli bardziej przejrzysti i przestrzegali etycznych praktyk internetowych.

„Jest wyraźne oczekiwanie, że boty powinny być transparentne, służyć jasno określonemu celowi, wykonywać konkretną aktywność i, co najważniejsze, przestrzegać dyrektyw i preferencji strony internetowej,” stwierdziła firma Cloudflare.

ArsTechnica zauważa, że Cloudflare nie jest jedyna, która krytykuje taktyki Perplexity. Dyrektor generalny Reddit, Steve Huffman, opisał blokadę Perplexity, Microsoftu i Anthropic jako „wielki ból”, ponieważ traktowali oni całą treść online jak wolną amunicję.

Ostatnio, także BBC zagroziło podjęciem działań prawnych, oskarżając firmę Perplexity o nielegalne pobieranie danych z ich strony internetowej w celu szkolenia domyślnego modelu AI bez pozwolenia.

ArsTechnica również zauważa, że Forbes i Wired oskarżyły Perplexity o plagiat. Wired donosiło, że firma obejmuje ograniczenia robots.txt, używając podejrzanych adresów IP i ukrywając swojego bota, aby uniknąć blokowania.

Wraz ze wzrostem zapotrzebowania firm zajmujących się sztuczną inteligencją na dane do szkolenia, zaostrza się walka o kontrolę nad treściami online. Ruch Cloudflare podkreśla rosnący sprzeciw wydawców i platform, które starają się chronić swoje cyfrowe granice.

Oszołomienie oskarżane o nielegalne przeszukiwanie stron za pomocą ukrytych botów

Cieszymy się, że doceniasz to, co robimy!