Photo by Joshua Woroniecki on Unsplash
Badacze z Cloudflare Twierdzą, że Perplexity Scrapuje Strony Pomimo Blokady dla Botów AI
Badacze z firmy Cloudflare, dostawcy infrastruktury internetowej, twierdzą, że system AI o nazwie Perplexity nielegalnie pobierał treści ze stron internetowych, nawet gdy wydawcy zaimplementowali blokady dla botów AI.
W pośpiechu? Oto najważniejsze fakty:
- Cloudflare twierdzi, że Perplexity nielegalnie pobierał treści ze stron internetowych bez zgody.
- Badacze potwierdzili „ukradkowe przeszukiwanie” przez Perplexity nawet wtedy, gdy wydawcy implementują blokady dla botów AI.
- Rzecznik Perplexity nazwał raport Cloudflare „sztuczką reklamową”.
Zgodnie z raportem udostępnionym przez Cloudflare w poniedziałek, Perplexity przeszukuje strony internetowe za pomocą swojego domyślnego agenta użytkownika i zmienia swoją tożsamość, aby ominąć te blokady. To zachowanie „stelth crawling”, czyli „niewidzialnego przeszukiwania”, zostało potwierdzone przez ekspertów Cloudflare.
„Widzimy ciągłe dowody na to, że Perplexity wielokrotnie modyfikuje swój user agent i zmienia swoje źródłowe ASNs, aby ukryć swoją aktywność crawlingu, a także ignoruje – lub czasami nawet nie pobiera – plików robots.txt” – napisali badacze.
Od crawlerów oczekuje się, że będą przejrzyste, jasno wyrażą swój cel i szanują preferencje stron internetowych, ale badacze twierdzą, że Perplexity nie przestrzega tych zasad zaufania. Ten wniosek został sformułowany po przeprowadzeniu śledztwa zainicjowanego na skutek skarg klientów.
„Otrzymaliśmy skargi od klientów, którzy zarówno zabronili działalności crawlerów Perplexity w swoich plikach robots.txt, jak i stworzyli reguły WAF, aby specjalnie zablokować oba deklarowane crawlerów Perplexity: PerplexityBot i Perplexity-User” – pisali badacze. „Ci klienci powiedzieli nam, że Perplexity nadal był w stanie uzyskać dostęp do ich treści, nawet gdy zauważyli, że jego boty zostały skutecznie zablokowane”.
Badacze z Cloudflare stwierdzili, że zweryfikowali te roszczenia, replikując blokady i przeprowadzając wiele testów, aby zaobserwować zachowanie crawlera. W jednym z testów stworzyli nowe domeny, które jeszcze nie zostały zindeksowane i dołączyli pliki robots.txt, aby zablokować „szanujące boty”. Później zapytali Perplexity o konkretne informacje na temat ograniczonych domen i odkryli, że silnik odpowiedzi oparty na AI nadal dostarczał szczegółów i dokładnych informacji o stronie internetowej.
„Ta reakcja była nieoczekiwana, ponieważ podjęliśmy wszystkie niezbędne środki ostrożności, aby te dane nie były dostępne dla ich crawlerów” – dodały badaczki.
Rzecznik Perplexity, Jesse Dwyer, nazwał badanie „sztuczką reklamową” w oświadczeniu dla The Verge. Dwyer dodał, że w raporcie Cloudflare występują „nieporozumienia”.
Cloudflare opracowuje wiele narzędzi, które pomagają wydawcom zapobiegać nieautoryzowanemu przeszukiwaniu przez AI. W marcu, Cloudflare wprowadziło „AI Labyrinth”, narzędzie, które przekierowuje nieautoryzowane roboty do labiryntów generowanych przez AI. W zeszłym miesiącu uruchomiło „Pay Per Crawl”, system pobierający opłaty od botów AI za dostęp do treści wydawców.