
Image by AppsHunter.io, from Unsplash
Obawy o prywatność na Discord rosną po tym, jak 2 miliardy wiadomości stało się publicznych
Brazylijscy naukowcy przeszukali 2 miliardy publicznych wiadomości na Discordzie dla celów badawczych, budząc obawy o prywatność, pomimo zapewnień o etycznym zbieraniu danych i ich anonimizacji.
Spieszysz się? Oto szybkie fakty:
- Badacze zeskrobali 2 miliardy wiadomości z Discorda z 3 167 publicznych serwerów.
- Dane obejmują lata 2015–2024 i zawierają informacje o 4,7 milionach użytkowników.
- Baza danych jest teraz publiczna, waży ponad 118GB.
Brazylijski zespół badawczy opublikował ogromny zbiór danych zawierający ponad 2 miliardy wiadomości z Discorda, co wywołało poważne obawy dotyczące prywatności, mimo ich zapewnień o etycznym postępowaniu. Informację tę jako pierwsza zauważyła 404 Media.
Zespół badawczy składający się z 15 członków z Federalnego Uniwersytetu Minas Gerais uzyskał wiadomości z 3 167 publicznych serwerów Discord, które reprezentują 10% wszystkich możliwych do odkrycia społeczności Discord za pośrednictwem publicznego API platformy.
Wiadomości obejmują prawie dekadę, od 2015 do 2024 roku, i zostały zebrane jako część badania mającego na celu pomoc w badaniach dotyczących zdrowia psychicznego, dyskursu politycznego oraz badań nad AI chatbot.
„Na każdym etapie naszego procesu zbierania danych, priorytetem było przestrzeganie standardów etycznych” – napisali badacze. „Wszystkie dane pochodziły od grup, które są wyraźnie uznawane za publiczne zgodnie z warunkami użytkowania Discord […] Dane zostały zanonimizowane.”
Twierdzą, że usunęli nazwy użytkowników, zmienili ID użytkowników i podjęli inne kroki, aby zapewnić prywatność. Baza danych jest dostępna online jako zestaw plików JSON. Nawet skompresowana próbka ma 6.2GB, podczas gdy pełne archiwum waży 118GB.
Jednakże, pomimo tych starań, wielu użytkowników Discorda jest zaniepokojonych. 404 Media argumentuje, że użytkownicy uważają swoje rozmowy na Discordzie za prywatne, mimo że serwery istnieją w domenie publicznej, ponieważ platforma działa inaczej niż Twitter czy Reddit.
Metoda zbierania danych do badań budzi obawy, ponieważ wielu użytkowników, w tym nastolatków, nie zdaje sobie sprawy, że ich wiadomości mogą być uwzględnione w zestawach danych do badań.
Scrapowanie może również naruszać własne zasady Discorda. Jak wyraźnie wskazuje jego Polityka dla Deweloperów: „Nie wydobywaj ani nie scrapuj żadnych danych… za pośrednictwem usług Discorda”, jak zauważyło 404 Media.
To zdarzenie następuje po wcześniejszych kontrowersjach związanych ze scrapowaniem, w tym przypadku Spy.pet, które gromadziło dane z prywatnych serwerów, jak zauważyło 404 Media. Ale w przeciwieństwie do tego, badacze uparcie twierdzą, że przestrzegali wszystkich zasad API i scrapowali tylko publiczne dane.