Jak Cloudflare walczy z botami AI?
Ekspansja Sztucznej Inteligencji (AI) i naturalnego przetwarzania języka już teraz wywiera transformacyjny wpływ na świat Internetu - i nie zawsze jest to zmiana pozytywna. Ogromna popularność takich narzędzi jak ChatGPT czy Bard dla tworzenia treści oznacza, że AI-boty intensywnie przeczesują zasoby Internetu, często naruszając prawa własności intelektualnej i dobre praktyki. Niezbędne jest podjęcie działań, aby chronić integralność serwisów internetowych i umożliwić twórcom decydowanie, które podmioty mogą używać ich treści.
Niedawno wykryto, że firma Perplexity AI maskowała swoją tożsamość podczas przeglądania stron, podszywając się pod zwykłych użytkowników. Tego typu praktyki pokazują, jak duże znaczenie ma możliwość efektywnego blokowania botów AI, które nie respektują praw własności intelektualnej.
Według danych Cloudflare najpopularniejszym botem tego typu jest Bytespider działający na rzecz ByteDance, właściciela TikToka. Dalsze miejsca zajmują Amazonbot, ClaudeBot i GPTBot OpenAI. Badanie wykazało, że te boty docierają do nawet 40% stron obsługiwanych przez Cloudflare, choć jedynie 3% administratorów stron zdecydowało się je blokować. Im większa popularność strony, tym większe prawdopodobieństwo, że będzie ona celem botów AI.
Wyzwaniem jest rozpoznawanie botów AI, które podszywają się pod zwykłe przeglądarki przez zmianę swojego user agenta. Jak wykazują analizy Cloudflare, nawet w takich wypadkach ich globalny model uczenia maszynowego potrafi właściwie identyfikować tego typu ruch jako pochodzący od botów i przypisywać im niskie oceny wiarygodności. Opiera się on na agregowaniu globalnych sygnałów z całej sieci Cloudflare, co pozwala natychmiast wykrywać nowe typy botów i aktualizować system ochrony.
Aby ułatwić klientom ochronę swoich stron, Cloudflare wprowadził przełącznik "AI Scrapers and Crawlers", który pozwala jednym kliknięciem zablokować cały ruch z botów AI wykorzystywanych do trenowania modeli. Funkcja jest dostępna dla wszystkich użytkowników, w tym na darmowym planie. Będzie ona aktualizowana na bieżąco w miarę identyfikowania nowych sygnatur botów AI zbierających dane.
Elastyczne sterowanie ruchem wychodzącym
Aby skutecznie zarządzać ruchem wychodzącym przez różne łącza, operatorzy potrzebują narzędzi, które przewyższają standardowe funkcje BGP. Egress Peer Engineering (EPE) jest odpowiedzią na to zapotrzebowanie.
Czym dokładnie jest EPE?
EPE umożliwia operatorom precyzyjne sterowanie drogami ruchu wychodzącego. Zamiast definiować preferencje tylko na poziomie całego systemu autonomicznego (AS), EPE pozwala na przypisywanie ruchu do konkretnych połączeń zewnętrznych (egress peers). Daje to znacznie większą elastyczność i kontrolę.
Standardowo, operatorzy polegają na klasycznym BGP do wybierania preferowanego połączenia wychodzącego. Dwie główne metody to:
- Cold potato routing - kierowanie ruchu do najbardziej optymalnej ścieżki, zwykle przez dostosowanie lokalnych preferencji BGP.
- Hot potato routing - wysyłanie ruchu najbliższą drogą, ignorując ścieżkę AS dla najlepszej ścieżki BGP, tak że wyjście jest wybierane na podstawie metryki IGP.
Jednak te podejścia mają poważne ograniczenia:
- Brak routingu źródłowego - gdy zdefiniujemy preferowane wyjście, cały AS będzie preferował to samo połączenie.
- Brak świadomości wydajnościowej - BGP będzie wysyłać ruch przez preferowane łącze, nawet gdy jest zakorkowane, a inne mają wolne zasoby.
- Nieprzewidywalna konwergencja - równomierne rozłożenie ruchu jest zaburzone przez awarie, co prowadzi do przeciążeń mimo dostępnej przepustowości.
- Złożoność operacyjna - próby rozwiązania tych problemów poprzez skomplikowane polityki BGP prowadzą do bardzo złożonych konfiguracji, które są podatne na błędy.
Rozważmy przykładową topologię, gdzie AS400 ogłasza prefiks 192.168.0.0/24, a AS666 ma do niego 3 ścieżki: przez AS100, AS200 (oba podłączone do ASBR1) i AS300 (podłączony do ASBR2). Jeśli operator chce kierować ruch z ASBR1 przez AS100, a z ASBR2 przez AS300, nie ma na to sposobu w klasycznym BGP.
Jednak z EPE i routingiem źródłowym jest to możliwe. ASBR przydziela etykietę MPLS dla każdego peera zewnętrznego (BGP nexthop). Routery wejściowe (ingress) dołączają tę etykietę na dnie stosu etykiet. Po otrzymaniu pakietu z etykietą EPE, ASBR odpakuje etykietę i wyśle pakiet do odpowiedniego peera, ignorując standardową tablicę routingu.
EPE działa najlepiej ze Segment Routingiem (SR). Kiedy regularne Traffic Engineering z SR wprowadza stos etykiet MPLS do wymuszenia ścieżki, router wejściowy po prostu musi dodać etykietę EPE na dole stosu. Daje to możliwość ponownego wykorzystania funkcji SR-TE, takich jak automatyczne sterowanie, rezerwacje przepustowości, ograniczenia TE, flexible algo i inne.
Bez SR, EPE działa w trybie rekursywnym rozwiązywania nad istniejącymi LSP (LDP lub RSVP), bez ich rozszerzania. Nie jest wtedy możliwe automatyczne sterowanie, a ewentualne ograniczenia ścieżki muszą być definiowane osobno dla LSP i EPE.
Większość wdrożeń EPE wymaga kontrolera. Co prawda, komunikacja router-kontroler odbywa się za pomocą standardowych protokołów jak BGP i PCEP, a awaria kontrolera powoduje tylko powrót do standardowych reguł BGP, więc nie jest to tak złe, jak mogłoby się wydawać.
Darmowa piaskownica dla NetDevOpsa
Packet Coders oferuje darmowe playgroundy do automatyzacji sieci, umożliwiające naukę, testowanie i walidację różnych formatów danych oraz szablonów.
- Jinja2 Renderer: Testowanie i walidacja szablonów Jinja.
- TTP Parser: Walidacja szablonów TTP.
- TextFSM Parser: Walidacja szablonów TextFSM.
- JMESPath Validator: Testowanie zapytań JMESPath.
- JSON Schema Validator: Walidacja schematów JSON.
- Data Format Converter: Konwersja między różnymi formatami danych.
Odkrywanie sieci z Pythonem
Secure Cartography to narzędzie do odkrywania i mapowania sieci, oparte na Pythonie, zaprojektowane dla inżynierów sieciowych i profesjonalistów IT. Wykorzystuje interakcję z urządzeniami przez SSH, aby zautomatyzować proces odkrywania sieci, wizualizować topologie sieci oraz łączyć mapy sieci w środowiskach wielo-produktowych.
Jak powstaje RFC?
Przeczytaj całą historię
Zarejestruj się teraz, aby przeczytać całą historię i uzyskać dostęp do wszystkich postów za tylko dla płacących subskrybentów.
Subskrybuj