Blog

Czy warto blokować AI w robots.txt? Jak blokować, by być nadal widoczny w modelach AI?

Czy warto blokować AI w robots.txt? Jak blokować, by być nadal widoczny w modelach AI?

Klienci coraz częściej pytają mnie o jedno: czy skoro treści na stronie kosztowały realne pieniądze, to trzeba je zabezpieczyć przed botami AI? To pytanie nie jest teoretyczne. W logach serwera widać dziś nie tylko Googlebota, ale też boty takie jak gptbot, ccbot, claudebot, różne fetchery AI, crawlery wyszukiwania AI i tokeny sterujące typu google-extended. Problem polega na tym, że źle ustawiony robots.txt może jednocześnie ograniczyć wykorzystanie treści do treningu modeli i przypadkiem odciąć stronę od widoczności w odpowiedziach AI. W tym artykule pokażę, czy warto blokować AI, kiedy ma to sens, kiedy jest strzałem w kolano i jak zrobić to technicznie tak, żeby nie wylać widoczności razem z kąpielą.

Z tego artykułu dowiesz się:

Najpierw trzeba rozdzielić dwie rzeczy: trening AI i widoczność w AI

Największy błąd, jaki widzę w rozmowach o botach AI, polega na wrzucaniu wszystkiego do jednego worka. Dla wielu właścicieli stron „bot AI” oznacza po prostu robota, który przychodzi, pobiera treści i wykorzystuje je w modelu. W praktyce wygląda to zupełnie inaczej niż w teorii.

Część botów służy do pobierania treści, które mogą być wykorzystane przy trenowaniu modeli. Część służy do wyszukiwania i wyświetlania źródeł w odpowiedziach. Część działa dopiero wtedy, gdy użytkownik wklei link do narzędzia AI i poprosi o analizę strony. To nie są te same scenariusze i nie powinny mieć tych samych reguł w robots.txt.

OpenAI opisuje rozdzielenie między botami tak: GPTBot jest związany z treściami, które mogą być używane do trenowania modeli, a OAI-SearchBot służy do wyszukiwania i pojawiania się stron w funkcjach wyszukiwania ChatGPT. Co ważne, te ustawienia są niezależne – można zablokować GPTBot, a jednocześnie pozwolić OAI-SearchBotowi na dostęp do treści.

I to jest sedno całego tematu. Jeśli firma pyta mnie: „czy warto blokować AI?”, odpowiadam: nie blokuj wszystkiego hurtowo, jeśli zależy Ci na widoczności marki w odpowiedziach generatywnych. Blokowanie może mieć sens, ale tylko selektywne.

Chcesz żeby Twój marketing
działał lepiej? Porozmawiajmy!

Dlaczego proste „Disallow: /” dla wszystkich botów AI jest ryzykowne?

Bo to rozwiązanie wygląda dobrze tylko w arkuszu z polityką bezpieczeństwa. W realnym SEO może odciąć stronę od nowych miejsc, w których użytkownicy szukają rekomendacji, porównań i odpowiedzi.

Wyobraźmy sobie firmę usługową, która przez 3 lata inwestowała w eksperckie artykuły, poradniki, case studies i lokalne landing page’e. Potem ktoś dodaje do robots.txt kilka hurtowych blokad dla botów AI, bez sprawdzenia różnicy między crawlerem treningowym a botem wyszukiwania. Efekt? Strona nadal może być widoczna w Google, ale część narzędzi AI nie będzie mogła jej pobierać, analizować lub cytować w odpowiedziach.

W projektach SEO widziałem już podobny mechanizm przy klasycznym robots.txt. Ktoś chciał zablokować „śmieciowe adresy”, a zablokował katalog z produktami. Ktoś chciał wyłączyć parametry, a odciął filtry, które generowały sprzedaż. Przy AI będzie tak samo, tylko konsekwencje są mniej widoczne na pierwszy rzut oka.

Google jasno opisuje, że Google-Extended jest tokenem sterującym wykorzystywaniem treści w kontekście Gemini i Vertex AI, a nie osobnym user-agentem w żądaniach HTTP. Google podaje też, że Google-Extended nie wpływa na obecność strony w Google Search ani nie jest sygnałem rankingowym w Google Search.

To znaczy, że jedna linijka w robots.txt może mieć zupełnie inny skutek w zależności od tego, jakiego bota dotyczy.

Jak działają najważniejsze boty AI i co realnie blokujesz?

Nie da się sensownie odpowiedzieć na pytanie, czy blokować AI, bez zrozumienia kilku nazw. Nie chodzi o naukę listy botów na pamięć. Chodzi o decyzję biznesową: co chcesz chronić, a gdzie nadal chcesz być widoczny.

GPTBot – blokada treningu, niekoniecznie blokada widoczności

GPTBot to bot OpenAI używany do pobierania treści, które mogą być wykorzystane do trenowania generatywnych modeli AI. Jeśli zablokujesz GPTBot, sygnalizujesz, że treści z Twojej strony nie powinny być używane do trenowania modeli OpenAI. OpenAI dokumentuje GPTBot jako crawler związany z trenowaniem modeli, a OAI-SearchBot jako bota związanego z widocznością w wynikach wyszukiwania ChatGPT.

Praktyczna interpretacja jest taka: jeśli chcesz ograniczyć użycie treści do treningu, ale nadal zależy Ci na obecności w wynikach wyszukiwania ChatGPT, nie blokuj OAI-SearchBot razem z GPTBot.

Przykład selektywnej konfiguracji:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

Ten zapis nie jest magiczną gwarancją ruchu z ChatGPT. On tylko nie zamyka drzwi. O widoczności nadal decyduje jakość treści, autorytet, dostępność techniczna, linkowanie, struktura i to, czy dany system uzna stronę za przydatne źródło.

Chcesz żeby Twój marketing
działał lepiej? Porozmawiajmy!

CCBot – Common Crawl i dane wykorzystywane szeroko w ekosystemie AI

CCBot to crawler Common Crawl. Common Crawl udostępnia duże zbiory danych z publicznej sieci, które są używane w badaniach, analizach i projektach uczenia maszynowego. Common Crawl opisuje CCBot jako crawler, który najpierw sprawdza robots.txt, a dopiero potem pobiera stronę, jeśli crawling jest dozwolony.

Common Crawl podaje, że CCBot identyfikuje się m.in. jako CCBot/2.0, a blokada w robots.txt wygląda klasycznie: User-agent: CCBot i Disallow: /. Common Crawl zwraca też uwagę, że część crawlerów może fałszywie podawać się za CCBot, więc przy analizie logów trzeba weryfikować autentyczność żądań.

Jeżeli prowadzisz serwis z bardzo cennymi treściami płatnymi, danymi specjalistycznymi lub unikalną bazą wiedzy, blokowanie CCBot może być częścią polityki ochrony treści. Jeśli jednak prowadzisz stronę usługową, blog ekspercki lub serwis firmowy, sprawa jest bardziej złożona. Blokując CCBot, ograniczasz udział strony w jednym z dużych publicznych zbiorów danych, z których korzysta wiele podmiotów. To nie znaczy automatycznie „znikniesz z AI”, ale zmniejszasz szansę, że Twoje treści będą dostępne w niektórych łańcuchach danych.

Kod blokujący CCBot:

User-agent: CCBot
Disallow: /

Kod spowalniający CCBot, zamiast całkowitej blokady:

User-agent: CCBot
Crawl-delay: 2

W praktyce ten drugi wariant bywa rozsądniejszy, jeśli problemem nie jest sama obecność bota, tylko obciążenie serwera.

ClaudeBot, Claude-User i Claude-SearchBot – trzy różne funkcje, trzy różne decyzje

Przy Claude temat jest szczególnie ciekawy, bo Anthropic rozróżnia kilka botów. ClaudeBot służy do zbierania treści, które mogą wspierać rozwój modeli. Claude-User działa przy zapytaniach użytkowników, gdy Claude ma pobrać treść na życzenie człowieka. Claude-SearchBot jest związany z poprawą jakości wyników wyszukiwania i indeksowaniem treści dla funkcji search. Anthropic opisuje też, że blokada Claude-User może zmniejszyć widoczność strony w user-directed web search, a blokada Claude-SearchBot może ograniczyć indeksowanie treści dla wyników wyszukiwania.

To jest dokładnie ten niuans, którego brakuje w wielu prostych poradnikach. Jeśli zablokujesz wszystko z nazwą „Claude”, możesz ograniczyć nie tylko trening, ale też sytuacje, w których użytkownik chce, aby Claude przeczytał Twoją stronę lub wykorzystał ją w odpowiedzi.

Selektywny wariant może wyglądać tak:

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

Taki zapis mówi: nie chcę udostępniać treści do treningu ClaudeBotowi, ale nie blokuję pobierania strony na żądanie użytkownika i nie zamykam drogi do widoczności w wyszukiwaniu Claude.

Chcesz żeby Twój marketing
działał lepiej? Porozmawiajmy!

GeminiBot, Google-Extended i Googlebot – tutaj łatwo o nieporozumienie

W przypadku Google trzeba uważać z uproszczeniami. Wiele osób mówi „GeminiBot”, ale w dokumentacji Google częściej trzeba patrzeć na konkretne tokeny i crawlery, w tym Google-Extended oraz Google-CloudVertexBot. Google-Extended nie jest osobnym user-agentem w żądaniach HTTP; działa jako token w robots.txt, który zarządza tym, czy treści pobrane przez Google mogą być wykorzystywane do określonych zastosowań związanych z Gemini i Vertex AI.

Przykład blokady Google-Extended:

User-agent: Google-Extended
Disallow: /

To nie blokuje Googlebota od klasycznego indeksowania strony w Google Search. I tu pojawia się praktyczny wniosek: nie próbuj blokować AI przez blokowanie Googlebota, jeśli zależy Ci na SEO. To byłby techniczny sabotaż własnej widoczności.

W przypadku firm, które inwestują w pozycjonowanie stron, Googlebot powinien mieć dostęp do treści, które mają się indeksować i rankować. Google-Extended to osobna decyzja dotycząca wybranych zastosowań AI, a nie zamiennik dla reguł indeksowania Google.

Czy warto blokować AI? Moja praktyczna odpowiedź: czasem tak, ale prawie nigdy hurtowo

Gdybym miał skrócić ten artykuł do jednego zdania, napisałbym tak: blokuj konkretne zastosowania AI, nie całe AI jako zjawisko.

Po kilkunastu latach pracy w SEO wiem, że najgorsze decyzje techniczne powstają pod wpływem emocji. Ktoś przeczyta, że AI „kradnie treści”, więc blokuje wszystko. Ktoś inny słyszy, że trzeba być widocznym w AI, więc pozwala wszystkim botom na wszystko. Obie reakcje są zbyt proste.

Kiedy blokowanie botów AI ma sens?

Blokowanie ma sens, gdy serwis zawiera treści, których nie chcesz udostępniać do dalszego przetwarzania przez modele. Mam tu na myśli zamknięte bazy wiedzy, treści premium, materiały licencyjne, unikalne raporty, dokumentacje, dane badawcze, treści prawnie wrażliwe albo zasoby, które są głównym produktem firmy.

Przykład z praktyki: firma inwestuje kilkadziesiąt tysięcy złotych w specjalistyczne raporty branżowe. Udostępnia część materiałów publicznie jako lead magnet, a część ma charakter sprzedażowy. W takim przypadku rozważyłbym blokowanie crawlerów treningowych na wybranych katalogach, np. /raporty/, /premium/, /baza-wiedzy-pro/, ale niekoniecznie na całej domenie.

Kod przykładowy:

User-agent: GPTBot
Disallow: /raporty/
Disallow: /premium/

User-agent: ClaudeBot
Disallow: /raporty/
Disallow: /premium/

User-agent: CCBot
Disallow: /raporty/
Disallow: /premium/

To jest dużo rozsądniejsze niż:

User-agent: *
Disallow: /

Ten drugi zapis zamyka stronę dla wszystkich botów respektujących robots.txt, w tym dla tych, których prawdopodobnie chcesz wpuścić.

Chcesz żeby Twój marketing
działał lepiej? Porozmawiajmy!

Kiedy blokowanie AI szkodzi marketingowi?

Blokowanie szkodzi, gdy firma chce budować widoczność ekspercką, a jednocześnie odcina narzędzia, które mogą pomóc tę widoczność rozszerzyć. Dotyczy to szczególnie branż, w których użytkownicy długo porównują rozwiązania: SEO, prawo, medycyna, finanse, budownictwo, nieruchomości, B2B, IT, e-commerce, HR, logistyka.

Jeśli Twoim celem jest pozyskiwanie zapytań z treści poradnikowych, to całkowite blokowanie botów AI może ograniczyć jeden z kierunków dystrybucji wiedzy. Nie chodzi o to, że AI zastąpi Google. Nie zastąpi. Chodzi o to, że użytkownik coraz częściej robi research równolegle: Google, YouTube, ChatGPT, Gemini, Perplexity, LinkedIn, opinie, porównywarki. Jeśli znikasz z części tych miejsc, oddajesz pole konkurencji.

Dlatego przy stronie agencji, kancelarii, firmy usługowej albo lokalnego biznesu rekomendowałbym najpierw audyt logów i celów, a dopiero potem blokady. W profesjonalnej agencji reklamowej decyzja o robots.txt nie powinna być dodatkiem „na końcu wdrożenia”, tylko elementem strategii widoczności.

Jak blokować boty AI, by nadal być widocznym w modelach i odpowiedziach AI?

Najbezpieczniejsza strategia to model warstwowy. Osobno traktujesz boty treningowe, osobno boty wyszukiwania, osobno fetchery użytkownika, osobno klasyczne boty wyszukiwarek.

Model 1: Chcę być widoczny w AI, ale nie chcę trenowania na moich treściach

To najczęstszy scenariusz, który ma sens dla firm usługowych. Chcesz, żeby narzędzia AI mogły znaleźć Twoje treści, pokazać je jako źródło albo pobrać na żądanie użytkownika. Jednocześnie nie chcesz dawać zielonego światła botom treningowym.

Przykładowy robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Google-Extended
Disallow: /

User-agent: Googlebot
Allow: /

Sitemap: https://twojadomena.pl/sitemap.xml

Ten schemat nie jest uniwersalny dla każdego biznesu, ale pokazuje logikę: blokujesz wybrane użycie treningowe, a nie cały dostęp do treści.

Model 2: Mam treści publiczne i chcę maksymalnej dystrybucji

To scenariusz dla firm, które traktują content jako narzędzie dotarcia. Blog ekspercki, poradniki, rankingi, instrukcje, treści edukacyjne, lokalne strony ofertowe – im szerzej są widoczne, tym lepiej dla marki.

W takim przypadku często nie blokowałbym głównych botów AI na całej stronie. Zamiast tego kontrolowałbym tylko katalogi techniczne, koszyk, panel klienta, wyniki wyszukiwania wewnętrznego, parametry i treści, które nie powinny być crawlowane niezależnie od AI.

Przykład:

User-agent: *
Disallow: /wp-admin/
Disallow: /koszyk/
Disallow: /moje-konto/
Disallow: /checkout/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://twojadomena.pl/sitemap.xml

W tym wariancie nie tworzysz specjalnych blokad dla AI. Skupiasz się na czystości indeksowania i dostępności treści, które mają budować widoczność.

To ma sens, gdy strona żyje z ruchu organicznego, leadów i rozpoznawalności. Przy działaniach takich jak pozycjonowanie stron w Chojnicach, pozycjonowanie stron w Gdyni czy pozycjonowanie stron w Gdańsku lokalna treść ma pracować jak najdłużej i w jak największej liczbie miejsc styku z klientem.

Model 3: Mam treści wrażliwe i chcę mocniejszej ochrony

Jeśli masz serwis z treściami płatnymi, dokumentacją techniczną, regulaminowo chronioną bazą danych albo materiałami, które stanowią produkt sam w sobie, blokowanie AI może być znacznie bardziej agresywne.

Przykład:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: OAI-SearchBot
Disallow: /premium/
Disallow: /raporty/

User-agent: Claude-SearchBot
Disallow: /premium/
Disallow: /raporty/

User-agent: *
Disallow: /panel/
Disallow: /konto/
Disallow: /premium/

W tym wariancie akceptujesz, że część widoczności w AI może być mniejsza. To decyzja biznesowa. Nie ma sensu udawać, że można jednocześnie maksymalnie chronić treść i maksymalnie zwiększać jej dystrybucję.

Chcesz żeby Twój marketing
działał lepiej? Porozmawiajmy!

Robots.txt nie jest zabezpieczeniem treści. To prośba do botów, które chcą jej słuchać

To jeden z tych mitów SEO, które wyjątkowo trudno się obalają. Robots.txt nie jest firewallem. Nie chroni treści przed człowiekiem. Nie blokuje dostępu do adresu URL w sensie technicznym. Nie sprawia, że strona przestaje istnieć. To standard komunikacji z crawlerami.

Jeśli bot respektuje robots.txt, zastosuje się do reguł. Jeśli nie respektuje, sam plik nie wystarczy. Dlatego przy treściach naprawdę wrażliwych trzeba stosować logowanie, autoryzację, płatny dostęp, blokady serwerowe, kontrolę CDN, WAF albo inne rozwiązania techniczne.

Dlaczego robots.txt nie wystarczy przy treściach premium?

Bo publicznie dostępny URL nadal jest publicznie dostępny. Jeśli raport PDF leży pod adresem /raport-2026.pdf, a jedyną ochroną jest wpis w robots.txt, to nie jest ochrona. To sugestia dla botów.

W projektach, gdzie klient realnie sprzedaje wiedzę, rekomendowałbym prostą zasadę: to, czego nie chcesz pokazać światu, nie powinno być dostępne bez kontroli dostępu. Robots.txt może ograniczać crawling, ale nie zastępuje zabezpieczeń.

Jak sprawdzać, czy boty AI rzeczywiście odwiedzają stronę?

Tu wchodzą logi serwera. Google Analytics nie pokaże pełnego obrazu, bo boty często nie wykonują JavaScriptu i nie uruchamiają kodu analitycznego. Jeśli chcesz zobaczyć, kto faktycznie pobiera stronę, patrzysz w access logi.

Szukasz user-agentów takich jak:

GPTBot
OAI-SearchBot
CCBot
ClaudeBot
Claude-User
Claude-SearchBot
Google-Extended
Google-CloudVertexBot
PerplexityBot

Przy większych serwisach dobrze jest analizować też liczbę żądań, statusy HTTP, najczęściej pobierane katalogi, obciążenie serwera, częstotliwość wizyt i zgodność z robots.txt. W e-commerce z 50 tysiącami URL-i jeden agresywny crawler potrafi zrobić bałagan w logach i wydajności. W małej stronie usługowej kilka wizyt dziennie zwykle nie jest problemem.

Common Crawl zwraca uwagę, że część crawlerów może podszywać się pod CCBot i zaleca weryfikację user-agentów oraz źródeł żądań. To dobry nawyk nie tylko przy CCBot, ale przy całej analizie botów AI.

Jak nie zepsuć SEO, blokując AI?

Najważniejsza zasada: nie dotykaj klasycznych botów wyszukiwarek bez bardzo dobrego powodu. Googlebot, Bingbot i inne crawlery wyszukiwarek to nie to samo co ai-crawler używany do treningu modeli.

Nie blokuj Googlebota, jeśli chcesz mieć widoczność w Google

Brzmi banalnie, ale takie błędy naprawdę się zdarzają. Ktoś próbuje zablokować „Google AI”, nie rozumie różnicy między Googlebotem a Google-Extended i robi wpis:

User-agent: Googlebot
Disallow: /

To nie jest blokada AI. To odcięcie Google od strony.

Jeśli firma inwestuje w SEO, taki zapis może doprowadzić do spadku indeksacji, widoczności i ruchu organicznego. Przy dużej stronie skutki mogą być bardzo kosztowne, bo nawet po poprawieniu robots.txt odbudowa crawl budgetu i zaufania do struktury może zająć czas.

Nie blokuj zasobów potrzebnych do renderowania strony

Drugi błąd to blokowanie katalogów z CSS, JS albo obrazami. W starym SEO zdarzało się to często. Ktoś uznawał, że /assets/, /scripts/ albo /wp-content/ nie są potrzebne do indeksowania. Potem Google nie mógł poprawnie wyrenderować strony.

Przy AI i wyszukiwarkach problem jest podobny. Jeśli chcesz, żeby system mógł zrozumieć stronę, musi mieć dostęp do treści i zasobów potrzebnych do jej interpretacji. Dotyczy to szczególnie stron mocno opartych o JavaScript.

W przypadku profesjonalnych stron internetowych techniczna dostępność treści powinna być zaplanowana na etapie projektu. Strona może wyglądać świetnie, ale jeśli boty widzą pusty szkielet i kilka skryptów, to z punktu widzenia SEO i AI masz problem.

Nie blokuj bloga, jeśli blog ma budować autorytet

Czasem widzę konfiguracje, w których ktoś blokuje /blog/, bo „to tylko treści poradnikowe”. To fatalne podejście. Blog, baza wiedzy, poradniki i case studies to często najlepsze miejsca do budowania widoczności w AI.

Użytkownik nie pyta modelu AI: „daj mi stronę główną firmy X”. Pyta: „jak rozpoznać dobrą agencję SEO?”, „ile kosztuje strona internetowa?”, „czy film reklamowy pomaga w sprzedaży?”, „jak mierzyć ruch z AI?”. Odpowiedzi prowadzą zwykle do treści poradnikowych, nie do generycznej strony głównej.

Jeżeli prowadzisz działania contentowe, nie odcinaj ich od kanałów, w których użytkownicy szukają wiedzy. Przy usługach takich jak wideo marketing właśnie treści edukacyjne pomagają wyjaśnić klientowi, kiedy film ma sens, jaki format wybrać i jak mierzyć efekt.

Chcesz żeby Twój marketing
działał lepiej? Porozmawiajmy!

Blokować całą domenę czy wybrane katalogi? Tu zaczyna się prawdziwa strategia

Hurtowe blokowanie jest łatwe. Strategiczne blokowanie wymaga zrozumienia, które części strony mają pracować na widoczność, a które powinny być chronione.

Strony ofertowe zwykle powinny zostać dostępne

Jeśli strona ofertowa opisuje usługę, proces, zakres, lokalizację i przewagi firmy, zwykle nie blokowałbym jej przed botami wyszukiwania AI. To są treści, które mają sprzedawać i budować zaufanie. Im więcej jakościowych punktów styku, tym lepiej.

Dotyczy to zarówno usług ogólnych, jak i lokalnych. Strony typu pozycjonowanie stron w Toruniu czy pozycjonowanie stron w Bydgoszczy mają odpowiadać na lokalną intencję użytkownika. Jeśli AI zaczyna pomagać użytkownikom w wyborze wykonawców w mieście, taka treść może stać się dodatkowym źródłem zapytań.

Treści premium można blokować selektywnie

Jeśli masz raporty, płatne poradniki, zamknięte materiały szkoleniowe, analizy konkurencji albo zasoby tylko dla klientów, blokuj konkretne katalogi. Nie całą domenę.

Przykład:

User-agent: GPTBot
Disallow: /materialy-premium/
Disallow: /raporty/
Disallow: /szkolenia-klientow/

User-agent: ClaudeBot
Disallow: /materialy-premium/
Disallow: /raporty/
Disallow: /szkolenia-klientow/

User-agent: CCBot
Disallow: /materialy-premium/
Disallow: /raporty/
Disallow: /szkolenia-klientow/

Jeszcze lepiej: nie udostępniaj takich materiałów publicznie bez logowania. Robots.txt traktuj jako warstwę dodatkową, nie główny zamek w drzwiach.

Parametry, wyniki wyszukiwania i koszyk blokuj niezależnie od AI

Są części strony, które zwykle nie powinny być crawlowane przez nikogo: wyniki wyszukiwania wewnętrznego, koszyk, checkout, konto użytkownika, filtry generujące nieskończone kombinacje URL-i, panele administracyjne, adresy testowe.

Tu nie chodzi o AI. Tu chodzi o higienę techniczną.

Przykład:

User-agent: *
Disallow: /koszyk/
Disallow: /checkout/
Disallow: /moje-konto/
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?filter=

W większych sklepach takie reguły potrafią uratować crawl budget. W małych stronach usługowych pomagają uniknąć indeksowania śmieciowych adresów.

Czy llms.txt zastąpi robots.txt?

Nie. I nie planowałbym strategii technicznej na założeniu, że zastąpi.

llms.txt może być ciekawym dodatkiem jako plik porządkujący informacje dla modeli językowych: wskazujący najważniejsze treści, opisujący strukturę serwisu, pomagający zrozumieć, które adresy są najistotniejsze. Ale robots.txt nadal jest miejscem, w którym boty sprawdzają reguły crawlability.

Mówiąc prościej: robots.txt mówi, gdzie bot może wejść, a llms.txt może pomagać zrozumieć, co na stronie jest najważniejsze. To dwa różne zastosowania.

Jeśli miałbym ustawiać priorytety, najpierw zrobiłbym porządny robots.txt, sitemapę, strukturę linkowania, dane schema.org, indeksację, logi i analitykę. Dopiero później dokładałbym llms.txt jako warstwę wspierającą AI.

W projektach SEO widziałem wiele sytuacji, w których firma chciała wdrażać nowinki, a miała bałagan w podstawach: brak sitemap, błędy 404, duplikację tytułów, zablokowane zasoby, źle ustawione canonicale. AI nie naprawi fundamentów. Ono tylko szybciej pokaże, że ich brakuje.

Chcesz żeby Twój marketing
działał lepiej? Porozmawiajmy!

Jaką konfigurację robots.txt poleciłbym większości firm usługowych?

Dla większości firm usługowych nie zaczynałbym od agresywnego blokowania AI. Zacząłbym od odpowiedzi na trzy pytania:

Czy treści na stronie są produktem, czy narzędziem sprzedaży?Czy większa widoczność ekspercka pomaga firmie zdobywać klientów?Czy firma ma konkretne treści, które naprawdę wymagają ochrony?

Jeżeli mówimy o typowej stronie firmowej, blogu eksperckim i ofertach usług, rekomendowałbym zwykle selektywną konfigurację: klasyczne wyszukiwarki mają dostęp, boty wyszukiwania AI mają dostęp, fetchery użytkownika mają dostęp, a boty treningowe można ograniczyć w zależności od polityki firmy.

Przykład roboczy dla firmy usługowej:

User-agent: *
Disallow: /wp-admin/
Disallow: /koszyk/
Disallow: /checkout/
Disallow: /moje-konto/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: CCBot
Crawl-delay: 2

User-agent: Google-Extended
Disallow: /

Sitemap: https://twojadomena.pl/sitemap.xml

Czy to jest gotowiec dla każdej strony? Nie. To jest punkt wyjścia do rozmowy. Inaczej podejdę do kancelarii z bazą wiedzy, inaczej do sklepu internetowego, inaczej do portalu z płatnymi raportami, inaczej do lokalnej firmy usługowej.

Zarówno jako freelancer, jak i w realiach dużej agencji obserwowałem ten sam schemat: najlepsze efekty daje nie gotowiec, tylko konfiguracja wynikająca z modelu biznesowego. SEO techniczne nie polega na kopiowaniu reguł z bloga. Polega na rozumieniu konsekwencji.

Podsumowanie

Na pytanie czy warto blokować AI nie odpowiadam prostym „tak” albo „nie”, bo taka odpowiedź byłaby nieuczciwa wobec realiów SEO. Najrozsądniejsze podejście to selektywne blokowanie: osobno boty treningowe, osobno boty wyszukiwania, osobno fetchery użytkownika i osobno klasyczne crawlery wyszukiwarek. Jeśli treści mają budować widoczność, zapytania i autorytet marki, nie odcinałbym ich hurtowo od narzędzi AI. Następny krok jest prosty: sprawdź swój robots.txt, przeanalizuj logi serwera i dopiero wtedy zdecyduj, które boty naprawdę chcesz blokować – a jeśli chcesz podejść do tego strategicznie, Gregor Media może pomóc połączyć SEO techniczne, content i widoczność w nowych środowiskach wyszukiwania.

Chcesz żeby Twój marketing
działał lepiej? Porozmawiajmy!
Laptop z dwoma nakładającymi się ekranami stron internetowych wyświetlanymi nad klawiaturą, prezentującymi różne projekty stron internetowych.

FAQ - Czy warto blokować AI w robots.txt? Jak blokować, by być nadal widoczny w modelach AI?

Nie blokowałbym AI hurtowo na zwykłej stronie firmowej, jeśli zależy Ci na widoczności, zapytaniach i budowaniu rozpoznawalności eksperckiej. Lepiej rozdzielić boty treningowe od botów wyszukiwania i pobierania treści na życzenie użytkownika. Możesz ograniczyć wykorzystanie treści do treningu modeli, ale nadal pozwolić narzędziom AI znajdować Twoje artykuły i strony ofertowe. Całkowita blokada ma sens głównie wtedy, gdy treść sama w sobie jest produktem, np. raportem, płatną bazą wiedzy albo materiałem licencyjnym.

Sama blokada GPTBot nie musi oznaczać całkowitego braku widoczności w ChatGPT, bo OpenAI rozróżnia GPTBot i OAI-SearchBot. GPTBot dotyczy treści, które mogą być używane do trenowania modeli, a OAI-SearchBot jest związany z wyszukiwaniem w ChatGPT. Jeśli zablokujesz GPTBot, ale pozwolisz OAI-SearchBotowi, możesz ograniczyć użycie treningowe, nie zamykając całkowicie drogi do widoczności w funkcjach search. Trzeba jednak pamiętać, że widoczność zależy też od jakości treści, autorytetu domeny i technicznej dostępności strony.

Nie. Google-Extended nie jest tym samym co Googlebot. Google opisuje Google-Extended jako token sterujący wybranymi zastosowaniami treści w kontekście Gemini i Vertex AI, a nie jako klasycznego crawlera wyszukiwarki. Blokada Google-Extended nie powinna być mylona z blokadą Googlebota. Jeśli zablokujesz Googlebota, możesz zaszkodzić indeksacji i widoczności w Google Search.

To zależy od celu strony. Jeśli prowadzisz publiczny blog ekspercki i zależy Ci na szerokiej dystrybucji wiedzy, blokada CCBot nie zawsze będzie najlepszym pomysłem. Jeśli masz treści premium, raporty, unikalne bazy danych albo materiały, których nie chcesz widzieć w dużych zbiorach danych, blokada CCBot może mieć sens. Czasem lepszym kompromisem jest crawl-delay, czyli spowolnienie crawlowania, zamiast pełnej blokady. Przy decyzji sprawdziłbym też logi serwera, bo część botów może podszywać się pod znane user-agenty.

Nie zabezpiecza w sensie technicznym. Robots.txt jest instrukcją dla botów, które respektują ten standard. Nie zatrzyma człowieka, nie ukryje publicznego adresu URL i nie zastąpi logowania ani blokady dostępu. Jeśli masz treści naprawdę wrażliwe, zabezpiecz je autoryzacją, płatnym dostępem, konfiguracją serwera lub mechanizmami CDN/WAF. Robots.txt traktuj jako warstwę komunikacji z crawlerami, nie jako sejf.

Tak i w wielu przypadkach to najlepsze rozwiązanie. Możesz pozwolić botom na dostęp do bloga, stron ofertowych i publicznej bazy wiedzy, a zablokować katalogi z raportami, materiałami premium, dokumentacją dla klientów albo treściami technicznymi. Taka konfiguracja pozwala zachować widoczność tam, gdzie treść pracuje marketingowo, i ograniczać dostęp tam, gdzie treść ma większą wartość ochronną. Hurtowe blokowanie całej domeny jest prostsze, ale rzadko bardziej rozsądne.

Może, jeśli zrobisz to nieprecyzyjnie. Największe ryzyko pojawia się wtedy, gdy ktoś przez pomyłkę blokuje Googlebota, zasoby potrzebne do renderowania strony albo całe katalogi z treściami SEO. Sama selektywna blokada GPTBot, ClaudeBot czy Google-Extended nie musi niszczyć klasycznego SEO, ale błędna konfiguracja robots.txt potrafi zrobić duże szkody. Po każdej zmianie sprawdzaj robots.txt testerem, logi serwera, indeksację i raporty w Google Search Console.

Do oficjalnego opt-outu wobec botów, które respektują robots.txt, używałbym robots.txt. Firewall ma sens jako dodatkowa warstwa, gdy bot przeciąża serwer, ignoruje reguły albo podszywa się pod znane user-agenty. Trzeba jednak uważać, bo zbyt agresywne blokady IP mogą przypadkiem zablokować prawidłowe crawlery, użytkowników lub usługi chmurowe. Przy większym serwisie decyzję warto oprzeć na logach, a nie na liście znalezionej przypadkiem w internecie.

Grzegorz SEO Expert

Od ponad 10 lat zajmuję się pozycjonowaniem stron internetowych oraz projektowaniem nowoczesnych serwisów WWW, działając zarówno na rynku polskim, jak i zagranicznym. Pracowałem i współpracuję z największymi agencjami marketingowymi w Polsce, realizując setki skutecznych kampanii SEO oraz kompleksowych wdrożeń stron internetowych i e‑commerce.

Na co dzień nie tylko tworzę strategie dla marek, ale również dzielę się wiedzą jako wykładowca – prowadzę zajęcia z zakresu marketingu internetowego, pozycjonowania i tworzenia stron www na studiach oraz szkoleniach branżowych.

Moją misją jest łączenie technicznej skuteczności z realnymi efektami biznesowymi, a także promowanie podejścia, w którym użytkownik i jego potrzeby są zawsze w centrum projektowania.

Umów się na bezpłatną konsultację!

Nie wiesz, które usługi Gregor Media będą najlepsze w przypadku Twojego biznesu? Zastanawiasz się, jaka reklama mogłaby wypromować Twoją markę, by przynieść jak największy zwrot z inwestycji? Myślisz o nowej stronie internetowej, ale nie wiesz, od czego zacząć i jak dotrzeć do potencjalnych klientów? Umów się na bezpłatną konsultację, podczas której porozmawiamy o Twoich potrzebach, budżecie i pomysłach – zaproponujemy Ci najbardziej optymalne rozwiązanie!


Wyślij zapytanie
o współpracę


Wyślij zapytanie do nas

Zapisz się na
konsultację online


Zapisz się już teraz

Projekt współfinansowany ze środków EFRR. Numer umowy o powierzenie grantu: UDG-SPE.04.2023/098