Czy crawl budget dotyczy mojej małej strony?

Zwykle nie — wg Google przewodnik jest dla serwisów 1 mln+ stron (zmiany tygodniowe) lub 10 tys.+ (zmiany dzienne), albo z dużym udziałem „Wykryto – niezindeksowane". Małe witryny indeksowane tego samego dnia nie muszą się tym martwić.

Czy blokada w robots.txt usuwa stronę z Google?

Nie. `Disallow` blokuje crawlowanie, ale strona może wciąż pojawić się w wynikach (bez opisu), jeśli linkują do niej inni. Do usunięcia z indeksu służy `noindex` — który wymaga, by strona była crawlowalna (więc nie łącz go z blokadą w robots.txt).

Czy crawl budget to czynnik rankingowy?

Nie. To warunek wstępny — trzeba zostać scrawlowanym, by trafić do indeksu i rankować — ale większy budżet sam w sobie nie podnosi pozycji. Crawlowanie to też nie to samo co indeksacja.

Co najmocniej marnuje crawl budget?

Wg Google głównie nawigacja fasetowa i identyfikatory sesji w URL, duplikaty treści, soft 404, nieskończone przestrzenie (np. kalendarze), treść niskiej jakości i długie łańcuchy przekierowań.

Czy JavaScript wpływa na crawl budget?

Tak, zwłaszcza na dużych serwisach. Googlebot najpierw pobiera HTML, a renderowanie JS trafia do osobnej, droższej kolejki. Treść wstrzykiwana wyłącznie przez JS jest kosztowniejsza do scrawlowania i bywa indeksowana z opóźnieniem. Rozwiązanie: server-side rendering (SSR) lub statyczne generowanie (SSG), które oddają Googlebotowi gotowy HTML i odciążają budżet.

Jak crawl budget ma się do widoczności w AI?

Pośrednio, ale realnie. Silniki AI (zwłaszcza ChatGPT i Copilot przez indeks Bing) mogą zacytować tylko to, co zostało scrawlowane i zaindeksowane. Jeśli marnujesz budżet na śmieciowe URL-e i ważne strony długo czekają na indeksację, są też niedostępne jako źródło dla AI. Czysty inwentarz URL-i i szybki serwer służą jednocześnie SEO i widoczności w AI.

Jak okiełznać crawl budget w sklepie z nawigacją fasetową?

Wybierz świadomie garść wartościowych faset (te, na które jest realny popyt, np. „buty do biegania", „Nike") i zostaw je indeksowalne z własnym title i linkowaniem. Resztę — sortowanie, widoki, kombinacje filtrów, parametry śledzące — odetnij od crawla: canonical do wersji bazowej, blokada w robots.txt lub po prostu niegenerowanie crawlowalnych linków. Najczęstszy błąd to zostawienie wszystkich kombinacji jako linków, przez co Googlebot nie nadąża z realnymi produktami.

Co zrobić z crawl budgetem dla produktów niedostępnych?

Zależy, czy produkt wróci. Jeśli tak — zostaw stronę (200), ewentualnie z informacją o niedostępności i alternatywami. Jeśli zniknął na stałe — 404 lub 410, albo 301 do najbliższego następcy. Tysiące stron „brak w magazynie" pozostawione bez decyzji pochłaniają budżet, który powinien iść na produkty dostępne.

Czy sitemapa wpływa na crawl budget?

Pośrednio — to sygnał popytu i mapa tego, co chcesz indeksować. Trzymaj w niej tylko kanoniczne, indeksowalne adresy (bez 404, przekierowań, noindex), a `lastmod` ustawiaj na realną datę zmiany treści. Czysta, podzielona tematycznie sitemapa pomaga Googlebotowi priorytetyzować i ułatwia Ci diagnozę, która sekcja indeksuje się gorzej.

POWRÓT_DO_BLOGA

2026-06-30Aktualizacja: 2026-06-30AI & SEO 15 min

Crawl budget — jak Google indeksuje dużą stronę

Paweł Wiszniewski

Specjalista SEO & GEO · AI Engineer

Google nie odwiedza Twojej strony w nieskończoność. Ma ograniczony „budżet" na crawlowanie — i jeśli marnujesz go na śmieciowe adresy, najważniejsze strony są indeksowane wolniej albo wcale. Crawl budget to temat, który małe witryny mogą zignorować, a który decyduje o widoczności dużych serwisów i sklepów. W tym przewodniku tłumaczę — w oparciu o oficjalny przewodnik Google — czym jest, kogo dotyczy i jak go optymalizować.

Google ma ograniczony budżet na crawlowanie — jeśli marnujesz go na śmieciowe URL-e, ważne strony są indeksowane wolniej albo wcale. Tłumaczę, czym jest crawl budget, kiedy ma znaczenie (sklepy, parametry URL) i jak go optymalizować.

Definicja Google: pojemność + popyt

Google definiuje crawl budget jako „zbiór adresów, które Googlebot może i chce crawlować". Składają się na niego dwa elementy:

Crawl capacity limit (limit pojemności) — ile Googlebot może crawlować bez przeciążania serwera. Rośnie, gdy strona odpowiada szybko i stabilnie; spada przy błędach 5xx i wolnych odpowiedziach.
Crawl demand (popyt na crawlowanie) — jak bardzo Google *chce* crawlować Twoje strony. Zależy od popularności adresów, ich świeżości oraz od tego, jak Google postrzega „inwentarz" witryny (im więcej śmieciowych URL-i, tym gorzej wykorzystany popyt).

Zasada: nawet jeśli serwer wytrzyma więcej, niski popyt oznacza mniej crawlowania. Muszą zaistnieć oba.

/// CRAWL BUDGET = POJEMNOŚĆ + POPYT

Limit pojemności

›Szybkość i stabilność serwera
›Brak błędów 5xx / timeoutów
›Limity zasobów Google

Popyt na crawlowanie

›Popularność adresów
›Świeżość treści
›Postrzegany „inwentarz" (mniej śmieci)

* Muszą zaistnieć oba: nawet przy wolnym serwerze niski popyt = mniej crawlowania.

Kogo to naprawdę dotyczy (progi Google)

Oficjalny przewodnik Google jest „zaawansowany" i przeznaczony dla:

serwisów 1 000 000+ unikalnych stron z treścią zmieniającą się mniej więcej co tydzień,
serwisów 10 000+ stron ze zmianami codziennie,
albo stron z dużym udziałem adresów w statusie „Wykryto – obecnie niezindeksowane".

Google podkreśla, że to orientacyjne progi. Małe witryny (do kilku tysięcy stron), zwłaszcza indeksowane tego samego dnia co publikacja, nie muszą się tym martwić.

Co marnuje crawl budget (lista Google)

Problem	Skutek
Nawigacja fasetowa i identyfikatory sesji w URL	Niemal nieskończone duplikaty zamiast realnych stron
Duplikaty treści	Wielokrotne crawlowanie tego samego
Soft 404 (pusta strona z kodem 200)	Crawl bez wartości
Strony zhakowane i „nieskończone przestrzenie" (np. kalendarze)	Googlebot grzęźnie
Treść niskiej jakości i spam	Zmarnowany popyt
Długie łańcuchy przekierowań	Zmarnowane żądania

Nawigacja fasetowa — wróg numer jeden

W sklepach internetowych pojedynczy problem odpowiada za większość zmarnowanego budżetu: nawigacja fasetowa (filtry koloru, rozmiaru, ceny, marki). Każda kombinacja filtrów tworzy nowy URL, a kombinacji są miliony — Googlebot może utonąć w nieskończonej przestrzeni adresów, które nie wnoszą nic nowego.

Strategia zależy od wartości danej fasety dla wyszukiwania:

Rodzaj URL-a fasetowego	Przykład	Co z nim zrobić
Wartościowy dla SEO (jest popyt)	/buty/nike, /buty/do-biegania	Indeksuj — własna treść, własny title, link wewnętrzny
Niewartościowy, ale potrzebny userowi	sortowanie, widok listy/siatki	canonical do wersji bazowej; nie linkuj dla botów
Kombinacje i parametry śmieciowe	?color=red&size=42&sort=price	Zablokuj w robots.txt lub nie generuj crawlowalnych linków
Filtry „pustych" wyników	kombinacje bez produktów	Nie generuj linku; zwracaj sensowny status

Reguła: wybierz świadomie garść wartościowych faset do indeksacji, a resztę odetnij od crawla. Najczęstszy błąd to pozostawienie wszystkich kombinacji jako crawlowalnych linków — wtedy nawet duży serwer nie nadąży z indeksacją realnych produktów.

Crawl budget w e-commerce — typowe pułapki

Sklepy to środowisko, gdzie crawl budget boli najbardziej. Najczęstsze źródła marnotrawstwa poza fasetami:

Produkty niedostępne / wycofane. Tysiące stron „brak w magazynie" pochłaniają crawl. Decyzja zależy od tego, czy produkt wróci: zostaw (200) jeśli wróci, 404/410 jeśli zniknął na stałe, ewentualnie przekieruj do następcy.
Paginacja kategorii. Głębokie strony /kategoria?page=87 rzadko mają wartość — zadbaj o dotarcie do najważniejszych produktów inną drogą i rozważ ograniczenie głębokości.
Warianty produktu jako osobne URL-e (kolor, rozmiar) — konsoliduj przez canonical do strony produktu nadrzędnego, jeśli różnią się tylko atrybutem.
Identyfikatory sesji i parametry śledzące w adresach — klasyczny generator nieskończonych duplikatów.

Porządek w tych czterech obszarach zwraca Googlebotowi budżet, który trafia tam, gdzie chcesz: na realne, sprzedażowe strony produktów i kategorii.

Jak optymalizować (rekomendacje Google)

Uporządkuj inwentarz URL-i. Konsoliduj duplikaty przez `rel=canonical`; usuwaj martwe strony kodem 404/410; eliminuj soft 404.
Blokuj nieważne adresy w `robots.txt` (filtry, akcje, nieskończone przestrzenie). Pamiętaj: `Disallow` nie usuwa strony z indeksu — do tego służy `noindex` (który z kolei wymaga, by strona była crawlowalna).
Zwracaj 304 dla niezmienionych stron. Googlebot wysyła nagłówek `If-Modified-Since`; jeśli treść się nie zmieniła, odpowiedz 304 Not Modified bez treści — oszczędzasz zasoby i Google crawluje więcej realnych adresów.
Trzymaj czystą sitemap z trafnym `lastmod` — tylko kanoniczne, indeksowalne adresy.
Spłaszczaj łańcuchy przekierowań do jednego skoku.
Przyspiesz serwer — szybsze, stabilne odpowiedzi podnoszą limit pojemności. Dbaj o Core Web Vitals.

robots.txt — odetnij śmieciowe ścieżki

User-agent: *Disallow: /*?sort=Disallow: /*?filter=Disallow: /koszykDisallow: /szukajSitemap: https://twojadomena.pl/sitemap.xmlUwaga: dawny **suwak crawl rate w Search Console został wyłączony 8 stycznia 2024** — Google reguluje tempo automatycznie (zwalnia przy błędach 5xx/429 i rosnących czasach odpowiedzi).

Sitemapy i lastmod — jak sterować popytem

Sitemapa to nie tylko lista adresów — to sygnał popytu i mapa tego, co chcesz indeksować. Trzymaj w niej wyłącznie kanoniczne, indeksowalne URL-e (bez przekierowań, 404, `noindex` i adresów zablokowanych w robots). Element `lastmod` powinien odzwierciedlać realną datę istotnej zmiany treści — Google używa go jako wskazówki, co odświeżyć. Sztuczne ustawianie `lastmod` na „dziś" w całej sitemapie podważa zaufanie do tego sygnału i przestaje działać. Dla bardzo dużych serwisów dziel sitemapy tematycznie (np. per kategoria), bo w GSC od razu widać, która sekcja indeksuje się gorzej.

JavaScript a crawl budget — ukryty kosztożerca

Na dużych serwisach renderowanie JavaScriptu potrafi cicho zjadać budżet. Googlebot crawluje dwuetapowo: najpierw pobiera HTML, a renderowanie JS (uruchomienie strony, by zobaczyć treść doładowaną skryptem) trafia do osobnej kolejki i kosztuje znacznie więcej zasobów niż czysty HTML. Konsekwencje dla budżetu:

Treść wstrzykiwana wyłącznie przez JS jest „droższa" do scrawlowania i bywa indeksowana z opóźnieniem — przy dużym serwisie to realne wąskie gardło.
SSR lub statyczne generowanie (SSG) zamiast czystego client-side rendering oddaje Googlebotowi gotowy HTML i odciąża budżet.
Każdy zbędny zasób (ciężkie skrypty, niepotrzebne pliki) podnosi koszt pojedynczego pobrania — porządki w renderowaniu to też porządki w budżecie.

Reguła: im więcej treści widać w surowym HTML bez wykonywania JS, tym efektywniej Google wykorzystuje Twój crawl budget. To ten sam fundament, który poprawia Core Web Vitals.

Crawl budget to nie indeksacja — i nie ranking

Dwa częste mity. Po pierwsze, crawlowanie ≠ indeksacja: strona może być scrawlowana i mimo to nie trafić do indeksu („Zaindeksowano: nie, scrawlowano – obecnie niezindeksowane" to zwykle sygnał jakości, nie budżetu). O indeksacji decyduje wartość strony, nie sam budżet. Po drugie, crawl budget nie jest czynnikiem rankingowym — to warunek wstępny (trzeba być scrawlowanym, by rankować), ale większy budżet nie podnosi pozycji.

/// CRAWLOWANIE ≠ INDEKSACJA ≠ RANKING

Crawlowanie

Googlebot pobiera URL

Indeksacja

Google decyduje, czy zapisać (decyduje jakość)

Ranking

Strona konkuruje o pozycję

* Crawl budget to warunek wstępny, nie czynnik rankingowy. Scrawlowana strona wciąż może nie zostać zaindeksowana.

Jak monitorować

W Search Console korzystaj z raportu Statystyki indeksowania (Crawl Stats): liczba żądań, rozmiar pobrań, średni czas odpowiedzi oraz rozbicia po kodzie odpowiedzi, typie pliku i celu (Discovery vs Refresh). W raporcie „Strony" obserwuj dwa statusy: „Wykryto – obecnie niezindeksowane" (Google zna URL, ale go jeszcze nie scrawlował — klasyczny objaw problemu z budżetem/popytem) i „Scrawlowano – obecnie niezindeksowane" (scrawlował, ale nie zaindeksował — sygnał jakości).

Analiza logów serwera — najgłębszy wgląd

Search Console pokazuje obraz zagregowany; logi serwera pokazują prawdę — każde żądanie Googlebota z osobna. Na co patrzeć:

Rozkład trafień po sekcjach — ile crawla idzie na produkty/kategorie, a ile na śmieci (parametry, koszyk, filtry). To Twój wskaźnik „crawl waste".
Kody odpowiedzi dla Googlebota — udział 404/5xx i przekierowań; wysoki odsetek to wyciek budżetu.
Częstotliwość odwiedzin kluczowych stron — czy najważniejsze produkty są odwiedzane regularnie, czy raz na kwartał.
Weryfikacja prawdziwego Googlebota — po odwrotnym DNS, bo wiele botów się podszywa.

Cel analizy jest prosty: zobaczyć, gdzie Googlebot marnuje czas, i tę część odciąć — przez `robots.txt`, kanonikalizację albo brak crawlowalnych linków.

---

Optymalizuję crawl budget dużych serwisów i sklepów w ramach technicznego SEO. Uczę tego w kursie SEO & GEO. Napisz do mnie — zacznę od analizy Twoich statystyk indeksowania i logów serwera.

Warto przeczytać dalej:

Paweł Wiszniewski – SEO & GEO Specialist & AI Engineer

O autorzePaweł Wiszniewski

Specjalista SEO & GEO i AI engineer z Białegostoku. 10 lat budowania widoczności w wyszukiwarkach dla znanych marek i 3 lata wdrożeń AI — agentów, automatyzacji i integracji LLM (Next.js, React, Node.js).

Więcej o mnie LinkedIn GitHub X

/// RELATED_SERVICES

Potrzebujesz wdrożenia tych koncepcji? Zobacz usługi powiązane z tym tematem.

Usługa

Techniczne SEO

Dominacja w wyszukiwarkach. Techniczne SEO, które pożera konkurencję.

Zobacz usługę

/// RELATED_RECORDS

AI & SEO

SEO Umarło. Witaj w Erze GEO — Generative Engine Optimization

Gdy użytkownicy pytają ChatGPT zamiast Google, zasady gry się zmieniają. Poznaj GEO — inżynierię widoczności w erze modeli językowych. Zaktualizowano czerwiec 2026: nowe dane o AI Overviews, udziałach rynkowych ChatGPT/Claude/Perplexity i strategiach cytowania.

12 min

AI & SEO

SEO i GEO w 2026 — co jeszcze działa, co odpada i jak ułożyć strategię na dziś

Google AI Overviews w Polsce, ChatGPT Search, Perplexity — krajobraz wyszukiwania zmienił się fundamentalnie w ciągu 12 miesięcy. Strona na pozycji #1 może dziś tracić połowę kliknięć. Sprawdź, które taktyki SEO wciąż działają, które tracą na znaczeniu i co konkretnie dodać, żeby marka pojawiała się w odpowiedziach AI.

14 min

AI & SEO

Jak mierzyć Share of Voice marki w modelach AI — od ręcznych testów po automatyczny monitoring

Marketing manager odkrywa, że konkurent pojawia się w ChatGPT zamiast nich — mimo pozycji TOP 3 w Google. Tradycyjne narzędzia SEO tego nie rejestrują. Pokazuję jak zbudować metodologię pomiaru AI Share of Voice: od ręcznego audytu po automatyczny monitoring z Perplexity API i AnswerLyzerem.

13 min

/// AUTHOR

Paweł Wiszniewski

SEO & GEO Specialist & AI Engineer

Specjalista SEO/GEO (10 lat) i AI engineer (3 lata). Buduję widoczność w wyszukiwarkach, systemy AI i automatyzacje, które redukują koszty i zwiększają efektywność operacyjną firm.

LinkedIn Facebook

Signal received?

Przerwij
Ciszę

Zainicjuj protokół. Nawiąż połączenie. Zbudujmy coś głośnego.

> OCZEKIWANIE_NA_SYGNAŁ...

BIAŁYSTOK, PL

+48 732 022 086 pawel.wiszniewski95@gmail.com

Definicja Google: pojemność + popyt

Kogo to naprawdę dotyczy (progi Google)

Co marnuje crawl budget (lista Google)

Nawigacja fasetowa — wróg numer jeden

Crawl budget w e-commerce — typowe pułapki

Jak optymalizować (rekomendacje Google)

Sitemapy i lastmod — jak sterować popytem

JavaScript a crawl budget — ukryty kosztożerca

Crawl budget to nie indeksacja — i nie ranking

Jak monitorować

Analiza logów serwera — najgłębszy wgląd

/// RELATED_SERVICES

Techniczne SEO

/// RELATED_RECORDS

SEO Umarło. Witaj w Erze GEO — Generative Engine Optimization

SEO i GEO w 2026 — co jeszcze działa, co odpada i jak ułożyć strategię na dziś

Jak mierzyć Share of Voice marki w modelach AI — od ręcznych testów po automatyczny monitoring

Signal received?

PrzerwijCiszę

Przerwij
Ciszę