Crawl budget — jak Google indeksuje dużą stronę
Google nie odwiedza Twojej strony w nieskończoność. Ma ograniczony „budżet" na crawlowanie — i jeśli marnujesz go na śmieciowe adresy, najważniejsze strony są indeksowane wolniej albo wcale. Crawl budget to temat, który małe witryny mogą zignorować, a który decyduje o widoczności dużych serwisów i sklepów. W tym przewodniku tłumaczę — w oparciu o oficjalny przewodnik Google — czym jest, kogo dotyczy i jak go optymalizować.
Google ma ograniczony budżet na crawlowanie — jeśli marnujesz go na śmieciowe URL-e, ważne strony są indeksowane wolniej albo wcale. Tłumaczę, czym jest crawl budget, kiedy ma znaczenie (sklepy, parametry URL) i jak go optymalizować.
Definicja Google: pojemność + popyt
Google definiuje crawl budget jako „zbiór adresów, które Googlebot może i chce crawlować". Składają się na niego dwa elementy:
- Crawl capacity limit (limit pojemności) — ile Googlebot może crawlować bez przeciążania serwera. Rośnie, gdy strona odpowiada szybko i stabilnie; spada przy błędach 5xx i wolnych odpowiedziach.
- Crawl demand (popyt na crawlowanie) — jak bardzo Google *chce* crawlować Twoje strony. Zależy od popularności adresów, ich świeżości oraz od tego, jak Google postrzega „inwentarz" witryny (im więcej śmieciowych URL-i, tym gorzej wykorzystany popyt).
Zasada: nawet jeśli serwer wytrzyma więcej, niski popyt oznacza mniej crawlowania. Muszą zaistnieć oba.
/// CRAWL BUDGET = POJEMNOŚĆ + POPYT
- ›Szybkość i stabilność serwera
- ›Brak błędów 5xx / timeoutów
- ›Limity zasobów Google
- ›Popularność adresów
- ›Świeżość treści
- ›Postrzegany „inwentarz" (mniej śmieci)
* Muszą zaistnieć oba: nawet przy wolnym serwerze niski popyt = mniej crawlowania.
Kogo to naprawdę dotyczy (progi Google)
Oficjalny przewodnik Google jest „zaawansowany" i przeznaczony dla:
- serwisów 1 000 000+ unikalnych stron z treścią zmieniającą się mniej więcej co tydzień,
- serwisów 10 000+ stron ze zmianami codziennie,
- albo stron z dużym udziałem adresów w statusie „Wykryto – obecnie niezindeksowane".
Google podkreśla, że to orientacyjne progi. Małe witryny (do kilku tysięcy stron), zwłaszcza indeksowane tego samego dnia co publikacja, nie muszą się tym martwić.
Co marnuje crawl budget (lista Google)
| Problem | Skutek |
|---|---|
| Nawigacja fasetowa i identyfikatory sesji w URL | Niemal nieskończone duplikaty zamiast realnych stron |
| Duplikaty treści | Wielokrotne crawlowanie tego samego |
| Soft 404 (pusta strona z kodem 200) | Crawl bez wartości |
| Strony zhakowane i „nieskończone przestrzenie" (np. kalendarze) | Googlebot grzęźnie |
| Treść niskiej jakości i spam | Zmarnowany popyt |
| Długie łańcuchy przekierowań | Zmarnowane żądania |
Nawigacja fasetowa — wróg numer jeden
W sklepach internetowych pojedynczy problem odpowiada za większość zmarnowanego budżetu: nawigacja fasetowa (filtry koloru, rozmiaru, ceny, marki). Każda kombinacja filtrów tworzy nowy URL, a kombinacji są miliony — Googlebot może utonąć w nieskończonej przestrzeni adresów, które nie wnoszą nic nowego.
Strategia zależy od wartości danej fasety dla wyszukiwania:
| Rodzaj URL-a fasetowego | Przykład | Co z nim zrobić |
|---|---|---|
| Wartościowy dla SEO (jest popyt) | /buty/nike, /buty/do-biegania | Indeksuj — własna treść, własny title, link wewnętrzny |
| Niewartościowy, ale potrzebny userowi | sortowanie, widok listy/siatki | canonical do wersji bazowej; nie linkuj dla botów |
| Kombinacje i parametry śmieciowe | ?color=red&size=42&sort=price | Zablokuj w robots.txt lub nie generuj crawlowalnych linków |
| Filtry „pustych" wyników | kombinacje bez produktów | Nie generuj linku; zwracaj sensowny status |
Reguła: wybierz świadomie garść wartościowych faset do indeksacji, a resztę odetnij od crawla. Najczęstszy błąd to pozostawienie wszystkich kombinacji jako crawlowalnych linków — wtedy nawet duży serwer nie nadąży z indeksacją realnych produktów.
Crawl budget w e-commerce — typowe pułapki
Sklepy to środowisko, gdzie crawl budget boli najbardziej. Najczęstsze źródła marnotrawstwa poza fasetami:
- Produkty niedostępne / wycofane. Tysiące stron „brak w magazynie" pochłaniają crawl. Decyzja zależy od tego, czy produkt wróci: zostaw (200) jeśli wróci, 404/410 jeśli zniknął na stałe, ewentualnie przekieruj do następcy.
- Paginacja kategorii. Głębokie strony /kategoria?page=87 rzadko mają wartość — zadbaj o dotarcie do najważniejszych produktów inną drogą i rozważ ograniczenie głębokości.
- Warianty produktu jako osobne URL-e (kolor, rozmiar) — konsoliduj przez canonical do strony produktu nadrzędnego, jeśli różnią się tylko atrybutem.
- Identyfikatory sesji i parametry śledzące w adresach — klasyczny generator nieskończonych duplikatów.
Porządek w tych czterech obszarach zwraca Googlebotowi budżet, który trafia tam, gdzie chcesz: na realne, sprzedażowe strony produktów i kategorii.
Jak optymalizować (rekomendacje Google)
- Uporządkuj inwentarz URL-i. Konsoliduj duplikaty przez `rel=canonical`; usuwaj martwe strony kodem 404/410; eliminuj soft 404.
- Blokuj nieważne adresy w `robots.txt` (filtry, akcje, nieskończone przestrzenie). Pamiętaj: `Disallow` nie usuwa strony z indeksu — do tego służy `noindex` (który z kolei wymaga, by strona była crawlowalna).
- Zwracaj 304 dla niezmienionych stron. Googlebot wysyła nagłówek `If-Modified-Since`; jeśli treść się nie zmieniła, odpowiedz 304 Not Modified bez treści — oszczędzasz zasoby i Google crawluje więcej realnych adresów.
- Trzymaj czystą sitemap z trafnym `lastmod` — tylko kanoniczne, indeksowalne adresy.
- Spłaszczaj łańcuchy przekierowań do jednego skoku.
- Przyspiesz serwer — szybsze, stabilne odpowiedzi podnoszą limit pojemności. Dbaj o Core Web Vitals.
User-agent: *Disallow: /*?sort=Disallow: /*?filter=Disallow: /koszykDisallow: /szukajSitemap: https://twojadomena.pl/sitemap.xmlUwaga: dawny **suwak crawl rate w Search Console został wyłączony 8 stycznia 2024** — Google reguluje tempo automatycznie (zwalnia przy błędach 5xx/429 i rosnących czasach odpowiedzi).
Sitemapy i lastmod — jak sterować popytem
Sitemapa to nie tylko lista adresów — to sygnał popytu i mapa tego, co chcesz indeksować. Trzymaj w niej wyłącznie kanoniczne, indeksowalne URL-e (bez przekierowań, 404, `noindex` i adresów zablokowanych w robots). Element `lastmod` powinien odzwierciedlać realną datę istotnej zmiany treści — Google używa go jako wskazówki, co odświeżyć. Sztuczne ustawianie `lastmod` na „dziś" w całej sitemapie podważa zaufanie do tego sygnału i przestaje działać. Dla bardzo dużych serwisów dziel sitemapy tematycznie (np. per kategoria), bo w GSC od razu widać, która sekcja indeksuje się gorzej.
JavaScript a crawl budget — ukryty kosztożerca
Na dużych serwisach renderowanie JavaScriptu potrafi cicho zjadać budżet. Googlebot crawluje dwuetapowo: najpierw pobiera HTML, a renderowanie JS (uruchomienie strony, by zobaczyć treść doładowaną skryptem) trafia do osobnej kolejki i kosztuje znacznie więcej zasobów niż czysty HTML. Konsekwencje dla budżetu:
- Treść wstrzykiwana wyłącznie przez JS jest „droższa" do scrawlowania i bywa indeksowana z opóźnieniem — przy dużym serwisie to realne wąskie gardło.
- SSR lub statyczne generowanie (SSG) zamiast czystego client-side rendering oddaje Googlebotowi gotowy HTML i odciąża budżet.
- Każdy zbędny zasób (ciężkie skrypty, niepotrzebne pliki) podnosi koszt pojedynczego pobrania — porządki w renderowaniu to też porządki w budżecie.
Reguła: im więcej treści widać w surowym HTML bez wykonywania JS, tym efektywniej Google wykorzystuje Twój crawl budget. To ten sam fundament, który poprawia Core Web Vitals.
Crawl budget to nie indeksacja — i nie ranking
Dwa częste mity. Po pierwsze, crawlowanie ≠ indeksacja: strona może być scrawlowana i mimo to nie trafić do indeksu („Zaindeksowano: nie, scrawlowano – obecnie niezindeksowane" to zwykle sygnał jakości, nie budżetu). O indeksacji decyduje wartość strony, nie sam budżet. Po drugie, crawl budget nie jest czynnikiem rankingowym — to warunek wstępny (trzeba być scrawlowanym, by rankować), ale większy budżet nie podnosi pozycji.
/// CRAWLOWANIE ≠ INDEKSACJA ≠ RANKING
* Crawl budget to warunek wstępny, nie czynnik rankingowy. Scrawlowana strona wciąż może nie zostać zaindeksowana.
Jak monitorować
W Search Console korzystaj z raportu Statystyki indeksowania (Crawl Stats): liczba żądań, rozmiar pobrań, średni czas odpowiedzi oraz rozbicia po kodzie odpowiedzi, typie pliku i celu (Discovery vs Refresh). W raporcie „Strony" obserwuj dwa statusy: „Wykryto – obecnie niezindeksowane" (Google zna URL, ale go jeszcze nie scrawlował — klasyczny objaw problemu z budżetem/popytem) i „Scrawlowano – obecnie niezindeksowane" (scrawlował, ale nie zaindeksował — sygnał jakości).
Analiza logów serwera — najgłębszy wgląd
Search Console pokazuje obraz zagregowany; logi serwera pokazują prawdę — każde żądanie Googlebota z osobna. Na co patrzeć:
- Rozkład trafień po sekcjach — ile crawla idzie na produkty/kategorie, a ile na śmieci (parametry, koszyk, filtry). To Twój wskaźnik „crawl waste".
- Kody odpowiedzi dla Googlebota — udział 404/5xx i przekierowań; wysoki odsetek to wyciek budżetu.
- Częstotliwość odwiedzin kluczowych stron — czy najważniejsze produkty są odwiedzane regularnie, czy raz na kwartał.
- Weryfikacja prawdziwego Googlebota — po odwrotnym DNS, bo wiele botów się podszywa.
Cel analizy jest prosty: zobaczyć, gdzie Googlebot marnuje czas, i tę część odciąć — przez `robots.txt`, kanonikalizację albo brak crawlowalnych linków.
---
Optymalizuję crawl budget dużych serwisów i sklepów w ramach technicznego SEO. Uczę tego w kursie SEO & GEO. Napisz do mnie — zacznę od analizy Twoich statystyk indeksowania i logów serwera.
Warto przeczytać dalej:

Specjalista SEO & GEO i AI engineer z Białegostoku. 10 lat budowania widoczności w wyszukiwarkach dla znanych marek i 3 lata wdrożeń AI — agentów, automatyzacji i integracji LLM (Next.js, React, Node.js).
/// RELATED_SERVICES
Potrzebujesz wdrożenia tych koncepcji? Zobacz usługi powiązane z tym tematem.
/// RELATED_RECORDS
SEO Umarło. Witaj w Erze GEO — Generative Engine Optimization
Gdy użytkownicy pytają ChatGPT zamiast Google, zasady gry się zmieniają. Poznaj GEO — inżynierię widoczności w erze modeli językowych. Zaktualizowano czerwiec 2026: nowe dane o AI Overviews, udziałach rynkowych ChatGPT/Claude/Perplexity i strategiach cytowania.
SEO i GEO w 2026 — co jeszcze działa, co odpada i jak ułożyć strategię na dziś
Google AI Overviews w Polsce, ChatGPT Search, Perplexity — krajobraz wyszukiwania zmienił się fundamentalnie w ciągu 12 miesięcy. Strona na pozycji #1 może dziś tracić połowę kliknięć. Sprawdź, które taktyki SEO wciąż działają, które tracą na znaczeniu i co konkretnie dodać, żeby marka pojawiała się w odpowiedziach AI.
Jak mierzyć Share of Voice marki w modelach AI — od ręcznych testów po automatyczny monitoring
Marketing manager odkrywa, że konkurent pojawia się w ChatGPT zamiast nich — mimo pozycji TOP 3 w Google. Tradycyjne narzędzia SEO tego nie rejestrują. Pokazuję jak zbudować metodologię pomiaru AI Share of Voice: od ręcznego audytu po automatyczny monitoring z Perplexity API i AnswerLyzerem.
Signal received?
Przerwij
Ciszę
Zainicjuj protokół. Nawiąż połączenie. Zbudujmy coś głośnego.
