Crawl budget i jego znaczenie w pozycjonowaniu stron internetowych

Ilość danych, które pobierają w czasie pojedynczej wizyty na stronie internetowej roboty indeksujące Google jest ograniczona. Ograniczony jest także czas, który spędzają one w witrynie oraz liczba odwiedzanych przez nie podstron. Istnieje więc pewien „budżet”, który algorytmy Google wyznaczają odgórnie poszczególnym witrynom.

Przeważnie zależy nam na tym, aby nasza witryna indeksowana była możliwie szybko. Jeszcze ważniejsze jest to, by crawlery nie pomijały poszczególnych podstron w obrębie witryny, np. stron poszczególnych produktów w sklepie internetowym – pominięte, niezindeksowane podstrony wcale nie pojawią się w wynikach wyszukiwania. Można przy tym uniknąć takich sytuacji poprzez staranną analizę sposobu, w jaki googleboty indeksują naszą stronę oraz opartą o nią optymalizację techniczną, strukturalną i treściową witryny.

Czynniki wpływające na crawl budget

Crawl budget ważny jest przede wszystkim dla dużych i często aktualizowanych witryn, a więc dla stron e-commerce i portali informacyjnych oraz ogłoszeniowych. Istotny jest także dla stron, w których nowe treści dodają często użytkownicy – należą do nich fora internetowe, blogi z wieloma komentarzami oraz strony typu wiki. Wszystkie tego rodzaju strony powinny być „przyjazne dla robotów”, co jest podstawą optymalizacji crawl budget. Mają tu znaczenie tak pewne czynniki techniczne (szybkość działania strony, jakość hostingu, optymalizacja obrazków i kodu strony) jak i sama struktura treści (w tym struktura adresów). Ważna jest również jakość treści oraz linkowanie zewnętrzne i wewnętrzne.

Linki wewnętrzne ułatwiają robotom poruszanie się po stronie, wskazują też na to, które podstrony są szczególnie ważne. Do kluczowych treści powinno więc prowadzić wiele linków. Podobne zasady dotyczą linkowania zewnętrznego – wiele dobrych jakości linków zewnętrznych jest dla algorytmów wskazówką, że strona jest ważna i popularna.

Linki zewnętrzne wpływają więc nie tylko na pozycję strony, ale też na szybkość indeksowania. Architektura strony powinna być możliwie prosta i przejrzysta, przy czym najważniejsze treści powinny znajdować się możliwie „blisko” strony głównej. Witryna powinna być też podzielona na kategorie tematyczne i stosować tagi – unikamy jednak nadmiaru tagów, które nie tylko prowadzą do duplikacji treści, ale też „pożerają” crawl budget, który przeznaczyć można na ważniejsze podstrony.

W adresach url witryn powinno się unikać znaków specjalnych, powinny one zawierać frazę w mianowniku i nie ulegać zmianom – w przypadku sklepów internetowych ważny jest szczególnie dobrze przemyślany dobór nazw podstron i ich adresów, który pozwala uniknąć duplikacji treści. Ważna jest także sama treść, która powinna być atrakcyjna nie tylko dla robotów Google, ale także dla użytkowników – pisanie tekstów wyłącznie „dla robotów” jest błędem, gdyż zachowanie użytkowników jest jednym z najważniejszych czynników oceny strony przez algorytmy Google, wpływającym także na crawl budget.

Istotne jest również unikanie nadmiaru przekierowań i stron z komunikatami błędów. Przekierowania i błędy wliczają się do crawl budget i mogą nawet zatrzymać indeksowanie witryny. W jeszcze większym stopniu niż nadmiar tagów i innych niepotrzebnych podstron wpływają one na marnowanie budżetu indeksowania. To, jak często roboty Google napotykają komunikaty błędów łatwo sprawdzić w zakładce „statystyki indeksowania” raportów w narzędziu Google Search Console. W każdym przypadku należy też unikać tworzenia wielu podstron o tej samej, a nawet zbyt podobnej treści.

Crawl budget, crawl health, crawl limit i crawl demand. Parametry związane z budżetem indeksowania

Z budżetem indeksowania związane są także pojęcia takie jak crawl rate limit, crawl healh i crawl demand. Crawl rate limit to limit współczynnika indeksacji – przede wszystkim górne wartości, które przybiera liczba podstron indeksowanych dziennie przez roboty. Określa on także ilość możliwych żądań na sekundę, co ma na celu zapobieganie przeciążeniom serwera przez działanie botów. Sposobem na poprawę tego parametru jest przede wszystkim optymalizacja techniczna serwera (w tym wybór szybszego hostingu), znaczenie ma też zmniejszenie rozmiarów obrazków oraz optymalizacja kodu.

Crawl health to parametr określany na podstawie szybkości wczytywania się witryny. Oznacza on więc wydajność techniczną strony, w tym szybkość reakcji serwera, a także ilość zwracanych błędów.

Crawl demand jest parametrem najmniej zależnym od uwarunkowań technicznych – jest to „popyt” na stronę wśród użytkowników. Boty Google szybciej indeksują treści, które są atrakcyjne dla użytkowników lub na bieżąco aktualizowane.

Podstrony, które notują dużą liczbę wejść z wyników wyszukiwania (lub innych źródeł ruchu) indeksowane są częściej. Częściej boty indeksują również nowo powstałe podstrony oraz te, na których niedawno dokonano aktualizacji. Troska o jakość treści na stronie przyczynia się więc do zwiększenia tempa indeksowania, poprawia ogólnie rozumiany crawl budget. Strony „opuszczone”, rzadko aktualizowane, są zarazem rzadko odwiedzane przez roboty Google, a ich pozycje w wyszukiwarce stopniowo obniżają się.

Analiza parametrów związanych z budżetem indeksowania nie może być dokonywana samodzielnie. Warto powiązać ją z innymi analizami mającymi znaczenie dla SEO, w tym z danymi dostarczanymi przez Google Analytics i przez narzędzia służące do oceny linków zewnętrznych (np. Ahrefs). W szczególności warto porównywać crawl budget z ogólną liczbą zindeksowanych podstron, w tym z widocznymi w Google Search Console raportami dotyczącymi map witryny. Porównywać można także raporty dotyczące bezpieczeństwa strony, podstawowych wskaźników internetowych, stron AMP, ręcznych działań i obsługi na urządzeniach mobilnych. Problemy z bezpieczeństwem witryny (w tym zwłaszcza wykryte przez Google wirusy) mogą wstrzymać indeksację, a problemy techniczne z obsługą strony na urządzeniach mobilnych znacznie ją spowolnić.

Google Search Console w analizie budżetu indeksowania

Na analizę budżetu indeksowania pozwala przede wszystkim dostarczane przez Google narzędzie Google Search Console, przy czym raporty dostępne są w zakładce „statystyki indeksowania”. Istnieje w nim także możliwość zmniejszenia tempa indeksowania strony (nie na jednak możliwości jego zwiększenia). Możliwość taka przydatna jest w witrynach, w których zbyt duży ruch generowany przez Google stanowi nadmierne obciążenie dla serwera.

Google Search Console pozwala na całościową analizę zachowania botów Google w witrynie – inne roboty internetowe analizować można za pomocą statystyk i logów serwera, a blokować za pomocą pliku robots.txt oraz wtyczek takich jak Wordfence. W narzędziu sprawdzić można np. ilość danych pobieranych przez roboty, liczbę indeksowanych stron oraz czas spędzony na pobieraniu strony, a także błędy w indeksowaniu. Dane dostępne są w ujęciu dziennym, miesięcznym i w dłuższych przedziałach czasu, zazwyczaj z pewnym opóźnieniem.

Ilość danych pobieranych przez roboty wyrażona jest w kilobajtach. Zbyt wysokie wartości mogą świadczyć o złej optymalizacji materiałów graficznych i multimediów. Warto więc analizować relację ilości pobieranych danych do ilości indeksowanych podstron. Także czas spędzony przez roboty na indeksowaniu powinien mieć możliwie najniższą wartość w stosunku do ilości indeksowanych podstron. Świadczy on o zbyt długim czasie wczytywania się strony, co odbija się negatywnie na zachowaniu użytkowników i współczynniku konwersji.

Ilość indeksowanych dziennie podstron powinna być natomiast zazwyczaj możliwie najwyższa. Dotyczący ich raport mówi o tym, ile podstron witryny dziennie zindeksowały roboty Google – dane są przy tym różne dla robotów indeksujących strony w wersji mobilnej (na smartfony) i strony na komputery (urządzenia desktopowe) oraz pozostałe rodzaje botów Google.

Pewne wahania w liczbie indeksowanych dziennie stron są przy tym normalne, niepokój powinno budzić nagłe i stałe zmniejszenie tempa indeksacji witryny. Może ono świadczyć o poważnych problemach technicznych, które pojawiły się w witrynie lub o szczególnie niekorzystnych dla pozycji strony w wyszukiwarce zmianach w algorytmie Google. Poważne błędy wykryte w Google Search Console mogą świadczyć również o błędach w implementacji pliku robots.txt, błędach w pliku .htaccess lub złej implementacji wtyczek SEO (np. Yoast).

Więcej ciekawych artykułów znajdziesz na blogu: https://cwierkaja.pl/wiedza

Robert Rębisz

+ posts

Ekspert ds. marketingu cyfrowego, SEO i reklam online z wieloletnim doświadczeniem. Specjalizuje się w kampaniach Ads, strategiach Social Media i optymalizacji treści. Stale śledzi trendy, by dostarczać skuteczne rozwiązania. 🚀

Crawl budget i jego znaczenie w pozycjonowaniu stron internetowych