Crawl Rate Limit (CRL) i jego znaczenie dla SEO

Crawl rate limit należy do mniej znanych czynników, które wpływają na pozycję stron internetowych w wyszukiwarce Google. Musi uwzględnić go jednak każda dobrze opracowana strategia optymalizacji wewnętrznej strony i każda strategia pozycjonowania. Angielskie wyrażenie “crawl rate limit” (często stosuje się też skrót CRL) oznacza w języku polskim “limit współczynnika indeksacji”. Wskaźnik ten należy do głównych czynników wpływających na “budżet indeksowania”, a więc tempo i sposób indeksowania witryny w wyszukiwarce Google. Crawl rate limit wskazuje na ograniczenia (limity) w indeksowaniu strony przez roboty internetowe (“crawlery”, “boty”). W podobny sposób działają także roboty indeksujące innych wyszukiwarek, np. Bing.

Budżet indeksowania a crawl rate limit

Obserwując działania botów Google na naszych stronach mamy często wrażenie, że są one chaotyczne, przypadkowe. Zdarzają się dni i godziny z bardzo dużą ilością wejść botów Google na podstrony, zdarzają się też dłuższe okresy, kiedy witryna wcale nie jest przez nie odwiedzana. Dziwi też często sam dobór podstron, które odwiedzają roboty Google – mogą one np. odwiedzać stare treści bez aktualizacji, pomijając nowe podstrony. W rzeczywistości jednak działania botów Google są zorganizowane i nieprzypadkowe – możemy poznać ich zasady, a przez to w pewnej mierze na nie wpływać. Tempo i sposób indeksowania strony internetowej możemy tak prognozować, jak i stosować w strategiach optymalizacyjnych.

Celem jest oczywiście maksymalizacja budżetu indeksowania, wzrost ilości odwiedzin googlebotów w witrynie. Osiągnięcie możliwie najwyższych budżetów indeksowania wymaga często przebudowy strony, stworzenia witryny o strukturze możliwie “przyjaznej dla robotów”. O to, by strona internetowa była przyjazna dla robotów warto zadbać przy tym już na etapie projektowania strony internetowej, gdyż jej późniejsza przebudowa może okazać się trudna, czasochłonna i kosztowna. Niekiedy przyświeca nam przeciwny cel, zmniejszenie ilości wejść botów na stronę ze względu na nadmierne pochłanianie zasobów hostingu.

Budżet indeksowania można określić jako zasób podstron (ich liczbę, a także samą wielkość pobranych danych) które robot indeksujący Google odwiedza w czasie pojedynczej wizyty w witrynie. Na budżet ten nałożony jest odgórnie pewien limit. Zasoby Google, chociaż ogromne, nie są nieograniczone – serwery Google są w stanie przeanalizować tylko pewną ilość danych dziennie. Limit jest korzystny także dla właścicieli stron i dostarczycieli usług hostingowych, ponieważ zbyt duża liczba wizyt robotów w witrynie może doprowadzić do nadmiernego obciążenia serwerów. Ograniczenia związane z limitem indeksowania są jednak także niekorzystne: ze względu na limit, nowe treści w witrynie pojawiają się w wynikach wyszukiwania później, istnieje też możliwość, że zostaną pominięte przez roboty. Ma to znaczenie zwłaszcza dla dużych witryn, w których treści aktualizowane są często: w ich przypadku istotne jest, by nowe podstrony i aktualizacje starych treści pojawiały się w wynikach wyszukiwania możliwie najszybciej. Szybsze tempo indeksacji jest korzystne także dla pozycji stron internetowych w wyszukiwarkach, oznacza szybsze efekty wszystkich działań ukierunkowanych na pozycjonowanie strony.

Analiza crawl rate limit

Analiza CRL ma znaczenie przede wszystkim dla witryn, które zawierają wiele podstron lub są często aktualizowane. Nie dotyczy to jednak tylko dużych portali – liczne i często aktualizowane podstrony zawierają też niemal wszystkie sklepy internetowe, strony firmowe z wieloma landing pages, a nawet niektóre blogi. Może to prowadzić do utraty kontroli nad obecnością treści witryny w wyszukiwarce. Do przywrócenia tej kontroli konieczna jest analiza crawl rate limit i działań botów Google w wyszukiwarce jako całości.

Narzędziem służącym do analizy zachowania botów w witrynie jest przede wszystkim dostępny w Google Search Console raport “statystyki indeksowania”. Pozwala on na analizę żądań według typu pliku (np. HTML, javascript, grafika), według odpowiedzi (np. “przeniesiono na stałe”, “nie zmodyfikowano”, “nie znaleziono”) oraz według typu googlebota (np. wersja na smartfony i wersja na komputery). Gromadzone dane dotyczą czasu przebywania botów na stronie, liczby pobieranych podstron oraz wyrażonej w kilobajtach wielkości pobieranych danych. Przedstawiają również błędy indeksowania. Zaniepokojenie powinna budzić nie tylko duża ilość błędów indeksowania, ale też duże zmiany w zachowaniu botów oraz nietypowe, skrajne wartości parametrów.

Zmiany zachodzące w Google Search Console spowodowały, że wpływanie na tempo indeksowania jest obecnie mniej wygodne, niż dawniej. Google Search Console pozwala obecnie tylko na na ograniczenie tempa indeksacji – służy temu podstrona “szybkość indeksacji” w ustawieniach witryny w Google Search Console. Zdarza się, zwłaszcza w wypadku niewielkich witryn na współdzielonych hostingach, że zależy nam raczej na ograniczeniu tempa indeksacji, niż na jego przyspieszeniu. Wizyty botów na stronie, w tym także botów Google, pochłaniają bowiem stosunkowo duże zasoby hostingowe. Warto to mieć na uwadze także w przypadku serwerów dedykowanych, gdyż nieumiejętna manipulacja tempem indeksacji witryny może doprowadzić do przeciążenia serwera i błędów w jego działaniu.

Ilość wizyt botów Google w witrynie i odwiedzane przez nie podstrony trzeba też analizować i oceniać korzystając z narzędzi zewnętrznych (podstawowe narzędzia tego rodzaju dodawane są zazwyczaj do usług hostingowych, w postaci statystyk i logów serwera). Niekiedy są one mylące, gdyż roboty Google to nie tylko roboty indeksujące, ale też np. narzędzia związane z tłumaczeniem witryny na języki obce oraz sprawdzające szybkość witryny za pomocą PageSpeed Insights.

Optymalizacja crawl rate limit

Analiza crawl rate limit pozwala na pełniejsze wykorzystanie zawartych w witrynie treści. Umożliwia optymalizację budżetu indeksowania, której celem jest zwiększenie widoczności strony w wyszukiwarce, zwiększenie wskaźnika konwersji i przyciągnięcie do strony możliwie dużej liczby nowych użytkowników. Pozwala też na lepszą ekspozycję w wynikach wyszukiwania tych treści, na które są dla nas najbardziej cenne, a nawet na ukrycie treści mniej wartościowych (np. skierowanych raczej do robotów Google, niż do realnych użytkowników). Optymalizacja crawl rate limit obejmuje przede wszystkim czynniki techniczne (SEO techniczne), ale także strukturę witryny. Pierwszym wskaźnikiem, który powinniśmy wziąć pod uwagę, jest czas odpowiedzi serwera oraz czas renderowania strony. Jest on sprawdzany przy każdej wizycie googlebota na stronie i wyznacza tzw. crawl health. Do optymalizacji budżetu indeksowania niezbędna jest więc optymalizacja serwerów.

Znajdujące się w witrynie przekierowania i pojawiające się strony z komunikatami błędów są odwiedzane przez roboty. Są też wliczane do budżetu indeksowania, należy więc je możliwie ograniczyć lub starać się wykluczyć poprzez plik robots.txt. Powolny hosting zwiększa czas, który roboty indeksujące spędzają na stronie; zarazem jest to jeden z istotnych czynników rankingowych – roboty nie tylko indeksują treść, ale także analizują szybkość działania strony. Szybki hosting jest więc jednym z głównych czynników optymalizacji budżetu indeksowania. Z tego samego powodu duże znaczenie ma również kompresja materiałów graficznych i multimedialnych na stronie oraz optymalizacja kodu witryny (kompresja HTML, CSS oraz skryptów). Zbyt częste zmiany kodu witryny również nie są jednak wskazane, gdyż strony o zmienionym kodzie robot musi ponownie zindeksować.

 

Crawl rate limit a crawl demand

Prócz crawl rate limit, istnieje jeszcze drugi, zbliżony parametr budżetu indeksowania stron internetowych – crawl rate demand. Oznacza on “popyt na indeksację” – roboty Google odwiedzają częściej witryny, które spełniają określone wymagania. Roboty Google odwiedzają częściej zasoby, które wyszukiwarka uznaje za “cenne”, a więc strony popularne i często aktualizowane. Popularność witryny mierzy się przede wszystkim liczbą wejść na stronę oraz ilością i jakością prowadzących do niej linków zewnętrznych. Częściej indeksowany jest również “świeży” content – nowe podstrony i podstrony, które uległy niedawno modyfikacjom. Poza optymalizacją techniczną witryny sposobem optymalizacji budżetu wyszukiwania jest więc również jej atrakcyjność dla użytkowników – witryna statyczna, na której rzadko pojawiają się nowe i atrakcyjne treści, będzie indeksowana rzadziej.

 

Leave a Reply