Warto wiedzieć

Crawler – co to jest i jak działa

By 27/06/2020 No Comments

W dzisiejszych czasach ciężko wyobrazić sobie prowadzenie biznesu bez dobrze funkcjonującej strony internetowej. Aby nasza witryna docierała do jak największej liczby potencjalnych klientów powinna być jednak dobrze zoptymalizowana pod kątem wyszukiwarek. Oznacza to, że jej zawartość musi być przyjazna i przejrzysta nie tylko dla czytelników, ale także dla mechanicznych robotów, które przeglądają jej zawartość i sprawdzają, czy jest ona zgodna z obowiązującymi algorytmami. W poniższym artykule znajdziesz wszystko, co trzeba wiedzieć na temat tak zwanych crawlerów.

Crawler – co to właściwie jest?

Pojęcie crawlera jest stosunkowo mało znane szerokiej grupie użytkowników internetu oraz właścicieli sklepów online. Tymczasem jego obecność dotyczy wszystkich osób prowadzących witryny internetowe i jest niezwykle ważna w ich pozycjonowaniu.

Crawler to obcobrzmiąca nazwa, która większości z nas niewiele mówi. Funkcjonuje on jednak pod kilkoma innymi nazwami. Niekiedy możemy spotkać się z określeniami, takimi jak web-crawler lub bardziej polskobrzmiącymi – pełzacz, pająk, robot albo bot wyszukiwarki. Pod każdą z tych nazw kryje się jednak ten sam byt. Mamy tu do czynienia z programem komputerowym, będącym rodzajem sztucznej inteligencji. Jest on używany przez wyszukiwarki internetowe do indeksowania stron internetowych oraz odczytywania ich zawartości pod kątem obowiązujących algorytmów. Crawlery są zaprogramowane do zbierania informacji ze stron internetowych i odpowiedniego ich katalogowania. Ze względu na to, że ponad dziewięćdziesiąt procent udziałów w rynku wyszukiwarek internetowych należy do Google, to właśnie Google-boty są najczęściej spotykanymi na stronach indeksującymi crawlerami.

Istnieją trzy rodzaje działań wykonywanych przez roboty Google:

  • Google’s deep crawli
  • Google’s fresh crawli
  • Google’s main crawli

Google’s main crawli dotyczy najbardziej kluczowych głównych podstron danej witryny.  Google’s fresh crawli jest działaniem, które odbywa się najczęściej. Mamy z nim do czynienia codziennie, a niekiedy nawet kilka razy w ciągu doby. Dzięki tak częstym odwiedzinom botów na stronie możemy mieć pewność, że użytkownicy internetu otrzymują najbardziej aktualne odpowiedzi. Największe znaczenie ma to oczywiście w przypadku stron, które są bardzo często aktualizowane – chodzi tu przede wszystkim o serwisy informacyjne albo inne strony o podobnej zawartości. Nieco rzadziej odbywa się tak zwane głębokie pełzanie, czyli Google’s deep crawl. Najczęściej mamy z nim do czynienia mniej więcej raz na miesiąc. Polega ono na bardzo dokładnym sprawdzeniu całej strony – jej skryptów, kodu, linków oraz treści i grafiki w poszukiwaniu nowej zawartości. Warto zaznaczyć, że jeżeli witryna aktualizowana jest stosunkowo często, deep crawl może obywać się częściej niż raz w miesiącu.

W jaki sposób rozpoznać Google-bota?

Wiele osób zainteresowanych pozycjonowaniem stron internetowych lub po prostu ciekawych tego jak działają crawlery, zastanawia się, czy istnieje możliwość rozpoznania bota na swojej witrynie. Oczywiście, jest to możliwe i stosunkowo proste do wykonania niemal dla wszystkich, którzy przynajmniej w podstawowym stopniu orientują się w skryptach.

Rozpoznania bota-Google (a także crawlera z innych wyszukiwarek) przebiega z pomocą skryptu PHP. Kod, którego możemy się spodziewać w przypadku Google-bota to: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html).

User agent – co to jest?

Kolejnym nieco obcobrzmiącym określeniem, które bardzo często pojawia się w kontekście wyszukiwarek internetowych jest user agent. Wiele osób zastanawia się co to w ogóle jest. Odpowiedź jest prosta – w tym wypadku mamy do czynienia z nagłówkiem identyfikacyjnym, który zawiera w sobie ciąg znaków. Jaka jest jego podstawowa funkcja? Umożliwia on serwisom internetowym rozpoznanie, z jakiej wersji przeglądarki korzysta osoba, która w danym momencie odwiedza konkretną stronę internetową.

Nagłówki te wykorzystywane są do wybrania odpowiedniego wariantu strony dla konkretnego user agenta. Każdy z carawlerów, który codziennie przeszukuje strony internetowe posiada własny, unikalny user agent. Dzięki jego obecności jesteśmy w stanie – za pomocą pliku user.txt – zablokować im dostęp do konkretnych obszarów witryny lub określonych części strony.

Warto wspomnieć o tym, że w nagłówkach botów często odnaleźć możemy linki lub andresy e-mail, za pomocą których mamy możliwość skontaktowania się z ich twórcami. Co więcej, w dzisiejszych czasach możemy odnaleźć wiele wtyczek do przeglądarek internetowych, które po zainstalowaniu dają nam możliwość zobaczenia naszej strony internetowej z perspektywy robota Google.

Jakie są funkcje crawlera w internecie?

Skoro wiemy już czym dokładnie są crowlery (pełzacze, pająki lub roboty przeglądarek) warto dowiedzieć się, jakie dokładnie są ich funkcje w internecie. Jak działają i na czym dokładnie polega ich praca?

Jak już zostało wspomniane na początku działanie robotów Google (oraz oczywiście botów innych wyszukiwarek) opiera się przede wszystkim na indeksowaniu stron internetowych. Na czym to dokładnie polega? Indeksowanie można opisać w najprostszy sposób jako odwiedzanie różnego rodzaju witryn internetowych, dokładne skanowanie ich treści a następnie na wysyłaniu wszystkich potrzebnych danych do specjalnego indeksu. Indeks ten stanowi swoistą bazę, na podstawie której algorytmy układają wyniki w odpowiedzi na hasła wpisywane do wyszukiwarki przez użytkowników. Mówiąc prościej – to właśnie na podstawie tej bazy strony układane są w określonej kolejności wyszukiwania.

Jak widać uzyskanie ruchu na naszej stronie pochodzącego z wyszukiwarki nie jest możliwe bez zindeksowania naszej witryny przez robota Google. Wiele osób z pewnością zastanawia się, na jakiej podstawie układane są kolejności wyszukiwania. To znaczy – jakie kwestie brane są pod uwagę przez roboty podczas indeksowania stron internetowych. Crawlery uwzględniają następujące elementy witryny:

  • treść – niezwykle istotnym elementem strony internetowej jest zamieszona na niej treść. Crawlery na podstawie treści rozpoznają tematykę strony i odpowiednio ją kategoryzują. Właśnie dlatego liczy się to, aby była ona nie tylko poprawna gramatycznie i ortograficznie oraz odpowiednio nasycona słowami kluczowymi. Istotne jest także to, aby treść na stronie była przejrzysta i oryginalna. Jakiekolwiek oznaki nieoryginalności sprawią, że nasza witryna z pewnością nie pojawi się wysoko w wyszukiwarkach internetowych.
  • znaczniki meta – mowa tu o popularnych meta title oraz meta destription. Szczególną uwagę należy zwrócić na ten pierwszy znacznik. Title powinien być szczególnie dobrze dopracowany i poprawnie sformatowany.
  • opisy alt w grafice – przy tworzeniu strony internetowej i jej pozycjonowaniu należy pamiętać, że roboty Google oraz inne crawlery nie widzą obrazków. Mają jednak wgląd w znaczniki alt, które są brane pod uwagę podczas indeksowania danej witryny. Warto więc pamiętać o tym, aby uzupełniać je w przypadku każdej grafiki.

Jak widać strona internetowa z perspektywy robota Google wygląda zupełnie inaczej niż ta widziana naszymi oczyma. Ma ona całkowicie surową formę. Crowler nie dostrzega kolorów, obrazów, oprawy graficznej, wielkości czcionki ani jej wzoru. Co widzi robot? Przede wszystkim treść witryny. Jeżeli spojrzymy na to z tej perspektywy znane powiedzenie “content is a king” nabiera zupełnie nowego sensu. To właśnie na treści powinniśmy skupić się tworząc naszą własną witrynę, to właśnie ona będzie bowiem odpowiedzialna za to, czy pojawimy się na samym szczycie wyszukiwarki, czy spadniemy na samo dno, a tym samym staniemy się całkowicie niewidzialni. Nie ma skutecznego pozycjonowania bez wartościowej treści, takiej, której oczekują użytkownicy i takiej, z którą faktycznie chcą się zastanawiać.

Warto zdawać sobie sprawę z tego, że obecnie na rynku dostępne są ciekawe i łatwe w obsłudze wtyczki internetowe, które pozwalają spojrzeć na naszą stronę “oczami” crawlera. Wykorzystując tego typu opcję możemy na własnej skórze przekonać się czy nasza witryna odczytywana jest przez roboty w poprawny sposób. Pozwalają także na sprawienie, że strona jest bardziej przejrzysta i lepiej widoczna dla crawlerów.

Najpopularniejsze crawlery – co warto o nich wiedzieć?

Jak już zostało ustalone niemal każda z wyszukiwarek posiada swoje własne crawlery. Najbardziej popularne są oczywiście roboty Googla, który posiada ponad dziewięćdziesiąt pięć procent udziału w rynku przeglądarek. Na stronach możemy jednak spotkać także inne crawlery, chociażby  Binga czy rosyjskiego Yandexa.

Omawiając najpopularniejsze crawlery nie sposób nie zacząć od Googla. Crawl używany przez tego korporacyjnego giganta popularnie nazywa się Googlebotem. Robot ten tworzy indeks dla wyszukiwarki Google poprzez przeglądanie i indeksowanie poszczególnych witryn. Robot przechodzi z jednej strony do drugiej za pomocą umieszczanych w witrynach linków. Googlebot przegląda strony korzystając ze wszystkich linków, jakie znajdzie na odwiedzanych przez siebie stronach. Warto jednak wiedzieć, że aby crawler mógł odwiedzić i zindeksować daną witrynę musi dostać się do niej poprzez stronę, którą już zna.

Sień Microsoft także posiada swojego crawlera zwanego bardzo powszechnie bingbotem. Jego działanie jest bardzo analogiczne do działania Googlebota – bingot również przeszukuje witryny internetowe i indeksuje je, prowadząc bazę dla wyszukiwarki Bing. Bingbot został wdrożony przez Microsoft w 2010 roku, czyli ma on za sobą już dekadę działania. Podobnie jak w przypadku Googlebota ten crawler także może zostać zablokowany przez webmastera, który w prosty sposób może także pozwolić mu na dostęp do swojej witryny.

Stosunkowo popularnym botem jest także crawler należący do rosyjsko-holenderskiej korporacji internetowej Yandex, która jest właścicielem przeglądarki internetowej o tej samej nazwie. Yandex jest wprawdzie dopiero ósmą co do popularności przegląrką na świecie, jednak posiada ona niemal piećdziesiąt procent udziałów w rosyjskim rynku. Właśnie dlatego umożliwienie botom tej przeglądarki dostępu do swojej witryny jest doskonałym sposóbem na odatarcie do rosyjskich i rosyjskojęzycznych klientów.

Crawlery – roboty, bez których pozycjonowanie strony nie ma racji bytu

W dzisiejszych czasach trudno wyobrazić sobie dobrze funkcjonującą firmę bez strony internetowej, która jest dobrze wypozycjonowana pod kątem wyszukiwarek. O optymalizacje witryn internetowych nie powinny jednak martwić się jedynie osoby, które w sieci sprzedają swoje produkty. To także bardzo istotna kwestia dla blogerów i wszystkich osób, które pragną, aby ich strony internetowe generowały ruch z wyszukiwarek. Jak więc widać – w dzisiejszych czasach trudno istnieć w sieci bez dobrej optymalizacji.

Obecnie witryny internetowe w naszej części świata przeszukiwane są przez rozliczne roboty, które zostały stworzone przez różne wyszukiwarki. Ze względu na to, że lwia część rynku (mowa tu o ponad dziewięćdziesięciu pięciu procentach) należy do kalifornijskiej korporacji Google, to właśnie crawlery tej wyszukiwarki są najbardziej liczącymi się robotami. Googleboty to jednak niejedyne “pająki” indeksujące rubieże internetu. Pozostałe wyszukiwarki także posługują się własnymi crawlerami, które indeksują strony i na podstawie własnych baz układają kolejność wyszukiwania poszczególnych zapytań.

Crawlery indeksują strony internetowe pod kątem treści, meta znaczników oraz opisów alt w grafikach i zdjęciach. Najbardziej popularne crawlery, czyli Googleboty wykorzystują określone rodzaje działań:  deep crawli oraz fresh crawli. Raz w miesiącu (w zależności od częstotliwości aktualizowania strony) dokonują one dogłębnego indeksowania wszystkich jej aspektów w celu przekazywania użytkownikom wyszukiwarki aktualnych informacji. Fresh crawli odbywa się z kolei przynajmniej raz dziennie i dotyczy szczególnie stron, które aktualizowane są na bieżąco.

Znajomość działania robotów wyszukiwarek jest niezbędna do dobrego pozycjonowania swojej witryny.

Leave a Reply