
Klienci wielokrotnie korzystają ze wszelkiego rodzaju wyszukiwarek w celach zakupowych. Są to dla nich jedne z najważniejszych narzędzi do pozyskiwania wartościowych informacji. Znane wszystkim Google dysponuje obszerną bazą danych, która pozwala użytkownikom znaleźć odpowiedzi na niemal wszystkie zadawane przez nich pytania. Niemniej jednak, aby witryna mogła pojawić się w organicznych wynikach wyszukiwania na wybrane frazy kluczowe, konieczne jest jej przeskanowanie, a następnie zaindeksowanie przez tzw. Googleboty.
Roboty sieciowe regularnie przeszukują Internet w celu znajdywania wartościowych treści. Jednakże ich działanie jest ograniczone i nie są w stanie stale przebywać na tych samych witrynach, aby sprawdzać, czy pojawiły się na nich nowe treści. Termin crawl budget częściowo opisuje ograniczenia, które boty napotykają, w trakcie swojej codziennej pracy.
Mówiąc o budżecie crawlowania, trudno nie poruszyć tematu związanego z pozyskiwaniem, indeksowaniem oraz porządkowaniem informacji przez wyszukiwarkę Google. W końcu są to elementy fundamentalne, które mają przełożenie na pozycję witryny w organicznych, czyli bezpłatnych wynikach wyszukiwania.
Skanowanie
Zacznijmy od kroku pierwszego, czyli skanowania. Budżet crawlowania opiera się w tym miejscu na robotach sieciowych, które przeszukują zasoby Internetu, w celu wykrycia wszelkiego rodzaju odnośników, plików oraz danych. Tym samym dokonują one analizy treści, która znajduje się na wybranej stronie internetowej. Zazwyczaj crawlery zaczynają poruszać się po najpopularniejszych miejscach w witrynie, a następnie przechodzić dalej, do tych bardziej ukrytych zasobów. Dlatego w pierwszym etapie skanowania roboty sieciowe odwiedzają stronę internetową i skanują jej zawartości, po to, by pobrać część jej zasobów. Następnie, witryna jest poddawana renderowaniu. Innymi słowy, uruchamiany jest kod witryny oraz oceniania zostaje jej zawartość, treść, struktura i layout. Aby przeskanowanie konkretnej strony internetowej było możliwe, wyszukiwarka Google musi niejako mieć świadomość jej istnienia. Musi więc dowiedzieć się o niej m.in. z pomocą:
Indeksacja
Po przeskanowaniu witryny zaczyna się etap indeksacji. W trakcie tego procesu odbywa się zbieranie informacji, między innymi o treściach, frazach kluczowych, linkach wewnętrznych/zewnętrznych oraz grafikach, które znajdują się w obrębie danej strony internetowej. W ten sposób mogą być one zapisane w bazie danych wyszukiwarki, w tak zwanym indeksie. Warto tutaj zaznaczyć, że to roboty sieciowe oceniają daną stronę internetową oraz klasyfikują jej wartość na podstawie zebranych danych. Jeżeli okaże się ona niesatysfakcjonująca, nie możemy oczekiwać osiągnięcia przez daną stronę internetową wysokich pozycji w organicznych wynikach wyszukiwania.
Trzeba przy tym procesie również pamiętać o tym, że niezależnie od tego, jaką liczbę podstron posiada dana witryna, jej adresy URL indeksowane są pojedynczo. I z tym działaniem związany jest termin crawl budżetu, który opiera się na czasie, jaki roboty sieciowe mogą poświęcić na indeksowanie zasobów określonej strony internetowej. Stąd, aby adresy URL mogły zostać w większości przypadków zaindeksowane, warto zadbać w pierwszej kolejności o optymalizację pewnych elementów. Co więc należy zrobić?
Na etapie indeksowania Googleboty starają się tak naprawdę zrozumieć tematykę pobieranej strony internetowej, a także starają się określić, czy dana zawartość jest unikalna, czy może stanowi duplikat innej witryny. W trakcie tego procesu dochodzi koniec końców do grupowania treści i klasyfikacji ich ważności. Na przykład poprzez odczytywanie sugestii w tagach rel=”canonical” lub rel=”alternate”.
Wyświetlanie wyników
Jeżeli chcemy, aby nasza strona internetowa osiągała satysfakcjonujące pozycje w bezpłatnych wynikach wyszukiwania, musimy również wziąć pod uwagę kondycję crawla, czyli tzw. crawl health. Brane są tutaj przede wszystkim pod uwagę aspekty techniczne, związane ściśle z szybkością ładowania witryny oraz czasem odpowiedzi serwera.
Stąd, jeśli nasza strona internetowa będzie osiągała satysfakcjonujący wynik pod kątem prędkości ładowania, możemy też oczekiwać, że będzie mogła być odpowiednio szybko indeksowana. Z kolei w sytuacji, gdy Googleboty zostaną zmuszone do długiego oczekiwania na odpowiedź serwera, mogą w trakcie jednej wizyty dodać do bazy danych mniej podstron. Co więcej, z tego też powodu w ich ocenie witryna może być traktowana jako mniej wartościowa, a co za tym idzie, nie powinna być wyświetlana na wysokich pozycjach w organicznych wynikach wyszukiwania.
Po drugie, warto także pamiętać o tzw. crawl demond, czyli o częstotliwości indeksacji. Ma to nierozerwalny związek z linkami prowadzącymi do witryny, które znajdują się na innych domenach zewnętrznych. Mogą one świadczyć o popularności danej strony internetowej wśród użytkowników. Innymi słowy, mowa tutaj o ilości osób, która ją odwiedza. Ponadto, na częstotliwość indeksacji ma również wpływ konsekwentne aktualizowanie zamieszczanych treści na stronie. Ponieważ na tego typu miejsca Googleboty mogą wchodzić o wiele częściej. A co za tym idzie, może mieć to przełożenie na wyższe pozycje witryny na wybrane frazy kluczowe w bezpłatnych wynikach wyszukiwania.
Administratorem udostępnionych przez Ciebie danych osobowych jest Ideo Force Sp. z o.o. Podanie danych osobowych jest dobrowolne, jednak ich niepodanie uniemożliwi świadczenie usług na Twoją rzecz. Dowiedz się więcej o zasadach przetwarzania Twoich danych osobowych oraz przysługujących Ci uprawnieniach w Polityce prywatności.
Podsumowując, crawl budget, czyli budżet indeksowania, to nic innego, jak liczba podstron domeny, którą roboty sieciowe są w stanie zaindeksować. Lub też jest to czas oraz liczba zapytań, jakie Googleboty są wstanie zadać w kierunku witryny, w celu indeksacji danego adresu URL. Do głównych parametrów, które decydują o budżecie indeksowania, należą wspomniane wcześniej crawl demand (częstotliwość indeksacji), crawl health (kondycja crawla) oraz crawl rate limit (limit współczynnika indeksacji).
W tym miejscu omówimy przydatne narzędzia, które mogą ułatwić specjalistom zbieranie oraz analizowanie danych, związanych z budżetem indeksowania. A są to m.in.:
Google Search Console
W Google Search Console w przypadku analizy crawl budget bierzemy pod uwagę dwa raporty. Pierwszym jest tzw. „Stan indeksu”, który znany jest również jako Index Coverage. Raport ten jest z reguły bardzo obszerny. Jednakże zawarte w nim dane związane z adresami URL, które zostały wykluczone z ineksowania są dobrą okazją do tego, aby zrozumieć, z jakimi problemami przyjdzie nam się zmierzyć.


Źródło: Zrzut ekranu raportu „Stan indeksu” jednego z naszych klientów e-commerce
A mianowicie mowa tutaj m.in. o:
Drugim ważnym raportem w GSC pod kątem budżetu indeksowania, jest ten związany ze „Statystykami indeksowania”.

Źródło: Zrzut ekranu raportu „Statystyki indeksowania” jednego z naszych klientów e-commerce
W tym miejscu warto zwrócić uwagę na:

Zrzut ekranu raportu „Statystyki indeksowania” jednego z naszych klientów e-commerce

Zrzut ekranu raportu „Żądania indeksowania: Tymczasowo przeniesiono (302)” jednego z naszych klientów e-commerce

Zrzut ekranu raportu „Według przeznaczenia” jednego z naszych klientów e-commerce

Zrzut ekranu wykonanego crawla witryny jednego z naszych klientów e-commerce
Warto w tym miejscu skorzystać z możliwości, jakie daje Screaming Frog i połączyć go z danymi Google Analitycs 4 oraz Google Search Console. W ten sposób możemy szybko zidentyfikować crawl budget waste, czyli na przykład adresy URL bez ruchu, które hipotetycznie mogą być zbyteczne.

Zrzut ekranu zakładki, gdzie można zintegrować dane z Google Analitycs 4 lub Google Serach Console
Senuto
Senuto jest narzędziem, które pozwala monitorować widoczność danych podstron w bezpłatnych wynikach wyszukiwania. Dzięki niemu wiemy np. które adresy URL są topowe. Innymi słowy mówimy tutaj o puli fraz kluczowych i ich pozycjach, jakie osiągają w TOP10, TOP20 i TOP50 organicznych wyników wyszukiwania.

Zrzut ekranu widoczności w Google jednego z naszych klientów e-commerce
Interesują nas w tym narzędziu tak naprawdę dwa raporty, znajdujące się w „Analizie widoczności”, w zakładce „Sekcje” – „Ścieżki” oraz „URL-s”.

Raport „ Sekcje” – „Ścieżki” („Analiza widoczności) w narzędziu Senuto jednego z naszych klientów e-commerce

Raport „ Sekcje” – „URL-s” („Analiza widoczności) w narzędziu Senuto jednego z naszych klientów e-commerce
W tym miejscu powinien interesować nas zwłaszcza ten drugi raport. W końcu za pomocą opcji sortowania jesteśmy w stanie sprawdzić, jak wygląda kwestia fraz kluczowych, które zajmują od 1 do 10. pozycji w bezpłatnych wynikach wyszukiwania. A wszystko dlatego, że mogą one potencjalnie notować spory ruch organiczny. Powinniśmy w ten sposób kolejno zidentyfikować główną oś do symulacji budżetu crawlowania, a co za tym idzie, jego efektywnego wykorzystania.
Ahrefs
Ahrefs jest narzędziem, które pomaga zidentyfikować, jakie linki zwrotne prowadzą do naszej domeny. Stąd jeżeli posiadamy dużą pulę linków do konkretnego adresu URL, stanowi to okazje dla nas do optymalizacji crawl budżetu wokół niej. W ten sposób takie podstrony przyjmują rolę tzw. hubów, które przekazują moc dalej. Ponadto popularna podstrona ze sporą liczbą wartościowych linków, posiada szasnę na bycie skanowaną przez roboty sieciowe częściej.

Raport „Strony” – „Najlepsze według linków” w narzędziu Ahrefs jednego z naszych klientów e-commerce
W raporcie „Strony” – „Najlepsze według linków” możemy zobaczyć adresy URL, które generują parametry z potencjałem w zakresie ilości linków przychodzących w ramach konkretnej podstrony. Takie miejsca mogą zdobywać duże zainteresowanie wśród Googlebotów, a co za tym idzie, przekazywać/kierować moc dalej, w głąb witryny.
Crawl budget to złożone oraz często niejasne pojęcie dla wielu z nas, które ma związek z procesem skanowania i indeksowania strony przez roboty wyszukiwarek. Jego wynik ma tak naprawdę przełożenie na ostateczną klasyfikację witryny w bezpłatnych wynikach wyszukiwania. Stąd budżet indeksowania może tak naprawdę dotyczyć zarówno małych, jak i dużych witryn, na które możemy się natknąć na co dzień, przeszukując zasoby Internetu.