
Wyciek kodu wyszukiwarki Yandex przykuł uwagę wszystkich specjalistów SEO, SEM oraz ekspertów, w zakresie marketingu internetowego. Od 26 stycznia trwają wnikliwe analizy fragmentów ujawnionego algorytmu. Co udało się do tej pory ustalić oraz co najważniejsze, jaką wartość mają zdobyte informacje dla pozycjonowania stron w Google? Spróbujmy uporządkować fakty.
Yandex to rosyjsko-holenderska firma informatyczna, założona w 1997 roku, będąca właścicielem wyszukiwarki internetowej o tej samej nazwie.
Yandex jest czwartą co do wielkości wyszukiwarką na świecie, po Google Bing i Yahoo. Wyszukiwarka jest popularna głównie na rynku rosyjskim, choć chętnie używają jej również użytkownicy w Turcji, Kazachstanie, Białorusi, czy Gruzji. Do 2017 roku, Yandex był popularny także w Ukrainie, jednak z powodu podejrzeń o gromadzenie danych i przekazywanie ich rosyjskim służbom bezpieczeństwa, firma musiała zrezygnować z działalności w tym kraju.

Dane: Styczeń 2023r. Źródło: https://gs.statcounter.com/search-engine-market-share/all/russian-federation.

Dane: Styczeń 2023r. Źródło: https://gs.statcounter.com/search-engine-market-share.
Spoglądając na Yandex i Google, na pierwszy rzut oka widać mnóstwo podobieństw. Zaczynając od modelu biznesowego, poprzez poszczególne usługi, funkcje, czy technologie, aż po zasoby ludzkie.
Zarówno dla Yandex, jak i dla Google największe źródło przychodu stanowią reklamy wyświetlane w wynikach wyszukiwania. Obie firmy mają własne usługi do analizy zachowania użytkowników w Internecie - Google Analytics oraz AppMetrica, ale lista usług Google, dla których można znaleźć odpowiednik Yandexa, jest o wiele dłuższa. Oto najpopularniejsze z nich:
Kolejne podobieństwa występują również w obu wyszukiwarkach. Celem zarówno jednej, jak i drugiej jest dostarczenie użytkownikom, jak najlepszych i najtrafniejszych odpowiedzi na zadane pytania. Do tego zadania wykorzystują one różne technologie (m.in. rozpoznawanie języka naturalnego oraz uczenie maszynowe).
Administratorem udostępnionych przez Ciebie danych osobowych jest Ideo Force Sp. z o.o. Podanie danych osobowych jest dobrowolne, jednak ich niepodanie uniemożliwi świadczenie usług na Twoją rzecz. Dowiedz się więcej o zasadach przetwarzania Twoich danych osobowych oraz przysługujących Ci uprawnieniach w Polityce prywatności.
Yandex wykorzystuje wiele technologii, z których korzysta także wyszukiwarka Google - to m.in. Page Rank, Map Reduce, BERT, jednak do szczegółów przejdziemy w dalszej części artykułu. Funkcje obu wyszukiwarek również są zbliżone (np. zarówno jednak, jak i druga umożliwia wyszukiwanie obrazem lub wyszukiwanie głosowe).
Tak jak Google, Yandex informuje publicznie o aktualizacjach i zmianach w algorytmie, co znacznie ułatwia analizę poszczególnych fragmentów kodu. Posiada również swoją przeglądarkę internetową o nazwie YaBrowser.
Warto dodać, że wspólnym mianownikiem pomiędzy Google a Yandex są ludzie. Wielu inżynierów pracowało dla obu firm, co można zweryfikować choćby na LinkedIn. Uczestniczą oni w tych samych konferencjach, dzieląc się innowacjami i pomysłami w zakresie wyszukiwania i przetwarzania informacji. Występuje zatem wysokie prawdopodobieństwo, że pewne schematy działań oraz procesy w obu wyszukiwarkach, są podobne.
Zanim przejdziemy do analizy czynników, skupmy się na definicji algorytmu, którą można znaleźć w serwisie Search Engine Journal:
Algorytm rankingowy przypomina skomplikowaną maszynerię z dziesiątkami przycisków, przełączników, dźwigni i wskaźników. Zwykle każdy pojedynczy obrót dowolnego przełącznika w mechanizmie, powoduje globalną zmianę w całej maszynie.
W zależności od interpretacji, z różnych źródeł można dowiedzieć się o 1922. lub 1923. ujawnionych czynnikach, na których bazuje Yandex, ale to tylko wstępne szacunki opierające się na jednym zestawie. Jak podaje Michael King, ich rzeczywista liczba jest o wiele większa i w całości można wyróżnić aż 17854 czynniki z 44GB różnych podzbiorów. King pisze o tym na Twitterze: https://twitter.com/iPullRank/status/1619067271577538575
Przed przejściem do konkretów należy zwrócić uwagę na kilka kwestii - po pierwsze baza kodów, która wyciekła była datowana na lipiec 2022 roku, dlatego trzeba wziąć pod uwagę, że obecny algorytm jest inny. Kolejna sprawa - niektóre fragmenty kodu zawierają odwołania do brakujących katalogów, co może świadczyć o tym, że czynników jest więcej. Ponadto wyciek zawiera fragmenty kodów testowych, które najprawdopodobniej nie były wykorzystywane w rzeczywistym algorytmie.
Przede wszystkim trzeba zaznaczyć, że analizy cały czas trwają i na bieżąco wypływają nowe wnioski. Z uwagi na ogromną ilość danych, na pełne opracowania będziemy musieli jeszcze poczekać, a informacje dostępne na tę chwilę, mogą się zdezaktualizować (jak choćby ta o liczbie czynników). Niemniej warto spojrzeć na informacje, które uzyskaliśmy dzięki wyciekowi i wyselekcjonować te, które są dla nas istotne.
W dokumentacji Yandex sklasyfikował trzy grupy czynników rankingowych:
W kodzie są one oznaczone tagami TG_STATIC i TG_DYNAMIC. Czynniki związane z wyszukiwaniem mają wiele tagów, takich jak TG_QUERY_ONLY, TG_QUERY, TG_USER_SEARCH i TG_USER_SEARCH_ONLY.

Źródło: Źródło: https://docs.google.com/document/d/174kYPxfcmsVXEVQ-Fws4t3Ki88wIu06-/edit?fbclid=IwAR1H0nXTgi1uDIVSkwmybacMr2dKOI4t2AHaEYO0siFMao-f0zMKrYaG0sk.
Powyższy czynnik dotyczy liczby linków przychodzących. Jak widzimy jest on oznaczony tagiem TG_STATIC. W sumie czynników oznaczonych, jako TG_STATIC możemy znaleźć 684, jeśli chodzi o czynniki TG_DYNAMIC, to jest ich aż 1154.
Rozważania na temat czynników rankingowych, związanych z linkami należy zacząć od przypomnienia pewnego zdarzenia, które miało miejsce w 2013r. W tamtym czasie Yandex chciał oficjalnie zrezygnować z linków, jako czynnika rankingowego, stawiając na czynniki behawioralne. Od tamtej chwili minęło 10 lat, a linki wciąż są ważnym elementem w całej układance.
W algorytmie można znaleźć 61 czynników związanych z linkami. Można powiedzieć, że jest to i dużo i mało. Mało, bo to nieco ponad 3% z 1922 czynników, dużo – ponieważ, te 61 pozycji zdaje się wyczerpywać wszystkie najważniejsze kwestie, dotyczące linków.
Kilka najistotniejszych informacji, płynących z analizy czynników dotyczących linków:
Polecam zajrzeć do wpisu Michała Masternaka, który szerzej opisuje znaczenie linków, jako czynników rankingowych w Yandexie i nie tylko. W artykule znajdują się ciekawe wzory i interpretacje modeli, wykorzystywanych przez wyszukiwarkę Yandex.
Plik źródłowy: https://docs.google.com/document/d/174kYPxfcmsVXEVQ-Fws4t3Ki88wIu06-/edit?fbclid=IwAR1H0nXTgi1uDIVSkwmybacMr2dKOI4t2AHaEYO0siFMao-f0zMKrYaG0sk
Poza linkami istnieje kilkaset czynników statycznych, takich jak data publikacji strony, język, obecność na stronie głównej itd. Warto zapoznać się z zawartością pliku źródłowego.
Przyglądając się liście czynników dynamicznych, można zauważyć na niej wiele pozycji, które niekoniecznie są kojarzone stricte z działaniami SEO. Są to m.in. czynniki związane z płatnym ruchem, czy popularnością marki. Dane zbierane są przez Metrica - odpowiednik Google Analytics, a następnie przetwarzane przez MatrixNet.
Oto kilka przykładów:
Ostatni rodzaj czynników określony, jako czynniki związane z wyszukiwaniem, obejmuje takie aspekty jak:
Warto odnotować:
W opracowaniu Michaela Kinga znaleźć można informacje, jakoby witryny mogły otrzymywać dodatnie bądź ujemne współczynniki rankingowe. Niestety nie wszystkie informacje są rozszyfrowane.
1. Pokrywanie się nazwy domeny z zapytaniem.

2. Pokrywanie się nazwy domeny z zapytaniem.

3. Klikalność najważniejszego słowa w domenie. Jako przykład podana jest Wikipedia - im więcej kliknięć strony „Wikipedia”, z zapytaniem zawierającym słowo „Wikipedia” tym lepiej.

4. Najczęściej wyszukiwane słowo kluczowe, w kontekście danej strony jest premiowane.

5. Domeny .com są premiowane przez Yandex

Wiemy już, co pomaga osiągnąć wysokie pozycje w rankingu. Co w takim razie działa w przeciwnym kierunku?
1. Reklamy - jeśli strona je posiada, wyszukiwarka obniża jej wartość w rankingu.

2. Data publikacji treści – Yandex preferuje starsze teksty.

3. Liczba wyświetleń adresu URL, w odniesieniu do zapytań. Jeżeli dany adres URL pojawia się w odpowiedzi na wiele zapytań, otrzymuje ujemny wskaźnik. Miałoby to na celu różnicowanie wyników i precyzowanie odpowiedzi na konkretne zapytania.

4. Znaczenie anchor tekstu w profilu linków zwrotnych - jeśli liczba linków z komercyjnym anchor tekstem przekracza 50%, wówczas ustawiany jest niekorzystny współczynnik.

5. Dopasowanie języka treści do lokalizacji użytkownika, wprowadzającego zapytanie.

Przeglądając kolejne artykuły można natrafić na pojęcia, które często pojawiają się w opracowaniach wycieku kodu Yandex. Dokonując analizy warto bliżej się z nimi zapoznać.
Nazwą, od której należy rozpocząć jest MatrixNet. Jest to technologia dotycząca sieci neuronowej wprowadzona w 2009r przez Yandex. Niektórzy błędnie uważają, że MatrixNet to odpowiednik RankBrain od Google.
RankBrain to algorytm wprowadzony w celu lepszego rozumienia przez wyszukiwarkę haseł, które nigdy dotąd nie były wyszukiwane. Został wprowadzony w życie w 2015r., a więc 6 lat później od MatrixNet i jest on zaledwie niewielkim fragmentem złożonego algorytmu Google, skupionym na wąskim obszarze.
MatrixNet generuje niezwykle złożone formuły, tworząc w ten sposób pewne klasy zapytań. Dopasowuje do nich odpowiednie parametry, nadając im odpowiednią wagę i na ich podstawie kreowana jest kolejność wyników wyszukiwania. Działając w ten sposób MatrixNet jest w stanie pracować na dziesiątkach tysięcy zmiennych. Bierze pod uwagę takie czynniki, jak lokalizacja użytkownika, czy intencja zapytania.
Inne pojęcia, które warto znać:
Nie chodzi tutaj oczywiście o stanowisko Google, w sprawie wycieku, a bardziej o to, jakie było ich zdanie, dotyczące poszczególnych czynników. Specjaliści często na bazie domysłów zadawali pytania o taki, czy inny czynnik. Jakie było więc oficjalne stanowisko Google? Przyjrzyjmy się.
Na początek kwestia kultowych 200. czynników rankingowych, która była częstym tematem dyskusji, wśród społeczności SEO. Jak ma się to do 1922., a nawet większej liczby czynników Yandexa?
Tutaj stanowisko Google jest klarowne. John Mueller w 2021 roku, podczas Google Office Hours dał do zrozumienia, że przekonanie o tym, że przeglądarka bazuje na 200. czynnikach rankingowych, jest błędne. Podkreślał, że jest to o wiele bardziej złożone zagadnienie i trzeba spojrzeć na nie z innej perspektywy. Jak mówi Mueller, nie da się sporządzić listy z czynnikami w Excelu, posortować je i przypisać im odpowiednie wartości.
Trudno się nie zgodzić, biorąc pod uwagę wszystkie technologie, które są uwzględnione w procesie układania list rankingowych. Pełną wypowiedź można zobaczyć poniżej.
Idąc dalej, możemy znaleźć czynnik, dotyczący głębokości crawlowania. W kodzie wyszukiwarki znajduje się zapis świadczący o tym, że im bliżej strony głównej jest umiejscowiona dana podstrona, tym jest ważniejsza.

Bez wątpienia strony, do których prowadzą linki ze strony głównej, są premiowane. John Mueller mówił o tym w 2020 roku. Pełna wypowiedź dostępna jest poniżej.
Od zawsze sporo kontrowersji wzbudzały wszelkie czynniki behawioralne. Jak wynika z wycieku aż 102 zawierają tag TG_USERFEAT_SEARCH_DWELL_TIME, co może świadczyć, że czas przebywania na stronie jest istotny dla układania rankingu. Tutaj nie ma oficjalnego stanowiska Johna Muellera, natomiast z innych źródeł wynikało, jakoby nie był to istotny czynnik rankingowy.
Zacznijmy od tego, że na wyciek kodu Yandex nie należy patrzeć jako konkretny dowód na to, że te konkretne czynniki działają w SEO, a inne nie. Lepiej podejść do tego, jako okazji do nauki w zakresie tego, jak funkcjonują wyszukiwarki. W ten sposób możemy zgłębić swoją wiedzę o pewnych mechanizmach i procesach, zachodzących po wysłaniu zapytania.
Czynniki dla obu wyszukiwarek mogą być takie same, inne mogą się od siebie różnić, natomiast metody analizy tekstu, czy linków są podobne, a najistotniejsze zmiany zachodzą w różnych wagach współczynników, przypisywanych do konkretnych punktów.
Nie bez znaczenia jest również to, że wiele dotychczasowych spekulacji pokrywa się z tym, co zostało wyjawione w algorytmie Yandex.
To czy czynnik „X”, wpływa na ranking strony, jest ulubionym przedmiotem spekulacji specjalistów SEO, dlatego wielu z nich traktuje wyciek, jak drugie Boże Narodzenie, albo spóźniony prezent pod choinkę. Informacje wynikające z analizy czynników rankingowych Yandexa, przez kilka najbliższych miesięcy, będą motorem napędowym dla wielu testów i dyskusji, wśród ekspertów pozycjonujących strony internetowe w Google.
Mamy nadzieję, że ten artykuł zachęcił Cię do zgłębiania tajników wyszukiwarki i szczerze polecamy przegląd opracowań oraz kodu źródłowego, w celu wyciągania własnych wniosków.