Yandex Algorithmus: Wir haben über 1.200 Ranking-Faktoren analysiert und ausgewertet

Am Freitag hat ein ehemaliger Mitarbeiter ein Yandex-Quellcode-Repository geleakt, das 1.922 Ranking-Faktoren enthielt, die von der Suchmaschine für die Einstufung von Websites in den Suchergebnissen verwendet werden.

Obwohl Yandex nicht Google ist, sind diese Informationen für SEOs natürlich hochinteressant, da sie zum ersten Mal derart tiefgründige Einblicke in die Funktionsweise des Ranking-Algorithmus einer großen Suchmaschine geben. Zudem gibt es viele Ex-Googler, die bei Yandex arbeiten und Yandex wurde als Google-Klon entwickelt. Daher kann man davon ausgehen, dass viele der Ranking-Faktoren in ähnlicher Form auch im Google-Algorithmus verwendet werden.

Tabelle mit Ranking Faktoren der Suchmaschine Yandex — Auswertung von über 1.200 Rankingfaktoren

Als SEO-Spezialisten haben wir uns am Wochenende damit beschäftigt, die 1.922 Faktoren tiefer zu analysieren. Dabei waren wir in der Lage 62 % der Ranking-Faktoren zu klassifizieren. Wir haben uns bewusst entschieden, nicht die volle Analyse inkl. Klassifikation und Übersetzung der Ranking-Faktoren zu veröffentlichen, aber möchten euch die spannendsten Erkenntnisse und Ranking-Faktoren natürlich nicht vorenthalten.

Die relevantesten Erkenntnisse im Überblick

Machine Learning Algorithmen spielen auch bei Yandex eine große Rolle
Backlinks spielen weiterhin eine große Rolle und weit über 100 Ranking-Faktoren können dem Bereich “Backlinks” zugeordnet werden.
Relevanz und Qualität von textlichen Inhalten werden mit diversen Ranking-Faktoren und Algorithmen bewertet.
Qualität & Trust spielen eine große Rolle (Yandex hat auch YMYL-Komponenten insb. für Medizinische-Themen und Finanzthemen)
Es werden viele generelle Klassifikationen von Webseiten verwendet.
Yandex verwendet viele Ranking-Faktoren, die auch aus dem Google Algorithmus bekannt sind (z.B. PageRank oder BERT).
Nutzerverhalten und Metriken, auf Basis von Nutzersignalen, werden stark von Yandex gewertet.
Die Dokumente geben viele Rückschlüsse, welche OnPage-Faktoren seitens Yandex ausgewertet werden.
TF*IDF wird von Yandex als einer von vielen Faktoren für die Bestimmung der textlichen Relevanz gewertet.
Es gibt Hinweise auf Anti-Spam-Flags und Datensätzen für Machine-Learning, die von Menschen auf Relevanz geprüft wurden.
Vermutlich nicht ganz zufällig: Die Dateien im Code-Repositories sind auf den 24. Februar 2022 datiert – dem Datum des russischen Einmarschs in der Ukraine.

Chart der Yandex Ranking Faktoren nach Kategorie geordnet — Yandex-Ranking-Faktoren nach Kategorie

Analyse der einzelnen Ranking-Faktoren und Kategorien

Wir konnten die Yandex-Ranking-Faktoren folgenden Kategorien zuordnen.

User / Metrics (16,02%)
Text (14,66%)
AI / Machine Learning / NLP (13,75%)
Links (12,95%)
Query / Intent (10,23%)
Classification (10,00%)
OnPage (8,41%)
Combination (5,68%)
Geo (4,55%)

Im folgenden Abschnitt werden wir die relevantesten Kategorien im Detail betrachten:

User / Metrics

Hier werden viele direkt und indirekte Nutzersignale in den Algorithmus einbezogen. Yandex scheint viele dieser Metriken via Yandex Bar zu beziehen. Zu diesen Faktoren zählen:

Wie oft die URLs einer bestimmten Domain für eine bestimmte Suchanfrage angeklickt werden
Das Verhältnis der Anzahl der Klicks auf eine bestimmte URL zu allen Klicks auf die Suchanfrage
Das Verhältnis der Anzahl der Klicks auf eine bestimmte Domain zu allen Klicks auf die Suchanfrage
Das Verhältnis der Anzahl der Klicks auf eine bestimmte URL zu allen Klicks auf die Suchanfrage, nach kleinen Regionen aus relev_regions.web.txt
Verhältnis der Anzahl der Klicks auf eine bestimmte Domain zu allen Klicks auf die Suchanfrage, nach kleinen Regionen aus relev_regions.web.txt
Conversions von Besuchern, die via Suchmaschinen auf die Webseite kommen.
Die durchschnittliche aktive Dauer (in Sekunden) des Nutzers auf der Domain nach einer Suchmaschinenanfrage
Die Anzahl der eindeutigen Besucher von Suchmaschinen für eine bestimmte Suchanfrage
Der Anteil des Traffics über Suchmaschinen
Die Häufigkeit, in der eine URL als Bookmark gespeichert wird.
Die Anzahl der wiederkehrenden Nutzer

Text

Es gibt sehr viele Faktoren, die sich auf die textliche Relevanz eines Dokuments beziehen. Dazu zählen u.a.

Die Relevanz der Textquelle
Die Textqualität (Interessant ist der Zusatz “Die Berechnung erfolgt nach einer recht komplizierten Formel”)
Die Länge des Dokuments
Die Anzahl der Sätze in denen die Suchanfrage vorkommt
Die Anzahl der Sätze in denen die Suchanfrage inkl. Synonymen vorkommt
IDF wird von Yandex als einer von vielen Faktoren verwendet.

AI/Machine-Learning/NLP

Wie zu erwarten, setzt auch Yandex auf viele Machine Learning Komponenten in seinem Algorithmus. Hierbei sind insb. folgende Faktoren interessant:

Yandex nutzt das von Google entwickelte Sprachmodell BERT
Yandex nutzt DSSM Modelle (Deep Semantic Similarity Mode) als Teil seines Algorithmus
Dabei wird das Modell wohl unter anderem mit Klick-Daten echter Nutzer trainiert.
Die DSSM Modelle werden für viele der anderen Faktoren (z.B. Text, Links …) verwendet.
Die Datensätze werden von Menschen auf Relevanz überprüft bzw. annotiert

Links

Links auf Basis des PageRank-Algorithmus (wird in den Dokumenten ebenfalls so genannt) spielen im Yandex-Algorithmus eine große Rolle. Von den über 100 identifizierten Faktoren sind uns dabei insbesondere folgende aufgefallen:

PageRank
Link-Relevanz (in verschiedenen Ausprägungen)
Suchbegriffe im Linktext (in verschiedenen Ausprägungen)
Anteil der “guten” und “schlechten” Links wird gewertet (erste Analysen geben keinen Aufschluss darüber, wie ermittelt wird, ob es sich um “gute” oder “schlechte” Links handelt.
Thematische Relevanz wird bei externen Links gewertet
Es gibt einen expliziten “türkischen” PageRank der wohl nur für türkischsprachige Seiten zur Anwendung kommt.

Query / Intent

Es werden einige Informationen zur Query selbst als Ranking-Faktoren berücksichtigt – dazu zählen unter anderem.

Popularität der Anfrage
Zu welcher Zeit eines Tages die Suchanfrage üblicherweise gestellt wird
Sprache der Suchanfrage
“Kommerzialität” einer Suchanfrage
Ob die Suchanfrage eine Frage ist
Ob sich die Suchanfrage auf Pornographie bezieht
Ob die Suchanfrage sich auf “Blog-Sprache” bezieht

Klassifizierung

Es werden viele grundlegende Klassifizierungen im Algorithmus von Yandex verwendet. Dazu gehören unter anderem:

Seitentyp (News, Shopping, Blog etc.)
Sprache
Verwendetes CMS (z.B. Shopfiy oder Livejournal)
Host-Qualität (insb. für Finanz- oder medizinische Seiten)
Zuordnung zu Social Networks (insb. TikTok oder Telegram werden hier häufiger aufgeführt)
Wie “kommerziell” eine Webseite ist.

OnPage

Neben dem Text spielen viele weitere OnPage-Faktoren eine tragende Rolle im Algorithmus von Yandex. Hier gibt es viele interessante Faktoren, die auch einen Rückschlüss darauf bieten, was Google als Ranking Faktor nutzen könnte. Insbesondere folgende Faktoren sind uns dabei aufgefallen:

Anteil der Anzeigen auf der Seite (Yandex-Ads scheinen zusätzlich anders gewertet zu werden)
Dokumenten-Typ (HTML, PDF, Bild …)
Negative Faktoren wie z.B. Links zu Filehosting-Seiten oder Pornoseiten
Anteil an Wörtern, die sich nicht in HTML-Tags befinden
Verfügbarkeit von Produkten (bzw. ausverkauften Produkten)
Content auf der Seite (z.B. Kommentarfunktion, Videos …)
Seiteladezeiten auf Host-Basis
Das Alter eines Dokuments wird gewertet – dabei sind insb. sehr alte Dokumente problematisch.

Der Leaker hat zudem einen Magnet-Link gepostet, bei dem es sich angeblich um “Yandex-Git-Quellen” handelt, die aus 44,7 GB Dateien bestehen, die dem Unternehmen im Juli 2022 gestohlen wurden. Diese Code-Repositories enthalten angeblich den gesamten Quellcode des Unternehmens, mit Ausnahme der Anti-Spam-Regeln. Zu den geleakten Services zählen neben der Yandex-Suchmaschine auch folgende Dienste:

Maps (Kartendienst)
Alice (KI-Assistentin wie Siri / Alexa)
Taxi (Taxi-Service)
Direct – (vergleichbar mit Google Ads)
Mail (E-Mail)
Disk (Cloud-Speicher)
Market (Marktplatz)
Travel (Hotels plus Flug-, Zug- und Bustickets)
Yandex360 (Vergleichbar mit Google Workspaces)
Cloud (Infrastruktur)
Pay (Zahlungsabwicklung)
Metrika (Web-Analytics)

In den kommenden Tagen und Wochen sollten wir daher noch einige interessante Analysen aus der Tech- und SEO-Community sehen.

Weiterführende Links & Analysen

Listen aller Yandex Ranking-Faktoren mit englischer Übersetzung

Analysen von Alex Buraks auf Twitter

Github mit den Namen aller geleakten Files

Beitrag mit anderen SEO-Begeisterten teilen