PageRank-Algorithmus

Neuer PageRank-Algorithmus: Manipulationen werden eingedämmt

Im April 2018, genau am 24. April dieses Jahres, wurde Google ein neues Patent zugesprochen. Darauf basiert ein neuer PageRank-Algorithmus, der das Ziel verfolgt, Manipulationen zu erschweren. Im Kern geht es um die Definition besonders vertrauenswürdiger Webseiten. Im Hintergrund werden Berechnungen angestellt, die eine Linkdistanz zu derartigen „Seed Pages“ herstellen und den Stellenwert der untersuchten Webseite darauf zurückführen.

Ein ähnliches Vorgehen wurde bereits im Jahre 2006 durch Yahoo vorgestellt, der Titel der Arbeit lautete „Combating Web Spam with TrustRank“.

Wir kennen diese Art Vorgehen auch vom Hilltop-Algorithmus, in welchem Experten- oder Autoritätsseiten für ausgewählte Keywords mittels besonderer Verweise benannt werden. Der neue PageRank-Algorithmus verfolgt einen ähnlichen Ansatz, basierend auf ausgewählten Seed Pages, die zumindest einen Link zu anderen Angeboten im Internet aufweisen. Alle anderen Seiten sind „normale“ Seiten, die Linkdistanz gibt dann einen Aufschluss darüber, wie stark gewichtet wird – je größer die Linkdistanz, desto geringer die Gewichtung.

Dem Patent ist zu entnehmen, dass die Anzahl sogenannter Seed Pages möglichst groß ausfallen soll, um verschiedene Sprachen und Themen im Internet breit abzudecken. Gleichzeitig würde dies Einfluss nehmen auf die Rechenleistung, sodass es in der Praxis sehr wohl eine „logische“ Begrenzung der Seed Pages gibt.

Je höher der PageRank, desto stärker die Bevorzugung des Crawlers

Der neue PageRank-Algorithmus setzt das bisher etablierte System fort, indem Seiten mit einem hohen PageRank beim Crawlen mit Priorität behandelt werden. Vor Aufnahme in den Index findet eine Komprimierung der gecrawlten Seite statt, erst dann wird ein Ranking vorgenommen. Auf diese Weise wird sichergestellt, dass der PageRank unabhängig von tatsächlichen Suchanfragen berechnet wird.

Im Zeitpunkt einer Suchanfrage findet dann eine Einordnung entsprechend des Rankings auf der Ergebnisseite statt. Es ist deshalb davon auszugehen, dass der neue PageRank-Algorithmus effektiv dabei hilft, Manipulationen im Link Building zu verhindern. Gleichzeitig steigt der Wert solcher Seiten, die offiziell anerkannt sind. Die Vermutung legt nahe, dass vor allem Seiten öffentlicher Institutionen, Verbände und Bildungseinrichtungen als Seed Pages eingestuft werden.

Ob und inwiefern ein Einsatz derzeit schon stattfindet, ist nicht klar – aufgrund der doch schon seit Längerem bestehenden Grundidee ist jedoch davon auszugehen, dass zumindest ein Teil in der Praxis Verwendung findet.