Der Effekt ausgehender Links:
Da das PageRank-Verfahren die Link-Struktur
des gesamten Webs abbildet, ist es unausweichlich, dass wenn eingehende
Links einen Einfluss auf den PageRank haben, das gleiche auch
für ausgehende Links gilt. Zur Darstellung der Effekte ausgehender
Links soll wieder ein kleines Beispiel dienen.
Betrachtet
wird ein Web aus zwei Websites, die jeweils zwei Seiten beinhalten.
Die eine Site besteht aus den Seiten A und B, die andere aus den
Seiten C und D. Die beiden Seiten einer jeden Site verlinken sich
jeweils gegeneinander. Es wird unmittelbar deutlich, dass jede der
Seiten einen ursprünglichen PageRank von 1 inne hat.
Nun wird Seite A ein externer Link auf Seite C hinzugefügt.
Für den PageRank der einzelnen Seiten ergeben sich bei
einem angenommenen Dämpfungsfaktor d von 0.75 die folgenden
Gleichungen:
- PR(A) = 0.25 + 0.75 PR(B)
- PR(B) = 0.25 + 0.375 PR(A)
- PR(C) = 0.25 + 0.75 PR(D) + 0.375 PR(A)
- PR(D) = 0.25 + 0.75 PR(C)
Die Lösung dieses Gleichungssystems ergibt
die folgenden Werte:
- PR(A) = 14/23
- PR(B) = 11/23
und somit einen aufsummierten PageRank von 25/23
für die erste Site,
- PR(C) = 35/23
- PR(D) = 32/23
und damit einen aufsummierten PageRank von
67/23 für die zweite Site. Der aufsummierte PageRank
beider Sites in Höhe von 92/23 = 4 bleibt also erhalten. Das
Hinzufügen von Links hat also keinen Einfluss auf den aufsummierten
PageRank des Webs. Ferner ist damit der Gewinn der verlinkten
Site genauso groß wie der Verlust der anderen.
Der tatsächliche Effekt ausgehender
Links:
Wie bereits gezeigt, ist der Gewinn eines geschlossenen
Systems auf das ein zusätzlicher Link gesetzt wird, gegeben
durch:
(d / (1-d)) × (PR(X) / C(X))
wobei X die verlinkende Seite, PR(X) deren PageRank
und C(X) die Anzahl der ausgehenden Links von Seite X ist. Dieser
Wert beschreibt damit auch den PageRank-Verlust, der einem
vormals geschlossenen System daraus entsteht, dass einer Seite X
innerhalb dieses Systems ein ausgehender Link hinzugefügt wird.
Bedingung für die angegebene Formel ist, dass
die verlinkte Site nicht etwa direkt wieder auf die verlinkende
Site zurückverlinkt, da die verlinkende Site wieder einen Teil
des verlorenen PageRanks zurückgewinnen würde. Solange
eine Rückverlinkung sich über eine gar nicht so große
Anzahl von Webseiten erstreckt, ist dieser Effekt jedoch durch die
Wirkungsweise des Dämpfungsfaktors zu vernachlässigen.
Ferner Bedingung für die Gültigkeit der Formel ist, dass
die verlinkende Site nicht bereits vorher ausgehende Links besitzt.
Sollte dies jedoch der Fall sein, vermindert sich die Höhe
des Verlustes der betrachteten Site, und gleichzeitig haben die
bereits verlinkten Webseiten einen entsprechenden Verminderung des
PageRank hinzunehmen.
Selbst wenn für eine tatsächlich existierende
Website die PageRank-Werte der einzelnen Webseiten bekannt
wären, könnte allerdings dennoch nicht ohne weiteres im
Vorhinein ermittelt werden, wie sehr das Hinzufügen eines externen
Links den PageRank der einzelnen Seiten vermindert, da die
oben genannten Formel den Status nach der Verlinkung betrachtet.
Intuitive Begründung für
den Effekt ausgehender Links:
Intuitiv lässt sich der Verlust von PageRank
für die eigenen Seiten damit erklären, dass der Zufalls-Surfer
aus dem Random Surfer Modell durch das Hinzufügen eines externen
Links mit einer geringeren Wahrscheinlichkeit einen Link auf eine
der internen Seiten verfolgt. Damit sinkt in der Folge auch die
Wahrscheinlichkeit, mit der sich der Surfer auf einer derjenigen
Seiten aufhält, die wiederum auf diejenige Seite verlinken,
der der externe Link hinzugefügt wurde, womit auch deren PageRank
sinken muss.
Es bleibt letztlich festzuhalten, dass ausgehende
externe Links den aufsummierten PageRank aller Webseiten einer
Website und gegebenenfalls auch den PageRank jeder einzelnen
Seite einer Site vermindern. Da jedoch die Verlinkung zwischen Websites
gerade die Grundlage des PageRank-Verfahrens darstellt und
für sein Funktionieren unabdingbar ist, besteht durchaus die
Möglichkeit, dass ausgehende Links an einer anderen Stelle
innerhalb der Bewertung von Webseiten durch die Suchmaschine Google
positiven Einfluss nehmen. Schließlich machen gerade auch
relevante ausgehende Links die Qualität einer Website aus,
und Webmaster, die Links auf andere Websites setzen, beziehen gewissermaßen
deren Content in das eigene Web-Angebot mit ein.
Dangling Links:
Ein nicht ganz unwichtiger Aspekt ausgehender Links
ist das Fehlen ausgehender Links. Sobald einzelne Webseiten keine
ausgehenden Links aufweisen, versickert der PageRank gewissermaßen
an diesen Stellen. Lawrence Page und Sergey Brin bezeichnen Verweise
auf derartige Seiten als "Dangling Links".
Die
Auswirkungen von Dangling Links sollen anhand eines kleinen Beispiels
veranschaulicht werden. Wir betrachten eine Website die aus aus
den drei Seiten A, B und C besteht.
Die Seiten A und B verlinken sich gegenseitig. Seite A verlinkt
zudem auf Seite C, die ihrerseits jedoch keine ausgehenden Links
aufweist.
Für den PageRank der einzelnen Seiten ergeben sich bei
einem angenommenen Dämpfungsfaktor d von 0.75 die folgenden
Gleichungen:
- PR(A) = 0.25 + 0.75 PR(B)
- PR(B) = 0.25 + 0.375 PR(A)
- PR(C) = 0.25 + 0.375 PR(A)
Die Lösung dieses Gleichungssystems ergibt
die folgenden PageRank-Werte:
- PR(A) = 14/23
- PR(B) = 11/23
- PR(C) = 11/23
Damit beträgt der aufaddierte PageRank
aller Seiten 36/23, also nur etwas mehr als die Hälfte dessen,
was zu erwarten gewesen wäre, wenn Seite C auf eine der beiden
Seiten A oder B verlinkt hätte. Die Anzahl von Dangling Links
ist nach Angaben von Page und Brin nicht unbeträchtlich - und
sei es, weil zahlreiche verlinkte Seiten von Google nicht
indexiert sind, etwa weil die Indexierung per robots.txt verhindert
wird. Hier ist zusätzlich zu berücksichtigen, dass Google
mittlerweile auch andere Dokumenten-Typen als HTML wie zum Beispiel
PDF oder Word Dateien indexiert, die keine wirklichen ausgehenden
Links haben. Dangling Links könnten also nicht unbeträchtliche
Folgen für das PageRank-Verfahren haben.
Um
die negativen Effekte von Dangling Links auszuschalten, werden diese
Angaben von Page und Brin zufolge vor der PageRank-Berechnung
aus der Datenbank unter Anpassung der jeweiligen Anzahl von ausgehenden
Links entfernt bis alle PageRank-Werte berechnet sind. Bei
der Entfernung von Dangling Links handelt es sich um einen iterativen
Vorgang, da das Entfernen wiederum neue Dangling Links erzeugen
kann, wie aus unserer einfachen Abbildung ersichtlich.
Nachdem die eigentliche PageRank-Berechnung abgeschlossen
ist, wird auch den Dangling Links PageRank - auf der Basis
der PageRank-Werte der auf sie verweisenden Seiten und unter
Rückgriff auf den PageRank-Algorithmus - zugewiesen.
Dies erfordert ebenso viele Iterationen wie bei der Entfernung der
Dangling Links. Um bei unserer Abbildung zu bleiben, könnte
schließlich Seite C vor Seite B bearbeitet werden. Seite B
weist dann im ersten Bearbeitungsdurchlauf bei der Bearbeitung von
Seite C noch keinen PageRank auf, womit Seite C wiederum ein
PageRank von 0 zugewiesen würde. Erst anschließend
erhält Seite B ihren PageRank und im zweiten Bearbeitungsschritt
würde Seite C einen tatsächlichen PageRank zugewiesen
bekommen.
Für unser ursprüngliches Beispiel hat
das Entfernen von Seite C aus der Datenbank zur Folge, dass die
Seiten A und B nach Abschluss der Berechnungen jeweils einen PageRank
von 1 erhalten. Seite C wird dann im Anschluss ein PageRank
in Höhe von 0.25 + 0.375 PR(A) = 0.625 zugewiesen. Damit enspricht
der aufaddierte PageRank zwar nicht der Anzahl der Seiten,
doch zumindest diejenigen Seiten mit ausgehenden Links nehmen keinen
Schaden durch Dangling Links.
Durch die Eliminierung von Dangling Links haben
diese also keinen negativen Einfluss auf den PageRank der
übrigen Seiten. Und wie bereits erwähnt, sind Verweise
auf Dokumententypen, die keine ausgehenden Links aufweisen können,
grundsätzlich Dangling Links. Damit wird auch unmittelbar deutlich,
dass etwa Links auf PDF-Dokumente den PageRank einer darauf
verlinkenden Seite bzw. Site nicht reduzieren können. PDF-Dokumente
können also ein sehr gutes Instrument der Suchmaschinenoptimierung
für Google sein.
|