Suchet und ihr werdet gefunden. Die andere Google Story.

(S1/E06) Wer suchet, der findet? Sie glauben, schon alles über Google zu wissen? Wir betrachten in dieser Folge den Segen guter Suchmaschinen und blicken unter die Motorhaube von Google. Aber da ist mehr: Die Entwicklung von Google ist eine Parabel für die Entwicklung des Internets. Würde Thomas Mann heute lebend die Geschichte von Google als Prequel zu seinen „Buddebrooks“ schreiben? Als nur Suchende wissen wir wenig, wie die Rechenregeln von Google lauten, um relevante Ergebnisse für unsere machmal schnell hingetippten Eingaben zu finden. Und uns kümmert noch weniger, was Google tut, um unsere Suchen zu finanzieren. Ist ja für uns kostenlos. Oder?

1995 treffen sich Larry Page und Sergey Brin, um gemeinsam eine Forschungsarbeit zum Thema „Suche im Web“ an der Stanford University zu schreiben. Die Arbeit ist ausgezeichnet und wird zum Patent angemeldet. Larry Page beginnt darüber seine Doktorarbeit – die er nie abschliesst: Der Inhalt ist zu brisant. Sie enthält „die Google Formeln“, die eine Suche effektiv und relevant machen.

Zum Teil sind diese Formeln immer noch geheim, zum Teil wurden sie „geknackt“. Denn mit dem Erfolg von Google beginnt ein Wettlauf ganz im Sinne eines Räuber-Beute Schemas: Glaubte Google die Finanzierung der Suche über inhaltlich passende „Ads“ (Werbeeinblendungen) sichergestellt zu haben, gab es kluge Köpfe, die rausgefunden haben, wie man, anstatt für Ads zu zahlen, die Webseiten „suchoptimiert“.

Die Geschichte von Google selbst liest sich wie ein großes Experiment, ein A/B-Testing: So erfindet Google in 26 Jahren immer neue Tarifmodelle, Werbeformate und Tools, um mehr über uns zu erfahren. Und kreiert das Meta-Google Unternehmen Alphabet, eine Art Weltwissen-Maschine.

Die Geschichte zum Beitragsbild

Das Bild stellt einen Google Vorfahren aus dem 19. Jahrhundert dar: „Der Bibliothekar“ von Carl Spitzweg (um 1850) zeigt einen Suchenden in seiner Bibliothek. Er hat wohl schon Ergebnisse gefunden und versucht gerade einen neuen Text auf Relevanz für sein Thema zu prüfen.

Gedankenspiel: Wenn dies ein hauptberuflicher Bibliothekar wäre, der nicht für seine Suchen entlohnt würde, finge er vielleicht an, den ausgeliehenen Büchern kleine „Werbezettel“ für die örtliche Metzgerei oder die Pfarrei beizufügen? Würde er sich notieren, wer welche Bücher entleiht, um bessere Empfehlungen zu geben? Oder würde er diese Information an die Apothekerin oder den Lebensmittelhändler verkaufen, um das „Einkaufserlebnis“ der Lesenden „angenehmer“ zu gestalten?

Carl Spitzweg malte und verkaufte acht zum Teil ähnliche Fassungen des „Bibliothekars“, die erste davon etwa um das Jahr 1845 mit dem bekannteren Titel „Der Bücherwurm“. https://commons.wikimedia.org/wiki/File:Carl_Spitzweg_021.jpg

Quellen:

Die Geschichte von Google „in einer Nussschale“
Die Geschichte von Google ist sehr gut auf Wikipedia beschrieben. Viele der Fakten im Podcast finden sich dort auch – und noch weitergehende Stories und Trivia.
https://de.wikipedia.org/wiki/Google_LLC

WDF*IDF
Diese Formel existiert schon seit 1992 als eine Möglichkeit, Dokumente (auch Websites sind Dokumente) nach relevanten Inhalten in ihrer Bedeutung in eine Rangfolge zu bringen („zu ranken“).

Der Artikel von Wikipedia ist kurz, weisst auf die Erfinderin, Donna Harman, hin und enthält die Formel. https://de.wikipedia.org/wiki/Within-document_Frequency

Die folgende Website enthält einen WDF*IDF Rechner für Webseiten.
Wer immer schon mal das ohne eigenes Programmieren ausprobieren wollte – hier gelingt es. Und erklärt die Formeln gut und verständlich.
https://www.wdfidf-tool.com

Zitationsindex
Der 2. Teil der Google Rechenregeln bewertet die Relevanz der Webseite (wie häufig wird eine Seite zitiert („Backlinks“, „verlinkt“) von anderen Seiten. Diese werden um so höher gewichtet, je bedeutsamer sie sind).
Wie in der Folge besprochen: Auch dieses Verfahren war in der Wissenschaft schon vor Google bekannt als „Zitationsindex“ von Büchern .
Um zu zeigen, wie das aussieht, haben wir den Zitationsindex von Donna Harman zu ihrem Buch von 1992 „Ranking Algorithms“ verlinkt. Genau, das ist das Buch, in dem ein Teil der „Gottesformel“ beschrieben steht. Der Link zeigt auf „Google Scholar“, der Google Suchmaschine für wissenschaftliche Texte. Die eben diesen Algorithmus verwendet.
https://scholar.google.com/citations?view_op=view_citation&hl=en&user=0lic4McAAAAJ&citation_for_view=0lic4McAAAAJ:fQNAKQ3IYiAC

Sorry, this is „gibberish“!
Gibberish entspricht den deutschen Ausdrücken „Geschwafel, Gefasel, Geschwurbel“.“… calculating a gibberish score for the resource using the language model score and the query stuffing score; and using the calculated gibberish score to determine whether to modify a ranking score of the resource.“
Das Google Patent zum Erkennen von „Geschwafel“ befindet sich auf der Website mit den Google Patenten.
https://patents.google.com/patent/US8554769B1/en

Dazu passend:
Die Surprise Website der Woche: mit „Super-Dooper Content inkl. Suchmaschinen Optimierung“
Ausprobieren: Generiere eine suchmaschinenoptimierte esoterische Webseite mit Text, Bild und Kommentaren. Gibberish auf Knopfdruck. https://sebpearce.com/bullshit/

Alphabet und alpha-bet: aus einem Brief von Larry Page und Sergey Brin:
„…For Sergey and me this is a very exciting new chapter in the life of Google—the birth of Alphabet. We liked the name Alphabet because it means a collection of letters that represent language, one of humanity’s most important innovations, and is the core of how we index with Google search! We also like that it means alpha‑bet (Alpha is investment return above benchmark), which we strive for! I should add that we are not intending for this to be a big consumer brand with related products—the whole point is that Alphabet companies should have independence and develop their own brands….“
https://abc.xyz

Google Sicherheit Zitat: „Technologie für alle zu entwickeln – das bedeutet auch, alle zu schützen, die sie nutzen. Unsere Datenschutz- und Sicherheitstechnologien schützen nicht nur unsere Nutzerinnen und Nutzer sondern fördern auch Innovationen in der Branche.“
https://safety.google/intl/de/security/security-leadership/

FLoC „Google hat seine neue Technologie Federated Learning of Cohorts (FLoC) nun gestartet. Mit dieser sollen die unbeliebten Tracking-Cookies verschwinden und trotzdem zielgerichtete Werbeschaltungen möglich sein. Statt einen einzelnen Nutzer durch das Netz zu verfolgen und seine Interessen aus diesem Profil abzuleiten, sollen die User nun größeren Interessens-Gruppen zugeordnet werden.“
https://datenschutzbeauftragter-hamburg.de/2021/04/googles-cookie-ersatz-floc-aus-datenschutzsicht-eine-verbesserung/

https://winfuture.de/videos/Internet/FLoC-So-funktioniert-Googles-Ersatz-zum-unbeliebten-Tracking-Cookie-22581.html

Zeitgenössisches über „Suchmaschinen“ – was davon gilt heute noch?
http://www.kommdesign.de/links/suchmaschinen.htm

kaesekuchen.de gibt es wirklich
In dieser Folge wird mehrfach die kaesekuchen.de erwähnt. Als URL spontan während der Aufnahme entstanden, um Methoden der Suche zu illustrieren.
Nun: Es gibt diese Seite wirklich. Ist eine nicht kommerzielle Seite, auf der man viele Käsekuchen Rezepte findet. Der Besitzer (aus Bonn) der Seite hat uns die Verlinkung gestattet. Wie klein ist die Welt…