Nun bin ich endlich dazu gekommen, mir das Paper “The Anatomy of a LargeScale Social Search Engine” (pdf) von Damon Horowitz (Aardvark) und Sepandar D. Kamvar (Stanford) anzuschauen.

Erdferkel (engl. Aardvarks) - kann ihr langer Rüssel Informationsperlen an die Oberfläche spühlen? (Bild: Wikipedia)
Horowitz und Kamvar wollen wiederholen, was Page & Brin mit ihrem Paper The Anatomy of a Large-Scale Hypertextual Web Search Engine vor zwölf Jahren geschafft haben: Eine neue Ära der Suche einzuläuten.
Passenderweise haben sie sich nicht nur den Titel des Google-Papers abgeguckt, nein, sie werden das Paper auch auf der selben Konferenz präsentieren (WWWW2010) wie damals die Google-Jungs. Das Paper arbeitet den Unterschied zwischen herkömmlicher Suche und einer Social-Search-Engine, wie sie Aardvark betreibt heraus. Den Unterschied erklären sie sehr passend mit einer Analogie: Wenn die Google-Suche eine Bibliothek ist, entspricht die Aardvark-Suche einem Dorf. Nun, wie unterscheiden sich diese beiden Modelle der Informationsbeschaffung konkret?
Im Dorf-Modell, das Aardvark verfolgt…
- … geschieht die Informationsverbreitung sozial, das heisst wird weitergereicht von Person zu Person
- …besteht die Retrieval-Aufgabe darin, die richtige Person zu finden, die eine Frage beantwortet
- …werden Anfragen nicht als Suchbegriffe, sondern als natürlichsprachige Fragen formuliert
- …ist Vertrauen nicht in erster Linie auf gesellschaftlicher Autorität beschränkt, sondern orientiert sich am sozialen Umfeld (intimacy)
Die Analogie Bibliothek/Dorf erinnert mich ein bisschen an das Raymond’sche Cathedral/Bazaar-Theorem. Raymond grenzte damit 1997 die Entwicklungs-Prozesse des Linux-Betriebssystem von herkömmlichen Software-Entwicklung ab. Denn auch bei Bazaar-Modell der Software-Entwicklung ist das Bottom-up-Prinzip wichtiger als die zementierte Autorität der “Priester”.
Ein wichtiger Unterschied zwischen herkömmlicher Suchmaschinen und Aardvark ist, dass es keine Trefferlisten gibt. Der Prozess folgt eher einem Frage-Antwort-Schema, wie man es von Formspring, Gutefrage.net oder Yahoo Answers kennt. Das spezifische von Aardvark ist die Methode, mit der eine Person gefunden wird, die eine Frage beantworten soll. Bei Aardvark kann nicht jeder Nutzer eine Antwort geben. Es werden Nutzer eingeladen, eine Fragen zu beantworten. Diese Nutzer werden von einem Ranking-Algorithmus ausgewählt.
[Update: Als weiteres Vergleichsbeispiel ist mir auch noch das Projekt Starmind.com (Blog) eingefallen, das in der AI-Abteilung von Prof. Pfeifer am IFI der Uni Zürich einen Stock unter meinem Büro entwickelt wurde. Auch bei Starmind werden Fragen beantwortet und und sogar mit Geld-Prämien angereizt. Hier konzentriert man sich aber auf besonders talentierte Brainies als Nutzer.]
Der Aardvark-Ranking-Algorithmus ist, aufgrund meines Dissertations-Themas, die Komponente, die mich am meisten interessiert. Die Autoren des Papers behandeln ihn ausführlich in Abschnitt 3.5 (S. 5). Die Aufgabe des Aardvarks Ranking-Algorithmus ist es, diejenigen Nutzer zu bestimmen, die eine gegebene Frage am besten beantworten können. Die wichtigsten Faktoren dazu sind erstens die Themen-Expertise (Topic Expertise), zweitens die Verbundenheit (“Connectedness”) und drittens die gegenwärtige Verfügbarkeit (“Availability”).
Bei meinem Test von Aardvark war ich überrascht wie viele gute Antworten ich bei einem allgemeinen Thema (“I’m looking for some new music – can anyone recommend an awesome new band?”) gekriegt habe. Keine Antworten habe ich jedoch bei einem sehr spezifischen Longtail-Thema gekriegt (“Is there a professor at ETH Zurich who does research on ranking algorithms?”). Dies wird wohl vor allem damit zusammen hängen, dass Aardvark in der Schweiz noch nicht so viele Nutzer hat.
Ich bin mir nicht sicher, ob man mit Aardvarks Konzept die kritische Masse an Nutzern generieren kann, die nötig sind, um den Long-Tail an sehr spezifischen Queries zufrieden stellend zu beantworten. Und was schwerer wiegt: Auch der der Antagonist und die dominierende Kraft des Bibliotheks-Modell der Suche (aka Google) hat unlängst die Dorf-Komponente in sein Suchmodell integriert. Mit Google Social Search werden innerhalb der normalen Suchresultate auch Blogposts, Restaurant-Ratings und andere Tipps von Freunden aus dem “Social Circle” angezeigt. Ich nehme an, dass Google dafür ähnliche Kriterien (Topic Experise und Connectedness) verwendet. Zudem hat Google den Vorteil gleich von Beginn weg, eine kritische Masse zu stemmen, die andere nie erreichen werden. Diese wird sich dank dem gestern gelaunchten Dienst Google Buzz wahrscheinlich sogar noch schnell vergrössern. Denn wer Google Buzz nutzt, muss sich ein Google Profile anlegen und beginnt damit automatisch neben Facebook und Twitter das nächste Social Network aufzubauen, was wiederum die Grundlage für Social Search ist.
Auch wenn ich bei Aardvark noch nicht hundert prozent sicher bin, bin ich es aber bei Social Search im Allgemeinen. Denn Social Search bietet Schutz vor Link-Spam, da sie trusted sources, die ich über mein soziales Umfeld auswähle, berücksichtigt.
Die englische Wikipedia hat übrigens einen guten Artikel zu Social Search, wo auch noch eine Reihe anderer Anbieter wie Sproose, Mahalo, Wikia Search etc, mit teilweise unterschiedlichen Ansätzen, vorgestellt werden. Schon etwas älter, aber auch lesenswert, ist das Aardvark-Review von Netzwertig.com.