Das Dorf der Informationsbeschaffung – Soziale Suche mit Aardvark

Nun bin ich endlich dazu gekommen, mir das Paper “The Anatomy of a LargeScale Social Search Engine” (pdf) von Damon Horowitz (Aardvark) und Sepandar D. Kamvar (Stanford) anzuschauen.

Aardvarks Erdferkel

Erdferkel (engl. Aardvarks) - kann ihr langer Rüssel Informationsperlen an die Oberfläche spühlen? (Bild: Wikipedia)

Horowitz und Kamvar wollen wiederholen, was Page & Brin mit ihrem Paper The Anatomy of a Large-Scale Hypertextual Web Search Engine vor zwölf Jahren geschafft haben: Eine neue Ära der Suche einzuläuten.

Passenderweise haben sie sich nicht nur den Titel des Google-Papers abgeguckt, nein, sie werden das Paper auch auf der selben Konferenz präsentieren (WWWW2010) wie damals die Google-Jungs. Das Paper arbeitet den Unterschied zwischen herkömmlicher Suche und einer Social-Search-Engine, wie sie Aardvark betreibt heraus. Den Unterschied erklären sie sehr passend mit einer Analogie: Wenn die Google-Suche eine Bibliothek ist, entspricht die Aardvark-Suche einem Dorf. Nun, wie unterscheiden sich diese beiden Modelle der Informationsbeschaffung konkret?

Im Dorf-Modell, das Aardvark verfolgt…

  • … geschieht die Informationsverbreitung sozial, das heisst wird weitergereicht von Person zu Person
  • …besteht die Retrieval-Aufgabe darin, die richtige Person zu finden, die eine Frage beantwortet
  • …werden Anfragen nicht als Suchbegriffe, sondern als natürlichsprachige Fragen formuliert
  • …ist Vertrauen nicht in erster Linie auf gesellschaftlicher Autorität beschränkt, sondern orientiert sich am sozialen Umfeld (intimacy)

Die Analogie Bibliothek/Dorf erinnert mich ein bisschen an das Raymond’sche Cathedral/Bazaar-Theorem. Raymond grenzte damit 1997 die Entwicklungs-Prozesse des Linux-Betriebssystem von herkömmlichen Software-Entwicklung ab. Denn auch bei Bazaar-Modell der Software-Entwicklung ist das Bottom-up-Prinzip wichtiger als die zementierte Autorität der “Priester”.

Ein wichtiger Unterschied zwischen herkömmlicher Suchmaschinen und Aardvark ist, dass es keine Trefferlisten gibt. Der Prozess folgt eher einem Frage-Antwort-Schema, wie man es von Formspring, Gutefrage.net oder Yahoo Answers kennt. Das spezifische von Aardvark ist die Methode, mit der eine Person gefunden wird, die eine Frage beantworten soll. Bei Aardvark kann nicht jeder Nutzer eine Antwort geben. Es werden Nutzer eingeladen, eine Fragen zu beantworten. Diese Nutzer werden von einem Ranking-Algorithmus ausgewählt.

[Update: Als weiteres Vergleichsbeispiel ist mir auch noch das Projekt Starmind.com (Blog) eingefallen, das in der AI-Abteilung von Prof. Pfeifer am IFI der Uni Zürich einen Stock unter meinem Büro entwickelt wurde. Auch bei Starmind werden Fragen beantwortet und und sogar mit Geld-Prämien angereizt. Hier konzentriert man sich aber auf besonders talentierte Brainies als Nutzer.]

Der Aardvark-Ranking-Algorithmus ist, aufgrund meines Dissertations-Themas, die Komponente, die mich am meisten interessiert. Die Autoren des Papers behandeln ihn ausführlich in Abschnitt 3.5 (S. 5). Die Aufgabe des Aardvarks Ranking-Algorithmus ist es, diejenigen Nutzer zu bestimmen, die eine gegebene Frage am besten beantworten können. Die wichtigsten Faktoren dazu sind erstens die Themen-Expertise (Topic Expertise), zweitens die Verbundenheit (“Connectedness”) und drittens die gegenwärtige Verfügbarkeit (“Availability”).

Bei meinem Test von Aardvark war ich überrascht wie viele gute Antworten ich bei einem allgemeinen Thema (“I’m looking for some new music – can anyone recommend an awesome new band?”) gekriegt habe. Keine Antworten habe ich jedoch bei einem sehr spezifischen Longtail-Thema gekriegt (“Is there a professor at ETH Zurich who does research on ranking algorithms?”). Dies wird wohl vor allem damit zusammen hängen, dass Aardvark in der Schweiz noch nicht so viele Nutzer hat.

Ich bin mir nicht sicher, ob man mit Aardvarks Konzept die kritische Masse an Nutzern generieren kann, die nötig sind, um den Long-Tail an sehr spezifischen Queries zufrieden stellend zu beantworten. Und was schwerer wiegt: Auch der der Antagonist und die dominierende Kraft des Bibliotheks-Modell der Suche (aka Google) hat unlängst die Dorf-Komponente in sein Suchmodell integriert. Mit Google Social Search werden innerhalb der normalen Suchresultate auch Blogposts, Restaurant-Ratings und andere Tipps von Freunden aus dem “Social Circle” angezeigt. Ich nehme an, dass Google dafür ähnliche Kriterien (Topic Experise und Connectedness) verwendet. Zudem hat Google den Vorteil gleich von Beginn weg, eine kritische Masse zu stemmen, die andere nie erreichen werden. Diese wird sich dank dem gestern gelaunchten Dienst Google Buzz wahrscheinlich sogar noch schnell vergrössern. Denn wer Google Buzz nutzt, muss sich ein Google Profile anlegen und beginnt damit automatisch neben Facebook und Twitter das nächste Social Network aufzubauen, was wiederum die Grundlage für Social Search ist.

Auch wenn ich bei Aardvark noch nicht hundert prozent sicher bin, bin ich es aber bei Social Search im Allgemeinen. Denn Social Search bietet Schutz vor Link-Spam, da sie trusted sources, die ich über mein soziales Umfeld auswähle, berücksichtigt.

Die englische Wikipedia hat übrigens einen guten Artikel zu Social Search, wo auch noch eine Reihe anderer Anbieter wie Sproose, Mahalo, Wikia Search etc, mit teilweise unterschiedlichen Ansätzen, vorgestellt werden. Schon etwas älter, aber auch lesenswert, ist das Aardvark-Review von Netzwertig.com.

1 Comment

Filed under stuff, tech

Algorithmen als Institutionen?

Robin Meyer-Lucht nimmt das Aufeinandertreffen der Schirrmacher’schen Panikmache und der etwas optimistischeren Position von David Gelernter an der DLD Konferenz als Ausgangspunkt für einen interessanten Gedanken: Werden Algorithmen zu gesellschaftlichen Institutionen, die Informationen automatisch organisieren wie dies Universitäten, Parteien oder Zeitungen tun? Und wenn ja, wie ist dies zu bewerten? In der DLD-Paneldiskusssion erkennt er einen Gegensatz zwischen zwei “archetypischen” Positionen, wie solche Institutionen aufgebaut sein sollen: Von Eliten festgelegte Werte versus freier Markt.

“Beim Zusammentreffen von Schirrmacher und Gelernter wird deutlich: Man kann Algorithmen als etwas sehen, was Institutionen gefährdet – oder als etwas, was Institutionen schafft. Letztlich haben dabei beide Seiten Recht: Algorithmen sorgen gerade für beides. Es ist wichtig, das erste zu thematisieren ohne das zweite aus dem Blick zu verlieren.”

Die Idee, Algorithmen und ihre Funktion der Informations-Organisation als Institutionen zu erklären, ist spannend. Sie erinnert mich auch ein wenig an Shirkys Essay über die Autorität von Algorithmen. Darin erklärt Shirky wie automatisierte Prozesse, die Informationen aus nicht-vertrauenswürdigen Quellen zusammentragen, zu einer Instanz entwickeln, die ein autoritatives Informationsprodukt herstellt. Wobei zu beachten ist, dass Autorität nicht etwas Objektives darstellt, sondern gesellschaftliche konstruiert wird.

Es stellt sich die Frage, ob die Automatisierung der Informationsorganisation gut oder schlecht zu bewerten ist. Stehen wir vor einem Kontroll- und Werteverlust, wenn Institutionen nur noch teilweise von Menschen kontrolliert werden? Eine Frage, die Schirrmachers und Gelernters freilich unterschiedlich beantworten.

Schirrmacher spricht davon, dass Algorithmen eine der grössten Veränderung in der Geschichte menschlichen Denkens herbeiführen. Grund: Die Aufmerksamkeit als knappes Gut in der von Informations Overload geprägten Gesellschaft wird von Maschinen, sprich Algorithmen, gebündelt und nicht mehr von Menschen. Er bewertet dies als Problem.

Gelernter widerspricht. Er sieht die Gefahren in erster Linie in der Mystifizierung der Technologie durch die Nutzer und der daraus resultierenden gleichgültigen Nutzung. Als Beispiel nennt er begeisterten Nutzer von iPhones. Sie verhindert die Bottom-Up-Kritik und damit eine Verbesserung der Technologie. Eine Unterscheidung, die Gelernter betont: Das Web mache in erster Linie Märkte. Der Markt der Ideen sei lediglich ein Teil davon. Und die Stärke dieser Märkte sei der Wettbewerb:

“The Web makes markets, not ideas. One of the most important markets it can make, is the market in ideas. The ultimate value of the web is competition: We want the ideas to compete, so that we know which are good.”

Als Conclusio findet Gelernter: Wir brauchen mehr Skepsis bei der Nutzung der Technologien. Die Technologien sind aber als etwas grundsätzlich Positives zu bewerten.

Meyer-Lucht endet seinen Beitrag mit einem Aufruf an die Wissenschaft, die Debatte nun einen Schritt weiterzubringen. Die Wissenschaft soll lernen algorithmische Institutionen zu “lesen” (übrigens: etwas mit dem ich mich in meiner Dissertation befasse):

“Der nächste Schritt der Debatte muss daher lauten: Welche Institutionen bauen wir eigentlich gerade? Welche Werte stecken im Code? Könnte er auch anders aussehen? Wie “liest” man algorithmisch Institutionen? Welches ist die Rolle von Individuen und Elite in den neuen algorithmischen Institutionen? ?”

Leave a Comment

Filed under stuff

Öffentliche Vortragsreihe digitale Destabilisierung im nächsten Semester

Im Frühling ist unsere Abteilung (Medienwandel und Innovation) an der Reihe die öffentliche Votragsreihe am IPMZ zu organisieren. Wir haben uns entschieden, die Gastvorträge in unsere Vorlesung digitale Destabilisierung zu integrieren. Unser Ziel war es Experten aus Wirtschaft und Politik zu gewinnen, die die Veränderungen im Kommunikationssektor wesentlich mitprägen sowie mit Wissenschaftern nach Zürich zu bringen, die diese Veränderungen analysieren.

Folgende Gastredner besuchen uns:

Christoph Neuberger Christoph Neuberger ist Professor am Institut für Kommunikationswissenschaft der Universität Münster und ein renommierter deutscher Journalismus- und Internetforscher. Seine Präsentation trägt den Titel: “Niedergang oder Neustart des Journalismus? Das Internet und seine Folgen” (23. März).
Martin Radelfinger Martin Radelfinger leitet das Business Development bei Goldbach Media, dem grössten Vermarkter für elektronische und Online-Medien in der Schweiz. Er skizziert seine Sicht der Destabilisierung des Werbemarktes durch Medienkonvergenz und das Internet (13. April).
Felix Graf Felix Graf ist COO bei Teleclub AG und war als Leiter Entertainment & Multimedia bei Swisscom massgeblich für den Aufbau von Bluewin TV (IPTV) zuständig. Er trägt zum Thema Destabilisierung der Telekommunikation und Medienindustrie vor (20. April).
Hans-Jürg Fehr Hans-Jürg Fehr, Schweizer Nationalrat, Medienpolitiker und vormaliger Präsident der SP Schweiz, spricht über den politischen Handlungsbedarf (4. Mai).
William H Dutton William H. Dutton ist Professor an der Oxford University (GB) und Leiter des Oxford Internet Institutes. Er präsentiert seine Forschung zum Internet und der Entstehung einer fünften Gewalt (11. Mai).
Johannes M. Bauer Johannes M. Bauer ist Professor am Institute of Telecommunications, Information Studies and Media der Michigan State University (USA). Er vergleicht Netzneutralität und Internetentwicklung in den USA und Europa (18. Mai).

Die Vorträge finden am Hauptgebäude der Uni Zürich, Rämistr. 71, KOL-F-117 statt, jeweils Dienstags um 18:15 Uhr. Sie stehen allen Interessierten offen. Übrigens: Im Rahmen der Vorlesung werde auch ich einen Vortrag halten zum Thema der Destabilisierung von Medienmärkten durch Suchmaschinen.

Alle Informationen zur Vorlesung finden sich auf der Seite Digitale Destabilisierung

Leave a Comment

Filed under stuff

Wichtige Info!

Aus der bunten Welt des Fachjargons:

Damit Studierende mit der BA-Fächerkombination PuK (120 KP) und 60 KP an der Wirtschaftswissenschaftlichen Fakultät diese HF/NF-Kombination auch im Master weiterführen können, haben wir den Antrag auf Reduktion des konsekutiven Masters auf 90 KP gestellt. – Derzeit bietet die WWF für die MA-Studierenden mit BA-Abschluss im HS 09 als Sonderlösung ein 15 KP MA-Fach an; regulär kann jedoch an der WWF nur ein 30 KP MA-Fach belegt werden und ist deshalb nicht kombinierbar mit einem 105 KP Master-HF.
Alles klar?

1 Comment

Filed under stuff

[Test] Zattoo auf dem iPhone

Wie ich heute von einem Kollegen bei meinem früheren Arbeitgeber Zattoo erfahren habe, kann man Zattoo nun endlich auch auf dem iPhone nutzen. Es gibt zwar bis jetzt keine iPhone-App, dafür kann man Zattoo im iPhone-Safari-Browser schauen, ganz ähnlich wie auch die herkömmliche Zattoo-Browser-Version.

Zattoo fürs iPhone ist überraschend schnell, kostenlos für HiQ-Account-Besitzer kostenlos und liefert eine sehr gute Qualität bei Bild und Ton, die sogar die kostenpflichtige 20-Minuten-App “TV-Screen (iTunes-Link) bei weitem übertrifft. Trotz der wahrscheinlich leicht höheren Datenrate hatte ich mit meinen Swisscom-3G-Zugang keine Probleme Futurama ruckelfrei zu schauen.

Gute Bildqualität im Panorama-Format (hier Futurama auf Pro 7)

Auch das Nutzerinterface kommt sehr gelungen daher und erinnert an die ursprüngliche Einfachheit des Zattoo-Clients. Im Unterschied zur 20-Minuten-App werden auch die EPG-Daten der gerade gesendeten Programme (Sendungsname) bei den Senderlogos angezeigt. Meiner Meinung nach ein sehr nützliches Feature.

Kanalliste im Hochformat mit EPG

Wenn man das iPhone auf die Seite kippt, verschwinden die EPG-Daten dafür sieht man alle Senderlogos im Überblick. Auch das sehr schön.

Und schliesslich die Kanalliste im Querformat

Im Unterschied zur 20-Minuten-TV-App hat Zattoo auch eine bedeutend grössere Auswahl an Sendern. Während bei 20 Minuten nur gerade SF1, SF 2, SF info, ARD, ZDF, RTL , SAT1, Pro7, Arte und Eurosport angeboten werden, erweitert die kostenlose Zattoo-Webapp diese Liste um RTL2, Vox, Kabel 1, TIMM, DMAX, DSF, MTV sowie einigen französich und italienisch-sprachigen Sendern.

Der einzige Vorteil der 20-Minuten-App ist, dass die Ladezeit aufgrund der lokalen Installation und der etwas schlechteren Bildqualität ein bisschen schneller ist. Wenn man die Zattoo-Webapp als Browser-Applet auf dem Home-Screen abgelegt hat, dauert es auf meinem iPhone 3G ca. 14 Sekunden zwischen Antippen, Senderauswahl bis zum Schauen des Senderstreams. Die 20-Minuten-App hingegen braucht ca. 8 Sekunden dafür.

Alles in allem ist die Zattoo iPhone-Webapp sehr gelungen und ich werd sie in nächster Zeit wohl häufiger nutzen. Well done Ann Arbor!

(Im Blog von Zattoo gibts leider noch keine Ankündigung der iPhone-Webapp)

17 Comments

Filed under stuff, tech

Wieso Holzmedien bei Google-Kritik versagen

Google ist ein unheimlich grosses und ein unheimlich mächtiges Unternehmen. Mit seinem Marktanteil bei Suchmaschinen zwischen 60 und 90 Prozent je nach Weltregion ist Google für das Gatekeeping von Informationen für den grössten Teil der vernetzten Menschen verantwortlich. Nicht nur die ökonomische, vielmehr auch diese gesellschaftiche Bedeutung erfordert eine genaue Beobachtung des Unternehmens, seiner Handlungen und Strategien.

Eine klassische Kontroll-Aufgabe für Journalisten und ihre aus Zellstoff bestehenden Massenmedien – könnte man zumindest meinen. Leider verpassen sie es häufig, seriöse Kritik am Handeln des Konzerns vorzubringen. Stattdessen beschränken sie sich auf Vorwürfe, die sich vor allem mit dem eigenen Unvermögen beschäftigen.

Etwas, was diese Woche gleich von zwei Leitmedien unter Beweis gestellt wurde. Sowohl der Spiegel (“Google. Der Konzern der mehr über Sie weiss als Sie selbst“) als auch das Magazin des Tages-Anzeigers (“Larry und Sergey“) platzierten eine nach diesem Schema gestrickte Titelstory zu Google [Update: Auch die Zeit rührt heute mit der Paranoia-Kelle an: "Im Google-Wahn"].

Die seltsame Argumentation der Journalisten hört sich meist etwa so an, wie wenn Fährenbetreiber einen Autofahrer davon überzeugen wollen, nicht mit der neuen Brücke den Fluss zu überqueren, sondern weiterhin die Fähre zu nehmen – weil sie langsamer und teurer ist.

Oder anders gesagt: Journalisten kritiseren Google dafür, dem Nutzer äusserst nützliche, verlässliche, qualitativ hochwertige Dienste anzubieten und dies zu einem äusserst attraktiven Preis, nämlich 0.00 USD. Sie nerven sich also darüber, dass Google Books einem der Gang zur Bibliothek erspart, dass Google Maps die völlig überteuerten GPS-Systeme ersetzt, dass Google äusserst nützliche Dienste zu Bildern (Picasa), Video (Youtube) etc anbietet. Sie werden mir zustimmen, dass dies ein schlechtes Argument ist, um die Leistung Googles schlecht zu reden.

An diese Argumentation schliesst häufig eine skandalträchtige Erkenntnis an: Google-Dienste sind gar nicht gratis! Der Nutzer bezahlt mit seiner Aufmerksamkeit! Google refinanziert diese Dienste über Werbung! Und dabei nicht etwa über die aufdringliche, störende, nicht gekennzeichnete Werbung, wie man sie aus herkömmlichen Medien kennt. Nein, Google erdreistet sich Werbung einzusetzen, die unaufdringlich, klar gekennzeichnete und auf die Nutzerbedürfnisse abgestimmt ist. (Sie erkennen die Doppelmoral, oder?)

Unweigerlich folgt dann das einzige Argument, dass wirklich auf ein Problem hinweist. Es besteht Gefahr der Verletzung von Privatsphäre. Google speichert durch die Zentralisierung vieler Dienste, wie Mail, Suche, Bilder, Videos, Reader eine enorme Masse an persönlichen Informationen über die Nutzer. Diese Informationen werden benötigt, um möglichst personalisierte Suchresultate liefern, aber auch auf die persönlichen Bedürfnisse zugeschnittene Werbung anzeigen zu können. Der Spiegel-Artikel bingt das auf die Kurzform, dass Google der Konzern ist, der mehr über Sie weiss als Sie selbst.

Journalisten ziehen aus dieser Erkenntnis aber oft den falschen Schluss: Sie behaupten, ein Missbrauchspotenzial ist das selbe wie der Missbrauch. Ich finde es aber wichtig, diese beiden Dinge zu unterscheiden. Klar würde ein autoritäres Regime oder auch die deutsche Regierung mit den Daten ganz viele Privatsphäre-verletzende Dinge anstellen, wenn Sie an diese Daten gelangen würden. Sie werden aber nicht an diese Daten gelangen.

Ich möchte folgende [sehr] gewagte These aufstellen: Es gibt im Moment keine Datenbank der Welt keinen Webdienst weltweit, in dem persönliche Informationen besser vor Missbrauch geschützt werden als bei Google.

Sie fragen sich nun, wie ich zu dieser auf den ersten Blick haarsträubenden Einschätzung komme. Die Antwort ist: Google hat am heutigen Tag eine Marktkapitalisierung von 184 Milliarden US$. Einen Grossteil dieses Wertes macht die Marke Google aus. Gemäss der Marktstudie des Markforschungsunternehmens Millward Brown ist die Marke Google über 100 Milliarden US-Dollar wert und damit die wertvollste Marke der Welt, noch vor Coca Cola.

Die Marke macht also den grössten Teil des Unternehmenswertes von Google aus. Dass die Marke einen solchen Wert erreicht, hängt einzig mit dem hohen Vertrauen zusammen, das Google von seinen Nutzern erhält. Es ist indirekt die Folge der Unternehmensphilosophie, die den Nutzer/Kunden ins Zentrum rückt und diesem Ziel alle anderen Ansprüche unterordnet. Vertrauen ist die Währung im Informationsgeschäft, in welchem sich Google bewegt. Sind doch alle Produkte, die der Konzern anbieten in hohem Masse Vertrauensgüter; also Güter, deren Qualität vom Konsumenten, wenn überhaupt erst nach dem Konsum, eingeschätzt werden kann.

Im Umkehrschluss bedeutet dies aber auch, dass das Geschäft von Google in hohem Masse vom Vertrauen abhängt, das von Nutzern entgegenbracht wird. Google hat somit einen sehr hohen Anreiz, das Vertrauen seiner Nutzer nicht zu missbrauchen. Vertrauen ist sehr fragil. Wenn ans Tageslicht kommt, dass Google persönliche Informationen über die Nutzer an andere Dritt-Unternehmen oder an Regierungsstellen weitergäbe, würde dies zu einem enormen Vertrauensverlust bei den Nutzern führen, damit würde sich der Wert der Marke und somit der Unternehmenswert bedeutend reduzieren. Sie werden mir zustimmen, dass Google einen bedeutenden Effort leisten wird, dieses Szenario zu verhindern.

So ist es auch nicht weiter verwunderlich, dass nur eine kleine Menge an Fällen bekannt ist, in welchen Google Daten, aufgrund von Gerichtsbeschlüssen weitergegeben hat (bsp: Holland, Youtube-User-Daten). Google tut sich aber meist dadurch hervor, die Datenweitergabe bis zuletzt zu vermeiden, was beispielsweise der angekündigte Rückzug aus China zeigt oder der Verzicht von Google als einziges Suchunternehmen der Bush-Regierung Daten auszuhändigen. Diese Situation bringt mich zum Schluss, dass ich meine persönlichen Daten lieber bei Google lagere, als bei GMX, Microsoft, Yahoo, TAmedia oder Springer.

Dies ist natürlich keine Carte-Blanche für Google. Nur weil bis anhin gemessen an der Datenmenge, die Google verwaltet, kaum Missbrauch aufgetreten ist, heisst das nicht, dass der Missbrauch in Zukunft nicht stattfinden wird. Gerade dann, wenn Google in ein paar Jahren zum ersten mal in eine Krise kommen wird, sind bestimmt ein paar windige MBAs zur Stelle, welche die “stille Reserve” Nutzerdaten monetarisieren möchten. Ich hoffe aber, die schlauen Ingenieure von Google haben bis dann schon ein System kreiiert, dass diesen Fall bis in alle Ewigkeit verhindert.

26 Comments

Filed under privacy, stuff

How Much Traffic Do News Sites Get from Search Engines?

Over the last year there has been a rather strong dispute growing between search engines and content producers. Content producers claim that search engines scrape their content without getting anything in return. Search engines, on the other hand, emphasize that they forward a lot of monetizable traffic to content producer’s sites. Both sides have a strong stake in the discussion, but who is right?

Here are some data sources that measure the upstream traffic that passes through search engines to content sites:

1. Hitwise

The market research company Experian Hitwise runs monthly statistics on global search engine use that are publicaly accessible. The upstream traffic for certain product categories are part of the statistics. Here’s the upstream traffic for October 2009 and November 2009.

U.S. category upstream traffic from search engines and Google – October 2009
Category Percentage of category traffic from search engines – October 2009 Percent change in share of traffic from search engines – October 2008-October 2009 Percentage of category traffic from Google – October 2009 Percent change in share of traffic from Google – October 2008- October 2009
Automotive 30.21% 18% 21.22% 19%
Business and Finance 22.17% 19% 15.63% 21%
Entertainment 28.55% 21% 19.37% 20%
Health and Medical 42.72% -5% 30.98% -3%
News and Media 25.43% 22% 17.24% 14%
Online Video** 36.21% 12% 25.75% 9%
Shopping and Classifieds 27.27% 8% 19.06% 9%
Social Networking** 20.53% 11% 13.86% 13%
Sports 16.30% 36% 11.38% 35%
Travel 38.48% 8% 28.81% 9%
Note: All figures are based on U.S. data from the Hitwise sample of 10 million Internet users.

**Denotes a custom category

Source: Experian Hitwise

There is also a very interesting analysis of the upstream traffic Wall Street Journal gets from Google Search and Google News. According to Hitwise more than 25 percent of WSJ’s traffic originates from Google.

2. Alexa

Stats from Alexa.com are slightly less representative due to the fact, that the Alexa panel is based on self selection. But with Alexa’s Site Info Tool the traffic (including upstream search traffic) of every website worldwide can be measured.

3. Comscore

Comscore.com has also good stats on Search Engine Market share. I have not yet found freely available upstream statistics.

Let me know in the comments if you know any other sources.

Leave a Comment

Filed under media

What are the best content management system for structured data?

I have been looking for a content management system that lets you enter and manage structured data. Something like wordpress for data. I would like to find a software solution that lets you create sites such as Crunchbase or Freebase. Unfortunately I have never found a proper solution, even though my requirements are very modest. It has to be:

  • A reliable content management
  • Simple and flexible user experience
  • Have an active developer community
  • Hosted or open sourced
  • let you define entities and database fields for data

Some of the software products I have found are below:

Semantic Media Wiki
semantic-mediawiki.org
Semantic Media Wiki is an extension to the widely used MediaWiki CMS powering Wikipedia. It adds semantic annotations that allow to label different data types. You can automatically generate lists from the data and search using complex queries.

Socrata
www.socrata.com
Formerly known as Blist is something like Filemaker in the browser. You can create a (relational) database with differerent field types for structured data. Tables and Layouts can also be embedded in other websites. Unfortunately it is not really usable as a content management system.

Twiki
Twiki is, like Semantic Media Wiki, a Structured Wiki. It allows for embedding structured data within the wiki markup. Furthermore you can develop apps in the wikimarkup, such as task lists or forums.

Drupal Content Construction Kit
With the Drupal CCK you can add custom fields to existing content types.
Video Tutorial

eCrowds
eCrowds is an hosted content management system (SaaS). It comes with the option of creating structured data forms.

Open Calais
www.opencalais.com
The Open Calais Project by Thomson Reuters turns unstructured into structured data. Probably not what I am looking for.

Microformats.org
Microformats.org
Microformats are a set of simple, open data formats built upon existing and widely adopted standards. The idea is to let others put the structure in your data

  • Do you know any other CMS for structured data?
  • Is there a wordpress plugin that handles structured data?

to be continued…

Leave a Comment

Filed under Uncategorized

“it’s our social media strategy, it’s fucked”

Die beste Satire auf die ca. 30’000 selbsternannten Social Media Consultants auf Twitter:

“I am a fucking awesome social media guru. I have an internet blog and everything”

Leave a Comment

Filed under Uncategorized

Wieso soll man Inhalte als Linked-Data publizieren?

Kürzlich wollte ich einen befreundeten Programmierer dazu überreden, die Inhalte einer Webseite mit den Prinzipien von Linked Data kompatibel zu machen. Zurecht fragte er mich, wieso man sich den Aufwand machen sollte.

Was ist Linked Data?
Linked Data ist ein Teil des semantischen Webs. Linked Data soll sich als Methode bewähren für die Publikation von Daten unter Anwendung von Standards: Dazu gehört das RDF-Datenmodell, SPARQL und die Benennung von Datenobjekten als HTTP-URIs. Damit werden die Daten lesbar sowohl für Mensch als auch Computer.

Tim Berners-Lee, Erfinder des WWW und wichtigster Vertreter des Semantic Web, ist auch die treibende Kraft hinter der Linked-Data-Bewegung. In seiner TED-Ansprache vom März erklärt er die Grundidee.

Wieso sollte man Daten als Linked Data zur Verfügung stellen?

Daten und Informationen aller Art werden viel wertvoller, wenn sie automatisch mit weiteren Daten aus anderen Quellen kombiniert werden können. Bis anhin war dies eine Sache mühsamer Handarbeit. Man musste verschiedene Datenpunkte aus unterschiedlichen Studien zusammenkratzen, mühsam in ein Excel oder SPSS-File abfüllen, um anschliessend geeignete, neue Auswertungen machen zu können. Unter strikter Anwendung von Linked-Data-Prinzipien ist dies nicht mehr nötig. Daten, welch die für ihre Datenobjekte die selbe URI verwenden können automatisch kombiniert werden.

Wenn ich nun beispielsweise eine Webseite betreibe, auf der ich meine zehn Lieblingsbücher vorstelle. Und ich versehe diese zehn Lieblingsbücher mit einer eineindeutigen URI beispielsweise der Wikipedia. Dann müsste es möglich sein die Liste der Lieblinsgsbüchern aus der DBPedia oder aus Freebase mit stets akutalisierten Daten, beispielsweise den Verkaufszahlen oder auch Autoren-Infos, zu ergänzen.Das selbe geht natürlich auch in die andere Richtung. Gut, diese Anwendung ist nicht besonders spannend. Aber die Möglichkeiten, die sich dadurch eröffnen sind unbegrenzt.

Wie kann man Linked Data publizieren?
Ein nützliches Tutorial zur Frage wie man Linked-Data im Web publiziert, haben Bizer, Cyganiak und Heath geschrieben. Darin beschreiben Sie ein paar praktische Rezepte und Howtos zur Publikation und sprechen unter anderem auch den Unterschied zwischen bekannten APIs und Linked-Data-Standards an. Das SIOC-Project entwickelt wiederum Plugins und Software, mit denen Standard-Content-Management-Systeme wie WordPress, phpBB, Drupal und viele weitere Linked-Data-kompatibel gemacht werden können. Weitere Tutorials finden sich bei LinkedData.org.

Leave a Comment

Filed under Uncategorized