January 17, 2010

Wieso Holzmedien bei Google-Kritik versagen

Google ist ein unheimlich grosses und ein unheimlich mächtiges Unternehmen. Mit seinem Marktanteil bei Suchmaschinen zwischen 60 und 90 Prozent je nach Weltregion ist Google für das Gatekeeping von Informationen für den grössten Teil der vernetzten Menschen verantwortlich. Nicht nur die ökonomische, vielmehr auch diese gesellschaftiche Bedeutung erfordert eine genaue Beobachtung des Unternehmens, seiner Handlungen und Strategien.

Eine klassische Kontroll-Aufgabe für Journalisten und ihre aus Zellstoff bestehenden Massenmedien – könnte man zumindest meinen. Leider verpassen sie es häufig, seriöse Kritik am Handeln des Konzerns vorzubringen. Stattdessen beschränken sie sich auf Vorwürfe, die sich vor allem mit dem eigenen Unvermögen beschäftigen.

Etwas, was diese Woche gleich von zwei Leitmedien unter Beweis gestellt wurde. Sowohl der Spiegel (“Google. Der Konzern der mehr über Sie weiss als Sie selbst“) als auch das Magazin des Tages-Anzeigers (“Larry und Sergey“) platzierten eine nach diesem Schema gestrickte Titelstory zu Google [Update: Auch die Zeit rührt heute mit der Paranoia-Kelle an: "Im Google-Wahn"].

Die seltsame Argumentation der Journalisten hört sich meist etwa so an, wie wenn Fährenbetreiber einen Autofahrer davon überzeugen wollen, nicht mit der neuen Brücke den Fluss zu überqueren, sondern weiterhin die Fähre zu nehmen – weil sie langsamer und teurer ist.

Oder anders gesagt: Journalisten kritiseren Google dafür, dem Nutzer äusserst nützliche, verlässliche, qualitativ hochwertige Dienste anzubieten und dies zu einem äusserst attraktiven Preis, nämlich 0.00 USD. Sie nerven sich also darüber, dass Google Books einem der Gang zur Bibliothek erspart, dass Google Maps die völlig überteuerten GPS-Systeme ersetzt, dass Google äusserst nützliche Dienste zu Bildern (Picasa), Video (Youtube) etc anbietet. Sie werden mir zustimmen, dass dies ein schlechtes Argument ist, um die Leistung Googles schlecht zu reden.

An diese Argumentation schliesst häufig eine skandalträchtige Erkenntnis an: Google-Dienste sind gar nicht gratis! Der Nutzer bezahlt mit seiner Aufmerksamkeit! Google refinanziert diese Dienste über Werbung! Und dabei nicht etwa über die aufdringliche, störende, nicht gekennzeichnete Werbung, wie man sie aus herkömmlichen Medien kennt. Nein, Google erdreistet sich Werbung einzusetzen, die unaufdringlich, klar gekennzeichnete und auf die Nutzerbedürfnisse abgestimmt ist. (Sie erkennen die Doppelmoral, oder?)

Unweigerlich folgt dann das einzige Argument, dass wirklich auf ein Problem hinweist. Es besteht Gefahr der Verletzung von Privatsphäre. Google speichert durch die Zentralisierung vieler Dienste, wie Mail, Suche, Bilder, Videos, Reader eine enorme Masse an persönlichen Informationen über die Nutzer. Diese Informationen werden benötigt, um möglichst personalisierte Suchresultate liefern, aber auch auf die persönlichen Bedürfnisse zugeschnittene Werbung anzeigen zu können. Der Spiegel-Artikel bingt das auf die Kurzform, dass Google der Konzern ist, der mehr über Sie weiss als Sie selbst.

Journalisten ziehen aus dieser Erkenntnis aber oft den falschen Schluss: Sie behaupten, ein Missbrauchspotenzial ist das selbe wie der Missbrauch. Ich finde es aber wichtig, diese beiden Dinge zu unterscheiden. Klar würde ein autoritäres Regime oder auch die deutsche Regierung mit den Daten ganz viele Privatsphäre-verletzende Dinge anstellen, wenn Sie an diese Daten gelangen würden. Sie werden aber nicht an diese Daten gelangen.

Ich möchte folgende [sehr] gewagte These aufstellen: Es gibt im Moment keine Datenbank der Welt keinen Webdienst weltweit, in dem persönliche Informationen besser vor Missbrauch geschützt werden als bei Google.

Sie fragen sich nun, wie ich zu dieser auf den ersten Blick haarsträubenden Einschätzung komme. Die Antwort ist: Google hat am heutigen Tag eine Marktkapitalisierung von 184 Milliarden US$. Einen Grossteil dieses Wertes macht die Marke Google aus. Gemäss der Marktstudie des Markforschungsunternehmens Millward Brown ist die Marke Google über 100 Milliarden US-Dollar wert und damit die wertvollste Marke der Welt, noch vor Coca Cola.

Die Marke macht also den grössten Teil des Unternehmenswertes von Google aus. Dass die Marke einen solchen Wert erreicht, hängt einzig mit dem hohen Vertrauen zusammen, das Google von seinen Nutzern erhält. Es ist indirekt die Folge der Unternehmensphilosophie, die den Nutzer/Kunden ins Zentrum rückt und diesem Ziel alle anderen Ansprüche unterordnet. Vertrauen ist die Währung im Informationsgeschäft, in welchem sich Google bewegt. Sind doch alle Produkte, die der Konzern anbieten in hohem Masse Vertrauensgüter; also Güter, deren Qualität vom Konsumenten, wenn überhaupt erst nach dem Konsum, eingeschätzt werden kann.

Im Umkehrschluss bedeutet dies aber auch, dass das Geschäft von Google in hohem Masse vom Vertrauen abhängt, das von Nutzern entgegenbracht wird. Google hat somit einen sehr hohen Anreiz, das Vertrauen seiner Nutzer nicht zu missbrauchen. Vertrauen ist sehr fragil. Wenn ans Tageslicht kommt, dass Google persönliche Informationen über die Nutzer an andere Dritt-Unternehmen oder an Regierungsstellen weitergäbe, würde dies zu einem enormen Vertrauensverlust bei den Nutzern führen, damit würde sich der Wert der Marke und somit der Unternehmenswert bedeutend reduzieren. Sie werden mir zustimmen, dass Google einen bedeutenden Effort leisten wird, dieses Szenario zu verhindern.

So ist es auch nicht weiter verwunderlich, dass nur eine kleine Menge an Fällen bekannt ist, in welchen Google Daten, aufgrund von Gerichtsbeschlüssen weitergegeben hat (bsp: Holland, Youtube-User-Daten). Google tut sich aber meist dadurch hervor, die Datenweitergabe bis zuletzt zu vermeiden, was beispielsweise der angekündigte Rückzug aus China zeigt oder der Verzicht von Google als einziges Suchunternehmen der Bush-Regierung Daten auszuhändigen. Diese Situation bringt mich zum Schluss, dass ich meine persönlichen Daten lieber bei Google lagere, als bei GMX, Microsoft, Yahoo, TAmedia oder Springer.

Dies ist natürlich keine Carte-Blanche für Google. Nur weil bis anhin gemessen an der Datenmenge, die Google verwaltet, kaum Missbrauch aufgetreten ist, heisst das nicht, dass der Missbrauch in Zukunft nicht stattfinden wird. Gerade dann, wenn Google in ein paar Jahren zum ersten mal in eine Krise kommen wird, sind bestimmt ein paar windige MBAs zur Stelle, welche die “stille Reserve” Nutzerdaten monetarisieren möchten. Ich hoffe aber, die schlauen Ingenieure von Google haben bis dann schon ein System kreiiert, dass diesen Fall bis in alle Ewigkeit verhindert.

January 7, 2010

How Much Traffic Do News Sites Get from Search Engines?

Over the last year there has been a rather strong dispute growing between search engines and content producers. Content producers claim that search engines scrape their content without getting anything in return. Search engines, on the other hand, emphasize that they forward a lot of monetizable traffic to content producer’s sites. Both sides have a strong stake in the discussion, but who is right?

Here are some data sources that measure the upstream traffic that passes through search engines to content sites:

1. Hitwise

The market research company Experian Hitwise runs monthly statistics on global search engine use that are publicaly accessible. The upstream traffic for certain product categories are part of the statistics. Here’s the upstream traffic for October 2009 and November 2009.

U.S. category upstream traffic from search engines and Google – October 2009
Category Percentage of category traffic from search engines – October 2009 Percent change in share of traffic from search engines – October 2008-October 2009 Percentage of category traffic from Google – October 2009 Percent change in share of traffic from Google – October 2008- October 2009
Automotive 30.21% 18% 21.22% 19%
Business and Finance 22.17% 19% 15.63% 21%
Entertainment 28.55% 21% 19.37% 20%
Health and Medical 42.72% -5% 30.98% -3%
News and Media 25.43% 22% 17.24% 14%
Online Video** 36.21% 12% 25.75% 9%
Shopping and Classifieds 27.27% 8% 19.06% 9%
Social Networking** 20.53% 11% 13.86% 13%
Sports 16.30% 36% 11.38% 35%
Travel 38.48% 8% 28.81% 9%
Note: All figures are based on U.S. data from the Hitwise sample of 10 million Internet users.

**Denotes a custom category

Source: Experian Hitwise

There is also a very interesting analysis of the upstream traffic Wall Street Journal gets from Google Search and Google News. According to Hitwise more than 25 percent of WSJ’s traffic originates from Google.

2. Alexa

Stats from Alexa.com are slightly less representative due to the fact, that the Alexa panel is based on self selection. But with Alexa’s Site Info Tool the traffic (including upstream search traffic) of every website worldwide can be measured.

3. Comscore

Comscore.com has also good stats on Search Engine Market share. I have not yet found freely available upstream statistics.

Let me know in the comments if you know any other sources.

January 3, 2010

What are the best content management system for structured data?

I have been looking for a content management system that lets you enter and manage structured data. Something like wordpress for data. I would like to find a software solution that lets you create sites such as Crunchbase or Freebase. Unfortunately I have never found a proper solution, even though my requirements are very modest. It has to be:

  • A reliable content management
  • Simple and flexible user experience
  • Have an active developer community
  • Hosted or open sourced
  • let you define entities and database fields for data

Some of the software products I have found are below:

Semantic Media Wiki
semantic-mediawiki.org
Semantic Media Wiki is an extension to the widely used MediaWiki CMS powering Wikipedia. It adds semantic annotations that allow to label different data types. You can automatically generate lists from the data and search using complex queries.

Socrata
www.socrata.com
Formerly known as Blist is something like Filemaker in the browser. You can create a (relational) database with differerent field types for structured data. Tables and Layouts can also be embedded in other websites. Unfortunately it is not really usable as a content management system.

Twiki
Twiki is, like Semantic Media Wiki, a Structured Wiki. It allows for embedding structured data within the wiki markup. Furthermore you can develop apps in the wikimarkup, such as task lists or forums.

Drupal Content Construction Kit
With the Drupal CCK you can add custom fields to existing content types.
Video Tutorial

eCrowds
eCrowds is an hosted content management system (SaaS). It comes with the option of creating structured data forms.

Open Calais
www.opencalais.com
The Open Calais Project by Thomson Reuters turns unstructured into structured data. Probably not what I am looking for.

Microformats.org
Microformats.org
Microformats are a set of simple, open data formats built upon existing and widely adopted standards. The idea is to let others put the structure in your data

  • Do you know any other CMS for structured data?
  • Is there a wordpress plugin that handles structured data?

to be continued…

January 1, 2010

“it’s our social media strategy, it’s fucked”

Die beste Satire auf die ca. 30′000 selbsternannten Social Media Consultants auf Twitter:

“I am a fucking awesome social media guru. I have an internet blog and everything”

December 10, 2009

Wieso soll man Inhalte als Linked-Data publizieren?

Kürzlich wollte ich einen befreundeten Programmierer dazu überreden, die Inhalte einer Webseite mit den Prinzipien von Linked Data kompatibel zu machen. Zurecht fragte er mich, wieso man sich den Aufwand machen sollte.

Was ist Linked Data?
Linked Data ist ein Teil des semantischen Webs. Linked Data soll sich als Methode bewähren für die Publikation von Daten unter Anwendung von Standards: Dazu gehört das RDF-Datenmodell, SPARQL und die Benennung von Datenobjekten als HTTP-URIs. Damit werden die Daten lesbar sowohl für Mensch als auch Computer.

Tim Berners-Lee, Erfinder des WWW und wichtigster Vertreter des Semantic Web, ist auch die treibende Kraft hinter der Linked-Data-Bewegung. In seiner TED-Ansprache vom März erklärt er die Grundidee.

Wieso sollte man Daten als Linked Data zur Verfügung stellen?

Daten und Informationen aller Art werden viel wertvoller, wenn sie automatisch mit weiteren Daten aus anderen Quellen kombiniert werden können. Bis anhin war dies eine Sache mühsamer Handarbeit. Man musste verschiedene Datenpunkte aus unterschiedlichen Studien zusammenkratzen, mühsam in ein Excel oder SPSS-File abfüllen, um anschliessend geeignete, neue Auswertungen machen zu können. Unter strikter Anwendung von Linked-Data-Prinzipien ist dies nicht mehr nötig. Daten, welch die für ihre Datenobjekte die selbe URI verwenden können automatisch kombiniert werden.

Wenn ich nun beispielsweise eine Webseite betreibe, auf der ich meine zehn Lieblingsbücher vorstelle. Und ich versehe diese zehn Lieblingsbücher mit einer eineindeutigen URI beispielsweise der Wikipedia. Dann müsste es möglich sein die Liste der Lieblinsgsbüchern aus der DBPedia oder aus Freebase mit stets akutalisierten Daten, beispielsweise den Verkaufszahlen oder auch Autoren-Infos, zu ergänzen.Das selbe geht natürlich auch in die andere Richtung. Gut, diese Anwendung ist nicht besonders spannend. Aber die Möglichkeiten, die sich dadurch eröffnen sind unbegrenzt.

Wie kann man Linked Data publizieren?
Ein nützliches Tutorial zur Frage wie man Linked-Data im Web publiziert, haben Bizer, Cyganiak und Heath geschrieben. Darin beschreiben Sie ein paar praktische Rezepte und Howtos zur Publikation und sprechen unter anderem auch den Unterschied zwischen bekannten APIs und Linked-Data-Standards an. Das SIOC-Project entwickelt wiederum Plugins und Software, mit denen Standard-Content-Management-Systeme wie WordPress, phpBB, Drupal und viele weitere Linked-Data-kompatibel gemacht werden können. Weitere Tutorials finden sich bei LinkedData.org.

December 7, 2009

Der Texterkennungs-Simultanübersetz-Gehörlosen-Roboter

Ziemlich saugeil: Der automatische Youtube-Tippser fügt einem Video mit gesprochenem Text Untertitel hinzu und zwar in Echtzeit. Speech-to-text machts möglich. Und als ob das nicht schon genug wäre: Man kann die Untertitel auch live in jede beliebige Sprache übersetzen lassen. Ich beispielsweise lese die Untertitel gerne in Tagalog. Und damit immer noch nicht genug: Wenn ich selber ein Video produziere, füge ich den gesprochenen Text als Textdokument bei. Youtube und die neue Timing-Funktion erkennt selbständig, wann welche Zeile als Untertitel eingefügt werden muss. Zauberei Technik.

Mehr dazu hier

December 4, 2009

Tamedia stellt News ein – wer hätts gedacht?

Aus der Pressemitteilung

Die Pendlerzeitung News wird per heute Freitag eingestellt. Trotz der kontinuierlichen Weiterentwicklung des Konzeptes sowie des Erfolgs bei den Leserinnen und Lesern konnte sich News im übersättigten Schweizer Pendlerzeitungsmarkt nicht durchsetzen.

Tamedia begründet die Einstellung damit, dass der Betrieb nur mit einer Werbekombination mit dem Tages Anzeiger hätte gerettet werden können. Dies hätte aber den Preis für die Tages-Anzeiger-Werbung zu tief nach unten gedrückt.

Was lernen wir daraus?

  1. Werbetreibende freuen sich darüber, dass sie auch in Zukunft zu viel bezahlen dürfen
  2. Die Einstellung der Zeitung hat nach wie vor überhaupt nichs  damit zu tun.

November 30, 2009

Quasmo Qgo – präziser als Wiimote

Leser meines Blogs erinnern sich, dass ich mich eine Zeit lang, regelmässig, ja fast schon krankhaft, mit Gamencontrollern auseinander gesetzt habe. Umso grösser ist die Freude nun, wenn einer meiner Schulfreunde und seine zwei Mitstreiter selber einen Gamecontroller erfinden und auf den Markt bringen: Nicolas Baumgartner, Fabian Fürst und David Stalder haben vor zwei Jahren die Firma Quasmo gegründet und in der Zwischenzeit zahlreiche Prototypen ihres Gamekonzepts “Qgo” entwickelt.

Qgo ist eine kabellose Kugel, die man frei im Raum bewegt (nach oben, unten, links, rechts, vor, zurück, drehen, rotieren, kippen). Die Bewegungen werden direkt in Spielbewegungen umgesetzt. Damit lässt sich so ziemlich jedes je entwickelte Game, aber auch andere 3D-Anwendungen wie Google Earth, bedienen und sogar um zusätzliche Bewegungsdimensionen erweitern. Im Sommer hatte ich das Privileg, den Quasmo Qgo auszuprobieren. Beim Ego-Shooter beispielsweise war ziemlich geil, dass man die Kugel nach unten bewegt und sich die Spielfigur dann hinter einer Deckung bückt. Beim Autorennen wiederum bewegt man den Controller ähnlich wie ein Steuerrad, indem man ihn nach links oder rechts kippt. Was mich besonders überzeugt hat, ist die Tatsache, dass man mit Qgo sehr präzise ins Game eingreifen kann, einiges präziser als mit der Wiimote beispielsweise.

Seit gestern gibts nun auch ein paar Clips auf Youtube, die die Funktionsweise erklären.

[UPDATE:] Und eben habe ich gesehen dass der Tagi heute auch einen Artikel über die drei Erfinder hat.

November 25, 2009

Die fachliche Autorität von Algorithmen

Daran habe ich auch schon rumgeknabbert, aber natürlich konnte ichs nicht so schön auf den Punkt bringen wie Herr Shirky in seinem Blog-Post von letzter Woche (auch wenn er sagt, dass es noch ein bisschen ein “ramble” sei).

Er definiert algorithmische Autorität als die Fähigkeit von Algorithmen, aus einer Menge an nicht grundsätzlich glaubwürdigen Quellen ein Informationsprodukt zu generieren, das glaubwürdig ist, ohne dass es eine glaubwürdige menschliche Quelle bedarf, die das Resultat verifiziert:

“Algorithmic authority is the decision to regard as authoritative an unmanaged process of extracting value from diverse, untrustworthy sources, without any human standing beside the result saying “Trust this because you trust me.”

Diese fachliche Autorität hat drei charkteristische Eigenschaften: Erstens verarbeitet sie Informationen aus vielen Quellen, die nicht auf ihre Glaubwürdigkeit überprüft wurden. Zweiten produziert sie gute Resultate, die die Bedürfnisse der Menschen befriedigen. Drittens sind sich die Nutzer bewusst, dass auch andere Nutzer diese Tools nutzen. Damit werden die Algorithmen zur fachlichen Autorität.
Natürlich gibt es intelligente Menschen, die eine solche algorithmischen Fachautorität kritisieren würden (aktuelle zum Beispiel Herr Schirrmacher mit seinem Buch). Dies ändert aber nichts an der Tatsache, das Autorität in erster Linie eine soziale Abmachung ist und nicht unbedingt eine kulturell unabhängige Variabel. Oder in den Worten von Herrn Shirky:

“An authoritative source isn’t just a source you trust; it’s a source you and other members of your reference group trust together. This is the non-lawyer’s version of “due diligence””

November 23, 2009

Nicht Informationsüberfluss, sondern Filter-Versagen

Shirky’s Rede an der letztjährigen Web 2.0 Expo: Informations-Überfluss ist eine Mär. Es gibt ihn schon seit Gutenberg mehr Bücher druckte als ein Mensch in seinem ganzen Leben lesen konnte. Die ware Problematik ist das Versagen der Filter.