June 30, 2009...9:50 am

Dis-Tagebuch: Enter the Dümpel

Jump to Comments

Gestern habe ich geschrieben, dass meine nächste Aufgabe sein wird, das Thema einzugrenzen. Dazu wollte ich mich auf eine Dienstkategorie beschränken. Aus diesem Grund habe ich die mir die in meinen Augen acht interessantesten Dienstkategorien auf ein Blatt liniertes Papier geschrieben.

  • Newsaggregatoren
  • Mediaplanung
  • Personalisierung
  • Reputations-Systeme
  • Semantic-Web/Linked Data
  • Automatisierte ortsbasierte Dienste
  • Social Tag Aggregatoren
  • Recommender Systeme

Mir ist dann aufgefallen, dass die Kategorien nicht trennscharf sind, ja nicht mal unbedingt gleichgeordnete Dinge bezeichnen. Beispielsweise ist Personalisierung eine Technologie, die in allen anderen sieben Diensten eingesetzt werden kann. Gleich verhält es sich mit den anderen Diensten. Recommender Systeme können in Newsaggregatoren enthalten sein. Reputations-Systeme können im Semantic Web integriert werden. Ortsbasierte Dienste ergänzen die automatisierte Mediaplanung und so weiter.

Dies alles läuft auf eine zentrale Frage heraus: Wenn ich mich auf eine Dienstkategorie festlege, muss ich dann nicht sowieso alle anderen auch beschreiben?

Sagen wir ich nehme Newsaggreagatoren: Google News verwendet bei der Berechnung der Resultate persönliche Vorlieben (Personalisierung), lokale Relevanz (ortsbasierte Dienste), misst die Anzahl Klicks auf einen News-Beitrag (Recommender System), schaltet automatisiert Anzeigen, die zu den Inhalten oder Nutzern passen (Mediaplanung) und denkbar ist auch, dass Sie Quellen verwenden, die semantisch vorliegen.

Zu einer defintiven Antwort der obigen Frage bin ich noch nicht gekomment. Wahrscheinlich ist es denkbar eine Dienst-Sorte zu isolieren. Diese wäre bestimmt auch für die Spezialisierung, die eine Dis mitbringen soll, sowie für weitere Vorwärtsarbeiten sinnvoll. Auch liesse sich eine solche Arbeit einfach mit Schlagworten versehen und würde somit auch ihr Publikum finden.

Die andere Lösung wäre, dass ich die Arbeit nicht entlang der Dienstkategorien eingrenze, sondern entlang der Informations-Verarbeitungs-Schritte der Software. Ich hatte in meinem ersten Konzept-Draft erwähnt, dass intelligente Algorithmen die folgenden fünf Arbeitsschritte automatisiert ausführen können

1. Sammlung
2. Analyse/Data-Mining
3. Selektion
4. Ausgabe
5. Lernen

(Notiz: Dies ist natürlich eine willkürliche aus den Finger gesogenen Zusammenstellung. Gerade so gut liessen sich noch weitere Schritte ergänzen oder dazwischen einfügen oder auch einige weglassen Der Chef hat noch erwähnt, dass man sich eine solche Zusammenstellung nicht aus den Finger saugen soll, sondern eine bereits existierende Ablauf der “Informations-Verarbeitung” anwenden sollte).

In diesen Ablauf der Informations-Verararbeitung gibt ein es einen Schritt, der bei allen beschriebenen Systeme in der Liste der Beispiele für intelligente Algorithmen ähnlich abläuft. Es ist das Herz des Ablaufs, die Zentrale, ein Flaschenhals, Bauteil, die Blackbox, das Hirn, das aus den Systemen erst die intelligenten Systemen macht. Er übernimmt die Schritte Analyse und Selektion.

Da ich noch nicht weiss, wie Techniker dieses Bauteil nennen, gebe ich ihm nun einen Arbeitsname, der so unpassend ist, dass ich damit die Gefahr eliminiere, ihn  durch die häufige Verwendung plötzlich zu behalten.

Ich nenne ihn “Dümpel”. Der Dümpel ist eine Knäuel von Software Algorithmen, eine Blackbox, genau definierter Prozessablauf, ein technischer Apparat. Die Aufgabe des Dümpels ist es für eine Liste mit Items/Dingen/Elementen eine Rangfolge der Relevanz für eine gegebene Aufgabe abzubilden. Der Dümpel ist eine abstrakte Vorstellung. Höchst wahrscheinlich wird es in den diversen Anwendungen nicht so eingesetzt.

Aber dennoch denke ich, dass das abstrakte Konzept eines Dümpels in jedem der Beispiele vorhanden sein muss. Sein Output ist immer eine Liste, welche die Items nach Relevanz für eine bestimmte Aufgabe ordnet.

  • Newsaggregatoren. Der Dümpel bringt die tausenden von News in eine Relevanzreihenfolge basierend auf Anzahl Zeitungen, personalisierten Elementen, Thema, etc
  • Mediaplanung a la AdSense: Der Dümpel misst die Relevanz von Webseiten-inhalten für eine bestimmte Werbeanzeige. Kriterien können sein: Stichwort-Matching, Zielgruppen-Matching etc.
  • Personalisierung. Der Dümpel bringt Inhalte in eine Rangordnung gemäss den Persönlichen Bedürfnissen eines Nutzers.
  • Reputations-Systeme: Der Dümpel misst den Wert früherer Handlungen eines Nutzers, gewichtet diese und bringt die Nutzer in einer Reihenfolge, beispielsweise bei Ebay.
  • Semantic Web / Linked Data. Ein Problem, das sich meiner Meinung nach bei Anwendungen des Semantic Webs ergibt. Wie können die semantischen Dienste, und die Semantic Agents die Qualität der strukturierten Daten erkennen. Antwort: Sie müssen sich auch auf eine automatisierte Dümpel eines Drittanbieters verlassen können, welche die Informationsanbieter ratet. In der Semantic Web Debatte wird dies auch als “Trusted service” bezeichnet.
  • Automatisierte Ortsbasiert Dienste. Hier handelt es sich eigentlich um herkömmliche Recommender Systeme, die aber noch das Signal, den Faktor Location in die Berechnung der Relevanz mit einbeziehen.
  • Social Tag Aggregatoren. Digg und Delicious bringen Links in eine Rangfolge, basierend auf Anzahl Bookmarks und Freshness
  • Recommender Systeme. Auch hier liegt eine Dümpel zu Grunde, der für ein gegebenes Item die Relevanz eines anderer Items berechnet
  • Suchmaschine. Die Mutter aller Dümpel

Ich denke, dass der Dümpel diejenige Einheit ist, bei welchen sich alle diese Dienste ähneln. Es ist der kleinste gemeinsame Nenner. Dort werden auch alle für meine Disseration bis anhin diskutierten Themen wichtig. Die Klassifizierung, die Innovation, die medienökonomie, die politisch ökonomische Analyse und die Qualität.

Im Folgenden wird versucht, Dümpel genauer zu spezifizieren. Ein Ziel wäre es, eine einfach verständliche Beschreibung der Prozessabläufe in einem Dümpel und der Bestandteile eines Dümpels schreiben zu können, die als abstraktes technisches Schema bei allen Diensten, die intelligente Algorithmen einsetzen als technisch richtig bezeichnet werden könnte. Oder einfach gesagt: Ich brauche eine anerkannte Terminologie, mit welcher man die Prozess in den Beispielen treffend erklären kann.

Eine Forschungsfrage wäre: Was passiert in der Blackbox Software, wer kontrolliert sie mit welchen Auswirkungen und wie lassen sich die Resultate evaluieren.

Input-Dümpel-Output

Dümpel können in einem Flussdiagramm als einfacher Throughput dargestellt werden. Sie haben einen Input, basierend aus unterschiedlichsten Daten und einer Anfrage, berechnen aus diesen ein Resultat und geben es als Output aus. Dümpel  können auch andere Dümpel als Dateninput nutzen, sowie den Output als Input für weitere Dümpel zur verfügung stellen.

Input
Der Input des Dümpels besteht aus zwei Kategorien. Einerseits Daten (Signale) und andererseits aus einer Anfrage (Request)

Eigenschaften der Daten (Signals) können sein:

  • -Nominal, Ordinal, Interval, Metrisch
  • -Texte, Bilder, Video, Dateien, Tabellen, Zahlen, bits
  • -Rohdaten vs. strukturierte Daten
  • -aktuell, historisch
  • -Messresultate, Datenbanken, Sensoren
  • -Wissensrepräsentationen
  • -Ratings, UGC, Ragnlsiten,
  • -Outputs anderer Dümpel

Anfragen/Requests

  • -Newsaggregator: Zeige aktuelle und relevante News
  • -AdSense: Zeige eine Anzeige, die maximal zum Inhalt eines Web-Inhalts passt
  • -Personalisierung: Zeige einen Inhalt, der maximal zu mir past
  • -Reputations-Systeme: Zeige einen Nutzer, der besonders vertrauenswürdig ist
  • -Semantic Web/Linked Data: Zeige eine Informationsquelle mit strukturierten Daten, die möglichst vertrauenswürdig ist
  • -Ortsbasierte Dienste: Zeige ein Restaurant, das möglichst nahe von meinem gegenwärtigen Aufenthaltsort liegt.
  • -Tag Aggregatoren: Zeige mir ein Bookmark, das möglichst viele Leute zu einem gegebenen Keyword gespeicher haben.
  • -Recommender System: Zeige mir Bücher, die von möglichst vielen Leuten gelesen werden, die auch dieses Buch gelesen haben.

Dümpelaufgaben

  • -Selektion der relevanten Daten (Signale)
  • -Aufbereitung der Daten
  • -Zusammenführung, Aggregation, Konsolidierung der Daten
  • -Gewichtung
  • -Produktion einer Liste mit den N besten antworten auf die gestellte Frage

Outputs/Resultat
Rangfolgen, Relevanzlisten (Ordinal, metrisch, nominal, etc)

  • -Newsaggregator: Liste aktueller und relevanter News
  • -AdSense: Eine Anzeige, die maximal zum Inhalt eines Web-Inhalts passt
  • -…

(Notiz: Hier könnte man auch ein Tabelle machen aus Anfragen und den richtigen Resultaten)

Namensvorschläge für den Dümpel
Natürlich kann der Dümpel nicht ewig Dümpel heissen. Wahrscheinlich gibt es in diversen Disziplinen schon Namen und bezeichnen für diese Art von Aufgaben. Neurologen würde es als Hirn bezeichnen, Behaviouralisten als Blackbox. Relevant für mich wäre es, einerseits herauszufinden, einerseits wie der Dümpel in der Informatikwissenschaft genannte wird, andererseits, wie die Hersteller von Dümpel ihre Systeme nennen. Hierzu sollte ich eine möglichst genaue Recherche machen.

Bis dahin sammle ich auch eigene Namen für den Dümpel. Kann ja auch gut sein, dass sich bis anhin keine einheitliche Bezeichnung dafür durchgesetzt hat. Das Schaffen einer solchen Bezeichnung wäre durchaus auch ein Resultat.

  • Relevanz-Engine
  • Rating-System
  • Ranking
  • Reputation-System
  • Selektions-System
  • Entscheidungs-Systeme
  • Decisions-System
  • Triage
  • Hirn
  • Blackbox
  • Algorithmus
  • intelligenter Algorithmus
  • Ranking Algorithmus (Google-Slang. =  the formulas that decide which Web pages best answer each user’s question)

Wo werden auch noch Dümpel eingesetzt?
Das interessante an den Dümpeln ist, dass sie ein abstraktes Konzept sind, dass auch in vielen anderen Bereichen als der Informationsverarbeitung zur Erstellung von Medienprodukten eingesetzt werden könnte. Hier eine Liste von Anknüpfungspunkten:

  • -Behaviouralismus
  • -Neurologie
  • -Rating-Agenturen (Standard & Poors, Moodys,…)
  • -Börsenkurs-Berechnung
  • -Reputationsmessung (Imhof
  • -Business Intelligence (netbreeze)
  • -Hitparaden
  • -Rankings aller Art (Oscars, Schweizer des Jahres, Fortune500, etc)
  • -Systemtheorie
  • -Biologie (Regelkreis?)

Die Dümpel Regeln

  • -Dümpel kreieren gesellschaftliche Relevanz
  • -Es gibt unzählige Dümpel
  • -Dümpel haben unterschiedlich grosse Reichweiten
  • -Dümpel können auch auf Resultate anderer Dümpel zurückgreifen

Google nennt den Dümpel in der Suchmaschine “Ranking Algorithm”, dieser bezieht 200 verschiedene Typen an Daten, die Google “Signals” nennt. Die Signale werden vorab von einzelnen Formeln bearbeitet. Die Formeln nennt Google “Classifiers” (Notiz. Classifiers erinnern micht an symbolische AI)

Eine Idee, die mir beim Schreiben gekommen: Redundanz ist ein Dümpel-Problem. Sehr viele Dümpel greifen auf die Outputs voneinander zu. dies führt in positive Feedback-loops, was zu einer Verstärkung der Relevanz von bereits relevanten Dingen gehört Masum/Zhang nennen dies Preferential Attachment (check). Frage: Wie wird dies in der Praxis gelöst?

Lange Rede kurzer Sinn: Aufgabe der Dümpel ist es gesellschaftliche Relevanz zu produzieren. Eine aufgabe, die früher nicht von automatisierten Systemen übernommen wurde sondern von Menschen. Damit erklärt sich auch die gesellschaftliche Relevanz.

2 Comments


Leave a Reply