Update: I’ve written a follow-up to this post.
A few days ago, the people behind Twitter archival site TwapperKeeper.com announced that they will be discontinuing the export feature of the service on March 20, 2011. Apparently the feature is in violation of Twitter’s terms of service, at least in the form it’s currently implemented in TwapperKeeper.
Unfortunately this cuts off a number of academics who are investigating communication on Twitter for scientific purposes from a convenient data source. While it’s fairly easy to get data directly via the Twitter API (which is what TwapperKeeper was doing), I know many people who want to concentrate on the data itself, rather than running their own servers to scrape Twitter on a regular basis. What’s more is that Twitter’s attitude is worrisome: many of us have tried to get an exemption from API rate limits in the past, to no avail. Twitter doesn’t give researchers privileged access to their data, and now they’re crippling TwapperKeeper on top of that.
Bottom line: what will we use after March 20? Ideally, a replacement would provide the following:
- the hashtag/search query functionality of TwapperKeeper,
- the export functionality of TwapperKeeper,
- exclusive use for academic purposes (on the grounds that this might keep Twitter from shutting it down),
- stability and reliability,
- long-term viability.
The last point is important, because I don’t think it will be difficult to set up a server somewhere to suit the needs of a few people, but a larger-scale solution seems more sensible in the long run. Maybe JISC can do something like that, based on yourTwapperKeeper (which they supported)? Or one of the big institutes (OII, Berkman)? Either way it would be nice to find an alternative that doesn’t give those of us with devs and major IT support behind them a huge edge over the rest…
An diesem Montag und Dienstag fand am Kulturwissenschaftlichen Institut in Essen die Tagung „Öffentlichkeit, Medien und Politik – Intellektuelle Debatten und Wissenschaft im Zeitalter digitaler Kommunikation“, organisiert von Claus Leggewi/Friedrich Jaeger (KWI) und Gudrun Gersmann/Mareike König (Deutsches Historisches Institut Paris) statt, bei der ich mitdiskutiert und (ein wenig) mitorganisiert habe. Nachdem ich gestern schon eine knappe Liste von Blog-Einträgen und anderen Berichten zur Tagung zusammengestellt habe, die ich noch erweitern werde, folgen in diesem Post nun einige Gedanken und Eindrücke zum ersten Tag der Veranstaltung und den dort geführten Diskussionen. Ich konzentriere mich dabei bewusst nicht auf den genauen Inhalt der einzelnen Vorträge, sondern greife lediglich ein paar für mich besonders interessante Punkte auf.
Nach einer kurzen Einführung durch Gudrun Gersmann und Claus Leggewie diskutierten am Montagnachmittag Jens Hacke, Ute Daniel, Stefan Münker und Mike Sandbothe unter dem Titel J’accuse” per Twitter? Intellektuelle im digitalen Zeitalter, gefolgt von einem Vortrag von Christoph Bieber mit dem Titel Metamorphosen des politischen Intellektuellen. Leider konnte Anne Roth krankheitsbedingt bei der Podiumsdiskussion nicht dabei sein.
Im Tagungsprogramm wird die Verbindung von zwei im Prinzip eigenständigen Themen im Rahmen einer Veranstaltung näher erläutert:
Die Tagung widmet sich der Frage, wie sich gegenwärtig unter dem Einfluss digitaler Medien und des Web 2.0 die Struktur der Wissenschaftskommunikation und damit zugleich die öffentliche Bedeutung der Intellektuellen als Akteure dieser Kommunikation verändert. [..]
Derartigen Fragen nähert sich die Tagung auf zwei Wegen: Während der erste Tag dem gegenwärtigen Wandel der soziokulturellen Rolle und politischen Bedeutung der Intellektuellen nachspürt, stehen in den Sektionen des zweiten Tages die entscheidenden Veränderungen der Wissenschaftskommunikation im Web 2.0 auf dem Prüfstand.
Beide Aspekte — die Rolle des Intellektuellen im digitalen Zeitalter und die Veränderung der Wissenschaft(skommunikation) durch das Internet — sind durchaus eng miteinander verknüpft, sofern die eigene Vorstellung von Intellektuellen und Intellektualität mit der persönlichen Vorstellung von Wissenschaft irgendwie zusammenhängt. Das war allerdings nicht bei allen Teilnehmern so: die Äußerung, man habe keine präzise Vorstellung davon, was einen Intellektuellen wirklich ausmache, ob es ihn noch gäbe, oder ob man ihn eigentlich brauche, wurde mehrmals im Verlauf der Tagung von verschiedenen Teilnehmern wiederholt.

Als historischer Ausgangs- und Bezugspunkt wurde in der Eröffnungssession und auch im weiteren Verlauf Émile François Zolas offener Brief “J’accuse”, Auslöser der Dreyfus-Affäre und Geburtstunde des modernen Intellektuellen genannt. Zolas Enthüllung und Anklage vereinte die Eigenschaften, die dann ein Bild des modernen Intellektuellen als gesellschaftlich Handelnden prägten: geschickte Nutzung der Medien, elaborate Argumentation und eine klare politische oder soziale Zielsetzungen. Beispiele, die während der Tagung herangezogen wurden, verdeutlichten dann allerdings auch, dass noch andere Eigenschaften je nach persönlicher Vorstellung hinzuaddiert wurden: Gelehrsamkeit, Theorienähe und wechselnde Distanz zu vorherrschenden politischen Meinungen waren nach meinem Eindruck weitere Eigenschaften, die herangezogen wurden. Christoph Bieber differenzierte in seinem Abendvortrag das Bild des Intellektuellen noch weiter aus. Das war besonders insofern nützlich, als dass er unterschiedliche “Entwicklungsstufen” des Intellektuellen an dessen Medien- und Technologienutzung festmachte (hier mehr dazu in Christophs Blog, die Slides folgen vielleicht noch). Auf den Intellektuellen als Schriftgelehrten folgte der Intellektuelle als Performer in den audiovisuellen Massenmedien und schließlich — darauf gehe ich ein anderes Mal vielleicht noch genauer ein — der Intellektuelle als Programmierer.
Die Einordnung anhand der Mediennutzung fand ich einleuchtend, weil sie mir neutraler erscheint als eine Bewertung durch den Grad der Sachlichkeit oder Gelehrsamkeit vermeintlicher Intellektueller. Die Teilnehmer, die den Begriff intellektuell insgesamt ablehnten oder zumindest problembehaftet fanden, taten dies nach meinem Eindruck auf der Grundlage des von ihm ausgestrahlten Elitismus — der Intellektuelle als Snob also, der fernab der Gesellschaft deren Niedergang bejammert und für sich eine besondere Deutungshoheit über Prozesse und Zusammenhänge reklamiert, deren Teil er selbst ja durchaus auch ist. Beschreibt man hingegen den Intellektuellen als geschickten Mediennutzer mit einer Agenda, die er erfolgreich argumentativ vor seinem Publikum vertritt, dann ist der Intellektuelle im Internetzeitalter wohl noch alive and kicking, nur hat er eben in Christoph Biebers Worten eine Metamorphose durchlaufen, die ihn vom Text als alleinigem Ausdrucksmittel wegführt, hin zur “Anarchie” des Internets (O-ton Jens Hacke).
Macht das Julien Assange zu einem Programmierer-Intellektuellen, wie Christoph Bieber sagt? Ich finde die Frage berechtigt, denn in meinen Augen argumentiert Assange für eine bestimmte Weltsicht und gegen eine andere. Das Argument ist nicht ein Text (wobei Assange ja auch ein paar von denen geschrieben hat), sondern eine Handlung (das Leaken von Informationen), aber eindeutig eine kommunikative Aktion, die strategische Ziele verfolgt. Ob diese Ziele nun versprachlicht (und so eben auch verwissenschaftlicht) werden, steht auf einem anderen Blatt, aber für mich lässt sich das mit dem Bild eines neuen, digitalen Intellektuellen sehr gut in Einklang bringen. Eine Bewertung findet dabei freilich nicht statt — im Verlauf der Tagung wurde mehrmals festgestellt, dass eben auch ein Thilo Sarrazin die Erfordernisse eines Intellektuellen erfüllt, wenn man ausschließlich die oben genannten Kriterien heranzieht.
Meine Darstellung ist hier vermutlich verkürzt, aber Ergebnis des Diskussionsstrangs zur Rolle des Intellektuellen im digitalen Zeitalters war für mich eine binäre Entscheidung. Entweder man geht davon aus, dass es “den Intellektuellen” nicht oder kaum noch gibt, weil er durch den Bedeutungsverlust der Massenmedien langsam aber sicher verschwindet, oder man nimmt an, dass er sich in einen digitalen Kommunikator verwandelt und an neue mediale Gegebenheiten anpasst. Etwas überspitzt ersetzen also Julien Assange und Larry Lessig Jürgen Habermas und Michel Foucault. Wenn einem diese Umwidmung des Begriffs zu weit geht, ist es vermutlich sinnvoller, ihn einfach zu begraben. Auf Grundlage akademischer Verehrung alleine, wie bei den genannten “Großintellektuellen” Habermas und Foucault (die nach meiner Erfahrung gerne seltsam erfurchtsvoll erwähnt werden, als würde man durch eine Namensnennung bereits etwas unwiderbringlich beweisen) lässt sich jedenfalls kein moderner Intellektuellenbegriff mehr aufbauen. Einerseits widerstrebt das unserem wachsenden Egalitätsanspruch, und andererseits steigt die Zahl derer, die diese Namen vermutlich erst einmal googeln müssen, schlicht zu schnell.
So viel meinerseits. Wer sich mit dem wandelnden Bild des Intellektuellen näher beschäftigen möchte, kann beispielsweise den dazugehörigen Wikipedia-Eintrag genauer unter die Lupe nehmen.
Update: Google put up a website for the institute.
I’ve just stumbled across a piece of news via Twitter (hat tip Felix) that I thought was worth a brief post.
Apparently Google plans to step up its investments in Germany and launch a “center for internet and society” in Berlin as part of this initiative. From the guest article by Eric Schmidt in the Berliner Morgenpost:
Wir werden nicht nur unsere Teams in den Bereichen Vertrieb und Engineering in Deutschland massiv erweitern, sondern darüber hinaus mit erheblichem finanziellen Aufwand ein neues wissenschaftliches Institut für Internet und Gesellschaft in Berlin aufbauen. Dabei werden wir mit führenden akademischen Institutionen zusammenarbeiten, um die Zukunft des Internets auf drei Feldern zu untersuchen: internet-basierte Innovationen, politische Rahmenbedingungen sowie die damit verbundenen rechtlichen Aspekte.
My (rough) translation:
In addition to significantly increasing our German presence in sales and engineering we will also launch a new institute for internet and society in Berlin, with considerable financial investment. We will do this working with leading academic institutions in order to study three areas: internet-based innovation, (internet-related) policy and related legal issues.
More reports (in German) are available from golem.de, t3n and Netzwelt. I’m assuming more could be revealed at a talk Schmidt will give at Humboldt University in a few minutes. I’ll update this accordingly.
The other (and undoubtedly more relevant) piece of news in Schmidt’s talk is likely to be Google OnePass.
Anmerkung 1: ich update diesen Beitrag laufend und füge neue Posts hinzu.
Anmerkung 2: ich habe hier ein paar Gedanken zum ersten Tag der Tagung gebloggt.
Björn Brembs hat blitzschnell einige Beiträge zu den Vorträgen bei Öffentlichkeit, Medien und Politik, der Veranstaltung von KWI und DHI in Essen, bei der ich gerade bin, gebloggt.
- Podiumsdiskussion: “J’accuse” per Twitter? Intellektuelle im digitalen Zeitalter
- Christoph Bieber: Metamorphosen des politischen Intellektuellen
- Gerhard Lauer: Die Geburt des Autors aus den Daten. Urheberschaft im Petabyte-Zeitalter
- Daniela Pscheida: Wissensmo(nu)mente – Fünf Thesen zum ‘Werk’ im digitalen Zeitalter
- Gregor Horstkemper: Orientierung, Recherche, Zugang: Klassische Bibliotheksaufgaben neu definiert
- Jochen Johannsen: Rechnung 2.0 – Ökonomische Aspekte digitaler Wissenschaftskommunikation
- Martin Warnke: Top Hits und der Long Tail. Oder: Das Ende des Mittelmaßes
Kurzer Blogbeitrag von Martin Warnke.
Kudos, Björn — meine Zusammenfassung folgt noch nach der Tagung. Wer die Backchannel-Gespräche zur Veranstaltung live bei Twitter verfolgen möchte, kann unter dem Konferenzhashtag tun.
Bericht bei DeutschlandRadio Wissen
Bericht im WDR3: “Meinungsbildung 2.0″
Ein Beitrag von Andrej Klahn
classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000"
codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0">
Unsere Audios und Videos können Sie mit dem Macromedia Flash-Player
ab der Version 8.0 ansehen. Den neuesten Flash-Player können Sie beim
Hersteller Adobe unter folgender Adresse kostenlos downloaden:
http://www.adobe.com/go/getflashplayer_de




Extracting comments from a Blogger.com blog post with R
Note #1: Check out this very useful post by Najko Jahn describing how to extract links to blogs via Google Blog Search.
Note #2: I’ll update the code below once I find the time using Najko’s cleaner XPath-based solution.
Recently I’ve been working with comments as part of the project on science blogging we’re doing at the Junior Researchers Group “Science and the Internet”. I wrote the script below to quickly extract comments from Atom feeds, such as those generated by Blogger.com.
The code isn’t exactly pretty, mostly because I didn’t use an XML parser to properly read the data, instead resorting to brute-force pattern matching, but it gets the job done. Two easier (and cleaner) routes would have been to a) get the data directly from the Google Data API (doesn’t work as far as I can tell, since there seems to be no implementation for R*) or b) parse the data specifically as Atom (doesn’t work as — annoyingly — there is no specific parsing support for Atom in R). Properly parsing the XML, while not rocket science, seemed more complex than necessary to me, especially given the fact that Atom should be common enough.
Scraping, by the way, makes for a very nice exercise for a pragmatic programming class (the one you might teach in the Digital Humanities or Information Science), since you teach people how to get their hands on data they can then use as part of their own projects.
rm(list=ls(all=T)); library("RCurl"); rounds <- 3; perpage <- 100; feedurl <- "http://rrresearch.blogspot.com/feeds/2171542729230739732/comments/default"; for (i in 1:rounds) { thisurl <- paste(feedurl, "?start-index=", ((i - 1) * perpage + 1), "&max-results=", perpage, sep=""); if (exists("feeddata")==T) feeddata <- c(feeddata, getURL(thisurl)) else feeddata <- getURL(thisurl); } buffer <- paste(feeddata, collapse=" "); entries <- unlist(strsplit(buffer, "<entry>")); entries <- gsub("</feed>.*?$", "", entries); entries <- entries[-1]; # get rid of quotes, excess whitespace etc entries <- gsub("\n", "", entries, perl=T); entries <- gsub("&#39;", "\'", entries, perl=T); entries <- gsub("&quot;", "\"", entries, perl=T); entries <- gsub("(<br />)+", " ", entries, perl=T); entries <- gsub("<", "<", entries, perl=T); entries <- gsub(">", ">", entries, perl=T); # extract date, author and text of comments dates <- gsub("^<id>.*?<published>([0-9T:\\.-]{29,})</published>.*?</entry>(</feed>)?$", "\\1", entries, perl=T); dates <- paste(substr(dates, 1, 10), substr(dates, 12, 19)); dates.px <- as.POSIXct(dates, origin="1970-01-01", tz="GMT-1"); dates.f <- strftime(dates.px, "%d %b %H:%M"); users <- gsub("^<id>.*?<name>(.*?)</name>.*?</entry>(</feed>)?$", "\\1", entries, perl=T); comments <- gsub("^<id>.*?<content type='html'>(.*?)</content>.*?</entry>(</feed>)?$", "\\1", entries, perl=T); posters <- sort(table(users), decreasing=T); d <- data.frame(date=dates.f, user=users, comment=comments); # write two tables, one containing all the comments and the other a simple frequency list write.csv(d, file="blog-comments.csv"); write.csv(posters, "blog-posters.csv");* I spoke a bit too soon there. There is an implementation for Google Data with R, but it doesn’t support Blogger.com and many other interesting services. Hopefully such an implementation will be provided eventually. That, or I just quit whining and learn Python…