Liebe Twitter-Nutzerin,
Lieber Twitter-Nutzer,

Ich bin Sprachwissenschaftler an der Universität Düsseldorf und beschäftige mich schwerpunktmäßig mit Internetkommunikation. Als Teil der Studie “Aspekte privater Twitter-Kommunikation” möchte die Nutzungsgewohnheiten von deutschsprachigen Twitter-Nutzern untersuchen, die Twitter nicht ausschließlich beruflich einsetzen (im Gegensatz zu z.B. Journalisten, Wissenschaftlern, Politikern, und anderen Menschen in Kommunikationsberufen). Zu diesem Zweck würde ich gerne deine öffentlichen Tweets einen Monat lang aufzeichnen und auswerten. Anschließend würde ich dir gerne per Mail einige Fragen (nicht mehr als 10) zu deiner Twitter-Nutzung stellen.

Es werden ausschließlich öffentliche Tweets (also keine DMs) aufgezeichnet. Sämtliche Daten werden anonymisiert (d.h. Namen — auch Twitter-Nicknames — entfernt) und nicht an Dritte weitergegeben. Einzelne Tweets können über das Hashtag #exclude jeder Zeit aus der Aufzeichnung ausgeschlossen werden. Am Ende des Untersuchungszeitraum schicke ich dir bei Interesse gerne ein Archiv deiner aufgezeichneten Tweets zu.

Neben deinem Beitrag zur wissenschaftlichen Forschung winkt auch eine (kleine) Aufwandsentschädigung: ich verlose am Ende des Untersuchungszeitraum unter den Teilnehmern einen Amazon-Gutschein im Wert von 50 Euro. :-)

Wenn du zu einer Teilnahme bereit bist, schicke bitte eine kurze Mail an Cornelius.Puschmann@uni-duesseldorf.de (Edit: natürlich kannst du dich auch per Twitter melden). Falls du nicht teilnehmen möchtest, musst du nichts weiter tun. Fragen zur Studie beantworte ich gerne per Mail.

Schon jetzt vielen Dank für dein Interesse und deine Unterstützung!

Dr. Cornelius Puschmann
Nachwuchsforschergruppe “Wissenschaft und Internet”
Heinrich-Heine-Universität Düsseldorf

Tagged with:  

On Wednesday, I went to nearby Maastricht for the workshop Participatory knowledge production 2.0: Critical views and experiences together with my colleagues Isa Peters and Katrin Weller. The workshop, hosted by the Virtual Knowledge Studio Maastricht, was a single-day, round table-style event that attracted participants from a variety of disciplines (e.g. STS, sociology, literature, [social] geography). Short papers contributed by a group of participants were discussed in depth, first by a so-called respondent (a colleague who presents the central points made in the paper and then critiques it) and then by the entire group. I discussed a paper by René König titled Wikipedia: participatory knowledge production or elite knowledge representation? which made some very relevant points on the conservative nature of Wikipedia as a natural result of it’s participatory model. Other topics included e-healthcare portals, WikiLeaks, open art criticism, theorycrafting in games, online fandoms and participatory GIS (see the program for details).

The lack of multiple conference tracks, Powerpoint and other distractions (there was no open wifi) meant that participants focused closely on the discussion at hand and really engaged with one another. It’s a great event format for intense thought and debate and I’d love to use it in the future — ideally at a remote location where people can’t escape. ;-)

I can’t really give a concise summary of everything that was discussed, but the program and the Twitterstream will give you an impression of the dominant themes.

VKS Maastricht’s Sally Wyatt, the workshop chair, summarized the common direction of the four sessions as follows (my notes):

  1. How inclusive is digital technology really? This was a recurring theme: beyond narratives of the Internet as a liberating force, how open are digital environments (from mapping systems and health portals to Wikipedia and the Google Art Project?
  2. What is the relationship of software and hardware to systems of power and control? What kind of ideology is inherent in computation?
  3. Participation as a form of surveillance, co-creation as a form of exploitation.
  4. Theory, methods and approaches to studying these and related issues.

What made the workshop very productive and stimulating to me was the healthy mix of critical perspective and empirical research. We didn’t just debate digital technology in an abstract fashion (which is sometimes a danger with very bookish scholars who don’t actually use a given technology, but feel free to interpret it before the background of their favorite theory) and we also refrained from assembling statistics or anecdotes without relation to a bigger picture.

I greatly enjoyed meeting everyone at VKS and the other participants and look forward both to a publication that might follow and to future VKS events relating to digital themes. :-)

Tagged with:  

Dieser Post geistert schon seit mehreren Monaten als Entwurf in meinem Blog herum, aber irgendwie komme ich erst jetzt dazu, ihn abzuschließen. Ich tue das im Vorfeld zu der Veranstaltung Participatory knowledge production 2.0: Critical views and experiences des Virtual Knowledge Studio Maastricht. Dort wird am Mittwoch unter anderem René König einen Beitrag zur Wikipedia vorstellen, der diesen Post mit angeregt hat.

Initialzündung war allerdings ein noch früheres Ereignis. Vergangenen November habe ich bei der Wikipedia Academy in Frankfurt einen Vortrag über Wikipedia, Creative Commons und Open Access gehalten (Slides). Es hat besonders Dank der Fragen und Gespräche im Anschluss an die Präsentation viel Spaß gemacht, an der “Schnittstelle von Wissenschaft und Öffentlichkeit” (so mein Vortragstitel) zu präsentieren. Ich habe auch das Problem zu spüren bekommen, dass ein Nischenthema wie Open Access zunächst einmal mit Leben und Relevanz gefüllt werden muss, um ausserhalb eines kleinen Expertenkreises anzukommen. Die anwesenden Wikipedianer waren sehr interessiert und so entstand trotz des engen Zeitplans ein angeregtes Gespräch. Eine schöne Zusammenfassung liefert einmal mehr Anna Lena Schiller:

Mehr Offenheit, bitte!

Visual Sensemap zum Vortrag.

Im Anschluss an die Präsentationen ging es in die Alte Aula der Universität Frankfurt zur Verleihung der Zedler-Medaille. Nach einer kurzen Ansprache durch Pavel Richter wurde dann die von Volker Panzer moderierte Podiumsdiskussion zum Thema “Was ist Wissen?” eröffnet. Die Teilnehmer waren Prof. Dr. Johannes Fried, Prof. Dr. Stefan Hradil, Prof. Dr.-Ing. Johannes Janicka und Dr. Carsten Könneker. Leider konnte ich das Gespräch nicht vollständig anhören, da ich der Zug nach Düsseldorf erwischen musste, aber die Diskussion setzte bei mir einen Gedankengang in Bewegung, den ich hier ausführen möchte.

Die zentrale Frage der Podiumsdiskussion lautete “Was ist Wissen?” Für eine Wikipedia-Veranstaltung erschien mir das eine hervorragende Frage zu sein — und auch eine, zu der bestimmt der eine oder andere Wikipedianer etwas zu sagen haben würde. Nachdem Volker Panzer die Teilnehmer vorgestellt hatte, wurde aber eine etwas seltsame Diskrepanz deutlich, die sich auch auf die Diskussion spürbar auswirkte: die Runde bestand auschließlich aus Männern, von Carsten Könnecker, dem Chefredakteur von Spektrum der Wissenschaft, abgesehen ausschließlich aus erfahrenen (und auch älteren) Professoren. Man begann das Gespräch mit relativ allgemeinen Fragen zu den Eigenschaften von Wissen, z.B. zum Verhältnis von Wissen und Information, zu Sprache und Wissen und anderen Fragestellungen, mit denen sich mit Sicherheit viele Menschen schon einmal auseinandersetzt haben, wenn auch vielleicht nicht im Rahmen einer Podiumsdiskussion. Eine Aussage führte zu einer geraunten Beschwerde meinerseits. Ein Teilnehmer argumentierte für eine sehr enge Verknüpfung von Sprache mit Schrift und nannte das geschriebene Wort den “Wissensspeicher der Menschheit” oder so ähnlich (ich paraphrasiere). Die Gleichsetzung von Schrift und Sprache ist so ein Klassiker, mit dem man jeden Linguisten sofort auf die Palme treibt, weil sie hochgradig problematisch ist und dennoch gerne von umfassend gebildeten Menschen postuliert wird. Über Sprache im Sinne einer mentalen mentale Fähigkeit und in gesprochener Form verfügt der Mensch bereits wesentlich länger als über Schrift. Der Großteil aller Sprachen weltweit existiert nur in gesprochener Form, was diese Sprachen nicht weniger komplex, ausdruckstark, bedeutungstragend oder schützenswert macht als die, die auch geschrieben werden. Gesproche Sprache ist primär (wir lernen zu sprechen, lange bevor wir schreiben lernen) und selbst wenn die Schrift in unserem Alltagsleben einen immensen Stellenwert hat, so ist doch gesprochene Sprache für grundlegende soziale Interaktionen unverzichtbar. Soziale Beziehungen pflegen Menschen schon ziemlich lange, Schrift ist erst durch einigermaßen komplexe Staats- und Wirtschaftssysteme unverzichtbar geworden. Zu argumentieren, Schrift sei gleichbedeutend mit Wissen, oder gar seine Voraussetzung, verkennt die kulturellen Leistungen früherer und existierender Zivilisationen. Das mindert nicht die Nützlichkeit von Schrift für die Weitergabe und vor allem für die Vereinheitlichung von Wissen, aber das ist eine andere Sache.

Hiëroglyfen kopiëren / Copying Egyptian hieroglyphs

Wissen gibt’s auch ohne Schrift, nur nicht so haltbar.

Ich will hier aber nicht Haare über fachliche Spitzfindigkeiten spalten, sondern skizzieren, wie der Begriff Wissen von den Diskussionsteilnehmern interpretiert wurde. Immerhin unterhielt sich da ein Panel aus Gelehrten, von denen nach meinem Eindruck keiner jemals die Wikipedia selbst editiert hat, bei der Wikipedia Academy über die Frage, was Wissen sei. Man kann diese Frage kulturgeschichtlich, kognitionspsychologisch oder hermeneutisch beantworten und sich auf diesem Wege auch trefflich unterhalten. Was aber die öffentliche Verhandlung von Wissen in seinem ganz alltäglichen und aktuellen gesellschaftlichen Kontext bedeutet, erklärt man damit nicht. Und genau das wäre im Kontext einer Wikipedia-Veranstaltung in meinen Augen eine große Chance gewesen. Ein Gespräch nicht darüber was Wissen ist, sondern wer Wissen macht und wie.

Aber zunächst noch etwas zurück zu der professoralen Runde. Er herrschte eine gewisse Internetskepsis vor, die man aus anderen Konstellationen ähnlicher Prägung schon kennt, und die angesichts der Art der Veranstaltung insofern etwas seltsam erschien, als dass über die Wikipedia aber nicht mit der Wikipedia — also Wikipedianern — gesprochen wurde. Auch andere von den Diskutanten geäußerte Sorgen hat man in ähnlicher Form schon an anderer Stelle gehört. Beispielsweise wurde die Gefahr der Informationsüberflutung angesprochen, die durch freies Wissen im Internet noch verschärft würde. Die Meinung in der Runde waren zwar differenziert und keine stumpfe “Anti-Internet”-Perspektive, es wurde aber das Unbehagen gegenüber vielen “falschen” und “irrelevanten” Informationen im Netz deutlich, die Vertreter dieser Generation ja auch im Feuilleton gerne und oft artikuliert.

Spannend fand ich dabei die Selbsverständlichkeit, mit der eine klare Trennung von richtig und falsch einerseits und relevant und irrelevant andererseits vollzogen wurdee. Man sieht an manchen Formulierungen die Perspektive einer Machtelite (was stimmt entscheiden wir) und andererseits grüßt auch das Papierzeitalter: es sollte bitteschön nur das verbreitet werden, was stimmt und relevant ist — beides Aspekte, die längt nicht immer objektiv bewertbar sind. Ich will Fakten keinesfalls als etwas beliebiges darzustellen, oder behaupten, so etwas wie richtig und falsch gäbe es nicht. Natürlich enthält wie jede anderen Informationsquelle auch die Wikipedia Fehler. Aber (und warum muss man das eigentlich noch feststellen?) das gilt für andere Quellen natürlich auch. Und Wikipedia enthält auch Vieles, worauf die binäre Unterscheidung in relevant und irrelevant überhaupt nicht mehr anwendbar ist, es sei denn man fragt: Wahr für wen? Relevant für wen?

Denken wir uns mal einen Augenblick lang einen Wikipedianer dazu, vielleicht obendrein — sind wir mal irrwitzig kreativ — eine Frau unter 40 mit Migrationshintergrund, um die professorale Runde etwas aufzumischen. Was hätte sie zur Frage “Was ist Wissen?” wohl gesagt? Ich kann nur spekulieren, aber ich würde wetten, dass sie die Frage vermutlicher pragmatischer und konkreter hätte beantworten können, als die Wissenschaftler der Diskussionsrunde. Sie hätte sagen können, dass die Wissensfindung in einem Wikipedia-Artikel ein unordentlicher, langwieriger, und mühseliger Prozess ist, bei dem diskutiert, ediert, gelöscht und gestritten wird und der niemals wirklich abgeschlossen ist. Und das natürlich das Falsche stehenbleibt und das Richtige gelöscht wird, ganz wie in Schulbüchern, Tageszeitungen und wissenschaftlichen Publikationen eben auch, nur dass es dort niemand mitbekommt. Bei Wikipedia mitzumachen ist sicherlich inzwischen sehr viel schwieriger, als dies noch in der Gründungsphase der Fall war. Auch bei Wikipedia haben Akteuere unterschiedlich viel Macht, auch dort gibt es Agendas. Aber es partizipieren in Wikipedia doch wesentlich mehr Menschen, als dies bei einer traditionellen Enzyklopädie der Fall ist. Und das verändert eben nicht nur die Menge, den Detailgrad oder die Zugänglichkeit der Informationen, sondern auch die erweiterte Funktion einer solchen Plattform — vom Wissensprodukt zum Wissensprozess. Dieser Prozess führt nicht automatisch zum besten Ergebnis — das muss es aber auch gar nicht. Er bindet Menschen ein und vermittelt ihnen, Teil eines Schaffensprozesses zu sein, und nicht nur passive Wissensempfänger. Schaut man sich institutionelle Wissensumgebungen wie Schule und Uni an, so wird schnell klar, dass es dort anders zugeht.

Das Internet fordert unter anderem deshalb gesellschaftliche Eliten heraus, weil es alternative Zugänge zu und Teilnahme an Wissen ermöglicht. Im Falle der Wikipedia sind es (unter anderem) Schule und Wissenschaft, die herausgefordert werden. Dabei geht es weniger darum, dass die bestehenden System ersetzt würden, als vielmehr um vergrößerte Transparenz und Partizipationsmöglichkeiten durch neue, bislang nicht in den Wissensverhandlungsprozess eingebundene Akteuere. Die Wikipedia ist nicht perfekt, aber das muss sie auch nicht sein. Es genügt völlig, dass sie uns die Komplexität der Wissenskodifizierung vor Augen führt, und dass sie die Barrieren zur Teilnahme an dieser Kodifizierung im Vergleich zum Buchzeitalter merklich reduziert hat. Die Wikipedia ist nicht bedeutsam als ewiger Wissensspeicher, in dem ordentlich sortierte Fakten abgelegt werden. Vielmehr ist sie ein Marktplatz, auf dem Wissen verhandelt wird, und dieser Prozess ist vielleicht wichtiger als sein Endprodukt, auch wenn er zweifellos mitunter ziemlich mühselig ist.

Tagged with:  

As part of the research we’re doing in Düsseldorf on the use of Twitter at academic conferences, here’s a poster we’re presenting in a few days at GOR ’11:

Here’s the citation for the poster:

Puschmann, C., Weller, K., & Dröge, E. (2011). Studying Twitter conversations as (dynamic) graphs: visualization and structural comparison. Presented at General Online Research, 14-16 March 2011, Düsseldorf, Germany. Retrieved from http://ynada.com/posters/gor11.pdf.

See this older post for more information on how to visualize dynamic graphs of retweets with Gephi.

Tagged with:  

How relevant is data literacy?

On March 10, 2011, in Thoughts, by cornelius

Two independent trajectories have prompted me to think about data literacy and its relevance lately. I’ll focus specifically on social data in the rest of this post, i.e. the information we generate on Facebook and similar services, though I think there are cases where these ideas may apply to other kinds of data as well.

In late February I attended the Cognitive Cities Conference, an event about the digital future of urbanity. Many presentations at CoCities incorporated statistics and flashy visualizations (traffic patterns, the journey of household trash to a landfill), and the importance of data was a recurring theme. It seemed to me like there was a slight uneasiness among the speakers in the face of the huge projection (which showed a colorful rendition of the presenter’s face at the beginning of each talk) and the ultramodern, Arduino-lit installation on the podium, activated by the speaker’s voice. Awe of such digital embellishments was mixed with embarrassment: Please, I’m not nearly as cool as that thing makes me look, many speakers seemed to say. Their reaction reflected a lingering consciousness of the risks posed by uncritical techno-fetishism that characterized the event for me. The digital future of cities, it became clear in the course of the two-day conference, will be intricately linked to our own future. Will we be smart mobs (or, even better, smart individuals), or dumb blobs of data, waiting to be mined by companies and government bureaucracies? Will we program or be programed?

Ton Zijlstra speaking at the Cognitive Cities Conference

Ton Zijlstra speaking at the Cognitive Cities Conference

One commentator aptly pointed out that a visualization of bike travel patterns in New York City didn’t really reveal anything a local wouldn’t know without rendering a graph, but the futurists were undeterred — and believe me when I say that I totally get why. All this data we all generate — whether it means something or not — can be analyzed, mined, visualized and repackaged in sophisticated rhetorical pastiches that blur the boundary between information and art. Data is being used to sell products, frame political statements and make scientific arguments. It is used to get insane valuations from investors, valuations ultimately based on the assumption that in the digital future, human behavior will be predictable in ways previously unimaginable. If code is law, data is capital.

The persuasiveness of digital data is owed to its degree of abstraction. The visualization of a set of data is a Russian doll of abstraction. It’s an interpretation based on implicit assumptions (What is highlighted? What is left out?), and on something (data) that also has a fluid and subjective relation to the world (What are friends on Facebook? Is there any relation between real friends and Facebook friends?). The raison d’être of social data is that something or someone external to us has generated it, making it seemingly superior evidence to our personal intuitions. But the frame in which the behavior takes place that the data perpetrates to describe conditions the possible options. The existence of a relationship status field makes the question of whether 500 million people are single or in a relationship (and whether their relationship is complicated) a public issue. By asking the question you’re conditioning the answer.

Dietmar Offenhuber (MIT) maps immigrant phone call patterns in NYC

Dietmar Offenhuber (MIT) maps immigrant phone call patterns in NYC

A second trajectory is the work on Twitter hashtag datasets we do in Düsseldorf as part of the Junior Researchers Group “Science and the Internet”. We’ve been using graph analysis and other procedures to figure out who is talking to whom and what’s being retweeted. The recent shutdown of TwapperKeeper has forced us to find our own custom solution for archiving tweets. In the process of looking for a fix, I discovered Amazon AWS and experimented with cloud-based data collection. I was up until 4am last night because I was so fascinated by the ability to launch a highly customized virtual server at the click of a button. Geeky as that may be, virtualization really empowers developers. It used to be that you needed access to a physical server for this kind of data collection — perhaps an old machine sitting in your office running 24/7, or, if you were a bit more professional, a machine provide by your university’s computing services. Or you could rent a commercial server, assuming you could afford it. But you couldn’t just click “launch instance”. You had to handle your resources carefully.

Not anymore. Not only is “web space” cheap or free (that happened a few years ago), but virtual computing power has become a commodity that you can use in a flexible way to do whatever you want to get done — collect data, do complex computations, anything. The one barrier that remains between the individual and this kind of digital self-empowerment is data literacy (in the connected world, that is, which means by no means everywhere). It is hard to imagine a future where those who are literate will not have a significant advantage over those who aren’t, because that barrier is unlikely to disappear as rapidly as economic hurdles are.

My take on this is not entirely positive. The increasing semantification of digital information and ubiquity of data makes arguments based on data and communicated via visualizations increasingly popular. Data-based argumentation can be deceitful or built on false premises, just like any other form of rhetoric. Data literacy must therefor not only be concerned with the technical dimension of data usage, but also with a critical reflection of the data’s relationship to the world. Add to this questions of ownership (Whose data is it?), control (Is the data being used to make inferences about people without their knowledge?) and trust (Are you dealing with a reliable data source?) and you have a rough sketch of what data literacy might look like.

Data literacy mind map. What's missing?

Data literacy mind map. What's missing?

Should we start teaching this stuff in school, as for example Adam Greenfield suggests? Or is data literacy a technocrat’s pipe dream, touted in order to make something appear universally relevant that really concerns only a small group of nerds?

Are our visualizations the ghosts from outer space that author Warren Ellis conjured in his closing speech at CoCities, phantasms that pretend to signify something, but ultimately mean nothing? Let me know what you think.

Tagged with:  

I thought I’d write a brief update to this earlier post discussing the consequences of what has recently happened with Twitter’s TOS update/enforcement of the redistribution clause. Here is a concise summary from ReadWriteWeb:

[..] Twitter’s recent announcement that it was no longer granting whitelisting requests and that it would no longer allow redistribution of content will have huge consequences on scholars’ ability to conduct their research, as they will no longer have the ability to collect or export datasets for analysis.

Read this earlier RWW post for more background. Twitter has cracked down on services like TwapperKeeper and 140kit.com that allow users not only to track Twitter keywords and hashtags, but also to export and download archives of tweets in XML or CSV. Apparently Twitter wants to stop redistribution of “its” content to the extent possible, including redistribution for research purposes. From the RWW post:

140kit offered its Twitter datasets to other scholars for their own research. By no means a full or complete scraping of Twitter data, this information that the project had collected was still made available for download (for free) to researchers. But no longer.

The people at 140kit, to their credit, are working on an approach which would allow researchers to work with Twitter data without exporting data, but rather by using their interface. From 140kit’s website:

We have a solution, which will involve using a plugin based analytical approach, which will not allow you to export data, but will, with Twitter’s blessings, allow you to ask any questions to your dataset with ease.

Hmm, sorry, but I’m underwhelmed. There are already countless services out there that allow Twitter analysis in some form, often with nebulous results, because data collection and methods are not transparent. With any list of frequent terms on Twitter the question needs to be What stop words did you exclude? How clean is your data? I can’t know whether these things are done appropriately for my analysis unless I do them myself. You might object that not everyone is keen on sifting through CSV files with their own scripts. That’s true outside of academic research — for a casual analysis using a GUI tool for Twitter analysis might be okay — but for serious analysis direct access to the raw data itself is a must. And beyond just having access yourself, in the spirit of reproducible research it’s important to distribute the dataset along with your paper. That’s where we should be heading, rather than basing our analyses on pre-produced tools and mechanisms which handle the data in ways which are intransparent and beyond our control.

Will this shut off researcher’s access to Twitter data, as the RWW article claims? Not really, at least not everyone’s access. Those researchers who build their own tools (or deploy existing ones, such as yourTwapperKeeper, on their own servers) will have no trouble at all getting all the data they want. It’s just the rest — those who can’t code, or lack tech support (=funding) who will be restricted to simple GUI tools. If you’re a PhD student at a small university, in a department with no technical expertise or support, you have a competitive disadvantage. More power to computer scientists, and to centers like Berkman and the OII, this decision seems to say.

How to solve this problem? Luckily services like Amazon AWS level the playing field somewhat. Setting up and account there to scrape Twitter on a regular basis (for example with yourTwapperKeeper, or with your own set of scripts) is probably the best alternative to using a service like 140kit.

Note: Check out this video interview with John O’Brian of TwapperKeeper, who basically gives the same advice.

Tagged with: