Sehr geehrter Herr Voß,ich glaube nicht, dass man über Daten diskutieren kann, ohne den Anteil an Information zu hinterfragen. Dass die Informationswissenschaft zum Thema Datenakquisition, Datenerfassung, Datenverwaltung, Datenarchivierung, Data Mining etc. zu wenig sagt, wäre mir neu, zumal gerade die Datenerfassung in der Dokumentation immer ein zentrales Thema war. Ebenso die Datenkompression durch Beseitigung von Noise und überflüssiger Redundanz, und die Informatinskomression durch Wissen.
Die eher neue Problematik von Linked Data und Big Data hängt nun damit zusammen, dass in den letzten Jahren die Übernahme von digitalen Daten (der manuellen Dateneingabe) immer wichtiger wurde, sowohl von anderen Rechnern, als auch von der zunehmenden Zahl an Sensoren und bildgebenden Verfahren. Hierin dürfte auch der Grund liegen, warum Kuhlen „‘Daten‘ … in der Regel synonym mit ‚Messdaten‘ verwendet.“, obwohl gerade in der bibliothekarischen Datenerfassung, noch immer große Datenmengen keine „Messdaten“ sind.
Um hier nur ein typisches Beispiel unserer Zeit für Big Data kurz zu erwähnen: Seit dem man Gravitationswellen aus dem Universum untersucht, empfängt man unglaubliche Mengen an Daten, die fast vollständig verrauscht sind. Aus ihnen die Bruchteile an Information und ausreichender Redundanz mit Bayesscher Wahrscheinlichkeit herauszufiltern ist eine wahre Kunst. Ähnlich war es bei den hunderten von Petabytes bei der Entdeckung der Higgs Bosonen. Auch Big data Prognosen in Echtzeit sind eine interessante Herausforderung, ebenso wie das Data Mining und die Verwaltung von Big Data in Clouds.
Grundsätzlich handelt es sich hier überall um Daten, weil Information, Rauschen und Redundanz Konglomerate bilden. Wenn die DIKW-Pyramide ein zunehmendes „Verstehen“ erfordert, so muss man vier Ebenen des Verstehens genau unterscheiden, obwohl unsere natürliche Sprache dafür gar keine eigenen Worte hat. 1. „Das Verstehen auf der Ebene der Informationstheorie. Ein Empfänger (ein Lebewesen oder auch ein Computer) einer Nachricht hat zum Beispiel etwas akustisch verstanden, reagiert aber beliebig. (Alter Spruch von Hundebesitzern. Mein Hund hört gut, er reagiert aber nicht.) Oder etwas ernster gesagt, ein ausreichend intelligenter Automat versteht Zeichen auf der Informationsebene, er vermag sie richtig zu decodieren und als neu, als redundant oder als Rauschen zu identifizieren. 2. Das Verstehen auf der Ebene der Semiotik. Ein Empfänger einer Nachricht hat diese inhaltlich verstanden, denn er erkennt die pragmatische Bedeutung der Zeichen auf der semiotischen Ebene. Er interpretiert sie und bringt sie in einen Zusammenhang mit anderen verwandten Begriffen. Auch das vermag schon jeder Hund, wenn man ruft, „komm her“, und er belegt sein Verständnis, indem er entsprechend reagiert. 3. Das Verstehen auf der Wissensebene. Der Empfänger versteht die an ihn gerichtete Nachricht nicht nur auf der informatorischen und der semiotischen Ebene, sondern erkennt auch noch die Begründung beziehungsweise die Konsequenzen, die sich aus dieser Nachricht ergeben. Auch diese Verstandesebene erfüllt beispielsweise ein Hund noch. So kann man erkennen, dass er beim Ruf „komm her“, unter bestimmten Randbedingungen sofort den Schluss zieht, dass er jetzt spazieren gehen wird. 4. Das Verstehen auf der Bewusstseinsebene. Ein Empfänger erkennt nicht nur den Wissensgehalt einer Nachricht, sondern reflektiert dieses Wissen auch noch in der Weise, dass er ein Wissen über sein Wissen gewinnt. Dies vermag ein Hund beispielsweise nicht zu leisten. Er kann erfahrungsgemäß über sein Wissen definitiv nicht nachdenken. Bei Affen wird seit Jahren versucht herauszufinden, wie weit sie diese Hürde zu überwinden vermögen, wobei man allerdings bei den Interpretationen entsprechender Versuche sehr vorsichtig sein muss. Erfahrungen bei Pferden, wie beispielsweise beim „Klugen Hans“, haben deutlich gemacht, mit welch spezialisierter Sensorik dieses Pferd begabt war, und damit eine Intelligenz (also ererbtes Wissen) besaß, das uns Menschen weitgehend unzugänglich ist.“
(Zwischen Informationsflut und Wissenswachstum S. 112/113; 2009) MfG Walther Umstätter Am 2013-10-18 10:24, schrieb Jakob Voß:
Hallo, Vielen Dank für den Verweis auf meinen Artikel in LIBREAS <http://libreas.eu/ausgabe23/02voss/>. Die daran anschließende Definition bezieht sich aber leider wenig auf auf Inhalt oder Thema des Artikels (nämlich Daten) sondern vor allem auf Informationen. Informationen sind nicht Thema meiner Untersuchung. Ich schreibe: "Während [...] Informationen in verschiedenen Disziplinen eine zentrale Rolle spielen, führend Daten als primärer Forschungsgegenstand noch immer ein Schattendasein. [...] Erst in den letzten Jahren ist neben rein affirmativen Trends wie Linked Data und Big Data auch eine kritische Auseinandersetzung mit der Frage zu beobachten, was Daten eigentlich sind." Angesichts des Hypes um Big Data, Open Data, Forschungsdaten etc. halte ich das Schweigen der Informationswissenschaft zu Daten für schade. Da hilft es nichts, ganz schnell von Date zu Informationen überzuleiten und die alten Diskussionen über den Informationsbegriff wieder hervorzuholen. Ich habe trotzdem einige Anregungen aus der Diskussion hier gezogen und unter <https://github.com/jakobib/libreas2013/issues/1> zusammengefasst. Sowohl die DIKW-Pyramide als auch Kuhlen hätten im Artikel zumindest erwähnt werden sollen. Mich würde von Rainer Kuhlen dazu interessieren, ob und wie er Daten und die formal-syntaktische Ebene Informationen von Informationen voneinander abgrenzt. Schöne Grüße Jakob Voß -- Jakob Voß <jakob.voss@xxxxxx>, skype: nichtich Verbundzentrale des GBV (VZG) / Common Library Network Platz der Goettinger Sieben 1, 37073 Göttingen, Germany +49 (0)551 39-10242, http://www.gbv.de
-- http://www.inetbib.de