Open Science
Open science is the idea that scientific knowledge of all kinds should
be openly shared as early as is practical in the discovery process.
Michael Nielsen
Bei jedem Schritt des wissenschaftlichen Forschungsprozesses werden auf der Grundlage von Daten (induktiv) und Theorien (deduktiv) Entscheidungen getroffen. Im Sinne der intersubjektiven Nachvollziehbarkeit produzierter Ergebnisse reiht sich Reiseberichte karTRIERt in das Bekenntnis zu Open Science ein, das in den Digital Humanities weit verbreitet ist. Es fordert, wo immer möglich, eine offene Einsicht in sämtliche Schritte eines Forschungsprojektes.
Unter den Prinzipien „Open Data“, „Open Source“, „Open Access“" und „Open Educational Resources“ werden schon seit einigen Jahren Möglichkeiten zur dauerhaften, offenen Zugänglichkeit für die zentralen Schritte des Forschungsprozesses ausgehandelt (Open Science ASAP).
Für die Struktur dieses Projekts können die Bereiche Open Access und Open Educational Resources vernachlässigt werden. Nachfolgend werden zentrale Aspekte des Projekts im Kontext von Open Science verankert.
Open Data
Open data and content can be freely used, modified, and shared by
anyone for any purpose.
Open Knowledge Foundation
Reiseberichte karTRIERt ist ein datengetriebenenes Praxisprojekt. Der erste Schritt in Richtung “Open Data” ist daher Transparenz über den Ursprung und die Eigenschaften der Daten. Unter Travelogues wird daher explizit dargelegt, aus welcher Quelle und in welcher Form wir die Daten erhalten haben.
Weil die Daten jedoch alle öffentlich einsehbar sind, können sich Interessierte und Nachnutzende auch selbst ein Bild der Datengrundlage machen. Denn zu Open Data gehört auch der kostenlose und freie Zugang zu den verwendeten Daten: Große Teile der Volltexte des Travelogues-Korpus sind bereits Open Data, die Digitalisate (sprich auch: Faksimile oder Scans) sind über die Österreichische Nationalbibliothek als digitale Sammlung sogar vollständig einsehbar. Der Volltext von In 80 Tagen um die Welt (Jules Verne), der als Grundlage für die Texterschließung verwendet wurde, ist ebenfalls kostenlos verfügbar und zur Sicherheit zusätzlich im Projektrepository hinterlegt.
Alle Daten, sowohl in Rohform, als auch die Zwischenschritte und die endgültige Datengrundlage der Karte auf dieser Website sind offen über das Projektrepository zugänglich. Da sie in den offenen, nicht-proprietären Standarddateiformaten JSON und plain text (TXT) vorliegen, ist der Zugang darüber hinaus nicht an Lizenzen oder proprietäre Software gebunden.
Die Geonames Datenbank, die die Verbindung zwischen den erkannten Ortsnamen und ihren Koordinaten darstellt, ist ebenfalls Open Data, gut dokumentiert und über viele Webservices anzapfbar.
Kleine Projekte von Studierenden haben oft nicht die Mittel, um im großen Stil Digitalisate anfertigen zu lassen, oder selbst die Modelle zu trainieren, die für die Named Entity Recognition notwendig sind. Auch aus dem Recherchezeitraum in der Themenfindungsphase lässt sich nur der Appell für Open Data formulieren, inklusive präziser Beschreibung von Datensätzen. Ohne Open Data hätte dieses Projekt kaum stattfinden können. Wir konnten auf einer breiten Sammlung veröffentlichter Rohdaten und Datenstrukturen arbeiten, für die wir sehr dankbar sind.
Bei einem solchen Projekt, das bereits digital vorliegende Daten weiterverarbeitet, ist es unseres Erachtens nach aber umso wichtiger, im Open Data Universum zu arbeiten, weil hier die Möglichkeit der Reproduktion der vorgenommenen Schritte viel besser gegeben ist, als wenn unzählige Gänge ins Archiv notwendig wären, um die Datengrundlage zu überprüfen. Digitale Daten eignen sich auch besonders gut für experimentellere Bearbeitungen, weil Fachpublika viel leichter nachprüfen können, ob im Bearbeitungsprozess eine inhaltliche Verfremdung der Daten stattgefunden hat.
FAIR-Prinzipien
Offene Daten gehen oft mit den FAIR-Prinzipien einher, die die Maschinenlesbarkeit von Datensammlungen betonen. Obwohl Reiseberichte karTRIERt hier keine neue Datengrundlage erschlossen hat und sich in einem verhältnismäßig kleinen Rahmen bewegt, der für große wissenschaftliche Suchmaschinen nicht das größte Ziel darstellen dürfte, sei kurz darauf hingewiesen, weil auch hier kleine Beträge geleistet werden können.
(F)indable
Die Auffindbarkeit von Daten ist überwiegend für Suchmaschinen gedacht. Hierfür sind maschinenlesbare
Metadaten notwendig, die über volltextliche Beschreibungen in Katalogeinträgen hinausgehen. Während sich
auch das Travelogues-Projekt mit dieser Aufgabe
beschäftigt, haben auch wir darauf geachtet, die Metadaten in unser Repository zu überführen und
durch
Normdaten anzureichern, wo möglich (siehe als Beispiel
Jules Verne.)
Diese Website, aber auch das GitHub-Repository sind für die zentralen Schlagworte indiziert, sodass eine
menschliche Auffindbarkeit zumindest durch gängige Suchmaschinen unterstützt wird.
Zudem ist die Aufgabe der geografischen Korpuserschließung, die wir uns mit diesem Projekt gestellt haben,
auch im Kontext der besseren maschinellen Auffindbarkeit von Text zu denken. Wir extrahieren hier
Informationen aus Volltext, die – sollten sie auf einer größeren Skala anwendbar werden – für
geoinformatisch ausgestattete Suchmaschinen lesbar wären.
(A)ccessible
Für die Zugänglichkeit der Daten verlassen wir uns für dieses
Projekt auf die Infrastruktur von GitHub. Sie ist weit verbreitet, gut gepflegt und im Download recht
intuitiv.
(I)nteroperable
Für die Interoperabilität mit anderen Datensätzen setzen wir auf offene
Standards und Formate. Zudem verwenden wir persistene URLs zu Geonames, sodass die Georeferenzierungen hier
kompatibel sind und bleiben.
(R)e-Usable
Das Hauptziel von offenen Daten ist die offene Nachnutzung. Mit unserem
Datensatz ist das uneingeschränkt möglich. Allerdings ist es dafür notwendig, das GitHub-Repository zu
finden und zu verstehen. Wir haben uns auch aus eigenen Erfahrungen anstrengender Nachnutzungen bemüht, das
Repository gut zu dokumentieren, nichtsdestotrotz kann es hier zu Schwierigkeiten kommen.
Weiterlesen: Go Fair
Open Source
Der Baustein Open Source besteht laut openscienceASAP aus zwei Teilen: Erstens sollen wissenschaftliche Projekte quelloffene Technologien verwenden und zweitens die eigenen Technologien offen zur Verfügung stellen.
Reiseberichte karTRIERt verwendet für die Named Entity Recognition das quelloffene Natural Language Toolkit (NLTK) und das Natural Language Processing Framework flair. Im nächsten Schritt bei der Verknüpfung mit den Geoinformationen wird die quelloffene Geonames API geocoder eingesetzt. Die Technologien, mit denen die Koordinaten auf die Karte übertragen werden, sind ebenfalls quelloffen: die JavaScript Bibliothek leaflet projiziert auf eine OpenStreetMap.
Für das Hosting der Website greifen wir auf Github Pages und für das Design auf Bootstrap Templates zurück (daher der Copyright-Hinweis im Footer der Website) und nutzen dadurch „free“ Software statt „Open“ Source, doch auch diese Lösungen und insbesondere unsere Veränderungen daran sind in unserem Repository quelloffen einsehbar.
Die selbst entwickelten Sourcecodes, die überwiegend dafür sorgen, dass die Daten durch die verschiedenen Codeblöcke geleitet werden können, stehen offen zur Nachnutzung zur Verfügung. Sie können auf GitHub besonders leicht kopiert („geforkt“) und weiterverwendet werden.
Eine gründliche Dokumentation des GitHub-Repositories soll bei der Orientierung in unserem Workflow helfen. Zudem können wir als Projektteam sowie andere Nachnutzende leichter Bestandteile des Sourcecodes durch andere Technologien ersetzen, weil alles eingesehen werden kann.
Open Methodology/Open Process
Beim computergestützten Arbeiten an einem Projekt wie Reiseberichte karTRIERt hinterlässt jeder Arbeitsschritt digitale Spuren. Änderungen an Datensätzen, im Code oder in den erläuternden Textdokumenten werden gespeichert und lassen so die Einsicht früherer Versionen zu.
Unter dem Schlagwort „Open Process“, das wir als Projektgruppe selbst zu den vorangehenden Prinzipien ergänzen, verstehen wir sowohl die maschinelle als auch die textuelle Offenlegung und Reflexion unseres Arbeitens.
Die inhaltliche Beschreibung des Arbeitsprozesses kann in der Webseitenrubrik Über das Projekt eingesehen werden. Das ausführlich dokumentierte GitHub-Repository enthält Beschreibungen der technischen Abläufe. Außerdem haben wir uns dazu entschieden, teilweise Zwischenstufen der Daten und Sourcecodes im Repository einsehbar zu halten, damit Irrwege und Zwischenschritte nachvollzogen werden können.
GitHub ist eine Plattform zum kollaborativen Arbeiten, das auf dem Versionskontrollsystem git aufbaut. Bei der git-Versionierung werden Dokumente nicht überschrieben, sobald Änderungen gespeichert werden, sondern gewissermaßen als Kopien gestapelt, jeweils versehen mit einem Zeitstempel und dem Namen des Benutzers, der die Änderung durchgeführt hat. Diese Git Log-Dateien können maschinell ausgewertet werden, um den Prozess im Zeitverlauf zu analysieren, und stehen über GitHub jedem zur Verfügung.
Wir sind uns als studentisches Projekt um das Privileg bewusst, bei diesem Projekt keinen ökonomischen Zwängen unterlegen zu sein, sodass es ein Leichtes ist, unsere Arbeit frei zur Verfügung zu stellen. „We're standing on the shoulders of giants“ ist für unser Projekt, wie bei so vielen DH-Projekten, eine treffende Beschreibung, die wir dadurch wertschätzen wollen, dass wir auch unsere Arbeit zugänglich machen. Gleichzeitig ist uns bewusst, dass die veröffentlichten Daten und Sourcecodes wegen ihrer projektspezifischen Struktur trotz unserer Bemühungen nicht ohne weitere Anpassungen nachnutzbar sein werden.
Es ist uns dennoch ein Anliegen, explizit auch studentische Arbeit nach zwei Semestern Lernzeit zu zeigen. Dadurch wird sichtbar, wie viel in dieser Zeit gelernt werden konnte, aber auch, wie viel wir noch zu lernen haben.