Digital Humanities
Computergestützte Methoden und klassische geisteswissenschaftliche Gegenstände
Was macht ein DH-Projekt aus? Woran kann man die besondere Herangehensweise von Digital Humanities an Gegenstände geisteswissenschaftlicher Forschung erkennen? Welche Methoden und Techniken machen Reiseberichte karTRIERt zu einem Projekt der Digital Humanities?
Einleitung
Das interdisziplinär ausgerichtete Fach Digital Humanities (digitale
Geisteswissenschaften) umfasst die
systematische Nutzung computergestützter Verfahren und digitaler Ressourcen in den
Geistes- und
Kulturwissenschaften sowie die Reflexion über deren Anwendung.
Wikipedia 2023
Obwohl sich diese Fachbeschreibung leichtfertig liest, steckt in der Vokabel der „systematischen Computernutzung“ ein großer Bruch mit vielen zeitgenössischen geistes- und kulturwissenschaftlichen Forschungen, die die analytische, menschliche Nähe zum Gegenstand als Kern- und Ausgangspunkt wissenschaftlicher Arbeit voraussetzen. DH-Projekte sehen sich häufig vor die Aufgabe gestellt, ihr Vorgehen auf eine Art und Weise zu erläutern, die eine Brücke zwischen geisteswissenschaftlichen und informatischen Ansprüchen schlägt, um so beide Seiten in einen fruchtbaren Diskurs bringen zu können.
Nachfolgend werden daher einige Aspekte erläutert, die Reiseberichte karTRIERT als typisches Projekt der Digital Humanities auszeichnen und Vorteile, aber auch Grenzen computergestützter Arbeit in den Geistes- und Kulturwissenschaften aufzeigen.
Computergestützte Verfahren
Distant Reading und Spatial Footprint als Techniken zur Korpuserschließung
Bibliotheken vergeben für Bücher häufig thematische Schlagwörter wie „Medizin“ oder „Politik“, die bei der Suche nach geeigneter Literatur verwendet werden können. Die manuelle Vergabe von passenden Schlagwörtern bei der Erfassung von Büchern in den Bibliotheksbestand ist ein zentraler Weg, Bücher auffindbar zu machen, wenn der Titel selbst nicht aussagekräftig genug ist. Doch besonders bei großen und alten Bibliotheken kann es schwierig sein, alle Suchinteressen der Zukunft über die Jahrhunderte hinweg einheitlich vorherzusagen. Bücher, die früher mit „Politik“ ausgezeichnet wurden, würde man heute vielleicht eher dem Bereich „Philosophie“ zuordnen.
Um notwendige Aktualisierungen in der Erschließung durchzuführen, müsste man nun jedes Buch erneut in die Hand nehmen und kontrollieren, ob die Verschlagwortung noch stimmt - unmöglich bei großen Mengen an Literatur. Hier kann Distant Reading dabei helfen, im großen Stil Korrekturen durchzuführen und Korpora neu zu erschließen.
Beispielsweise konnte das Forschungsprojekt Travelogues (2016-2021) aus dem digitalisierten Gesamtbestand der Österreichischen Nationalbibliothek KI-gestützt 3.500 Texte als Reiseberichte klassifizieren. Dies geschah mit einem Algorithmus, der auf von den Forscher:innen ausgewählten Reiseberichten basiert, welche nach nach systematischen, wissenschaftlichen Kriterien ausgewählt wurden. Dieser Algorithmus wurde anschließend auf den Gesamtbestand der Texte angewandt und erstellte so einen neuen Textkorpus aus Reiseberichten, von denen vorher viele im Bibliothekskatalog nicht als Reiseberichte gelistet waren.
Diese Vorgehensweise bezeichnet man als Distant Reading: „[D]er Zugang zu großen Textsammlungen über statistische Aussagen über die Texte in der Sammlung insgesamt (der durch die intensive Lektüre von Einzeltexten ergänzt werden kann, aber nicht muss)“ [1]. Sie ist selbstverständlich nicht so präzise wie manuelle Zuordnungen in ihren Aussagen über Einzeltexte, kann aber Muster von Textsammlungen sichtbar machen und – gerade im Fall von Texterschließungen als Suchhilfe – große Anzahlen von Texten greifbar machen.
Geographic Information Retrieval
The space-time backgrounds created by this combination of cybernetic systems of software languages
produce
a "qualculative" world in which calculation is defined as not necessarily being precise and
super-computing
technologies, qualitative choices, and ambiguity empower users to explore place and write
space in different
way, both literal and metaphorically. In this new world, GIS can be configured for use beyond positivistic
endeavours and applied with innovation and imagination to the terrae incognitae of the humanities.
[2, S. 5]
Was aber, wenn man auf der Suche nach Literatur über eine geografische Region oder einen bestimmten Ort ist? Dann sind Erschließungwege notwendig, die Barbara Piatti (2008) [3] als Literaturgeografie bezeichnet, denn man braucht maschinenlesbare Informationen darüber, wo ein Text stattfindet.
Ein mögliches Nutzungsszenario solcher Erschließungswege und damit auch dieser Website ist folgendes: Jemand möchte über einen bestimmten Ort recherchieren und schreiben. Wenn der Name des Ortes nicht im Titel oder in den Metadaten von Texten aufgeführt wird, kann man nur auf Umwegen an eben jene Texte gelangen. Man findet beispielsweise die von der ÖNB zusammengestellte Sammlung von Reiseberichten und arbeitet sie Stück für Stück durch, um herauszufinden, ob der gesuchte Ort erwähnt wird. Oder man erinnert sich daran, dass Phileas Fogg und Passepartout in Jules Vernes In 80 Tagen um die Welt an diesen Ort reisen und dass man in diesem Text ein Zitat suchen und es für die Einleitung verwenden könnte.
Mit solchen Forschungsfragen, nämlich Suchanfragen mit geografischer Komponente, befasst sich das Geographic Information Retrieval. Dieses Forschungsgebiet befasst sich damit, wie auf solche Anfragen die besten Antworten geliefert werden können und wie die Antworten am besten aufbereitet werden müssen, um gut verstanden zu werden. „[Geographic Information Retrieval] is based on computing a query spatial footprint to the footprints of objects in a collection and identifying the objects with matching footprints. A match is usually not exact but rather a match based on some degree of overlap of the footprints of the query and the object – that is, matching areas have some area in common.“ [4, S. 186] Es gilt also, den Orten, die in den Texten erwähnt werden, die Koordinaten einer geometrischen Fläche zuzuweisen, die dann auf räumliche Nähe und Überschneidungen geprüft werden können.
Auch bei geographischen Informationen kann zwischen close reading und distant reading unterschieden werden. Beispiele für close reading von Reiseberichten können Digitale Editionen sein, ein Beispiel für computergestütztes close reading der geografischen Dimensionen von Jules Verne Romanen [5] gibt es ebenfalls bereits. Bei einer geografischen Erschließung eines Textes in hoher menschlicher Nähe zum Analysegegenstand können Computertechnologien höchstens assistierende Rollen übernehmen. Sobald es aber darum geht, größere Datenmengen mit komplexeren Algorithmen zu verarbeiten, bieten sich stärker computergestützte Verfahren an, weil sie gut mit leicht veränderten Parametern wiederholt werden können, was bei der Komplexität der Aufgabe, textliche Ortserwähnungen auf Koordinaten abzubilden, dringend notwendig ist.
Karten sind dabei leicht erschließbare visuelle Medien, die vielen Interessierten – unabhängig von ihrem fachlichen Hintergrund – Informationen vermitteln können. Sie erfordern aber zugleich eine Datenlage und -präzision, die bei literarischen Texten oft nicht gegeben ist [5].
Wir arbeiten bei Reiseberichte karTRIERt bereits auf einer vielfach maschinell vorbereiteten Grundlage. Das hat den Vorteil, dass es uns aus Trier ohne Weiteres möglich ist, an Texten der ÖNB zu sitzen und erschließt Texte, die für Fragestellungen nicht-paläografie-erfahrener Geisteswissenschaften.
Digitale Ressourcen
OCR vs. manuelle Texterfassung
Digitalisat ist nicht gleich Digitalisat. Bei der Gegenüberstellung von Scan, OCR-Volltext und der manuellen Transkription derselben Stelle ist direkt ersichtlich, dass für Menschen mit genügend Fachwissen die Kerninformation zwar digitalisiert wurde, sie für den Computer doch in völlig unterschiedlich informationsarmer bzw. -reicher Form vorliegt. Im Abschnitt Legacy featuring Forschungsdaten des Travelogues-Kapitels werden die Herausforderungen von computergestützter Texterkennung detailliert sowohl auf konzeptueller Ebene als auch in ihrer Projektspezifizität erläutert. Auch hier zeichnet sich ab, dass Teile der Nachbereitung von computergestützter Texterkennung maschinell durchgeführt werden können, wenn zuvor mit sachkundigem und Common Sense-Auge musterhafte Fehlerquellen entdeckt wurden. Allerdings kann trotzdem nur eine Näherung an den geschriebenen Text erreicht werden. Wer eine lupenreine Textvorlage wünscht, wird nicht vermeiden können, das OCR-Ergebnis (wie jede andere manuelle Abschrift auch) Korrektur zu lesen.
Interessant ist vor diesem Hintergrund die Verwendung des Romans In 80 Tagen um die Welt, für die wir uns explizit als Korrektiv der Travelogues-Pipeline entschieden haben. Während die Travelogues auf Grund des Korpusumfangs im OCR-Verfahren digitalisiert wurden, liegt der Roman von einem Verlag redigiert und manuell abgetippt vor. Hiermit umgeht man in der Weiterverarbeitung sämtliche Erkennungsfehler der OCR-Software und kann die nachfolgenden Analyseschritte auf einem idealen, „perfekten“ Text testen. Wichtig ist darüber hinaus trotzdem eine verhältnismäßig große Vergleichbarkeit zwischen diesen beiden Textgrundlagen. Der Roman wurde in seiner deutschen Übersetzung aus einem ähnlichen Zeitraum ausgewählt, sodass sich das Sprachbild ähnelt. Er enthält viele präzise Ortsangaben in einigermaßen linearer Form und trotzdem genug erzählerische Freiheit, dass er kein Logbuch einer Reise darstellt. Das entwickelte Clustering-Verfahren lässt sich also prinzipiell anwenden. Zudem besteht eine Art “Ground Truth” des Ergebnisses, weil es bereits Karten mit eingezeichneten Reiserouten gibt, mit denen unser Ergebnis verglichen werden kann.
Eine geisteswissenschaftliche Grundhaltung kann hier große Vorteile mit sich bringen: Nimmt man Daten immer als Artefakte an, so können solche leicht veränderten Fälle der Exploration von Verfahren halber ausprobiert und das Ergebnis kritisch betrachtet werden. Es ist nicht sinnvoll, ohne eine tiefgehende literaturwissenschaftliche Erläuterung die geografische Streuung eines populären Romans mit der von privaten Reiseberichten zu vergleichen. Aussagen wie „Die Streuung ist größer…“ sind hier nicht besonders interessant. Vielmehr geht es darum, unterschiedliche Grundlagen auf einer Informationsebene zusammenzuführen und zu visualisieren, um von dieser ausgehend weitere Fragestellungen zu provozieren.
Das Problem historischer Texte: NER und GeoNames
Stellt man die oben bereits begonnene Gegenüberstellung von digitalen Zuständen derselben Information neben die Ergebnisse der Named Entity Recognition und der Geolokalisation, wird so die volle Bandbreite einer vermeintlich einfachen Erschließungsarbeit deutlich.
Obwohl sich bei der Anwendung der Named Entity Recognition auf den Jules Verne-Roman zeigte, dass das Training auf ähnlichen historischen Sprachbildern zu sehr guten Ergebnissen in der Erkennung von Ortsbezeichnungen im Text führte, ist damit nur der erste in einer Kette von halbautomatisierten Arbeitsschritten getan.
Betrachtet man die Datenverteilung in GeoNames, mit der diese Ortbezeichnungen zusammengeführt werden sollen, ist bereits auffällig, dass auch eine so große, gut genutzte Datensammlung wie GeoNames ihre dunklen Flecken hat. Eine Analyse von GeoNames der Universität Oxford (2013) bezeichnet die Auswirkung solcher sog. Gazetteers als das „Zeichnen selektiver geografischer Bilder“. Es wäre aus fachwissenschaftlicher Perspektive interessant, die Informationsselektion bei der Erstellung solcher Datenbanken mit dem selektiven Erzählen von Ortsnamen in Reiseberichten analytisch zusammenzubringen, von der Dissonanz zwischen diskreten Koordinaten und referenzierten Imaginativen ganz zu schweigen. Für die Erschließung des Travelogues-Korpus bedeutet es jedoch lediglich, dass eine weitere Unschärfe der Daten hingenommen werden muss.
GeoNames ist zudem nicht auf historische Bezeichnungen von Ortsnamen in verschiedenen Sprachen spezialisiert. Der Abgleich zwischen den erkannten Zeichenketten und den hinterlegten Bezeichnungen für Orte in GeoNames ist eine erneute Unschärfe, die wir im Projekt durch manuelle Korrektur ausgeglichen haben.
Der Blick aus Digital Humanities-Sicht richtet sich in dieser Reflexion auf die Infrastrukturen, statt auf die einzelnen Datenpunkte: Während GeoNames durch die persistenten URLs bereits klar referenzierbare Normdaten produziert, sind sie semantisch für unsere Zwecke problematisch, weil eine große Mehrdeutigkeit bleibt. Es bedarf historischen Fachwissens und Kontextkompetenz im konkreten Text, um zu entscheiden, welche Orte durch eine Zeichenkette gemeint sind. Computergestützte Lösungen sind die Verwendung von kontrollierten Spatial Vocabularies (z.B. Getty Thesaurus of Geographic Names® Online) oder graphbasierte Datensätzen (z.B. FactGrid), durch die die Informationen von GeoNames und aus dem Text ergänzt werden können.
Auch denkbar wäre die Ergänzung von Kollokationen der Ortsbezeichnungen im Text, um die Hierarchie der Suchergebnisse in GeoNames zu durchbrechen. Wenn eine Textstelle bereits mehrere deutlich identifizierte Orte in Österreich beinhaltet, ist es wahrscheinlicher, dass ein ambiger Ort sich ebenfalls in Österreich befindet als in Chile. Wenn eine Textstelle mehrere kleine Orte in Sachsen oder eine Auflistung von Bundesländern beinhaltet, ist es wahrscheinlicher, dass ein ambiger Ort ebenfalls in diese Kategorie gehört.
Es ist in der praktischen Arbeit ernüchternd, wie viele Probleme trotz dieser großen und alten digitalen Datenmengen bei der Analyse historischer, nicht-urbaner Daten noch bestehen. Zur Diskussion stellt sich aber die Frage, ob solche quantitativen Herangehensweisen unterlassen werden müssen, wenn die Datengrundlage schwierig ist, oder ob sie, in den richtigen Kontext gesetzt, auf die Lücken in unseren Informationssystemen hinweisen können.
Manche der Probleme, die in den vergangenen Absätzen geschildert wurden, sind charakteristisch für die Arbeit mit historischen Texten, mit geografischen Informationen. Andere sind typisch für die Anwendung von Machine Learning-Algorithmen. Ein Vorteil, der durch detailliertes Lesen einzelner Texte nicht wettgemacht werden kann, ist die Nachvollziehbarkeit der Bearbeitung bei gleichzeitiger Geschwindigkeit. Wir haben in den Monaten der Projektlaufzeit Routinen entwickelt und erprobt, die zwar nicht unendlich, aber doch signifikant skalierbar sind. Mit einer Optimierung einzelner Arbeitsschritte (insb. der Geolokalisation der Named Entities und ihrer Disambiguierung) könnte das manuelle Postprocessing auf Stichprobengröße verringert werden. Dann wäre es auch denkbar, sich erneut dem Korpus aller Travelogues-Texte des 18. Jahrhunderts zu widmen.
Zusammenfassung: Einschränkungen und mögliche Anschlussforschung
- Der Workflow, den wir entwickelt haben, stützt sich ausschließlich auf Texterwähnungen von Orten. Er kennt keine Möglichkeit, semantisch zwischen erwähnten und handlungstragenden Orte zu unterscheiden. Die Argumentation dahinter ist einerseits die Filterung durch das Clustering-Verfahren und andererseits die relative Relevanz von erwähnten Orten, selbst wenn sich keine Figur im Text dorthin bewegt. Unser Verfahren zeigt nur, welche Orte im Text erwähnt werden. Wie und warum sie erwähnt werden, kann erst die eigentliche Antwort auf die Fragestellung liefern, die bereits vom Travelogues-Projekt angeschnitten wurde: Die Frage nach Wahrnehmungen des Anderen, der bereisten Orte.
- Eine mögliche, computergestützte Anschlussforschung mit den Travelogues könnte es sein, „Perceptions of the Other“ als Sentiment Analysis der extrahierten Textstellen mit den Ortsbezeichnungen durchzuführen.
- In Reiseerinnerungen wie in Literatur gilt: Orte sind oft begleitet von einer spatial uncertainty: „They are usually described as having fragmentary existence and indefinite boundaries“ [6, S.69]. Diese Ungenauigkeit muss für eine computergestützte Bearbeitung gebrochen und auf diskrete Datenpunkte fixiert werden. Daraus können sich interessante neue Fragestellungen ableiten, zugleich ist es aber auch ein großer Eingriff in die Erzählstruktur der Texte. Hier wäre eine theoretische Reflexion interessant, die die Aussagekraft unserer Daten dekonstruieren könnte.
- In ihrer aktuellen Form gibt die Karte keine Reiserouten wieder, es fehlt die temporale Komponente, um Bewegungen zu rekonstruieren. Wir haben im Verlauf des Projektes verschiedene Möglichkeiten der Umsetzungen diskutiert und die Einbindung der relativen Position von Ortsbezeichnungen im Textverlauf als die interessanteste bewertet. Die Datengrundlage liegt dafür bereits vor, weil die Satznummern im Text berücksichtigt werden, die Visualisierung auf der Karte steht noch aus.
- Durch eine Verbesserung des Clusterings mittels Kollokationen und semantischen Technologien könnte eine größere inhaltliche Aggregation der Daten erreicht werden. Damit würde man sich weit in die fachwissenschaftlichen Auseinandersetzungen mit Texten dieser Art einmischen, gleichzeitig könnte so eine direkte Vergleichbarkeit von computergestützten und fachwissenschaftlichen Herangehensweisen geschaffen werden. Auf dem aktuellen Stand zum Ende der Projektphase ist der Workflow nur für die geographische Erschließung, nicht jedoch für die tatsächliche Analyse des Korpus geeignet.
Bibliographie
[1] M. Thaller, „Digital Humanities als Wissenschaft“, in Digital Humanities: Eine Einführung, F. Jannidis,
H. Kohle, und M. Rehbein, Hrsg. Stuttgart: J.B. Metzler, 2017, S. 13–18. doi: 10.1007/978-3-476-05446-3_2
[2] C. Travis, Abstract machine: humanities GIS, First edition. Redlands, California: Esri Pres, 2015.
[3] B. Piatti, Die Geographie der Literatur: Schauplätze, Handlungsräume, Raumphantasien, 2. Aufl.
Göttingen: Wallstein-Verl., 2009. [Online]. Verfügbar unter: https://d-nb.info/988573474
[4] L. L. Hill, Georeferencing: the geographic associations of information. Cambridge, Mass: MIT Press,
2006.
[5] R. Skapaitė, „Mapping of travel routes in Jules Verne's novels“, Bd. 21, S. 69–76, Apr. 2018.