Forschungsdaten in den Area Histories: der Fachinformationsdienst Asien und die NFDI4Memory

By
Duncan Paterson, Staatsbibliothek zu Berlin

Ob bei der Arbeit im Archiv, bei der Feldforschung oder bei der Nutzung von Datenbanken – Forschungsdaten spielen eine zentrale Rolle in jedem Forschungsvorhaben. Im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) entsteht derzeit eine Dateninfrastruktur für die deutsche Wissenschaft. Das Konsortium NFDI4Memory ist dabei für die historisch orientierten Disziplinen zuständig und arbeitet etwa zu Datenqualität, Metadatenstandards oder Datenverlinkung, es möchte aber auch die historische Quellenkritik ins digitale Zeitalter übersetzen und eine neue Datenkultur fördern. Das Research Centre Global Dynamics der Universität Leipzig widmet sich dabei den Besonderheiten, die sich für das Forschungsdatenmanagement in den Area Histories ergeben, und diskutiert die rechtlichen, ethischen und technischen Dimensionen, die zu berücksichtigen sind, wenn Wissenschaftler und Wissenschaftlerinnen in oder zu anderen Ländern und Weltregionen forschen und dort Daten für ihre Forschung erheben oder nutzen. Ein Workshop im Frühjahr 2024 brachte Vertreter und Vertreterinnen der areabezogenen Fachinformationsdienste sowie der NFDI4Memory zusammen, um die spezifischen Bedarfe der Area Histories herauszuarbeiten sowie die Zusammenarbeit und jeweiligen Zuständigkeitsbereiche von NFDI und FID zu diskutieren. Diese Artikelserie hält die zentralen Erkenntnisse dieses Gesprächs fest und wird zunächst die Arbeit der Fachinformationsdienste auf dem Gebiet der Forschungsdaten in den Fokus nehmen. In diesem Artikel stellt der FID Asien seine Arbeit und Angebote im Bereich der Forschungsdaten vor.

Der Fachinformationsdienst Asien (FID Asien) bietet einen spezialisierten Informationsservice für die asienbezogenen Wissenschaften, von Philologien bis zu Area Studies. Seit 2016 unterstützt er die Weiterentwicklung des CrossAsia-Portals1, das Zugang zu Fachinformationen aus den Geistes- und Sozialwissenschaften aus und über Asien bietet. Der Fokus liegt auf den chinesischsprachigen Regionen, Japan, Korea, Zentralasien und Teilen Südostasiens. Hauptaufgaben sind Literatur- und Informationsversorgung, Daten- und Zugangsmanagement, Unterstützung bei Forschungsdaten und Wissenschaftskommunikation. Die Staatsbibliothek zu Berlin betreibt den FID Asien und trägt maßgeblich zur Entwicklung des CrossAsia-Portals bei.

1 Tätigkeiten mit Bezug zu Datenmanagement

Die Datenaktivitäten des FID gliedern sich in zwei Hauptbereiche:

1. Klassische bibliothekarische Arbeit mit Metadaten, einschließlich der Erschließung erworbener Medien und sprachredaktioneller Arbeit an GND-Normdaten.

2. Verschiedene Datenservices des CrossAsia Labs zur Unterstützung der Forschenden bei der Arbeit mit Daten.2

1.1 Metadaten

Der FID Asien unterstützt Forschende beim Umgang mit den vielfältigen Schriftsystemen Asiens, was besonders bei Originalquellen wichtig ist. Diese Expertise ist für eine genaue und authentische Forschung in den Asienwissenschaften unerlässlich. Multilinguale Metadaten und Mehrschriftlichkeit sind daher essenziell für die Nutzbarkeit der Angebote. Technische Fragen zu nicht-lateinischen Schriften sind für den FID Asien besonders relevant.3 Die Fachcommunity hat hohe Erwartungen an den Umgang mit originalsprachigen Inhalten. Fehlende Such- oder Sortierbarkeit resultieren oft aus technischer Voreingenommenheit gegenüber nicht-lateinischen Schriften. Für die Entwicklungen der NFDI4Memory wünschen wir den bewussten Einsatz von Architekturen, die Mehrsprachigkeit und Mehrschriftlichkeit von Anfang an berücksichtigen.

Konzeptionell müssen wir zwischen dem eurozentrischen Ansatz der nationalen Normdaten und den Fachbedürfnissen unserer Nutzer/innen vermitteln. Wir arbeiten aktiv an der Weiterentwicklung von Regelwerken, die den Umgang mit originalsprachlichen Begriffen als Sachschlagworte erleichtern. Oft sind deutsche Übersetzungen von Fachtermini, wie „Sinkiang“ statt „Xinjiang“, veraltet und unverständlich. Eurozentrismus zeigt sich auch in der Diskrepanz zwischen der Anzahl christlicher theologischer Basisklassifikationen und anderen Religionen sowie in der Behandlung literarischer Perioden im Vergleich zwischen europäischer und asiatischer Literaturgeschichte. Die Arbeit an diesen Problemen ermöglicht uns, die Dekolonialisierung der Wissensorganisation voranzutreiben.

Da dem FID mehrere nationale Normdaten-Institutionen aus den betreuten Regionen gegenüberstehen, ist eine eindeutige Zuordnung zu lokalen Ontologien unter Umständen politisch brisant. Es besteht die Gefahr, durch die Anwendung z.B. der Bezeichnung ethnischer Gruppen oder durch die regionale Zuordnung historischer Ereignisse nicht-europäische imperialistische Narrative zu verfestigen. Die Erfahrung aus unseren Beratungen zum Umgang mit Forschungsdaten zeigt zumindest eine erhöhte Sensibilität im Umgang mit beispielsweise Archivdokumenten aus Taiwan während der japanischen Besatzungszeit, welcher die sogenannten CARE-Prinzipien berücksichtigt.4 Die NFDI4Memory kann hier eine Plattform für Lösungsansätze zum Umgang mit dem Eigenen und dem „Kolonialismus der Anderen“ im Kontext von Normdaten bieten. Ein sorgsamer Umgang mit den inhärenten Vorurteilen von Ontologien bedarf fachlicher Expertise über die regionalen Grenzen der FID hinaus.

1.2 Forschungsdaten

Die Haupttätigkeit des FID liegt in der klassischen Literaturversorgung mit physischen und elektronischen Medien. Trotz der unterschiedlichen Erwerbungsmöglichkeiten und der variierenden Verbreitung von Open Access in den nationalen Märkten5 verfügt der FID außerhalb Ostasiens wahrscheinlich über die größte Sammlung asienbezogener Daten weltweit.6 Grundlage ist der Standardlizenzvertrag, der erweiterte Text- und Data-Mining-Rechte (TDM) sowie lokale Archiv- und Hostingrechte vorsieht.7 Neben der Literaturversorgung gewinnt der Zugang zu elektronischen Medien zunehmend an Bedeutung. Der Fokus der Datenservices liegt auf der Arbeit mit diesen Daten. Die Angebote lassen sich in vier Themenfelder unterteilen:

1. Volltextarchiv,
2. Forschungsdaten und Open Access,
3. Schnittstellen und On-Demand-Services.
4. Eigene Sammlung und Digitalisierung

1.2.1 Integrated Text Repository

Seit 2017 werden alle vom FID erworbenen oder lizenzierten digitalen Inhalte lokal in einem Fedora-Repositorium, dem Integrated Text Repository (ITR), archiviert. Zu den erweiterten Datenservices, die auf dem ITR aufbauen, zählen die CrossAsia Volltextsuche8, der CrossAsia ITR Explorer9 und der CrossAsia ITR Newspaper Explorer.10 Diese Services bieten offene Suchmöglichkeiten unabhängig von Anbieterplattformen. Ergebnisse werden mit einem Link zur Plattform des Anbieters und einem direkten Link für registrierte FID-Nutzer/innen gekennzeichnet. Für die Nutzung ist keine Registrierung notwendig; lizenzbehaftete Volltextdaten werden lediglich als Snippets dargestellt.
Das ITR ermöglicht auch die Publikation und nachhaltige Sicherung von Daten aus externen Projekten über ein einheitliches Suchinterface bei CrossAsia. Dadurch können Daten aus Forschungsprojekten, die nach der Förderperiode nicht als Open Data veröffentlicht werden können, archiviert werden.11 Zudem arbeitet CrossAsia daran, durch Kollaborationen mit anderen Bibliotheken und Institutionen die Inhalte des ITR auszubauen.

1.2.2 Open Access Repository

Das CrossAsia Open Access Repository dient als zentrale Plattform für Open-Access- und Forschungsdatenpublikationen.12 Das von der DFG ausgewiesene Fachrepositorium wird durch die VZG betrieben und basiert auf MyCoRe.13 Der Schwerpunkt liegt auf offenen Publikationen, die zitierfähig (DOI, URN) veröffentlicht und direkt heruntergeladen werden können. Die Katalogisierung der Inhalte erfolgt hauptsächlich im Repositorium selbst mit anschließendem automatisiertem Export in die gemeinsame Datenbank K10Plus.14

Seit Sommer 2023 nimmt das Repositorium auch Forschungsdaten auf. Daher gibt es derzeit noch offene Fragen zu mehrsprachigen Metadaten oder Detailfragen der Katalogisierungsrichtlinien für Forschungsdaten. Durch die Zusammenarbeit mit GBV / VZG sollen die Ergebnisse der Arbeiten idealerweise allen Partnern im Verbund zugänglich gemacht werden. Das CrossAsia Open Access Repository versteht sich als niederschwelliges Angebot im Kontext der Asienwissenschaften. Spezifische Anforderungen, z.B. im Umgang mit sozialwissenschaftlichen Erhebungen, könnten die Veröffentlichung in einem anderen Repositorium nahelegen. Die NFDI insgesamt kann hier helfen, die formalen und inhaltlichen Schwerpunkte der verschiedenen Lösungen hervorzuheben und zwischen Forschung und Repositorien zu vermitteln.

Zu Fragen des Forschungsdatenmanagements, dem Umgang mit FAIR- und CARE-Prinzipien oder dem Verfassen von Datenmanagementplänen bietet CrossAsia Beratungsservices an.15 Diese Services stehen unabhängig von der gewählten Publikationsplattform zur Verfügung. Ein Austausch mit anderen Beratungsstellen über die NFDI könnte die Qualität aller Angebote verbessern.

1.2.3 Schnittstellen

Um den Bestand des FID für maschinelle Abfragen zugänglich zu machen, bietet die CrossAsia-Suche eine HTTP-basierte Schnittstelle zur Abfrage bibliographische Daten (SRU) xA2XML an.16 Zusätzlich bieten wir einen On-Demand-N-Gram-Service auf Grundlage des ITR an.17 Nutzer/innen wählen den für sie relevanten Corpus und erhalten die gewünschten N-Gram-Daten, die für linguistische Forschungsarbeiten interessant sind. Wir nutzen die Daten selbst in Kollaborationen, um beispielsweise OCR-Verfahren zu verbessern.18 Bei Anfragen nach alternativen Text-Mining-Derivaten wie TOPICS vermitteln wir zwischen Forschung und Anbietern. Dabei gibt es regelmäßig Diskrepanzen zwischen den lizenzvertraglichen TDM-Rechten und den praktischen Möglichkeiten. Ein vielversprechender Ansatz, um Daten und Forschungspraxis enger zusammenzubringen, ist das Compute-to-Data-Konzept (CtD), das wir 2023 mit einem Proof of Concept auf Basis von Gaia-X19 erfolgreich getestet haben.20 Dieser Ansatz bringt nicht die Daten zur Analyse, sondern setzt darauf, dass computergestützte Analyseverfahren innerhalb des geschützten Datenraums stattfinden und lediglich die Ergebnisse heruntergeladen werden. CtD ermöglicht Forschenden, Forschungsergebnisse, die auf urheberrechtlich geschützten oder sensiblen Daten basieren, sicher und rechtskonform in die wissenschaftliche Gemeinschaft einzubringen.

Nächste Schritte zur Demonitarisierung des Prototyps im Sinne der freien wissenschaftlichen Nutzung sind in Arbeit.21 Mittelfristig bieten CtD-Ansätze eine Lösung, um Forschenden direkten Zugang zu Ergebnissen auf Basis lizenzbehafteter (oder freier) Daten zu ermöglichen und die Notwendigkeit manueller Bearbeitung von Anfragen zu minimieren. Eine solche Lösung könnte auch für die NFDI4Memory von Interesse sein. Die dezentrale Struktur des europäischen Gaia-X-Netzwerks ermöglicht es, dass Forschungsgruppen eigene Rechenressourcen nutzen, was die Anforderungen an die technische Infrastruktur des FID in Grenzen hält. Insbesondere bei der Vermittlung und Dokumentation einer Gaia-X-basierten Forschungsumgebung für die historisch arbeitenden Wissenschaften wäre eine enge Zusammenarbeit mit dem NFDI4Memory-Konsortium erstrebenswert.

1.2.4 Digitalisierung

Durch traditionelle bibliothekarische Tätigkeiten wie die Pflege seltener Bestände, Digitalisierung und technische Eigenentwicklungen unterstützen wir sowohl datenzentrierte als auch klassische Forschungsarbeit. Über die digitalen Sammlungen von CrossAsia22 und der Staatsbibliothek zu Berlin 23 werden Digitalisate unserer Sammlungen als Public-Domain-Daten im IIIF-Bildstandard angeboten.24CrossAsia DoD ist ein kostenfreier Digitalisierungsservice für gemeinfreie oder vergriffene Titel mit Asienbezug.25 Zudem entwickeln wir fachspezifische Tools, beispielsweise für die Arbeit mit unterschiedlichen Transliterationen.26 Die Bedeutung von GitHub als Kollaborationsplattform und zur Publikation eigener Entwicklungen wird weiter zunehmen. Wir verstehen uns daher als aktiver Teil der Open-Source-Strategie der Staatsbibliothek.27

Insgesamt zeigt sich, dass die wachsende Bedeutung datenzentrierter Arbeitsweisen in der Forschung neue Anforderungen an die Tätigkeitsfelder des FID Asien stellt, ohne die klassischen Aufgaben zu ersetzen.

2 Zusammenarbeit mit der NFDI4Memory

Für den quellenkritischen Umgang mit digitalen Daten in den Asienwissenschaften sind gesicherte Zugangsformen28 wie das ITR sowie hochwertige multilinguale Metadaten unerlässlich. Während Erwerbung und Lizenzierung weiterhin zu den Kernaufgaben des FID zählen, bietet die NFDI4Memory eine Plattform für den Austausch und die Erarbeitung gemeinsamer Standards und Best Practices. Das Konsortium kann eine aktive Rolle bei der Dekolonialisierung von Wissensinfrastrukturen übernehmen und die Erfahrungen und Lösungen der verschiedenen Akteure bündeln. Im Gegenzug kann 4Memory auf die Expertise des FID im Umgang mit dem „Kolonialismus der Anderen“ aufbauen. Darüber hinaus bietet 4Memory ein breites Netzwerk für den Austausch zu Fragen der Forschungsethik bei der Behandlung von Forschungsdaten. Um diese Kompetenz für Forschende spürbar zu machen, sollten Beratungsangebote, Schulungen, Handreichungen oder ähnliches nach dem Train-the-trainer-Prinzip ausgebaut werden, wobei die Beratungsservices von Universitäten und FID weiterhin die Rolle des ersten Ansprechpartners beibehalten.

Rechtliche Fragen zum grenzüberschreitenden Austausch von Forschungsdaten spielen eine besondere Rolle. Forschungsdaten sind in der Gesetzgebung zu internationalen Datenabkommen oft ein Sonderfall. Für viele Regionen Asiens bestehen überhaupt keine Abkommen. Die NFDI4Memory könnte hier zwischen dem Fachpublikum des FID Asien und vorhandenem juristischen Expertenwissen vermitteln und auf der politischen Ebene auf das Problem der fehlenden Rahmenbedingungen aufmerksam machen.

Für die Anbindung an einen gemeinsamen Datenraum bietet der FID Asien vielfältige Anknüpfungspunkte. Die CrossAsia-Volltextsuche kann durch das Einbinden externer Indizes unkompliziert erweitert oder in einen erweiterten Suchraum integriert werden. Sollte die NFDI4Memory ebenfalls an CtD-Lösungen arbeiten, sind Synergieeffekte mit dem Gaia-X-Prototypen denkbar. Aufgrund der frühen Entwicklungsphase der NFDI4Memory liegen derzeit noch keine konkreten Anforderungen für derartige Integrationen vor, aber es ist zu erwarten, dass sich das im Zuge der weiteren Entwicklung ändert.

Letztlich haben sowohl NFDI als auch FID teilweise überschneidende Aufgaben bei der Wissenskommunikation. Während die Angebote des NFDI insgesamt eine Bereicherung darstellen, ist es für Rückschlüsse auf die langfristige Balance zwischen fachspezifischen Angeboten des FID und fächerübergreifenden Formaten einzelner NFDI zu früh. Eine engere Verzahnung, bei der Themen aus der Sicht von NFDI oder FID vor dem jeweils anderen Publikum vorgetragen werden, ist denkbar.

Anmerkungen:
1 CrossAsia, ‘CrossAsia - Home’, CrossAsia, <https://crossasia.org/> (05.01.2025).
2 CrossAsia, ‘CrossAsia - CrossAsia Lab’, CrossAsia, <https://crossasia.org/service/crossasia-lab/> (05.01.2025).
3 ‘Mehrsprachige Digital Humanities - Mehrsprachige Digital Humanities’, <https://multilingualdh.org/de/> (05.01.2025).
4 CARE Principles for Indigenous Data Governance, <https://www.gida-global.org/care> (05.01.2025).
5 FID Asien, Grundlagen und Konzept zur Erwerbung und Lizenzierung von Medien in allen Formaten, March 2024, <https://doi.org/10.48796/20240326-000>.
6 Ca. 67,2 Mio Seiten CrossAsia, ‘CrossAsia - CrossAsia Fulltext Search’, CrossAsia, <https://crossasia.org/service/crossasia-lab/crossasia-fulltext-search/> (05.01.2025).
7 CrossAsia, ‘CrossAsia_SBB_License_agreement-Standard.Pdf’, CrossAsia, <https://crossasia.org/fileadmin/media/CrossAsia_SBB_License_agreement-Standard.pdf> (05.01.2025).
8 CrossAsia, ‘CrossAsia - CrossAsia Fulltext Search’.
9 CrossAsia, ‘CrossAsia - CrossAsia ITR Explorer’, <https://crossasia.org/service/crossasia-lab/crossasia-itr-explorer/> (05.01.2025).
10 CrossAsia, ‘CrossAsia - ITR Newspaper’, <https://crossasia.org/service/crossasia-lab/crossasia-itr-explorer/newspaper/#/> (05.01.2025).
11 CrossAsia, ‘The Maoist Legacy Collection’, CrossAsia Themenportal, <https://themen.crossasia.org/maoist_legacy_collection/?lang=en> (05.01.2025).
12 CrossAsia, ‘CrossAsia Open Access Repository’, Repository, <https://repository.crossasia.org/content/index.xml> (05.01.2025).
13 Gemeinsamer Bibliotheksverbund Verbundzentrale, ‘Reposis – Repository-Service Der VZG — Verbundzentrale Des GBV’, <https://www.gbv.de/informationen/Verbundzentrale/serviceangebote/reposis-repository-service> (05.01.2025).
14 BSZ-GBV, Wiki Zu K10plus, wiki, BSZ-GBV-Wiki zu K10plus, <https://wiki.k10plus.de/> (05.01.2025).
15 CrossAsia, ‘CrossAsia - Forschungsdaten’, Forschungsdaten in den asienbezogenen Wissenschaften, <https://crossasia.org/service/forschungsdaten/> (05.01.2025).
16 CrossAsia, ‘CrossAsia - xA2XML’, <https://crossasia.org/service/crossasia-lab/a2xml/> (05.01.2025).
17 CrossAsia, ‘CrossAsia - N-Gramm Service’, <https://crossasia.org/service/crossasia-lab/crossasia-n-gram-service/> (05.01.2025).
18 CrossAsia and Staatsbibliothek zu Berlin, N-gram dataset of Dao Zang Ji Yao (道藏輯要) (zenodo.org, 7 March 2019), <https://doi.org/10.5281/zenodo.2585877>.
19 Gaia-X Hub Germany < https://gaia-x-hub.de/was-ist-gaia-x/> (05.01.2025).
20 Delta-Dao, Berlin State Library Portal Demonstrator, Berlin State Library Portal Demonstrator, <https://sbb.pontus-x.eu> (05.01.2025).
21 Gerrit Gragert, Vom lesenden Menschen zu lernenden Maschinen – über die Möglichkeiten von Gaia-x für das kulturelle Erbe, in: CrossAsia (2023), <https://blog.crossasia.org/vom-lesenden-menschen-zu-lernenden-maschinen-ueber-die-moeglichkeiten-von-gaia-x-fuer-das-kulturelle-erbe/> (05.01.2025).
22 CrossAsia, ‘Digitalisierte Sammlungen - CrossAsia Digital’, Digitalisierte Sammlungen, <https://digital.crossasia.org/> (05.01.2025).
23 S. B. B. Developers, Digitalisierte Sammlungen Der Staatsbibliothek Zu Berlin, Digitalisierte Sammlungen der Staatsbibliothek zu Berlin, <https://digital-beta.staatsbibliothek-berlin.de> (05.01.2025).
24 Siehe <https://iiif.io/> (05.01.2025).
25 CrossAsia, ‘CrossAsia - CrossAsia DoD’, <https://crossasia.org/service/crossasia-dod/> (05.01.2025).
26 CrossAsia, ‘CrossAsia - Translit’, Translit CrossAsia, <https://crossasia.org/service/crossasia-lab/translit/#/> (05.01.2025); CrossAsia, ‘CrossAsia - Vocabularium’, <https://crossasia.org/service/crossasia-lab/wmrv/> (05.01.2025).
27 ‘Staatsbibliothek Zu Berlin - Preußischer Kulturbesitz’, GitHub Org, <https://github.com/StabiBerlin> (05.01.2025).
28 CrossAsia, ‘Service Unterbrechungen bei vier CNKI Datenbanken’, Blog, CrossAsia, 3. April 2023, <https://blog.crossasia.org/service-unterbrechungen_bei_vier_cnki_datenbanken/> (05.01.2025).

Editors Information
Published on
17.01.2025
Contributor
Cooperation
Dieser Beitrag enstand im Rahmen des Fachforums 'Connections'. http://www.connections.clio-online.net/
Classification
Temporal Classification
Regional Classification
Additional Informations
Language