Linked Open Citation Database (LOC-DB) - Erstellen einer Linked Open Data-Datenbank zur Erschließung der Zitationsbeziehungen elektronischer und gedruckter Medien
Zusammenfassung der Projektergebnisse
Nachdem zunächst das Datenmodell für eine Zitationsdatenbank LOC-DB entwickelt wurde, wurde im nächsten Schritt ein praxisgerechter Workflow für die Zitationserfassung in geschlossenen Korpora und im laufenden Neuzugang entworfen und im Redaktionssystem implementiert. Dabei wurde auf die unterschiedlichen Anforderungen bei der Bearbeitung von gedruckten und elektronischen Medien sowie von Monographien, Sammelwerken und Zeitschriften eingegangen. Mit Abschluss des Projektes ist ein für diese Anforderungen optimierter Workflow dokumentiert und praxiserprobt. Im Backend wurde die grundlegende Infrastruktur für eine Linked Open Citation Database in einer Schichtenarchitektur aus Datenhaltung, Anwendungslogik und Application Programming Interface geschaffen. MongoDB als Datenbank zur Speicherung der Datensätze, Node.js zur Implementierung der Anwendungslogik und ein auf Elasticsearch basierender Suchindex schaffen die Basis für die Workflows. Das Backend agiert als zentrale Komponente und ist neben dem Datenmanagement für die Steuerung der gesamten Kommunikation mit und zwischen den anderen Komponenten innerhalb der Projektarchitektur verantwortlich. Entsprechend wurden Schnittstellen zur Referenzextraktionskomponente, zum Redaktionssystem und zu weiteren externen Datenquellen implementiert. Bei der Evaluation verschiedener Tools zur OCR-Erkennung setzte sich Tesseract mit den besten Ergebnissen durch. Ebenfalls evaluiert wurden verschiedene NER-Tools, hier ging Grobid als am besten geeignet aus dem Verfahren hervor. Alternativ und ergänzend dazu findet eine Layouterkennung statt, hier kommt ein tiefes neuronales Netz zum Einsatz, das im Projektverlauf trainiert wurde. Auf Texterkennung und Layoutanalyse folgte die textbasierte Informationsextraktion zur Gewinnung von Metadaten (Autor, Titel, …). Manuelle Korrekturen, die über das Redaktionssystem eingebracht wurden, konnten die automatische Erkennung von Zitationen verbessern. Mit dem Redaktionssystem wurde ein graphisches Benutzer-Interface entwickelt, mit dem bibliothekarisches Personal die Datenerfassung, die Zitationsverknüpfung und die Bearbeitung von Metadaten so vornehmen kann, wie es der im Projekt entwickelte Workflow vorsieht. Schnittstellen für komplexere Bearbeitungsvorgänge unterstützen die Bearbeitung.
Projektbezogene Publikationen (Auswahl)
- (2017): DeepBIBX: Deep Learning for Image Based Bibliographic Data Extraction. In: Liu D., Xie S., Li Y., Zhao D., El-Alfy ES. (eds) Neural Information Processing. ICONIP 2017. Lecture Notes in Computer Science, vol. 10635. Springer, Cham
Bhardwaj A., Mercier D., Dengel A., Ahmed S.
(Siehe online unter https://doi.org/10.1007/978-3-319-70096-0_30) - (2017): Investigating convolutional networks and domain-specific embeddings for semantic classification of citations. In: Proceedings of WOSP 2017 Toronto
Lauscher, Anne; Glavaš, Goran; Ponzetto, Simone Paolo; Eckert, Kai
(Siehe online unter https://doi.org/10.1145/3127526.3127531) - (2017): Von der Schneeflocke zur Lawine: Möglichkeiten der Nutzung freier Zitationsdaten in Bibliotheken. In: o-bib. Das offene Bibliotheksjournal / herausgegeben vom VDB, vol. 4, n. 4, p. 127-136
Klein, Annette
(Siehe online unter https://doi.org/10.5282/o-bib/2017H4S127-136) - (2017): University of Mannheim @ CLSciSumm-17: Citation-Based Summarization of Scientific Articles Using Semantic Textual Similarity. In: 2nd Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural Language Processing for Digital Libraries 2017
Lauscher, Anne; Glavaš, Goran; Eckert, Kai
- (2018): Linked Open Citation Database: Enabling Libraries to Contribute to an Open and Interconnected Citation Graph. In: Proceedings of the 18th ACM/IEEE on Joint Conference on Digital Libraries, p. 109-118. ACM, 2018
Lauscher, Anne; Eckert, Kai; Galke, Lukas; Scherp, Ansgar; Rizvi, Syed Tahseen Raza; Ahmed, Sheraz; Dengel, Andreas; Zumstein, Philipp; Klein, Annette
(Siehe online unter https://doi.org/10.1145/3197026.3197050) - (2018): Multi-Model Adversarial Autoencoders for Recommendations of Citations and Subject Labels. In: Proceedings of the 26th Conference on User Modeling, Adaptation and Personalization 2018
Galke, Lukas; Mai, Florian; Vagliano, Iacopo; Scherp, Ansgar
(Siehe online unter https://doi.org/10.1145/3209219.3209236) - (2018): Using Adversarial Autoencoders for Multi-Modal Automatic Playlist Continuation. In: Proceedings of the ACM Recommender Systems Challenge 2018
Vagliano, Iacopo; Galke, Lukas; Mai, Florian; Scherp, Ansgar
(Siehe online unter https://doi.org/10.1145/3267471.3267476)