Project Details
Projekt Print View

Linked Open Citation Database (LOC-DB) - Development of a Linked Open Data database for the indexing of citations of electronic and print media

Subject Area Sociological Theory
Term from 2016 to 2019
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 311018540
 
Final Report Year 2019

Final Report Abstract

Nachdem zunächst das Datenmodell für eine Zitationsdatenbank LOC-DB entwickelt wurde, wurde im nächsten Schritt ein praxisgerechter Workflow für die Zitationserfassung in geschlossenen Korpora und im laufenden Neuzugang entworfen und im Redaktionssystem implementiert. Dabei wurde auf die unterschiedlichen Anforderungen bei der Bearbeitung von gedruckten und elektronischen Medien sowie von Monographien, Sammelwerken und Zeitschriften eingegangen. Mit Abschluss des Projektes ist ein für diese Anforderungen optimierter Workflow dokumentiert und praxiserprobt. Im Backend wurde die grundlegende Infrastruktur für eine Linked Open Citation Database in einer Schichtenarchitektur aus Datenhaltung, Anwendungslogik und Application Programming Interface geschaffen. MongoDB als Datenbank zur Speicherung der Datensätze, Node.js zur Implementierung der Anwendungslogik und ein auf Elasticsearch basierender Suchindex schaffen die Basis für die Workflows. Das Backend agiert als zentrale Komponente und ist neben dem Datenmanagement für die Steuerung der gesamten Kommunikation mit und zwischen den anderen Komponenten innerhalb der Projektarchitektur verantwortlich. Entsprechend wurden Schnittstellen zur Referenzextraktionskomponente, zum Redaktionssystem und zu weiteren externen Datenquellen implementiert. Bei der Evaluation verschiedener Tools zur OCR-Erkennung setzte sich Tesseract mit den besten Ergebnissen durch. Ebenfalls evaluiert wurden verschiedene NER-Tools, hier ging Grobid als am besten geeignet aus dem Verfahren hervor. Alternativ und ergänzend dazu findet eine Layouterkennung statt, hier kommt ein tiefes neuronales Netz zum Einsatz, das im Projektverlauf trainiert wurde. Auf Texterkennung und Layoutanalyse folgte die textbasierte Informationsextraktion zur Gewinnung von Metadaten (Autor, Titel, …). Manuelle Korrekturen, die über das Redaktionssystem eingebracht wurden, konnten die automatische Erkennung von Zitationen verbessern. Mit dem Redaktionssystem wurde ein graphisches Benutzer-Interface entwickelt, mit dem bibliothekarisches Personal die Datenerfassung, die Zitationsverknüpfung und die Bearbeitung von Metadaten so vornehmen kann, wie es der im Projekt entwickelte Workflow vorsieht. Schnittstellen für komplexere Bearbeitungsvorgänge unterstützen die Bearbeitung.

Publications

  • (2017): DeepBIBX: Deep Learning for Image Based Bibliographic Data Extraction. In: Liu D., Xie S., Li Y., Zhao D., El-Alfy ES. (eds) Neural Information Processing. ICONIP 2017. Lecture Notes in Computer Science, vol. 10635. Springer, Cham
    Bhardwaj A., Mercier D., Dengel A., Ahmed S.
    (See online at https://doi.org/10.1007/978-3-319-70096-0_30)
  • (2017): Investigating convolutional networks and domain-specific embeddings for semantic classification of citations. ​In: Proceedings of WOSP 2017 Toronto
    Lauscher, Anne; Glavaš, Goran; Ponzetto, Simone Paolo; Eckert, Kai
    (See online at https://doi.org/10.1145/3127526.3127531)
  • (2017): Von der Schneeflocke zur Lawine: Möglichkeiten der Nutzung freier Zitationsdaten in Bibliotheken. In: o-bib. Das offene Bibliotheksjournal / herausgegeben vom VDB, vol. 4, n. 4, p. 127-136
    Klein, Annette
    (See online at https://doi.org/10.5282/o-bib/2017H4S127-136)
  • (2017​): University of Mannheim @ CLSciSumm-17: Citation-Based Summarization of Scientific Articles Using Semantic Textual Similarity. In: 2nd Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural Language Processing for Digital Libraries 2017
    Lauscher, Anne; Glavaš, Goran; Eckert, Kai
  • (2018): Linked Open Citation Database: Enabling Libraries to Contribute to an Open and Interconnected Citation Graph. ​In: Proceedings of the 18th ACM/IEEE on Joint Conference on Digital Libraries, p. 109-118. ACM, 2018
    Lauscher, Anne; Eckert, Kai; Galke, Lukas; Scherp, Ansgar; Rizvi, Syed Tahseen Raza; Ahmed, Sheraz; Dengel, Andreas; Zumstein, Philipp; Klein, Annette
    (See online at https://doi.org/10.1145/3197026.3197050)
  • (2018): Multi-Model Adversarial Autoencoders for Recommendations of Citations and Subject Labels. In: Proceedings of the 26th Conference on User Modeling, Adaptation and Personalization 2018
    Galke, Lukas; Mai, Florian; Vagliano, Iacopo; Scherp, Ansgar
    (See online at https://doi.org/10.1145/3209219.3209236)
  • (2018): Using Adversarial Autoencoders for Multi-Modal Automatic Playlist Continuation. In: Proceedings of the ACM Recommender Systems Challenge 2018
    Vagliano, Iacopo; Galke, Lukas; Mai, Florian; Scherp, Ansgar
    (See online at https://doi.org/10.1145/3267471.3267476)
 
 

Additional Information

Textvergrößerung und Kontrastanpassung