Ein Test-Bericht über eine schlanke Pipeline zur Named Entity Recognition

Zu Einsatzmöglichkeiten von Machine Learning Modellen bei der Metadatenanreicherung von Abstracts in iDAI.bibliography

https://doi.org/10.34780/s6tar918

Autor/innen

Abstract

In dem Artikel wird ein Testszenario beschrieben, das den sehr niedrigschwelligen Einsatz von sogenannter Named Entity Recognition (NER) in Abstracts in iDAI.bibliography – dem Katalog der DAI-Bibliotheken – beschreibt. Vorrangiges Ziel des Beitrags ist es, Arbeitseinheiten bzw. Teams aus dem Bereich Informationsinfrastruktur, die bisher nur eingeschränkt mit Technologien wie dem Maschinellen Lernen in Berührung kamen, zu ermutigen, sich mit diesen Technologien auseinanderzusetzen und praktische Einblicke hinsichtlich deren Möglichkeiten und Grenzen zu gewinnen. Der Ansatz nutzt eine schlanke Pipeline, die auf frei verfügbaren Modellen, einer einfachen Codebasis, Standardhardware und einer urheberrechtskonformen Vorgehensweise basiert und die zeigt, wie automatisierte Verarbeitung händischen Aufwand reduzieren und die Qualität der Einträge bis zu einem gewissen Grad verbessern kann. Da der Fokus auf pragmatischen Einsatzmöglichkeiten hinsichtlich der Bewältigung einfacher Alltagsaufgaben liegt, kann ein solches Szenario bei der Entwicklung eigener diesbezüglicher Vorhaben und Konzepte helfen, auch hinsichtlich eines besseren Verständnisses der technischen Machbarkeiten.

Schlagwörter

Named Entity Recognition, Metadatenanreicherung, 'Hugging Face Transformers' pipeline

Literaturhinweise

P. Baumeister, Das neue maschinenlesbare Zeitschriftenmodell des Deutschen Archäologischen Instituts. Ein Werkstattbericht, FdAI 2022/1, § 1–67, https://doi.org/10.34780/cf6e-prcf

E. Balnaves – L. Bultrini – A. Cox – R. Uzwyshyn (ed.), New Horizons in Artificial Intelligence in Libraries (Berlin 2025), https://doi.org/10.1515/9783111336435

S. Ben Tahar – Ph. von Rummel – K. Mansel – H. Möller – T. Mukai – M. Aoudi – M. Dinies – Th. Lappi – J. Peters – S. Trixl – S. Büchner, Henchir Bourgou (Djerba, Tunesien). Stratigraphie und Fundvorlage einer Sondage im Zentrum der antiken Siedlung (8. Jh. v. Chr. – 2. Jh. n. Chr.), AA 2021/2, § 1–178, https://doi.org/10.34780/f05j-59fd

A. Brandsen, Digging in Documents: Using Text Mining to Access the Hidden Knowledge in Dutch Archaeological Excavation Reports (2022, February 15), https://hdl.handle.net/1887/3274287

A. Brandsen – S. Verberne – K. Lambers – M. Wansleeben, Can BERT Dig It? Named Entity Recognition for Information Retrieval in the Archaeology Domain, Journal on Computing and Cultural Heritage 15, 3, Article 51 (September 2022), https://doi.org/10.1145/3497842

J. Büchel – J. F. Engler – A. Mertens, Gesuchte Datenkompetenzen in Deutschland, in: Vierteljahresschrift zur empirischen Wirtschaftsforschung, Jahrgang 50, 2023, Nr. 2, 3–17, https://doi.org/10.2373/1864-810X.23-02-01

M. Dreyer, Results of the ZKI Top Trends Survey Conducted by the ZKI Strategy and Organisation Working Group for the Year 2025, https://doi.org/10.5281/zenodo.14904518

M. Dreyer, ZKI Top Trends Survey 2026, https://doi.org/10.5281/zenodo.18520259

R. Jurowetzki – D. S. Hain – K. Wirtz et al., The Private Sector is Hoarding AI Researchers: What Implications for Science?, AI & Soc 40, 4145–4152 (2025), https://doi.org/10.1007/s00146-024-02171-z

A. Kasprzik, Aufbau eines produktiven Dienstes für die automatisierte Inhaltserschließung an der ZBW – ein Status- und Erfahrungsbericht, o-bib – Das offene Bibliotheksjournal 10, 1, (2023), 1–13, https://doi.org/10.5282/o-bib/5903

A. Kasprzik, Transferring Applied Machine Learning Research into Subject Indexing Practice, in: Balnaves et al. 2025, 199–212, https://doi.org/10.1515/9783111336435-015

A. Kose – B. Engels – M. Trümper, Die Basilike Stoa an der Agora von Thera. Rekonstruktion ihrer Entwicklung auf Basis stratigraphischer Grabungen, AA 2022/1, § 1–109, https://doi.org/10.34780/tiq0-a22r

N. Maslej – L. Fattorini – R. Perrault – V. Parli – A. Reuel – E. Brynjolfsson – J. Etchemendy – K. Ligett – T. Lyons – J. Manyika – J. C. Niebles – Y. Shoham – R. Wald – J. Clark, The AI Index 2024 Annual Report, AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2024, https://doi.org/10.48550/arXiv.2405.19522

N. Maslej – L. Fattorini – R. Perrault – Y. Gil – V. Parli – N. Kariuki – E. Capstick – A. Reuel – E. Brynjolfsson – J. Etchemendy – K. Ligett – T. Lyons – J. Manyika – J. C. Niebles – Y. Shoham – R. Wald – T. Walsh – A. Hamrah – L. Santarlasci – J. Betts Lotufo – A. Rome – A. Shi – S. Oak, The AI Index 2025 Annual Report, AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2025, https://doi.org/10.48550/arXiv.2504.07139

S. Menzel – H. Schnaitter – J. Zinck – V. Petras – Cl. Neudecker – K. Labusch – El. Leitner – G. Rehm, Named Entity Linking mit Wikidata und GND – Das Potenzial handkuratierter und strukturierter Datenquellen für die semantische Anreicherung von Volltexten, in: M. Franke-Maier – A. Kasprzik – A. Ledl – H. Schürmann, Qualität in der Inhaltserschließung (Berlin 2021) 229–258, https://doi.org/10.1515/9783110691597-012

C. Osborne – J. Ding – H. R. Kirk, The AI Community Building the Future? A Quantitative Analysis of Development Activity on Hugging Face Hub, Journal of Computational Social Science 7, 2024, 2067–2105, https://doi.org/10.1007/s42001-024-00300-8

U. R. Pol – P. S. Vadar – T. T. Moharekar, Hugging Face: Revolutionizing AI and NLP, International Journal for Research in Applied Science and Engineering Technology 12(8),2024, 1121-1124, https://doi.org/10.22214/ijraset.2024.64023

C. Saccucci – A. Potter, Assessing Machine Learning for Cataloging at the Library of Congress, in: Balnaves et al. 2025, 227–238, https://doi.org/10.1515/9783111336435-017

M. A. Suryani – S. Karmakar – B. Mathiak, Exploration of Hugging Face Models by Heterogeneous Information Network and Linking Across Scholarly Repositories, in: L. M. Aiello – T. Chakraborty – S. Gaito (eds), Social Networks Analysis and Mining. ASONAM 2024. Lecture Notes in Computer Science, vol 15213 (2025), https://doi.org/10.1007/978-3-031-78548-1_27

C. Tzochev, The Architecture of the 4th Century B.C. Monumental Tomb at Starosel, AA 2021/2, § 1–120, https://doi.org/10.34780/d5bi-h53t

B. S. Weers, Automatisierte Inhaltserschließung an der Bibliothek des Max-Planck-Instituts für Mathematik in den Naturwissenschaften (Leipzig 2025), http://doi.org/10.33968/9783966270786-00

Veröffentlicht

2026-04-23

Ausgabe

Rubrik

Artikel

Zitationsvorschlag

Baumeister, P. (2026). Ein Test-Bericht über eine schlanke Pipeline zur Named Entity Recognition: Zu Einsatzmöglichkeiten von Machine Learning Modellen bei der Metadatenanreicherung von Abstracts in iDAI.bibliography. Forum for Digital Archaeology and Infrastructure. https://doi.org/10.34780/s6tar918