Data Science und Künstliche Intelligenz
Die verstärkte Integration von computergestützten und KI-basierten Ansätzen leistet einen zentralen Beitrag zur innovativen Methodenentwicklung in der Berufsbildungsforschung. Das Bundesinstitut für Berufsbildung (BIBB) leistet so einen zentralen Beitrag zur Etablierung einer berufsbildungsbezogenen Datenwissenschaft.
Um Ausbildungstrends und Arbeitsmarktentwicklungen frühzeitig erkennen zu können, reichen etablierte sozialwissenschaftliche Methoden zunehmend nicht mehr aus. Die Analyse umfangreicher, aber weitgehend unstrukturierter Datenquellen wie Stellenanzeigen oder Social-Media-Daten verspricht neue Erkenntnisse für die Arbeitsmarkt- und Berufsbildungsforschung. Um diese sinnvoll nutzen zu können, müssen jedoch zunächst geeignete Workflows entwickelt und etabliert werden, was nur im interdisziplinären Dialog zwischen Sozialwissenschaften und Informatik gelingen kann.
Im Vordergrund steht dabei die kontinuierliche Weiterentwicklung innovativer Verfahren der Datenanalyse, Datenmodellierung und Datenvisualisierung zur Beobachtung und Analyse von Strukturen und Trends in einzelnen Berufen, Tätigkeitsfeldern, Betrieben oder Weiterbildungsangeboten. Aktuelle Schwerpunkte liegen im Aufbau der notwendigen Infrastruktur, der Entwicklung, Anwendung und kritischen Reflexion von Künstlicher Intelligenz und Large Language Models (LLMs) als Forschungsmethoden sowie die Bereitstellung neuer Datensätze nach F.A.I.R.-Prinzipien.
Aktuelle Schwerpunkte
Der Arbeitsmarkt zeichnet sich durch vielfältige Datenstrukturen und zahlreiche Anwendungen aus, wie z.B. das Matching von Arbeitssuchenden mit passenden Ausbildungs- oder Arbeitsplätzen. Ontologien und Taxonomien spielen daher eine zentrale Rolle. Ein gutes Beispiel hierfür ist die mehrsprachige Klassifikation der europäischen Fertigkeiten, Kompetenzen, Qualifikationen und Berufe (ESCO), die jedoch nicht alle Details der lokalen Arbeitsmarktbedürfnisse abbilden kann und keine Verknüpfungen zu anderen Kompetenz- oder Berufshierarchien wie der deutschen Klassifikation der Berufe (KldB) bietet. Weit verbreitete Taxonomien von Berufen und Kompetenzen im deutschsprachigen Raum liegen hingegen nicht in einem für Interoperabilität und Reasoning zugänglichen Format vor.
Mit der German Labor Market Ontology (GLMO) hat das BIBB eine erste generische deutsche Arbeitsmarktontologie entwickelt, um einen Rahmen für die weitere Datenintegration und -verknüpfung zu schaffen. Mit der ESCO als Top-Level-Ontologie für die Zieldomäne kann eine hohe Interoperabilität mit bestehenden Ontologien und Taxonomien gewährleistet werden. Mit der GLMO können auch Details zu regionalen Strukturen im deutschsprachigen Raum bereitgestellt werden.
In einer ersten Publikation wird eine detaillierte Evaluierung der bereitgestellten Daten und Anwendungen sowie eine ausführliche Diskussion über zukünftiger Arbeiten vorgestellt (Dörpinghaus et al. 2023). Eine weitere Veröffentlichung in Kooperation mit dem Forschungsinstitut Betriebliche Bildung (f-bb) in Nürnberg zeigt ein Proof-of-Concept zur Interoperabilität von Arbeitsmarktdaten aus dem Internet (Fischer und Dörpinghaus 2024).
Neben Ausbildungsberufen sind auch Fort- und Weiterbildungsberufe für die Berufsbildungsforschung relevant. Die Analyse von Fortbildungsangeboten ist daher ein weiterer Arbeitsschwerpunkt im Bereich Data Science im BIBB. Fortbildungsangebote sind häufig sehr heterogen gestaltet und führen, anders als z.B. Meisterausbildungen, nicht grundsätzlich zu einem anderen Beruf, z.B. wenn Soft Skills vermittelt werden. Insofern ergeben sich neben Fragen zu Kompetenzen oder Arbeitsmitteln, die auch in Stellenanzeigen zu finden sind, komplexe weitergehende Forschungsfragen, z.B. zur Abbildung oder Zuordnung von Berufsklassifikationen oder Weiterbildungsberufen.
Derzeit arbeiten wir vor allem an der Strukturierung der verschiedenen Anzeigentypen, an der Analyse und Extraktion der verschiedenen Datenpunkte sowie an der Analyse möglicher Bildungswege bzw. -verläufe.
In verschiedenen gesellschaftlichen Bereichen ist Wissen über Berufsbildung, Arbeitsplätze und Berufe nur schwer explizit zugänglich und kann oft nur über zugeschriebene Merkmale erschlossen werden. Die Untersuchung solcher Merkmale erfolgt traditionell über die klassische Sozialforschung, Befragungen, Fragebögen etc. und ist in der Regel sehr zeit- und ressourcenintensiv.
Die Social-Media-Forschung im BIBB untersucht Berufsbildungsdaten auf verschiedenen Plattformen (u.a. Twitter/X, YouTube, Kununu). Forschungsfragen sind z.B., ob die vorhandenen Ressourcen interoperabel gemacht werden können, z.B. mit der Klassifikation der Berufe, den Tools und den Kompetenzen. Darüber hinaus beschäftigen wir uns mit der Analyse von Berufsprestige (Tiemann et al. 2023a; Tiemann et al. 2023b) oder geographischen Aspekten.
Das BIBB hat eine generische Pipeline zur Verarbeitung, Verknüpfung, Annotation und Analyse von Social-Media-Daten entwickelt. Diese umfasst Natural Language Processing (NLP), Text Mining und KI-Methoden.
Data Science und KI-Forschung haben einen sehr hohen Bedarf an Rechenleistung und Speicherkapazität, um die wachsenden Datensätze zu untersuchen und Methoden der künstlichen Intelligenz und des maschinellen Lernens auszuführen. Insbesondere die Entwicklung von Deep-Learning-Algorithmen und neuronalen Netzen führt zu einem neuen Bedarf an GPU-basierter Rechenleistung, um die Rechenzeit für die Verarbeitung vorhandener und wachsender Datensätze auf ein nutzbares Maß zu reduzieren.
Das BIBB verfügt über ein leistungsfähiges High Performance Computing (HPC)-Cluster, das umfangreiche Forschungsprojekte zur Gewinnung, Speicherung, Analyse und Nutzung großer Datenmengen (Big Data) in der Berufsbildungsforschung ermöglicht. Das Projekt stößt in neue Bereiche der KI-Forschung sowie von FAIR und Linked Data vor.
Der HPC-Cluster ist modular aufgebaut und wird kontinuierlich durch weitere Module erweitert. Er stellt neben Rechenkapazität auch Speicherplatz sowie verschiedene Datenbanken zur Verfügung und beherbergt das Data Warehouse des BIBB.
Zu den gesetzlichen Aufgaben des Bundesinstituts für Berufsbildung (BIBB) gehört es, das Verzeichnis der anerkannten Ausbildungsberufe zu führen und zu veröffentlichen (vgl. BBiG § 90 Abs. 3 Satz 3). Für diese Aufgabe werden Verordnungen und Erlasse ausgewertet und im Berufearchiv der Abteilung 2 aufbewahrt. Um diese Daten nutzbar zu machen, ist es notwendig, sie in aktuelle Medien zu überführen und die Texte in einem automatisierten Workflow KI-gestützt zu erschließen. Der besondere Mehrwert dieser Arbeiten liegt in der Schaffung einer digitalisierten Datenbasis in einem standardisierten Format, die sowohl für die Erschließungsarbeit als auch für die Forschung im BIBB von großer Bedeutung ist.
Folgende Ziele sollen mit dem Projekt erreicht werden
- Entwicklung eines automatisierten Workflows, der die Dokumente verarbeitet, in TEI-XML überführt, die Texte annotiert und in einer geeigneten Datenbank ablegt.
- Die Entwicklung erfolgt auf der Basis innovativer Methoden der Data Science, z.B. neu zu entwickelnde oder zu optimierende OCR-Methoden und KI-Ansätze, die auch die Grenzen dieser Disziplin erweitern.
- Die Entwicklung einer Web-Anwendung, die ein interaktives Arbeiten mit diesem Workflow und diesen Daten ermöglicht, insbesondere das Betrachten von Dokumenten, die Suche und das Herunterladen von PDF-Dateien. Auch hier sollen modernste Ansätze der Informationssysteme und der KI-gestützten Suche zum Einsatz kommen.
In den Sozialwissenschaften werden komplexe Netzwerke (complex networks) oft synonym mit komplexen sozialen Netzwerken (social network analysis, SNA) verwendet. Dieser Begriff umfasst jedoch viele weitere Aspekte wie Verhaltensanalyse, Wahrnehmungsverzerrungen (perception bias) und auch Gemeinschaftsstrukturen, z.B. die Wahrnehmung der Häufigkeit von Attributen und Handlungen im Ego-Netzwerk von Akteuren. Ein wichtiges Problem ist jedoch, dass sich Umfragedaten in der Regel auf einzelne Akteure oder Akteurspunkte beziehen. Daher können nicht alle Methoden der SNA direkt angewendet werden.
Die Forschung zu komplexen Netzwerken umfasst u.a. folgende Aspekte
- Ontologien und Wissensgraphen (Knowledge Graphs)
- Effiziente Algorithmen und KI auf Graphen, z.B. für Knowledge Graph Completion oder Link Prediction
- Soziale Netzwerke, Social Media (Link)
2.2.428 - Weiterverarbeitung digitalisierter Dokumente des Berufe-Archivs
Laufzeit I-24 bis IV-24
Ziel des Projektes ist, die m Berufe-Archiv des BIBB vorliegenden rechtlichen Dokumente zu Aus- und Fortbildungsberufen aus dem Drittem Reich, der BRD sowie der DDR digital aufzubereiten und mit Hilfestellung von KI-basierter Software für Forschungszwecke nutzbar zu machen. Dies beinhaltet insbesondere die automatisierte, KI-gestützte Umwandlung in maschinenlesbaren Text (OCR), die Extraktion von Tabellen und anderen Strukturierungen, das Entfernen von Artefakten (z.B. Teilen anderer Texte) und die automatisierte Korrektur von Fehlern (z.B. gelochter oder unkenntlich gemachter Stellen). Die im Berufe-Archiv vorhandenen Dokumente spiegeln ca. 100 Jahre deutscher Berufsbildungsgeschichte.
Towards a German labor market ontology : challenges and applications
Dörpinghaus, Jens; Binnewitt, Johanna; Hein, Kristine; Krüger, Kai | 2023
Applied ontology : an interdisciplinary journal of ontological analysis and conceptual modeling; 18 (2023) H. 4; Seite 343-365
Web mining of online resources for German labor market research and education: finding the ground truth?
Fischer, Andreas; Dörpinghaus, Jens | 2024
Knowledge; 4 (2024), H. 1; Seite 51-67