Berufsbildungsforschung, Data Science und Informatik im Dialog
Das BIBB auf der FedSCIS 2023 und INFORMATIK 2023
18.09.2023
Im September gestalten Wissenschaftlerinnen und Wissenschaftler des BIBB im Rahmen der internationalen Fachtagungen FedSCIS 2023 in Warschau und INFORMATIK 2023 in Berlin zwei Workshops zu Data Science, Künstlicher Intelligenz und Berufsbildungsforschung.
Das BIBB baut seine Aktivitäten im Bereich Data Science und der Nutzung KI-gestützter Methoden für die Arbeitsmarkt- und Berufsbildungsforschung seit einigen Jahren kontinuierlich aus. U.a. wurde hierzu im März 2023 eine Kooperationsvereinbarung mit der Universität Koblenz abgeschlossen. Die Analyse weitgehend unstrukturierter Datenquellen wie Stellenanzeigen oder Social-Media-Daten verspricht zahlreiche Erkenntnispotenziale für das frühzeitige Erkennen von Ausbildungstrends oder Ausbildungsbedarfen und kann klassische sozialwissenschaftliche Methoden wie Befragungen sinnvoll ergänzen. Hierzu müssen jedoch jeweils geeignete Data Science Workflows entwickelt und etabliert werden, was nur als interdisziplinäre Kooperation zwischen Sozialwissenschaften und Informatik geschehen kann.
Um diesen Dialog weiter zu intensivieren, gestalten Wissenschaftlerinnen und Wissenschaftler des BIBB im September 2023 zwei Workshops auf internationalen Fachtagungen der Informatik mit und berichten dort aus aktuellen Forschungsprojekten:
- Am 18. September widmet sich der „1st International Workshop on AI in Digital Humanities, Computational Social Sciences and Economics Research“ (AI-HuSo’23) im Rahmen der 18. Conference on Computer Science and Intelligence Systems (FedCSIS) in Warschau nicht nur der Diskussion digitaler und KI-gestützter Methoden innerhalb der Informatik, sondern nimmt insbesondere den interdisziplinären Austausch und Transfer mit und zu anderen Fachdisziplinen in den Blick. Aus dem BIBB werden Prof. Dr. Robert Helmrich und Dr. Jens Dörpinghaus den Vorsitz der Session übernehmen. Kai Krüger wird in seinem Vortrag ein Modell für das automatisierte Erkennen von Ausbildungsstellenanzeigen vorstellen, um diese anschließend gesondert inhaltlich auswerten zu können und für die Arbeitsmarktforschung als Datenquellen nutzbar zu machen. Im Rahmen der weiteren Tagung werden Richard Fechner, Jens Dörpinghaus und Anja Firll einen Klassifizierungsansatz zur automatischen Kategorisierung von Stellenanzeigen und Unternehmensprofilen vorstellen. Zudem präsentieren Jens Dörpinghaus, Vera Weil (Universität zu Köln) und Martin W. Sommer (Argelander-Institut für Astronomie, Bonn) ein Modell zur Analyse von Längsschnittdaten mittels sozialer Netzwerkanalyse und Wissensgraphen.
- Am 29. September folgt der Workshop „Skills and Qualifications for a Digitalized Future (SKILLS’23)“ im Rahmen des INFORMATIK FESTIVAL 2023 – der Jahrestagung der Gesellschaft für Informatik e.V. (GI) – an der Hochschule für Technik und Wirtschaft in Berlin. Der Workshop greift das Leitthema der Tagung „Designing Futures: Zukünfte gestalten“ auf, um nach den Kompetenzen und Qualifikationen zu fragen, die für die Gestaltung einer digitalisierten und nachhaltigen Zukunft nötig sind. Aus dem BIBB werden Felix Derksen und Dr. Jens Dörpinghaus über die Analyse von Anzeigen für die berufliche Weiterbildung sprechen. Dr. Michael Tiemann fragt nach dem Erkenntniswert von Big Data für die sozialwissenschaftliche Forschung und diskutiert damit einhergehende Herausforderungen. Lisa Fournier, Dr. Michael Tiemann und Stefan Udelhofen widmet sich der Wahrnehmungs- und Bewertungsanalyse von systemrelevanten Berufen mittels Twitter-Daten.
Beide Veranstaltungen lassen eine produktive interdisziplinäre Auseinandersetzung und kritische Reflexion über computergestützte Methoden mit Blick auf die Berufsbildungs- und Arbeitsmarktforschung und darüber hinaus erwarten. Das vollständige Programm ist auf den Veranstaltungsseiten (rechts) zu finden. Die Beiträge aus dem BIBB sind nachfolgend aufgeführt:
Kai Krüger | „Ausklasser - a classifier for German apprenticeship advertisements“
Vor dem Hintergrund, dass Stellenanzeigen als Datenquelle für die Arbeitsmarktforschung nutzbar gemacht werden sollen, beschäftigt sich dieser Vortrag mit dem Training eines Machine Learning Models zur automatisierten Detektion von Ausbildungsstellenanzeigen, um diese dann beispielsweise gesondert hinsichtlich ihres Inhalts auswerten zu können. Der primär methodische Vortrag zeigt auf, dass diese neue Aufgabe im Bereich Natural Language Processing (NLP) eine Reihe von Entscheidungsmöglichkeiten in der Konstruktion des Modells bietet. Eine Experimentpipeline testet die verschiedenen Möglichkeiten gegeneinander und leitet daraus Erkenntnisse für die angewandte NLP-Forschung ab.
Jens Dörpinghaus, Vera Weil & Martin W. Sommer | „Towards modeling and analysis of longitudinal social networks“
There are currently several approaches to managing longitudinal data in graphs and social networks. All of them influence the output of algorithms that analyse the data.We present an overview of limitations, possible solutions and open questions for different data schemas for temporal data in social networks, based on a generic RDF-inspired approach that is equivalent to existing approaches. While restricting the algorithms to a specific time point or layer does not affect the results, applying these approaches to a network with multiple time points requires either adapted algorithms or reinterpretation. Thus, with a generic definition of temporal networks as one graph, we will answer the question of how we can analyse longitudinal social networks with centrality measures. In addition, we present two approaches to approximate the change in degree and betweenness centrality measures over time.
Richard Fechner, Jens Dörpinghaus & Anja Firll | „Classifying Industrial Sectors from German Textual Data with a Domain Adapted Transformer“
For economics and sociological research, lists of industries and their branches are widely used in research to categorize data and get an overview on different types of industries. However, many different taxonomies and ordering schema exist, due to different research focus but also due to different national scenarios and interests. In this paper, we will focus without loss of generality on regional data from Germany. Manual annotation of textual data is time-consuming and tedious, naturally giving rise to our initial research question, also highly inspired by questions from computational social sciences: How can we automatically categorize textual data, e.g. job advertisements or business profiles, by industrial sectors? We will present an approach towards classification using a pre-trained domain-adapted Transformer model. We find that domain-adapted models generalize better and outperform state of the art non domain-adapted Transformer models on Out-Of-Distribution data. Additionally, we open source two novel datasets mapping textual data to WZ2008 sections and divisions, enabling further research.
Michael Tiemann | „What do we see here? Where does the analysis of mass data lead sociological research?
Current research uses mass data in both “fashionable” and impressive ways: Working with such data is up-to-date and often utilizing more or less freshly implemented methods. The results yielded in this strand of research can also be rather impressive. There are still, though, a lot of open questions to all this: What exactly are those data we handle, when we work on social media or job ad data? How do they fare with regards to objectivity, validity and reliability? Can we, and if so, how do we, implement ways to handle possible data problems like data from social media being inherently prestructured by back-ends (as, e.g. with a like-button but no dislike-button). This talk wants to find answers to the explicitly sociological quality criteria for data and possible shortcomings and open up a discussion of using such data and (adapted?) methods to help re-establishing the understanding of (individual) meaning by explanation in a Weberian sense.
Lisa Fournier, Michael Tiemann & Stefan Udelhofen | What social media can tell us about essential occuptations: Contextualising twitter data to understand shifts in occupational valuations
Societal debates about essential occupations in the context of the pandemic have raised questions about the valuation of occupational tasks. In a first step we compare two lists of essential occupations, one from the start, the other from the end of the pandemic, to describe differences in their valuation based on characteristics such as wages, prestige and workload. Between these lists it becomes apparent that there has been a broadening shift, with essential occupations at the end of the pandemic being different to what they were at the beginning. This is based on data from the BIBB/BAuA Employment Survey 2018. We then investigate the use of twitter data for generating insights on how the valuation of occupations were discussed and changed during the pandemic and thus helped leverage said shift in essential occupations.
Felix Derksen & Jens Dörpinghaus | Digitalization and Sustainability in German Continuing Education
Skills and qualifications are at the heart of designing digitalized and sustainable futures, as they link society and the labour market. While the design of digitalized futures raises several issues for society, society in turn, and in particular skills and qualifications, can be a bottleneck for maintaining productivity and the workforce. The labor market relies heavily on both vocational and academic education and training, retraining, and continuing professional development to meet these future challenges. Thus, at the individual level, the question arises as to what qualifications and skills are needed in a digitalized and sustainable future. In this paper we present a novel approach to analyze advertisements for continuing vocational education and training (CVET) in order to identify if skills and qualifications needed for digitalization and sustainability are currently considered, and if the so-called green economy is also important for CVETs.