Schmidt, Thomas, Dennerlein, Katrin, Wolff, Christian, Burghardt, Manuel, Dieckmann, Lisa, Steyer, Timo, Trilcke, Peer, Walkowski, Niels-Oliver, Weis, Joëlle, and Wuttke, Ulrike
Fabrikation von Erkenntnis: Experimente in den Digital Humanities, We present first results of the project ‘Emotions in Drama’ in which we explore the annotation of emotions and the application of computational emotion analysis, predominantly deep learning-based methods, in the context of historical German plays of the time around 1800. We performed a pilot annotation study with five plays generating over 6,500 annotations for up to 13 sub-emotions structured in a hierarchical scheme. This emotion scheme includes common types like joy, anger or hate but also concepts that are specifically important for German literary criticism of this period like friendship, compassion or Schadenfreude. We evaluate the performance of various methods of emotion-based text sequence classification including lexicon-based methods, traditional machine learning, fastText as static word embedding, various transformer models based on BERT- or ELECTRA-architectures and pretrained with contemporary language, transformer-based methods pretrained or finetuned for historical and/or poetic language as well as the finetuning of BERT models via our own corpora and plays. We do achieve state-of-the-art results with hierarchical levels with two or three classes, i. e. the classification of valence (positive/negative). The best models are the transformer-based models gbert-large and gelectra-large by deepset pretrained on large corpora of contemporary German, which achieve accuracy values of up to 83%. Lexicon-based methods, traditional machine learning as well as static word embeddings are consistently outperformed by transformer-based models. Models trained on historical texts show small and inconsistent improvements. The performance becomes significantly smaller for settings with multiple sub-emotions like 6 or 13 due to the general challenge and class imbalances in which the models achieve 57% and 47% respectively. We discuss how we intend to continue our annotations and how to improve the prediction results via various optimization techniques in future work., Wir präsentieren erste Ergebnisse des Projekts „Emotions in Drama“, in dem wir die Annotation von Emotionen und die Anwendung computergestützter Emotionsanalyse für deutschsprachige Theaterstücke aus der Zeit um 1800 explorieren. Im Zentrum stehen Deep-Learning-Methoden. Wir präsentieren die Ergebnisse einer Pilot-Annotationsstudie mit fünf Theaterstücken, in denen 6.500 Annotationen für bis zu 13 Emotionsklassen ausgezeichnet wurden. Das Emotionsschema umfasst gängige Emotionen wie Freude, Wut oder Hass, aber auch Konzepte, die speziell für die deutsche Literatur und Poetologie dieser Zeit wichtig sind, wie Freundschaft, Mitleid oder Schadenfreude. Wir evaluieren die Leistung verschiedener Methoden der emotionsbasierten Textsequenzklassifikation, darunter lexikonbasierte Methoden, traditionelles maschinelles Lernen, fastText als statisches Wordembedding, verschiedene transformatorbasierte Modelle, die auf BERT- oder ELECTRA-Architekturen basieren und mit zeitgenössischer Sprache vortrainiert sind, transformatorbasierte Methoden, die für historische und/oder poetische Sprache vortrainiert oder feinabgestimmt sind, sowie das Finetuning von BERT-Modellen mithilfe unserer eigenen Korpora und Theaterstücke. Wir erzielen State-of-the-Art-Ergebnisse auf hierarchischen Ebenen mit zwei oder drei Klassen, was die Klassifizierung der Valenz (positiv/negativ) betrifft. Die besten Modelle sind die transformatorbasierten Modelle gbert-large und gelectra-large von deepset, die auf großen Korpora in zeitgenössischem Deutsch vortrainiert wurden und Prädiktionsgenauigkeiten von bis zu 83% erreichen. Lexikonbasierte Methoden, traditionelles maschinelles Lernen sowie statische Wordembeddings werden konsistent von transformatorbasierten Modellen übertroffen. Modelle, die auf historischen Texten trainiert wurden, zeigen kleine, aber inkonsistente Verbesserungen. Die Leistung wird signifikant schlechter für Einstellungen mit mehreren Sub-Emotionen wie 6 oder 13 unter anderem aufgrund der Klassenungleichgewichte. Hier erreichen die Modelle Prädiktionsgenauigkeiten von 57% bzw. 47%. Wir diskutieren, wie wir unsere Annotationen fortsetzen wollen und wie wir die Vorhersageergebnisse durch verschiedene Optimierungstechniken in der Zukunft verbessern können.