Back to Search Start Over

Classifying user information needs in cooking dialogues – an empirical performance evaluation of transformer networks

Authors :
Schwabl, Patrick
Publication Year :
2021

Abstract

In this master’s thesis, I carry out 3720 machine learning experiments. I want to test how transformer networks perform in a dialogue processing task. Transformer networks are deep neural networks that have first been proposed in 2017 and have since rapidly set new state of the art results on many tasks. To evaluate their performance in dialogue classification, I use two tasks from two datasets. One comes from a dialogue; the other does not. I compare various transformer network’s F1 scores on these two classification tasks. I also look at many different baseline models, from random forest classifiers to long short-term memory networks. A theoretically derived taxonomy will be used to annotate dialogue data with information on dialogue flow. I will show that modelling human conversation is an intricate task and that more features do not necessarily make classification better. Five hypotheses are tested using statistical methods on the output data from the 3720 experiments. Those analyses show that results are very alike for the same machine learning algorithms on the two different tasks. Beyond performance evaluation, the aim is to use transformers to improve user information need classification. These needs I am examining in this study arise during assisted cooking dialogues with a conversational agent. Generally, I can show that transformer networks achieve better classification results than the established baseline models.<br />In dieser Masterarbeit führe ich 3720 Experimente zum maschinellen Lernen durch. Ich möchte testen, wie Transformer-Netze bei einer Dialogverarbeitungsaufgabe abschneiden. Transformator-Netzwerke sind tiefe neuronale Netze, die erstmals 2017 vorgeschlagen wurden und seitdem bei vielen Aufgaben schnell neue State-of-the-Art-Ergebnisse erzielt haben. Um ihre Leistung bei der Dialogklassifizierung zu bewerten, verwende ich zwei Aufgaben aus zwei Datensätzen. Eine stammt aus einem Dialog, die andere nicht. Ich vergleiche die F1-Scores verschiedener Transformer-Netzwerke bei diesen beiden Klassifikationsaufgaben. Ich betrachte auch viele verschiedene Basismodelle, von Random-Forest-Klassifikatoren bis hin zu LSTM-Netzwerken. Eine theoretisch abgeleitete Taxonomie wird verwendet, um Dialogdaten mit Informationen über den Dialogablauf zu annotieren. Ich werde zeigen, dass die Modellierung menschlicher Konversation eine komplizierte Aufgabe ist und dass mehr Features die Klassifikation nicht unbedingt besser machen. Fünf Hypothesen werden mit statistischen Methoden an den Ausgabedaten der 3720 Experimente getestet. Diese Analysen zeigen, dass die Ergebnisse für dieselben Algorithmen des maschinellen Lernens bei den zwei verschiedenen Aufgaben sehr ähnlich sind. Über die Leistungsbewertung hinaus ist es das Ziel, Transformer-Netzwerke zu verwenden, um die Klassifizierung von Informationsbedürfnissen der Benutzer zu verbessern. Diese Bedürfnisse, die ich in dieser Studie untersuche, entstehen während Kochdialogen mit einem Sprachassistenten. Generell kann ich zeigen, dass Transformer-Netzwerke bessere Klassifikationsergebnisse erzielen als die etablierten Baseline-Modelle.

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.doi.dedup.....b97a01ee2eb7cb6463a44e58a4a69ffa