Back to Search Start Over

Multi-word units (and tokenization more generally): a multi-dimensional and largely information-theoretic approach

Authors :
Stefan Th. Gries
Publication Year :
2022
Publisher :
Université Jean Moulin - Lyon 3, 2022.

Abstract

It has been argued that most of corpus linguistics involves one of four fundamental methods: frequency lists, dispersion, collocation, and concordancing. All these presuppose (if only implicitly) the definition of a unit: the element whose frequency in a corpus, in corpus parts, or around a search word are counted (or quantified in other ways). Usually and with most corpus-processing tools, a unit is an orthographic word. However, it is obvious that this is a simplifying assumption borne out of convenience: clearly, it seems more intuitive to consider because of or in spite of as one unit each rather than two or three. Some work in computational linguistics has developed multi-word unit (MWU) identification algorithms, which typically involve co-occurrence token frequencies and association measures (AMs), but these have not become widespread in corpus-linguistic practice despite the fact that recognizing MWUs like the above will have a profound impact on just about all corpus statistics that involve (simplistic notions of) words/units. In this programmatic proof-of-concept paper, I introduce and exemplify an algorithm to identify MWUs that goes beyond frequency and bidirectional association by also involving several well-known but underutilized dimensions of corpus-linguistic information: frequency: how often does a potential unit (like in_spite_of) occur?; dispersion: how widespread is the use of a potential unit?; association: how strongly attracted are the parts of a potential unit?; entropy: how variable is each slot in a potential unit? The proposed algorithm can use all these dimensions and weight them differently. I will (i) present the algorithm in detail, (ii) exemplify its application to the Brown corpus, (iii) discuss its results on the basis of several kinds of MWUs it returns, and (iv) discuss next analytical steps. On soutient généralement que la linguistique de corpus recourt à l’une des quatre méthodes de base suivantes : listes de fréquences, dispersion, collocation et concordance. Toutes ces méthodes présupposent (ne serait-ce qu’implicitement) la définition de ce qu’est une unité, à savoir l’élément dont la fréquence dans un corpus, dans des extraits de corpus, ou dans l’environnement textuel d’un mot étudié est calculée (ou quantifiée d’une quelconque manière). En règle générale et pour la majorité des outils de traitement de corpus, une unité est un mot orthographique. Cependant, il est évident qu’il s’agit là d’une hypothèse simplificatrice résultant d’un souci de facilité : il est évident qu’il semble plus intuitif de considérer que les mots because of ou in spite of constituent chacun une unité plutôt que deux ou trois. Certains travaux en linguistique computationnelle ont développé des algorithmes pour l’identification des unités multi-mots (multi-word units en anglais, MWU), qui reposent généralement sur des fréquences de cooccurrence de tokens et des mesures d’association (association measures en anglais, AM), mais ces algorithmes ne se sont pas généralisés en linguistique de corpus, malgré le fait que la reconnaissance des MWU, à l’image de celles susmentionnées, pourrait avoir un effet significatif sur la quasi-totalité des statistiques de corpus qui se fondent sur les notions (simplistes) de « mots/unités ». Dans cet article programmatique où je souhaite valider un concept, je présente et illustre un algorithme d’identification des MWU qui va bien au-delà de la fréquence et de l’association bidirectionnelle en intégrant également plusieurs dimensions bien connues – mais sous-utilisées – de l’information en linguistique de corpus : la fréquence : combien de fois une unité potentielle (comme in_spite_of) se rencontre-t-elle ?, la dispersion : à quel point l’utilisation d’une unité potentielle est-elle répandue ?, l’association : à quel point les constituants d’une potentielle unité s’attirent-ils plus ou moins fortement ?, l’entropie : à quel point chaque emplacement d’une potentielle unité est-il variable ?L’algorithme proposé a recours à ces quatre dimensions et les pondère différemment. Je vais (i) présenter l’algorithme en détail, (ii) exemplifier son application au corpus Brown, (iii) discuter les résultats obtenus sur la base de plusieurs types de MWU qu’il renvoie, et (iv) envisager les prochaines étapes de l’analyse.

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.doi.dedup.....0e25733b10a78091d2a44b867e59791b