31 results on '"Büchler, Marco"'
Search Results
2. Designing Close and Distant Reading Visualizations for Text Re-use
- Author
-
Jänicke, Stefan, Efer, Thomas, Büchler, Marco, Scheuermann, Gerik, Barbosa, Simone Diniz Junqueira, Series Editor, Filipe, Joaquim, Series Editor, Kotenko, Igor, Series Editor, Sivalingam, Krishna M., Series Editor, Washio, Takashi, Series Editor, Yuan, Junsong, Series Editor, Zhou, Lizhu, Series Editor, Battiato, Sebastiano, editor, Coquillart, Sabine, editor, Pettré, Julien, editor, Laramee, Robert S., editor, Kerren, Andreas, editor, and Braz, José, editor
- Published
- 2015
- Full Text
- View/download PDF
3. Towards a Historical Text Re-use Detection
- Author
-
Büchler, Marco, Burns, Philip R., Müller, Martin, Franzini, Emily, Franzini, Greta, Hirschberg, Julia, Editor-in-chief, Hovy, Eduard, Editor-in-chief, Johnson, Mark, Editor-in-chief, Biemann, Chris, editor, and Mehler, Alexander, editor
- Published
- 2014
- Full Text
- View/download PDF
4. Using and evaluating TRACER for an Index fontium computatus of the Summa contra Gentiles of Thomas Aquinas
- Author
-
Franzini, Greta, primary, Passarotti, Marco, additional, Moritz, Maria, additional, and Büchler, Marco, additional
- Published
- 2018
- Full Text
- View/download PDF
5. Increasing Recall for Text Re-use in Historical Documents to Support Research in the Humanities
- Author
-
Büchler, Marco, Crane, Gregory, Moritz, Maria, Babeu, Alison, Hutchison, David, editor, Kanade, Takeo, editor, Kittler, Josef, editor, Kleinberg, Jon M., editor, Mattern, Friedemann, editor, Mitchell, John C., editor, Naor, Moni, editor, Nierstrasz, Oscar, editor, Pandu Rangan, C., editor, Steffen, Bernhard, editor, Sudan, Madhu, editor, Terzopoulos, Demetri, editor, Tygar, Doug, editor, Vardi, Moshe Y., editor, Weikum, Gerhard, editor, Zaphiris, Panayiotis, editor, Buchanan, George, editor, Rasmussen, Edie, editor, and Loizides, Fernando, editor
- Published
- 2012
- Full Text
- View/download PDF
6. MEASURING THE INFLUENCE OF A WORK BY TEXT RE-USE
- Author
-
BÜCHLER, MARCO, GEßNER, ANNETTE, BERTI, MONICA, and ECKART, THOMAS
- Published
- 2013
7. Is it Research or is it Spying? Thinking-Through Ethics in Big Data AI and Other Knowledge Sciences
- Author
-
Berendt, Bettina, Büchler, Marco, and Rockwell, Geoffrey
- Published
- 2015
- Full Text
- View/download PDF
8. Towards a Historical Text Re-use Detection
- Author
-
Büchler, Marco, primary, Burns, Philip R., additional, Müller, Martin, additional, Franzini, Emily, additional, and Franzini, Greta, additional
- Published
- 2014
- Full Text
- View/download PDF
9. Increasing Recall for Text Re-use in Historical Documents to Support Research in the Humanities
- Author
-
Büchler, Marco, primary, Crane, Gregory, additional, Moritz, Maria, additional, and Babeu, Alison, additional
- Published
- 2012
- Full Text
- View/download PDF
10. Towards big religious data
- Author
-
Büchler, Marco, primary, Riegert, Sarah, additional, Alpi, Federico, additional, and Cadeddu, Francesca, additional
- Published
- 2020
- Full Text
- View/download PDF
11. Proceedings of the Fifth Italian Conference on Computational Linguistics CLiC-it 2018
- Author
-
Abramova, Ekaterina, Adorni, Giovanni, Agrawal, Ruchit, Aina, Laura, Albanese, Teresa, Albanesi, Davide, Alzetta, Chiara, Amore, Matteo, Antonelli, Oronzo, Aprosio, Alessio Palmero, Balaraman, Vevake, Basile, Pierpaolo, Basile, Valerio, Basili, Roberto, Bassignana, Elisa, Bellandi, Andrea, Bentivogli, Luisa, Bernardi, Raffaella, Bertoldi, Nicola, Bondielli, Alessandro, Bos, Johan, Bosco, Cristina, Bottini, Roberto, Brunato, Dominique, Brunato⋄, Dominique, Büchler, Marco, Buono, Maria Pia di, Busso, Lucia, Cabrio, Elena, Caruso, Valeria, Caselli, Tommaso, Cecchini, Flavio, Celli, Fabio, Cervone, Alessandra, Chesi, Cristiano, Chingacham, Anupama, Chiriatti, Giulia, Cimino, Andrea, Cocciu•, Eleonora, Colla, Davide, Comandini, Gloria, Cordeiro, Silvio Ricardo, Crepaldi, Davide, Croce, Danilo, Curtoni, Paolo, Cutugno, Francesco, dell’Oglio, Pietro, Dell’Orletta, Felice, Dell’Orletta⋄, Felice, De Felice, Irene, De Martino, Maria, Dini, Luca, Di Iorio, Angelo, Di Nunzio, Giorgio Maria, Draetta, Lia, Ducceschi, Luca, Elia, Annibale, Falavigna, Daniele, Federico, Marcello, Feltracco, Anna, Fernández, Raquel, Ferro, Michele, Fieromonte, Martina, Franzini, Greta, Gagliardi, Gloria, Gala, Valentina Della, Gambi, Enrico, Ghezzi, Ilaria, Giovannetti, Emiliano, Gobbi, Jacopo, Gretter, Roberto, Guarasci, Raffaele, Guerini, Marco, Günther, Fritz, Gurevych, Iryna, Herzog, Leonardo, Jezek, Elisabetta, Koceva, Forsina, Lai, Mirko, Laudanna, Alessandro, Lenci, Alessandro, Lepri, Bruno, Liano, Annarita, Limpens, Freddy, Louvan, Samuel, Lyding, Verena, Magnini, Bernardo, Magnolini, Simone, Mairano, Paolo, Mambrini, Francesco, Mana, Dario, Mancuso, Azzurra, Marchi, Simone, Marelli, Marco, Marini, Costanza, Mazzei, Alessandro, McGregor, Stephen, Melnikova, Elena, Menini, Stefano, Mensa, Enrico, Merenda, Flavio, Mollo, Eleonora, Montemagni, Simonetta, Montemagni⋄, Simonetta, Monti, Johanna, Moretti, Giovanni, Moritz, Maria, Nadalini, Andrea, Negri, Matteo, Nicolas, Lionel, Nissim, Malvina, Novielli, Nicole, Okinina, Nadezda, Pannitto, Ludovica, Paperno, Denis, Passalacqua, Samuele, Passaro, Lucia C., Passarotti, Marco, Patti, Viviana, Pecchioli, Alessandra, Pellegrini, Matteo, Petrolito, Ruggero, Pettenati, Maria Chiara, Piantanida, Giovanni, Poggi, Isabella, Porporato, Aureliano, Quinci, Vito, Radicioni, Daniele P., Ramisch, Carlos, Rapp, Amon, Riccardi, Giuseppe, Rossini, Daniele, Rotondi, Agata, Ruffolo, Paolo, Russo, Irene, Sagri, Maria Teresa, Sangati, Federico, Sanguinetti, Manuela, Savary, Agata, Savy, Renata, Simeoni, Rossana, Simi, Maria, Sorgente, Antonio, Speranza, Manuela, Sprugnoli, Rachele, Stede, Manfred, Stepanov, Evgeny A., Stingo, Michele, Tamburini, Fabio, Tebbifakhr, Amirhossein, Tonelli, Sara, Torre, Ilaria, Tortoreto, Giuliano, Totis, Pietro, Trotta, Daniela, Turchi, Marco, Valeriani, Martina, Venturi, Giulia, Venturi⋄, Giulia, Vezzani, Federica, Villata, Serena, Vincze, Veronika, Zaghi, Claudia, Zovato, Enrico, Cabrio, Elena, Mazzei, Alessandro, and Tamburini, Fabio
- Subjects
elaborazione del linguaggio naturale ,Computational Linguistics ,History & Philosophy Of Science ,analisi semantica ,CBX ,Gurevych (Iryna) ,Bos (Johan) ,LAN000000 ,linguistica computazionale ,Natural Language Processing ,semantic parsing - Abstract
On behalf of the Program Committee, a very warm welcome to the Fifth Italian Conference on Computational Linguistics (CLiC-‐it 2018). This edition of the conference is held in Torino. The conference is locally organised by the University of Torino and hosted into its prestigious main lecture hall “Cavallerizza Reale”. The CLiC-‐it conference series is an initiative of the Italian Association for Computational Linguistics (AILC) which, after five years of activity, has clearly established itself as the premier national forum for research and development in the fields of Computational Linguistics and Natural Language Processing, where leading researchers and practitioners from academia and industry meet to share their research results, experiences, and challenges.
- Published
- 2019
12. M. Büchler, L. Mellerin (eds), Computer-aided Processing of Intertextuality in Ancient Languages
- Author
-
Laurence Mellerin, Büchler, Marco, Mellerin, Laurence, BLANC - Index en ligne des citations bibliques dans la littérature de l'Antiquité et du Moyen Age - - BIBLINDEX2010 - ANR-10-BLAN-2001 - BLANC - VALID, Mellerin Laurence, Büchler Marco, Histoire et Sources des Mondes antiques (HiSoMA), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Jean Monnet - Saint-Étienne (UJM)-Centre National de la Recherche Scientifique (CNRS), Egyed-Zsigmond Elöd, ANR-10-BLAN-2001,BIBLINDEX,Index en ligne des citations bibliques dans la littérature de l'Antiquité et du Moyen Age(2010), Centre National de la Recherche Scientifique (CNRS)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Jean Moulin - Lyon 3 (UJML), and Université de Lyon-Université de Lyon-Université Lumière - Lyon 2 (UL2)-École normale supérieure - Lyon (ENS Lyon)
- Subjects
intertextuality ,ancient languages ,[SHS.RELIG] Humanities and Social Sciences/Religions ,[SHS.RELIG]Humanities and Social Sciences/Religions ,bible - Abstract
International audience; This special issue originates in the International workshop on computer aidedprocessing of intertextuality in ancient languages, held in Lyon (2nd-4th June 2014), coorganized by HiSoMA (UMR 5189, Lyon), LIRIS (UMR 5205, Villeurbanne) and the Göttingen Centre for Digital Humanities (e-TRAP), with the support of the National Research Agency (ANR Biblindex) and the Partner University Fund (PUF).This workshop was initiated as the conclusive meeting of the ANR project BIBLINDEX, which aims at establishing an exhaustive statement of the biblical references found in the texts of the Late Antiquity and the Middle Ages. Were gathered computer scientists and digital humanists. The sessions presented the state of art regarding concepts and technics used to process quotations and text-reuses in ancient languages.Thanks to the editorial system of the JDMDH, the proceedings of this workshop have been open to other contributions also dealing with intertextuality, linguistic preprocessing and the preservation of scholarly research results, specifically applied to corpora in Ancient Languages and for which few online resources exist (Ancient Greek, Latin, Hebrew, Syriac, Coptic, Arabic, Ethiopic, etc.).
- Published
- 2017
13. Exploring biographies: finding new group members based on significant terms
- Author
-
Aschauer, Anna, Gradl, Tobias, and Büchler, Marco
- Subjects
Significant terms ,Biograhpies ,DARIAH-DE ,Unstructured data - Abstract
The development of the method is motivated by the need of historians to detect new group members, when working with social or religious (or otherwise defined) groups. Defining the actors, which are crucial for developing particular phenomena, understanding the interconnections between them and their impact is a basal part of the work as a humanist. However, once covered the main group of actors, it can be challenging going above the known circle of biographies and find other possible members, which are not labeled as a group member, but still meet the criteria. The paper describes an exploratory method of finding new group members.
- Published
- 2018
- Full Text
- View/download PDF
14. Reisewege in Raum und Zeit
- Author
-
Aschauer, Anna, Büchler, Marco, Gradl, Tobias, Henrich, Andreas, Vogeler, Georg, and Helling, Patrick
- Subjects
DHd2018 ,Biographische Daten ,Nachnutzbarkeit ,Gruppenbildung - Abstract
A single abstract from the DHd-2018 Book of Abstracts., Sofern eine editorische Arbeit an dieser Publikation stattgefunden hat, dann bestand diese aus der Eliminierung von Bindestrichen in Überschriften, die aufgrund fehlerhafter Silbentrennung entstanden sind, der Vereinheitlichung von Namen der Autor*innen in das Schema "Nachname, Vorname" und/oder der Trennung von Überschrift und Unterüberschrift durch die Setzung eines Punktes, sofern notwendig., {"references":["https://doi.org/10.5281/zenodo.3684897","https://github.com/DHd-Verband/DHd-Abstracts-2018"]}
- Published
- 2018
- Full Text
- View/download PDF
15. A teljesség minőségjelzőként való mérése az Europeanában
- Author
-
Király, Péter, primary and Büchler, Marco, primary
- Published
- 2019
- Full Text
- View/download PDF
16. Optical Character Recognition for Coptic fonts
- Author
-
Lincke, Eliese-Sophia, primary, Bulert, Kirill, additional, and Büchler, Marco, additional
- Published
- 2019
- Full Text
- View/download PDF
17. Optical character recognition of typeset Coptic text with neural networks
- Author
-
Miyagawa, So, primary, Bulert, Kirill, additional, Büchler, Marco, additional, and Behlmer, Heike, additional
- Published
- 2019
- Full Text
- View/download PDF
18. Using and evaluating TRACER for an Index fontium computatus of the Summa contra Gentiles of Thomas Aquinas
- Author
-
Cabrio, Elena, Mazzei, Alessandro, Tamburini, Fabio, Franzini, Greta, Passarotti, Marco Carlo, Moritz, Maria, Büchler, Marco, Franzini Greta, Passarotti Marco (ORCID:0000-0002-9806-7187), Cabrio, Elena, Mazzei, Alessandro, Tamburini, Fabio, Franzini, Greta, Passarotti, Marco Carlo, Moritz, Maria, Büchler, Marco, Franzini Greta, and Passarotti Marco (ORCID:0000-0002-9806-7187)
- Abstract
This article describes a computa- tional text reuse study on Latin texts desi- gned to evaluate the performance of TRACER, a language-agnostic text reuse de- tection engine. As a case study, we use the Index Thomisticus as a gold standard to measure the performance of the tool in identifying text reuse between Thomas Aquinas’ Summa contra Gentiles and his sources.
- Published
- 2018
19. JDMDH Special Issue on Computer-Aided Processing of Intertextuality in Ancient Languages
- Author
-
Büchler, Marco, Mellerin, Laurence, Mellerin, Laurence, BLANC - Index en ligne des citations bibliques dans la littérature de l'Antiquité et du Moyen Age - - BIBLINDEX2010 - ANR-10-BLAN-2001 - BLANC - VALID, Marco Büchler, and Laurence Mellerin
- Subjects
intertextuality ,text reuse ,ancient languages ,[SHS.RELIG] Humanities and Social Sciences/Religions - Abstract
This special issue originates in the International workshop on computer aided¬processing of intertextuality in ancient languages, held in Lyon (2nd-4th June 2014), coorganized by HiSoMA (UMR 5189, Lyon), LIRIS (UMR 5205, Villeurbanne) and the University of Göttingen and SUB Göttingen (e-TRAP), with the support of the National Research Agency (ANR Biblindex) and the Partner University Fund (PUF).This workshop was initiated as the conclusive meeting of the ANR project BIBLINDEX, which aims at establishing an exhaustive statement of the biblical references found in the texts of the Late Antiquity and the Middle Ages. Were gathered computer scientists and digital humanists. The sessions presented the state of art regarding concepts and technics used to process quotations and text reuses in ancient languages.Thanks to the editorial system of the JDMDH, the proceedings of this workshop have been open to other contributions also dealing with intertextuality, linguistic preprocessing and the preservation of scholarly research results, specifically applied to corpora in Ancient Languages and for which few online resources exist (Ancient Greek, Latin, Hebrew, Syriac, Coptic, Arabic, Ethiopic, etc.).
- Published
- 2017
20. Converting Latin Treebank Data into SQL Database for Query Purposes
- Author
-
Antonacopoulos, Apostolo, Büchler, Marco, Onambele Manga, Christophe Ledoux, Passarotti, Marco Carlo, Mirovsky, Jiri, Kopp, Matyas, Passarotti, Marco Carlo (ORCID:0000-0002-9806-7187), Antonacopoulos, Apostolo, Büchler, Marco, Onambele Manga, Christophe Ledoux, Passarotti, Marco Carlo, Mirovsky, Jiri, Kopp, Matyas, and Passarotti, Marco Carlo (ORCID:0000-0002-9806-7187)
- Abstract
This paper describes how to turn a Latin dependency treebank into queryable information so that it can be browsed online using a tree query engine and its web interface. e annotation layers of the treebank are first introduced, then the query system architecture is detailed, and finally the way the treebank is converted into a relational database architecture is described.
- Published
- 2017
21. The Impact of Unassimilated Loanwords on Latin Lexicon. A Qualitative and Quantitative Analysis
- Author
-
Antonacopoulos, Apostolo, Büchler, Marco, Budassi, Marco, Passarotti, Marco Carlo, Passarotti, Marco Carlo (ORCID:0000-0002-9806-7187), Antonacopoulos, Apostolo, Büchler, Marco, Budassi, Marco, Passarotti, Marco Carlo, and Passarotti, Marco Carlo (ORCID:0000-0002-9806-7187)
- Abstract
The recent enhancement of the morphological analyser for Latin Lemlat with a large Onomasticon enables us to analyse both the morphology and the distribution of loanwords in the Latin lexicon. In this paper, first we describe the categories of proper names that were not possible to insert into Lemlat automatically, showing that a large part of them are loanwords. Then, we present the results of a qualitative analysis of loanwords to detect those ‘exceptional’ endings that identify loanwords featuring inectional properties not assimilated to those regular in the morphological system of Latin. In the end, we report a quantitative analysis of data to study the frequency of such loanwords in Latin texts.
- Published
- 2017
22. Node Formation. Using Networks to Inspect Productivity in Affixal Derivation in Classical Latin
- Author
-
Antonacopoulos, Apostolo, Büchler, Marco, Litta Modignani Picozzi, Eleonora Maria Gabriella, Passarotti, Marco Carlo, Ruffolo, Paolo, Litta, Eleonora Maria (ORCID:0000-0002-0499-997X), Passarotti, Marco Carlo (ORCID:0000-0002-9806-7187), Antonacopoulos, Apostolo, Büchler, Marco, Litta Modignani Picozzi, Eleonora Maria Gabriella, Passarotti, Marco Carlo, Ruffolo, Paolo, Litta, Eleonora Maria (ORCID:0000-0002-0499-997X), and Passarotti, Marco Carlo (ORCID:0000-0002-9806-7187)
- Abstract
This paper investigates the distribution of word formation data through network visualisation, as an entry point for the exploration / analysis of productivity in affixal derivation in Classical Latin. This study uses data from theWord Formation Latin lexicon, a derivational morphology resource for Latin, where entries are analysed into their formative components, and relationships between them are established on the basis of word formation rules.
- Published
- 2017
23. Mining and Analysing One Billion Requests to Linguistic Services
- Author
-
Büchler, Marco, Eckart, Thoma, Franzini, Greta, Franzini, Emily, Greta Franzini, Büchler, Marco, Eckart, Thoma, Franzini, Greta, Franzini, Emily, and Greta Franzini
- Abstract
From 2004 to 2016 the Leipzig Linguistic Services (LLS) existed as a SOAP-based cyber infrastructure of atomic micro-services for the Wortschatz project, which covered different-sized textual corpora in more than 230 languages. The LLS were developed in 2004 and went live in 2005 in order to provide a Web service-based API to these corpus databases. In 2006, the LLS infrastructure began to systematically log and store requests made to the text collection, and in August 2016 the LLS were shut down. This article summarises the experience of the past ten years of running such a cyberinfrastructure with a total of nearly one billion requests. It includes an explanation of the technical decisions and limitations but also provides an overview of how the services were used.
- Published
- 2017
24. Analysis of Part-Of-Speech Tagging of Historical German Texts
- Author
-
Paluch, Markus, primary, Rotari, Gabriela, additional, Steding, David, additional, Weß, Maximilian, additional, Moritz, Maria, additional, and Büchler, Marco, additional
- Published
- 2017
- Full Text
- View/download PDF
25. Non-Literal Text Reuse in Historical Texts: An Approach to Identify Reuse Transformations and its Application to Bible Reuse
- Author
-
Moritz, Maria, primary, Wiederhold, Andreas, additional, Pavlek, Barbara, additional, Bizzoni, Yuri, additional, and Büchler, Marco, additional
- Published
- 2016
- Full Text
- View/download PDF
26. Informationstechnische Aspekte des Historical Text Re-use: Computational Aspects of Historical Text Re-use
- Author
-
BÜCHLER, Marco, HEYER, Gerhard, SCHULZ, Klaus, and Universität Leipzig
- Subjects
Text Re-use, Cultural Heritage, Bibel, Noisy Channel Model, Intertextuality ,Text Re-use, Cultural Heritage, Bibel, Noisy Channel Model, Intertextualität ,ddc:000 - Abstract
Gegenstand der Arbeit ----------------------- Was ist Text Re-use? Text Re-use beschreibt die mit unterschiedlichen Absichten mündliche und schriftliche Wiedergabe von Textinhalten. Diese können im Sinne einer Definition das Anerkennen einer Autorität aber auch das Wiedergeben einer besonders interessanten Information sein. Während der Fokus dieser Arbeit auf dem Erstellen eines Hypertextes durch eine Text Re-use Analysis liegt, sind die PageRanking-Technik oder auch bibliometrische Analysen weiterführende Anwendungen. Im Kontext derartiger Einsatzmöglichkeiten kann auf historischen Dokumenten, die dieser Arbeit zugrunde liegen, durch eine automatische Analyse eine noch nie zuvor erstellte Breite von Zitierabhängigkeiten erstellt werden, welche heutzutage Aufschluss darüber geben, was in früheren Zeiten als wichtig erachtet worden ist, auch wenn es in der Gegenwart für Sprachen, wie dem Altgriechischen oder dem Latein, keine Muttersprachler mehr gibt. Stand der Forschung ------------------- In der Plagiarismuserkennung, einer modernen Anwendung von Text Re-use, werden meist einfache Ngramm-Ansätze eingesetzt. Diese Form einer Abtastung eines Textes bietet in erster Linie den Vorteil, dass die benötigte Rechenzeit relativ klein bleibt. Ferner genügt dieser Ansatz, um ein einfaches Copy & Paste zu erkennen. Außerhalb des Plagiarismus stellt sich der Forschungsstand so dar, dass nahezu beliebig Daten und Algorithmen kombiniert werden. Die Ergebnisse geben datenspezifische Charakteristika wieder und sind somit oft nicht auf andere Daten reproduzierbar. Der Forschungsstand reflektiert somit mehr Insellösungen als eine ganzheitliche Sicht auf das Thema. Ganzheitliche Sicht auf Text Re-use ----------------------------------- In Kapitel 2 wird die derzeit vollständigste Systematisierung des Text Re-use vorgenommen. Dies umfasst zwei wesentliche Aspekte: - Es werden insgesamt 45 verschiedene Typisierungen von Textstellen, nachfolgend auch Meme im Sinne eines Gedanken oder Gedankensplitters genannt, eingeführt, welche in der Regel wiederverwendet werden. Entsprechende typisierte Meme reichen nur beispielhaft von Sprichwort, über Schlachtruf und Vers bis hin zur Legende. - Es wird eine Systematik zu verschiedenen Re-use Styles definiert, welche beschreibt, wie ein entsprechendes Meme wiederverwendet wird. Das kann zum Beispiel ein wortwörtliches Zitat aber auch eine Paraphrase oder Allusion sein. Das Ziel dieser ganzheitlichen Sicht besteht darin, grundlegende Eigenschaften der Meme sowie der Re-use Styles zu definieren. Während ein Meme, wie z. B. eine Redewendung, eher kurz und syntaktisch fest verwendet wird, ist es beim größeren Meme Legende üblich, dieses mündlich und damit wesentlich freier wiederzugeben. Während die Typisierung der verschiedenen Meme die Frage aufwirft, warum bestimmte Textinhalte wiederverwendet werden, gibt die zweite Systematik des Re-use Styles Aufschluss darüber, wie jeder persönlich andere Inhalte wiedergibt. Sowohl die Typisierung der verschiedenen Meme mit ihren unterschiedlichen Charakteristika als auch die Systematik der Re-use Styles reflektieren eine Data Diversity, welche eine Herausforderung sowohl für die Text Re-use Analysis aber auch für deren Evaluation aus ganzheitlicher Sicht bedeutet, da es keinen Gold Standard gibt, welcher sowohl alle möglichen Meme als auch die verschiedenen Re-use Styles adäquat repräsentiert. Forschungsfragen ---------------- Aus ganzheitlicher Sicht ergeben sich somit für diese Arbeit die folgenden Forschungsfragen: - Im Kontext der verschiedenen Re-use Styles muss die Frage danach gestellt werden, bis zu welchem Grad der Veränderung ein Text Re-use automatisch noch erkannt werden kann. - Wie kann eine Text Re-use Analysis so gestaltet werden, dass sie auch für unterschiedliche Meme mit verschiedenen Charakteristika gleich gut funktioniert? - Wie können Veränderungen eines wiederverwendenden Autors systematisch bestimmt und extrahiert werden? - Wie kann das Ergebnis einer Text Re-use Analysis in einer Digital Library in Anbetracht der Data Diversity ganzheitlich evaluiert werden? Untersuchungsmethodik und Lösungsansatz --------------------------------------- Da die Data Diversity aus informationstechnischer Sicht nicht mit einem einzelnen Algorithmus bzw. einer kleinen Menge von Ansätzen abgedeckt werden kann, wird in Kapitel 3 die 7-Level-Architektur des Historical Text Re-use vorgestellt. Diese Architektur kann als ein modulares Konzept verstanden werden, um die Text Re-use Analysis auf die verschiedenen Bedürfnisse, bedingt durch spezielle Eigenschaften von Meme, unterschiedlichen Re-use Styles aber auch verschiedenen Sprachvarianten, entsprechend anzupassen. Die einzelnen Level entsprechen den sieben Unteraufgaben Segmentation, Preprocessing, Featuring, Selection, Linking, Scoring und Postprocessing. In Kapitel 3 werden zu jedem Level in einem separaten Abschnitt entsprechende Implementierungen sowohl ausführlich vorgestellt als auch systematisiert. Zur Abgabe dieser Dissertation stehen in der TRACER-Implementierung, welche die 7-Level-Architektur umsetzt, insgesamt über eine Million Kombinationsmöglichkeiten der verschiedenen Ansätze der einzelnen Level zur Verfügung. Sowohl die drei genannten Forschungsfragen als auch die aufgezeigte Data Diversity des Historical Text Re-use werden im Rahmen der Dissertation als hinreichende Motivation verstanden, den Historical Text Re-use in Shannon\''s Noisy Channel Theorem einzubetten. In diesem Kontext kann ein Original- bzw. zitierter Autor als Source und ein wiederverwendender Autor als Target verstanden werden. Der Noisy Channel stellt ein unbekanntes Modell von Modifikationen, den äußeren Einflüssen, dar. In Kapitel 4 wird das Noisy Channel Model dazu eingesetzt, ein zufälliges und rein künstliches Störsignal zum Noisy Channel hinzuzufügen, so dass eine Randomised Digital Library entsteht. Es werden insgesamt fünf Klassen von Randomisierungstechniken, die künstlichen Störsignale, im Sinne eines Turingtests vorgestellt, welche unterschiedliche Schwierigkeitsgrade einer rein quantitativen Evaluierung mit sich bringen. Für diese quantitative Evaluierung, die Noisy Channel Evaluation, wird der neuartige Score der Mining Ability eingeführt. Die Mining Ability setzt hierbei das Ergebnis einer Text Re-use Analysis auf einer Digital Library mit dem Resultat einer durch ein künstliches Störsignal veränderten Randomised Digital Library ins Verhältnis, wodurch nicht nur Parameter optimiert sondern auch verschiedene Sprachmodelle vollautomatisch und bzgl. des Ergebnisses ganzheitlich sowie ohne Gold Standard evaluiert werden können. In Kapitel 5 wird der Noisy Channel als Modell eingesetzt, um historisch paradigmatische Relationen systematisch zu bestimmen. Das ist insbesondere unter Berücksichtigung der großen Zeitfenster von geisteswissenschaftlichen Texten von Interesse, da sich semantische Beziehungen von Konzepten im Laufe der Zeit verändert haben. Ergebnisse ---------- Die Ergebnisse dieser Arbeit sind sehr vielschichtig und umfassen neben Ergebnissen von Evaluierungen, auch Erfahrungen innerhalb der eHumanities sowie der entsprechenden Grundlagenarbeit. Im Detail können die Ergebnisse wie folgt zusammengefasst werden: Es wird im einführenden Kapitel der Dissertation das Paradigma ACID for the eHumanities vorgestellt. ACID ist hierbei eine Abkürzung für Acceptance, Complexity, Interoperability und Diversity. Diese vier Säulen werden als Aspekte vorgestellt, denen sich die Informatik in der Zusammenarbeit mit den Geisteswissenschaften stellen muss. Der Fokus der Arbeit liegt auf der Diversity aber auch Aspekte der Acceptance und Complexity werden ausführlich verdeutlicht. In Kapitel 4 wird neben der Einführung der Noisy Channel Evaluation auch aufgezeigt, welche statistischen Probleme probabilistische Sprachmodelle begleiten. Während probabilistische Sprachmodelle das Gesetz der großen Zahlen und somit eine hinreichend große Auftretenswahrscheinlichkeit voraussetzen, folgen verschiedene Charakteristika natürlicher Sprache einem Power Law, wie dem Zipfschen Gesetz, so dass für den Long Tail dieser Verteilung eine geringe Frequenz zugrunde liegt, woraus letztlich ein statistisches Problem resultiert. Im Detail kann so gezeigt werden, dass der eingeführte Score der Mining Ability bei zunehmender Größe einer Digital Library nach Erreichen eines Maximums wieder sinkt. Das resultiert daraus, dass mit zunehmender Größe der Digital Library vermehrt aus Rauschen als Neuem ``gelernt\''\'' wird. Auch wenn Kapitel 4 das auf den Text Re-use einschränkt, so sind die Ergebnisse einfach auf andere probabilistische Sprachmodelle adaptierbar. Insbesondere wird der Widerspruch des Gesetzes der großen Zahlen, welches den auf Wahrscheinlichkeiten aufsetzenden Sprachmodellen implizit zugrunde liegt, und den oftmals sehr seltenen Ereignissen beim Umgang mit natürlichsprachlichen Texten deutlich. In Kapitel 5 wird weiterhin gezeigt, dass es kein Text Re-use Model gibt, welches in jedem Szenario optimale Ergebnisse liefert. Basierend auf sieben Bibelversionen mit unterschiedlichen Bezügen untereinander, wird verdeutlicht, dass sich nicht nur die Algorithmen der 7-Level-Architektur unterscheiden können, sondern auch entsprechende Schwellwerte. Im Rahmen der Arbeit werden zwei rein quantitative Evaluierungsgrößen, die Text Re-use Compression sowie die Noisy Channel Evaluation, eingeführt. In Kapitel 5 wird gezeigt, dass es eine signifikante Korrelation zu existierenden Evaluierungsgrößen gibt, welche jedoch einen Gold Standard oder zumindest eine Evaluierungsgrundlage benötigen. Einerseits gibt es eine nach Pearson sehr starke Korrelation zwischen dem Recall und der Text Re-use Compression. Andererseits wird auch gezeigt, dass das F-Measure sowie die im Rahmen dieser Arbeit eingeführte Noisy Channel Evaluation sehr vergleichbare Evaluierungsergebnisse erzeugen. Das wird im Rahmen einer System Evaluation in Kapitel 5 anhand der sieben Bibelversionen in insgesamt 504 verschiedenen Experimenten dargestellt. Beitrag zur Forschung --------------------- Neben den aufgezeigten Ergebnissen stellt diese Arbeit Grundlagenforschung sowohl in der Systematisierung des Text Re-use aber auch bei der Evaluierung von Ergebnissen dar. Wie eingangs zum Forschungsstand umrissen wurde, verlieren sich derzeit viele Arbeiten in der nahezu beliebigen Kombination aus Daten und Algorithmen. Mit dieser Arbeit wird ein Evaluierungsszenario vorgestellt, welches es ermöglicht, auch ohne Gold Standard das Ergebnis zu bewerten. Somit wird das Resultat nicht mehr durch unterschiedliche Überlappungsgrade zwischen Digital Library und Gold Standard verfälscht. Des Weiteren geht mit dieser Arbeit ein Paradigmenwechsel einher. Während in der Automatischen Sprachverarbeitung Text Re-use bisher aus einer ``1-Algorithmus-Sicht\''\'' betrachtet wird, zeigen die Ergebnisse aus Kapitel 5 auf, dass zukünftig stärker der paarweise Vergleich zweier Werke im Forschungsvordergrund stehen sollte. Das geht damit einher, dass jeder Mensch einen eigenen Re-use Style besitzt, so dass durch das paarweise Vergleichen die menschlichen Individualitäten im Fokus der Text Re-use Analysis stehen. Deshalb wird vorgeschlagen, die Einzelergebnisse der werkweisen Vergleiche anschließend zu einem Hybrid Text Re-use Graph zusammenzusetzen. Mit der Noisy Channel Evaluation sowie der Text Re-use Compression stehen nun weiterführend auch vollautomatische Evaluierungstechniken zur Verfügung, so dass eine wesentlich präzisere Text Re-use Analysis möglich ist. Perspektive ----------- Entgegen modernen Anwendungen des Text Re-use, wie dem Plagiarismus, kann der Historical Text Re-use als ein nützliches Instrument verstanden werden, welches nicht nur Evidenzen von Transferwegen, sondern vielmehr auch einen fundamentalen Teil des sprachlich-kulturellen Erbes der Menschheit darstellt. Aus der Vielfalt des Historical Text Re-use ergeben sich für die Informatik im Rahmen der eHumanities vielschichtige Herausforderungen, die Gegenstand dieser Arbeit sind. Im Detail bedeutet das einen Paradigmenwechsel vom Pragmatismus im Vergleich von Sprachmodellen hin zur bestmöglichen Vollständigkeit.
- Published
- 2013
27. Canton Ticino : gli effetti di AlpTransit
- Author
-
Büchler, Marco
- Published
- 2013
- Full Text
- View/download PDF
28. Towards a Historical Text Re-use Detection
- Author
-
Chris Biemann, Alexander Mehler, Büchler, Marco, Burns, Philip R., Müller, Martin, Franzini, Emily, Franzini, Greta, Greta Franzini, Chris Biemann, Alexander Mehler, Büchler, Marco, Burns, Philip R., Müller, Martin, Franzini, Emily, Franzini, Greta, and Greta Franzini
- Abstract
Text re-use describes the spoken and written repetition of information. Historical text re-use, with its longer time span, embraces a larger set of morphological, linguistic, syntactic, semantic and copying variations, thus adding a complication to text-reuse detection. Furthermore, it increases the chances of redundancy in a Digital Library. In Natural Language Processing it is crucial to remove these redundancies before applying any kind of machine learning techniques to the text. In Humanities, these redundancies foreground textual criticism and allow scholars to identify lines of transmission. This chapter investigates two aspects of the historical text re-use detection process, based on seven English editions of the Holy Bible. First, we measure the performance of several techniques. For this purpose, when considering a verse—such as book Genesis, Chapter 1, Verse 1—that is present in two editions, one verse is always understood as a paraphrase of the other. It is worth noting that paraphrasing is considered a hyponym of text re-use. Depending on the intention with which the new version was created, verses tend to differ significantly in the wording, but not in the meaning. Secondly, this chapter explains and evaluates a way of extracting paradigmatic relations. However, as regards historical languages, there is a lack of language resources (for example, WordNet) that makes non-literal text re-use and paraphrases much more difficult to identify. These differences are present in the form of replacements, corrections, varying writing styles, etc. For this reason, we introduce both the aforementioned and other correlated steps as a method to identify text re-use, including language acquisition to detect changes that we call paradigmatic relations. The chapter concludes with the recommendation to move from a ”single run” detection to an iterative process by using the acquired relations to run a new task.
- Published
- 2014
29. Informationstechnische Aspekte des Historical Text Re-use: Computational Aspects of Historical Text Re-use
- Author
-
HEYER, Gerhard, SCHULZ, Klaus, Universität Leipzig, BÜCHLER, Marco, HEYER, Gerhard, SCHULZ, Klaus, Universität Leipzig, and BÜCHLER, Marco
- Abstract
Gegenstand der Arbeit ----------------------- Was ist Text Re-use? Text Re-use beschreibt die mit unterschiedlichen Absichten mündliche und schriftliche Wiedergabe von Textinhalten. Diese können im Sinne einer Definition das Anerkennen einer Autorität aber auch das Wiedergeben einer besonders interessanten Information sein. Während der Fokus dieser Arbeit auf dem Erstellen eines Hypertextes durch eine Text Re-use Analysis liegt, sind die PageRanking-Technik oder auch bibliometrische Analysen weiterführende Anwendungen. Im Kontext derartiger Einsatzmöglichkeiten kann auf historischen Dokumenten, die dieser Arbeit zugrunde liegen, durch eine automatische Analyse eine noch nie zuvor erstellte Breite von Zitierabhängigkeiten erstellt werden, welche heutzutage Aufschluss darüber geben, was in früheren Zeiten als wichtig erachtet worden ist, auch wenn es in der Gegenwart für Sprachen, wie dem Altgriechischen oder dem Latein, keine Muttersprachler mehr gibt. Stand der Forschung ------------------- In der Plagiarismuserkennung, einer modernen Anwendung von Text Re-use, werden meist einfache Ngramm-Ansätze eingesetzt. Diese Form einer Abtastung eines Textes bietet in erster Linie den Vorteil, dass die benötigte Rechenzeit relativ klein bleibt. Ferner genügt dieser Ansatz, um ein einfaches Copy & Paste zu erkennen. Außerhalb des Plagiarismus stellt sich der Forschungsstand so dar, dass nahezu beliebig Daten und Algorithmen kombiniert werden. Die Ergebnisse geben datenspezifische Charakteristika wieder und sind somit oft nicht auf andere Daten reproduzierbar. Der Forschungsstand reflektiert somit mehr Insellösungen als eine ganzheitliche Sicht auf das Thema. Ganzheitliche Sicht auf Text Re-use ----------------------------------- In Kapitel 2 wird die derzeit vollständigste Systematisierung des Text Re-use vorgenommen. Dies umfasst zwei wesentliche Aspekte: - Es werden insgesamt 45 verschiedene Typisierungen von Textstellen, nachfolgend auch Meme im Sinne eines Gedanken oder Ge
- Published
- 2013
30. Informationstechnische Aspekte des Historical Text Re-use: Computational Aspects of Historical Text Re-use
- Author
-
SCHULZ, Klaus, Universität Leipzig, BÜCHLER, Marco, SCHULZ, Klaus, Universität Leipzig, and BÜCHLER, Marco
- Abstract
Gegenstand der Arbeit ----------------------- Was ist Text Re-use? Text Re-use beschreibt die mit unterschiedlichen Absichten mündliche und schriftliche Wiedergabe von Textinhalten. Diese können im Sinne einer Definition das Anerkennen einer Autorität aber auch das Wiedergeben einer besonders interessanten Information sein. Während der Fokus dieser Arbeit auf dem Erstellen eines Hypertextes durch eine Text Re-use Analysis liegt, sind die PageRanking-Technik oder auch bibliometrische Analysen weiterführende Anwendungen. Im Kontext derartiger Einsatzmöglichkeiten kann auf historischen Dokumenten, die dieser Arbeit zugrunde liegen, durch eine automatische Analyse eine noch nie zuvor erstellte Breite von Zitierabhängigkeiten erstellt werden, welche heutzutage Aufschluss darüber geben, was in früheren Zeiten als wichtig erachtet worden ist, auch wenn es in der Gegenwart für Sprachen, wie dem Altgriechischen oder dem Latein, keine Muttersprachler mehr gibt. Stand der Forschung ------------------- In der Plagiarismuserkennung, einer modernen Anwendung von Text Re-use, werden meist einfache Ngramm-Ansätze eingesetzt. Diese Form einer Abtastung eines Textes bietet in erster Linie den Vorteil, dass die benötigte Rechenzeit relativ klein bleibt. Ferner genügt dieser Ansatz, um ein einfaches Copy & Paste zu erkennen. Außerhalb des Plagiarismus stellt sich der Forschungsstand so dar, dass nahezu beliebig Daten und Algorithmen kombiniert werden. Die Ergebnisse geben datenspezifische Charakteristika wieder und sind somit oft nicht auf andere Daten reproduzierbar. Der Forschungsstand reflektiert somit mehr Insellösungen als eine ganzheitliche Sicht auf das Thema. Ganzheitliche Sicht auf Text Re-use ----------------------------------- In Kapitel 2 wird die derzeit vollständigste Systematisierung des Text Re-use vorgenommen. Dies umfasst zwei wesentliche Aspekte: - Es werden insgesamt 45 verschiedene Typisierungen von Textstellen, nachfolgend auch Meme im Sinne eines Gedanken oder Ge
- Published
- 2013
31. Inducing the Cross-Disciplinary Usage of Morphological Language Data Through Semantic Modelling
- Author
-
Klimek, Bettina, Lauer, Gerhard, Rosenthaler, Lukas, Hellmann, Sebastian, and Büchler, Marco
- Abstract
Despite the enormous technological advancements in the area of data creation and management the vast majority of language data still exists as digital single-use artefacts that are inaccessible for further research efforts. At the same time the advent of digitisation in science increased the possibilities for knowledge acquisition through the computational application of linguistic information for various disciplines. The purpose of this thesis, therefore, is to create the preconditions that enable the cross-disciplinary usage of morphological language data as a sub-area of linguistic data in order to induce a shared reusability for every research area that relies on such data. This involves the provision of morphological data on the Web under an open license and needs to take the prevalent diversity of data compilation into account. Various representation standards emerged across single disciplines which lead to heterogeneous data that differs with regard to complexity, scope and data formats. This situation requires a unifying foundation enabling direct reusability. As a solution to fill the gap of missing open data and to overcome the presence of isolated datasets a semantic data modelling approach is applied. Being rooted in the Linked Open Data (LOD) paradigm it pursues the creation of data as uniquely identifiable resources that are realised as URIs, accessible on the Web, available under an open license, interlinked with other resources, and adhere to Linked Data representation standards such as the RDF format. Each resource then contributes to the LOD cloud in which they are all interconnected. This unification results from ontologically shared bases that formally define the classification of resources and their relation to other resources in a semantically interoperable manner. Subsequently, the possibility of creating semantically structured data has sparked the formation of the Linguistic Linked Open Data (LLOD) research community and LOD sub-cloud containing primarily language resources. Over the last decade, ontologies emerged mainly for the domain of lexical language data which lead to a significant increase in Linked Data-based linguistic datasets. However, an equivalent model for morphological data is still missing, leading to a lack of this type of language data within the LLOD cloud. This thesis presents six publications that are concerned with the peculiarities of morphological data and the exploration of their semantic representation as an enabler of cross-disciplinary reuse. The Multilingual Morpheme Ontology (MMoOn Core) as well as an architectural framework for morphemic dataset creation as RDF resources are proposed as the first comprehensive domain representation model adhering to the LOD paradigm. It will be shown that MMoOn Core permits the joint representation of heterogeneous data sources such as interlinear glossed texts, inflection tables, the outputs of morphological analysers, lists of morphemic glosses or word-formation rules which are all equally labelled as “morphological data” across different research areas. Evidence for the applicability and adequacy of the semantic modelling entailed by the MMoOn Core ontology is provided by two datasets that were transformed from tabular data into RDF: the Hebrew Morpheme Inventory and Xhosa RDF dataset. Both further demonstrate how their integration into the LLOD cloud - by interlinking them with external language resources - yields insights that could not be obtained from the initial source data. Altogether the research conducted in this thesis establishes the foundation for an interoperable data exchange and the enrichment of morphological language data. It strives to achieve the broader goal of advancing language data-driven research by overcoming data barriers and discipline boundaries.
- Published
- 2020
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.