46 results on '"Gómez Hidalgo, José María"'
Search Results
2. Does Sentiment Analysis Help in Bayesian Spam Filtering?
- Author
-
Ezpeleta, Enaitz, Zurutuza, Urko, Gómez Hidalgo, José María, Hutchison, David, Series editor, Kanade, Takeo, Series editor, Kittler, Josef, Series editor, Kleinberg, Jon M., Series editor, Mattern, Friedemann, Series editor, Mitchell, John C., Series editor, Naor, Moni, Series editor, Pandu Rangan, C., Series editor, Steffen, Bernhard, Series editor, Terzopoulos, Demetri, Series editor, Tygar, Doug, Series editor, Weikum, Gerhard, Series editor, Martínez-Álvarez, Francisco, editor, Troncoso, Alicia, editor, Quintián, Héctor, editor, and Corchado, Emilio, editor
- Published
- 2016
- Full Text
- View/download PDF
3. The Role of Word Sense Disambiguation in Automated Text Categorization
- Author
-
Gómez Hidalgo, José María, de Buenaga Rodríguez, Manuel, Cortizo Pérez, José Carlos, Hutchison, David, editor, Kanade, Takeo, editor, Kittler, Josef, editor, Kleinberg, Jon M., editor, Mattern, Friedemann, editor, Mitchell, John C., editor, Naor, Moni, editor, Nierstrasz, Oscar, editor, Pandu Rangan, C., editor, Steffen, Bernhard, editor, Sudan, Madhu, editor, Terzopoulos, Demetri, editor, Tygar, Dough, editor, Vardi, Moshe Y., editor, Weikum, Gerhard, editor, Montoyo, Andrés, editor, Muńoz, Rafael, editor, and Métais, Elisabeth, editor
- Published
- 2005
- Full Text
- View/download PDF
4. Named Entity Recognition for Web Content Filtering
- Author
-
Gómez Hidalgo, José María, Carrero García, Francisco, Puertas Sanz, Enrique, Hutchison, David, editor, Kanade, Takeo, editor, Kittler, Josef, editor, Kleinberg, Jon M., editor, Mattern, Friedemann, editor, Mitchell, John C., editor, Naor, Moni, editor, Nierstrasz, Oscar, editor, Pandu Rangan, C., editor, Steffen, Bernhard, editor, Sudan, Madhu, editor, Terzopoulos, Demetri, editor, Tygar, Dough, editor, Vardi, Moshe Y., editor, Weikum, Gerhard, editor, Montoyo, Andrés, editor, Muńoz, Rafael, editor, and Métais, Elisabeth, editor
- Published
- 2005
- Full Text
- View/download PDF
5. Using and Evaluating User Directed Summaries to Improve Information Access
- Author
-
Maña López, Manuel J., de Buenaga Rodríguez, Manuel, Gómez Hidalgo, José María, Goos, Gerhard, editor, Hartmanis, Juris, editor, van Leeuwen, Jan, editor, Abiteboul, Serge, editor, and Vercoustre, Anne-Marie, editor
- Published
- 1999
- Full Text
- View/download PDF
6. Short Messages Spam Filtering Using Sentiment Analysis
- Author
-
Ezpeleta, Enaitz, primary, Zurutuza, Urko, additional, and Gómez Hidalgo, José María, additional
- Published
- 2016
- Full Text
- View/download PDF
7. Chapter 7 Web Content Filtering
- Author
-
Gómez Hidalgo, José María, Sanz, Enrique Puertas, García, Francisco Carrero, and Rodríguez, Manuel De Buenaga
- Published
- 2009
- Full Text
- View/download PDF
8. Chapter 3 Email Spam Filtering
- Author
-
Sanz, Enrique Puertas, Gómez Hidalgo, José María, and Cortizo Pérez, José Carlos
- Published
- 2008
- Full Text
- View/download PDF
9. The Role of Word Sense Disambiguation in Automated Text Categorization
- Author
-
Gómez Hidalgo, José María, primary, de Buenaga Rodríguez, Manuel, additional, and Cortizo Pérez, José Carlos, additional
- Published
- 2005
- Full Text
- View/download PDF
10. Named Entity Recognition for Web Content Filtering
- Author
-
Gómez Hidalgo, José María, primary, Carrero García, Francisco, additional, and Puertas Sanz, Enrique, additional
- Published
- 2005
- Full Text
- View/download PDF
11. Using and Evaluating User Directed Summaries to Improve Information Access
- Author
-
Maña López, Manuel J., primary, de Buenaga Rodríguez, Manuel, additional, and Gómez Hidalgo, José María, additional
- Published
- 1999
- Full Text
- View/download PDF
12. Short Messages Spam Filtering Combining Personality Recognition and Sentiment Analysis
- Author
-
Gómez Hidalgo, José María, Ezpeleta Gallastegi, Enaitz, Garitano, Iñaki, Zurutuza, Urko, Gómez Hidalgo, José María, Ezpeleta Gallastegi, Enaitz, Garitano, Iñaki, and Zurutuza, Urko
- Abstract
Currently, short communication channels are growing up due to the huge increase in the number of smartphones and online social networks users. This growth attracts malicious campaigns, such as spam campaigns, that are a direct threat to the security and privacy of the users. While most researches are focused on automatic text classification, in this work we demonstrate the possibility of improving current short messages spam detection systems using a novel method. We combine personality recognition and sentiment analysis techniques to analyze Short Message Services (SMS) texts. We enrich a publicly available dataset adding these features, first separately and after in combination, of each message to the dataset, creating new datasets. We apply several combinations of the best SMS spam classifiers and filters to each dataset in order to compare the results of each one. Taking into account the experimental results we analyze the real inuence of each feature and the combination of both. At the end, the best results are improved in terms of accuracy, reaching to a 99.01% and the number of false positive is reduced.
- Published
- 2017
13. A study of the personalization of spam content using Facebook public information
- Author
-
Gómez Hidalgo, José María, Ezpeleta Gallastegi, Enaitz, Zurutuza, Urko, Gómez Hidalgo, José María, Ezpeleta Gallastegi, Enaitz, and Zurutuza, Urko
- Abstract
Millions of users per day are affected by unsolicited email campaigns. Spam filters are capable of detecting and avoiding an increasing number of messages, but researchers have quantified a response rate of a 0.006% [1], still significant to turn a considerable profit sending millions of emails, as the spammers do. While research directions are addressing topics such as better spam filters, or spam detection inside online social networks, in this paper we demonstrate that a classic spam model using online social network information can harvest a 7.62% of click-through rate. We collect email addresses from the Internet, complete email owner information using their public social network profile data, and analyze response of personalized spam sent to users according to their profile using a fake website. Finally we demonstrate the effectiveness of these profile-based emails to circumvent spam detection and we compare results between typical spam and personalized spam.
- Published
- 2017
14. Using Personality Recognition Techniques to Improve Bayesian Spam Filtering
- Author
-
Ezpeleta, Enaitz, Zurutuza, Urko, and Gómez Hidalgo, José María
- Subjects
Polarity ,Polaridad ,Lenguajes y Sistemas Informáticos ,Security ,Spam ,Personalidad ,NLP ,PLN ,Seguridad ,Personality - Abstract
Millions of users per day are affected by unsolicited email campaigns. During the last years several techniques to detect spam have been developed, achieving specially good results using machine learning algorithms. In this work we provide a baseline for a new spam filtering method. Carrying out this research we validate our hypothesis that personality recognition techniques can help in Bayesian spam filtering. We add the personality feature to each email using personality recognition techniques, and then we compare Bayesian spam filters with and without personality in terms of accuracy. In a second experiment we combine personality and polarity features of each message and we compare all the results. At the end, the top ten Bayesian filtering classifiers have been improved, reaching to a 99.24% of accuracy, reducing also the false positive number. Millones de usuarios se ven afectados por las campanas de envío de correos electrónicos no deseados al día. Durante los últimos años diferentes técnicas de detección de spam han sido desarrollados por investigadores, obteniendo especialmente buenos resultados con algoritmos de aprendizaje automático. En este trabajo presentamos una base para un nuevo método de filtrado de spam. Durante el estudio hemos validado la hipótesis de que las técnicas de reconocimiento de personalidad pueden ayudar a mejorar el filtrado Bayesiano de spam. Usando estas técnicas de filtrado, añadimos la característica de personalidad a cada correo, y después comparamos los resultados del filtrado Bayesiano de spam con y sin personalidad, analizando los resultados en términos de exactitud. En un segundo experimento, combinamos las características de personalidad y polaridad de cada mensaje, y comparamos los resultados. Al final, conseguimos mejorar los resultados del filtrado Bayesiano de spam, alcanzando el 99,24% de exactitud, y reduciendo el número de falsos positivos. This work has been partially funded by the Basque Department of Education, Language policy and Culture under the project SocialSPAM (PI_2014_1_102).
- Published
- 2016
15. Short Messages Spam Filtering Using Sentiment Analysis
- Author
-
Gómez Hidalgo, José María, Ezpeleta Gallastegi, Enaitz, Zurutuza, Urko, Gómez Hidalgo, José María, Ezpeleta Gallastegi, Enaitz, and Zurutuza, Urko
- Abstract
In the same way that short instant messages are more and more used, spam and non-legitimate campaigns through this type of communication systems are growing up. Those campaigns, besides being an illegal online activity, are a direct threat to the privacy of the users. Previous short messages spam filtering techniques focus on automatic text classification and do not take message polarity into account. Focusing on phone SMS messages, this work demonstrates that it is possible to improve spam filtering in short message services using sentiment analysis techniques. Using a publicly available labelled (spam/legitimate) SMS dataset, we calculate the polarity of each message and aggregate the polarity score to the original dataset, creating new datasets. We compare the results of the best classifiers and filters over the different datasets (with and without polarity) in order to demonstrate the influence of the polarity. Experiments show that polarity score improves the SMS spam classification, on the one hand, reaching to a 98.91% of accuracy. And on the other hand, obtaining a result of 0 false positives with 98.67% of accuracy.
- Published
- 2016
16. New approaches for content-based analysis towards online social network spam detection
- Author
-
Zurutuza Ortega, Urko, Gómez Hidalgo, José María, Ezpeleta Gallastegi, Enaitz, Zurutuza Ortega, Urko, Gómez Hidalgo, José María, and Ezpeleta Gallastegi, Enaitz
- Abstract
Unsolicited email campaigns remain as one of the biggest threats affecting millions of users per day. Although spam filtering techniques are capable of detecting significant percentage of the spam messages, the problem is far from being solved, specially due to the total amount of spam traffic that flows over the Internet, and new potential attack vectors used by malicious users. The deeply entrenched use of Online Social Networks (OSNs), where millions of users share unconsciously any kind of personal data, offers a very attractive channel to attackers. Those sites provide two main interesting areas for malicious activities: exploitation of the huge amount of information stored in the profiles of the users, and the possibility of targeting user addresses and user spaces through their personal profiles, groups, pages... Consequently, new type of targeted attacks are being detected in those communication means. Being selling products, creating social alarm, creating public awareness campaigns, generating traffic with viral contents, fooling users with suspicious attachments, etc. the main purpose of spam messages, those type of communications have a specific writing style that spam filtering can take advantage of. The main objectives of this thesis are: (i) to demonstrate that it is possible to develop new targeted attacks exploiting personalized spam campaigns using OSN information, and (ii) to design and validate novel spam detection methods that help detecting the intentionality of the messages, using natural language processing techniques, in order to classify them as spam or legitimate. Additionally, those methods must be effective also dealing with the spam that is appearing in OSNs. To achieve the first objective a system to design and send personalized spam campaigns is proposed. We extract automatically users’ public information from a well known social site. We analyze it and design different templates taking into account the preferences of the users. After, Hartzailearen baimenik gabe bidalitako mezuak (spam) egunean milioika erabiltzaileri eragiten dien mehatxua dira. Nahiz eta spam detekzio tresnek gero eta emaitza hobeagoak lortu, arazoa konpontzetik oso urruti dago oraindik, batez ere spam kopuruari eta erasotzaileen estrategia berriei esker. Hori gutxi ez eta azken urteetan sare sozialek izan duten erabiltzaile gorakadaren ondorioz, non milioika erabiltzailek beraien datu pribatuak publiko egiten dituzten, gune hauek oso leku erakargarriak bilakatu dira erasotzaileentzat. Batez ere bi arlo interesgarri eskaintzen dituzte webgune hauek: profiletan pilatutako informazio guztiaren ustiapena, eta erabiltzaileekin harreman zuzena izateko erraztasuna (profil bidez, talde bidez, orrialde bidez...). Ondorioz, gero eta ekintza ilegal gehiago atzematen ari dira webgune hauetan. Spam mezuen helburu nagusienak zerbait saldu, alarma soziala sortu, sentsibilizazio kanpainak martxan jarri, etab. izaki, mezu mota hauek eduki ohi duten idazketa mezua berauen detekziorako erabilia izan daiteke. Lan honen helburu nagusiak ondorengoak dira: alde batetik, sare sozialetako informazio publikoa erabiliz egungo detekzio sistemak saihestuko dituen spam pertsonalizatua garatzea posible dela erakustea; eta bestetik hizkuntza naturalaren prozesamendurako teknikak erabiliz, testuen intentzionalitatea atzeman eta spam-a detektatzeko metodologia berriak garatzea. Gainera, sistema horiek sare sozialetako spam mezuekin lan egiteko gaitasuna ere izan beharko dute. Lehen helburu hori lortzekolan honetan spam pertsonalizatua diseinatu eta bidaltzeko sistema bat aurkeztu da. Era automatikoan erabiltzaileen informazio publikoa ateratzen dugu sare sozial ospetsu batetik, ondoren informazio hori aztertu eta txantiloi ezberdinak garatzen ditugu erabiltzaileen iritziak kontuan hartuaz. Behin hori egindakoan, hainbat esperimentu burutzen ditugu spam normala eta pertsonalizatua bidaliz, bien arteko emaitzen ezberdintasuna alderatzeko. Tesiaren bigarren zatia
- Published
- 2016
17. Web Content Filtering
- Author
-
Gómez Hidalgo, José María, Puertas Sanz, Enrique, Carrero García, Francisco Manuel, and De Buenaga Rodríguez, Manuel
- Subjects
Internet - Abstract
Across the years, Internet has evolved from an academic network to a truly communication medium, reaching impressive levels of audience and becoming a billionaire business. Many of our working, studying, and entertainment activities are nowadays overwhelmingly limited if we get disconnected from the net of networks. And of course, with the use comes abuse. The World Wide Web features a wide variety of content that are harmful for children or just inappropriate in the workplace. Web filtering and monitoring systems have emerged as valuable tools for the enforcement of suitable usage policies. These systems are routinely deployed in corporate, library, and school networks, and contribute to detect and limit Internet abuse. Their techniques are increasingly sophisticated and effective, and their development is contributing to the advance of the state of the art in a number of research fields, like text analysis and image processing. We review the main issues regarding Web content filtering, including its motivation, the main operational concerns and techniques used in filtering tools’development, their evaluation and security, and a number of singular projects in this field. 0.393 JCR (2009) Q4, 41/49 Computer science, hardware & technology, 86/93 Computer science, software engineering UEM
- Published
- 2009
18. Building a Spanish MMTx by using automatic translation and biomedical ontologies
- Author
-
Carrero García, Francisco Manuel, Cortizo Pérez, José Carlos, and Gómez Hidalgo, José María
- Subjects
Traductor ,Medicina-Lenguaje ,Lingüística computacional ,Lingüística informática - Abstract
The use of domain ontologies is becoming increasingly popular in Medical Natural Language Processing Systems. A wide variety of knowledge bases in multiple languages has been integrated into the Unified Medical Language System (UMLS) to create a huge knowledge source that can be accessed with diverse lexical tools. MetaMap (and its java version MMTx) is a tool that allows extracting medical concepts from free text, but currently there not exists a Spanish version. Our ongoing research is centered on the application of biomedical concepts to cross-lingual text classification, what makes it necessary to have a Spanish MMTx available. We have combined automatic translation techniques with biomedical ontologies and the existing English MMTx to produce a Spanish version of MMTx. We have evaluated different approaches and applied several types of evaluation according to different concept representations for text classification. Our results prove that the use of existing translation tools such as Google Translate produce translations with a high similarity to original texts in terms of extracted concepts. Sin financiación No data (2008) UEM
- Published
- 2008
19. Mining postal addresses
- Author
-
Cortizo Pérez, José Carlos, Gómez Hidalgo, José María, Temprado Rodríguez, Yaiza, Martín, Diego, Rodríguez, Federico, Weghorn, Hans, and Abraham, Ajith
- Subjects
Aplicación informática ,Recuperación de la información ,IADIS European Conference Data Mining - Abstract
This paper presents FuMaS (Fuzzy Matching System), a system capable of an efficient retrieval of postal addresses from noisy queries. The fuzzy postal addresses retrieval has many possible applications, ranging from datawarehouse dedumping, to the correction of input forms, or the integration within online street directories, etc. This paper presents the system architecture along with a series of experiments performed using FuMaS. The experimental results show that FuMaS is a very useful system when retrieving noisy postal addresses, being able to retrieve almost 85% of the total ones. This represents an improvement of the 15% when comparing with other systems tested in this set of experiments. Sin financiación No data (2008) UEM
- Published
- 2008
20. Email spam filtering
- Author
-
Puertas Sanz, Enrique, Gómez Hidalgo, José María, and Cortizo Pérez, José Carlos
- Subjects
Correo electrónico-Protección ,Protección de datos ,Correo electrónico - Abstract
In recent years, email spam has become an increasingly important problem, with a big economic impact in society. In this work, we present the problem of spam, how it affects us, and how we can fight against it. We discuss legal, economic, and technical measures used to stop these unsolicited emails. Among all the technical measures, those based on content analysis have been particularly effective in filtering spam, so we focus on them, explaining how they work in detail. In summary, we explain the structure and the process of different Machine Learning methods used for this task, and how we can make them to be cost sensitive through several methods like threshold optimization, instance weighting, or MetaCost. We also discuss how to evaluate spam filters using basic metrics, TREC metrics, and the receiver operating characteristic convex hull method, that best suits classification problems in which target conditions are not known, as it is the case. We also describe how actual filters are used in practice. We also present different methods used by spammers to attack spam filters and what we can expect to find in the coming years in the battle of spam filters against spammers. Sin financiación 0.267 JCR (2008) Q4, 42/45 Computer science, hardware & architecture, 82/86 Computer science, software engineering. UEM
- Published
- 2008
21. Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico
- Author
-
Carrera García, Francisco, Gómez Hidalgo, José María, Buenaga Rodríguez, Manuel de, Mata Vázquez, Jacinto, and Maña López, Manuel Jesús
- Subjects
Medical Subject Headings (MeSH) ,Cross-Language Information Retrieval ,Medical Subject Headings ,Biomedicine ,Recuperación de Información Croslingüe ,Ontologies ,Información biomédica ,SNOMED ,Recursos léxicos y semánticos ,Unified Medical Language System (UMLS) ,Lexical and semantic resources ,Unified Medical Language System ,Ontologías - Abstract
Unos de los enfoques más prometedores en la Recuperación de Información Croslingüe es la utilización de recursos léxico-semánticos para realizar una indexación conceptual de los documentos y consultas. Hemos seguido esta aproximación para proponer un sistema de acceso a la información para profesionales sanitarios, que facilita la preparación de casos clínicos, y la realización de estudios e investigaciones. En nuestra propuesta se conecta la documentación de los pacientes (la historia clínica), en castellano, con la información científica relacionada (artículos científicos), en inglés y castellano, usando para ellos recursos de gran cobertura y calidad como la ontología SNOMED. Se describe asimismo como se gestiona la confidencialidad de la información., One of the most promising approaches to Cross-Language Information Retrieval is the utilization of lexical-semantic resources for concept-indexing documents and queries. We have followed this approach in a proposal of an Information Access system designed for medicine professionals, aiming at easing the preparation of clinical cases, and the development of studies and research. In our proposal, the clinical record information, in Spanish, is connected to related scientific information (research papers), in English and Spanish, by using high quality and coverage resources like the SNOMED ontology. We also describe how we have addressed information privacy.
- Published
- 2007
22. Attribute analysis in biomedical text classification
- Author
-
Carrero García, Francisco Manuel, Puertas Sanz, Enrique, Gómez Hidalgo, José María, Maña López, Manuel J., and Mata, Jacinto
- Subjects
Sistema de información médica ,Attribute engineering ,Text classification ,Machine learning ,Recuperación de información - Abstract
Text Classification tasks are becoming increasingly popular in the field of Information Access. Being approached as Machine Learning problems, the definition of suitable attributes for each task is approached in an ad-hoc way. We believe that a more principled framework is required, and we present initial insights on attribute engineering for Text Classification, along with a software library that allows experiment definition and fast prototyping of classification systems. The library is currently being used and evaluated in Information Access projects in the biomedical domain. No data (2007) UEM
- Published
- 2007
23. Los proyectos SINAMED e ISIS: mejoras en el acceso a la información biomédica mediante la integración de generación de resúmenes, categorización automática de textos y ontologías
- Author
-
Maña López, Manuel Jesús, Mata Vázquez, Jacinto, Domínguez Olmedo, Juan Luis, Vaquero Sánchez, Antonio, Álvarez Montero, Francisco, Gómez Hidalgo, José María, Gachet Páez, Diego, and Buenaga Rodríguez, Manuel de
- Subjects
Proyecto ISIS ,Categorización automática de textos ,Información biomédica ,Proyecto SINAMED ,Generación de resúmenes ,Ontologías - Published
- 2006
24. A study of the personalization of spam content using Facebook public information.
- Author
-
EZPELETA, ENAITZ, ZURUTUZA, URKO, and GÓMEZ HIDALGO, JOSÉ MARÍA
- Subjects
WEB personalization ,SPAM email ,FILTERS & filtration ,ONLINE social networks ,COMPUTER network resources - Abstract
Millions of users per day are affected by unsolicited e-mail campaigns. Spam filters are capable of detecting and avoiding an increasing number of messages, but researchers have quantified a response rate of a 0.006% [1], still significant to turn a considerable profit sending millions of emails, as the spammers do. While research directions are addressing topics such as better spam filters, or spam detection inside online social networks (OSNs), in this article, we demonstrate that a classic spam model using OSN information can harvest a 7.62% of click-through rate. We collect email addresses from the Internet, complete email owner information using their public social network profile data, and analyse response of personalized spam sent to users according to their profile using a fake website. Finally, we demonstrate the effectiveness of these profile-based emails to circumvent spam detection and we compare results between typical spam and personalized spam. [ABSTRACT FROM AUTHOR]
- Published
- 2017
- Full Text
- View/download PDF
25. PLENUM – La organización de un congreso científico para (y con) los alumnos
- Author
-
Gómez Hidalgo, José María
- Subjects
Espacio Europeo de Educación Superior, EEES ,Educación ,Enseñanza superior - Abstract
En este artículo se describe una práctica docente desarrollada en la asignatura Procesamiento del Lenguaje Natural de quinto curso de la titulación de Ingeniero en Informática, perfil de Inteligencia Artificial, de la Universidad Europea de Madrid. La práctica consiste en la organización y realización de un congreso similar a las conferencias científicas actuales, en todas sus facetas: desarrollo de un trabajo de investigación, redacción de un artículo de investigación, evaluación y revisión del mismo, redacción de la versión final del artículo y presentación ante los otros participantes. El congreso se denomina PLENUM, y se ha realizado en el curso académico 2003-04 por cuarta vez. Los resultados de la evaluación de esta actividad son muy positivos, a tenor de las encuestas realizadas entre los alumnos de las distintas ediciones del congreso. SIN FINANCIACIÓN No data 2004
- Published
- 2004
26. Concept indexing for automated text categorization
- Author
-
Gómez Hidalgo, José María, Cortizo Pérez, José Carlos, Puertas Sanz, Enrique, and Ruiz, Miguel Enrique
- Subjects
Lenguaje de programación ,Indización ,Lenguajes controlados ,Lenguajes de ordenador - Abstract
In this paper we explore the potential of concept indexing with WordNet synsets for Text Categorization, in comparison with the traditional bag of words text representation model. We have performed a series of experiments in which we also test the possibility of using simple yet robust disambiguation methods for concept indexing, and the effectiveness of stoplist-filtering and stemming on the SemCor semantic concordance. Results are not conclusive yet promising. Sin financiación 0.251 JCR (2004) Q4, 70/78 Computer science, artificial intelligence UEM
- Published
- 2004
27. Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet
- Author
-
Gómez Hidalgo, José María, Puertas Sanz, Enrique, Carrero García, Francisco, and Buenaga Rodríguez, Manuel de
- Subjects
Receiver Operating Characteristic ,Automated text categorization ,Filtrado de Internet ,Aprendizaje sensible al coste ,Cost sensitive learning ,Internet filtering ,Categorización automática de texto - Abstract
El creciente problema del acceso a contenidos inapropiados de Internet se puede abordar como un problema de categorización automática de texto sensible al coste. En este artículo presentamos la evaluación comparativa de un rango representativo de algoritmos de aprendizaje y métodos de sensibilización al coste, sobre dos colecciones de páginas Web en español e inglés. Los resultados de nuestros experimentos son prometedores. The access to inapropiate Internet content is an increasing problem that can be approached as a cost-sensitive Automated Text Categorization task. In this paper, we report a series of experiments that compare a representative range of learning algorithms and methods for making them cost-sensitive, on two Web pages collections in Spanish and English. The results of our experiments are promising. Esta investigación ha sido financiada parcialmente por la Comisión Europea a través del Safe Internet Action Plan (POESIA - SIAP-2117) y por el Ministerio de Ciencia y Tecnología a través del programa PROFIT (FIT-070000-2002-861).
- Published
- 2003
28. Text filtering at POESIA : a new Internet content filtering tool for educational environments
- Author
-
Gómez Hidalgo, José María, Puertas Sanz, Enrique, Buenaga Rodríguez, Manuel de, and Carrero García, Francisco
- Subjects
Open-source ,Image processing ,Text filtering ,Filtrado de texto ,Análisis de contenido textual ,Procesamiento de imágenes ,Text analysis ,Código abierto - Abstract
Internet proporciona a los niños acceso a la pornografía y otros contenidos poco adecuados de formas mucho más expeditas que otros medios. Con el propósito de mejorar la efectividad de los filtros actuales, presentamos el proyecto POESIA, que pretende desarrollar y evaluar una herramienta de código abierto para el filtrado de material accesible por Internet en ámbitos educativos. Internet provides to the children an easy access to pornography and other harmful materials. In order to improve the effectiveness of existing filters, we present POESIA, a project which objective is to develop and evaluate an extensible open-source Internet filtering software in educational environments. This project is partly funded by the European Commission, Information Society, under the Safer Internet Action Plan.
- Published
- 2002
29. Generación automática de resúmenes personalizados
- Author
-
Acero, Ignacio, Alcojor, Matías, Díaz Esteban, Alberto, Gómez Hidalgo, José María, and Maña López, Manuel Jesús
- Subjects
Modelos de usuarios ,Intereses de los usuarios ,Periódicos digitales ,Generación automática de resúmenes - Abstract
En la actualidad los servicios de información presentes en la Web y en particular los periódicos digitales ofrecen a los usuarios una selección de documentos basada en criterios bastante simples que lleva a los usuarios a recibir una gran cantidad de información irrelevante. Nuestro trabajo pretende disminuir la sobrecarga de los usuarios de dos maneras: aportando un modelo de usuario más completo que permita definir mejor los intereses de los usuarios y construyendo un generador de resúmenes automático que permita al usuario detectar las noticias que realmente le interesan mediante la visualización de resúmenes adaptados a su modelo. Se han obtenido resultados alentadores en una evaluación de los distintos tipos de resúmenes para varios modelos de usuario. El trabajo está enmarcado dentro del sistema Hermes, un enviador personalizado de noticias que maneja información en inglés y en español.
- Published
- 2001
30. Proyecto Hermes : servicios de personalización inteligente de noticias mediante la integración de técnicas de análisis automático del contenido textual y modelado de usuario con capacidades bilingües
- Author
-
Díaz Esteban, Alberto, Buenaga Rodríguez, Manuel de, Giráldez Betrón, José Ignacio, Gómez Hidalgo, José María, García Jiménez, Antonio, Chacón Gutiérrez, Inmaculada, San Miguel López, Beatriz, Puertas Sanz, Enrique, Murciano Quejido, Raúl, Alcojor, Matías, Acero, Ignacio, and Gervás Gómez-Navarro, Pablo
- Subjects
Modelos de usuarios ,Acceso a la información ,Servidor de noticias ,Análisis automático ,Bilingüe ,Contenido textual - Abstract
El proyecto Hermes tiene como objetivo el desarrollo de un sistema personalizado inteligente de acceso a la información en un entorno bilingüe, español e inglés. El sistema proporciona una alta efectividad e información especialmente adaptada al cliente, basándose en la utilización de técnicas avanzadas del contenido textual y modelado de usuario. Un objetivo principal del proyecto Hermes radica en la extensión de las tecnologías vigentes para entornos monolingües al campo bilingüe. El servidor de noticias está desarrollado como una aplicación Java que recibe suscripciones de los clientes a través de una página web. Durante el proceso de suscripción el cliente especifica sus preferencias a la hora de recibir noticias, y con ellas se genera un modelo de usuario que se utilizará para enviarle las noticias que puedan interesarle.
- Published
- 2001
31. Proyecto Mercurio : un servicio personalizado de noticias basado en técnicas de clasificación de texto y modelado de usuario
- Author
-
Díaz Esteban, Alberto, Gervás Gómez-Navarro, Pablo, Gómez Hidalgo, José María, García Jiménez, Antonio, Buenaga Rodríguez, Manuel de, Chacón Gutiérrez, Inmaculada, San Miguel López, Beatriz, Murciano Quejido, Raúl, Puertas Sanz, Enrique, Alcojor, Matías, and Acero, Ignacio
- Subjects
Clasificación de textos ,Modelos de usuarios ,Suscripción ,Servidor de noticias - Abstract
El sistema Mercurio es un servidor personalizado de noticias que trabaja con una representación del cliente basada en los últimos avances sobre modelado de usuario. El servidor de noticias está desarrollado como una aplicación Java que recibe suscripciones de los clientes a través de una página web. Durante el proceso de suscripción el cliente especifica sus preferencias a la hora de recibir noticias, y con ellas se genera un modelo de usuario que se utilizará para enviarle las noticias que puedan interesarle con la frecuencia que haya especificado. El servidor de noticias coopera también con un buscador que permite a los clientes realizar búsquedas puntuales en las noticias del día.
- Published
- 2000
32. Utilización y evaluación de la desambiguación en tareas de clasificación de texto
- Author
-
Gómez Hidalgo, José María, Díaz Esteban, Alberto, Ureña López, Luis Alfonso, and García Vega, Manuel
- Subjects
Categorización (Lingüística) ,Desarrollo del lenguaje ,Evaluación ,Lingüística ,Evaluación de los documentos ,Integración de recursos ,Desambiguación ,Categorización de documentos - Abstract
La evaluación de la desambiguación puede realizarse tanto de manera directa como indirecta, es decir, en el marco de otra tarea de procesamiento de lenguaje natural que hace uso de ella. La evaluación directa de la desambiguación está próxima a su estandarización en el marco de competiciones como SENSEVAL. En cambio, la evaluación indirecta ha sido poco utilizada, pero es muy importante porque la desambiguación se utiliza fundamentalmente como ayuda a otras tareas. En este trabajo presentamos dos métodos de desambiguación basados en la integración de recursos, aplicados a una tarea de categorización de documentos, que se basa en la misma idea de integración. Realizamos una evaluación directa e indirecta de las técnicas de desambiguación utilizadas, logrando resultados muy positivos para ambas técnicas. Los resultados son comparables con los que obtendría un desambiguador manual, e indican que es preciso hacer uso de la desambiguación para el método de categorización propuesto. Sin financiación No data (1999) UEM
- Published
- 1999
33. Diseño y evaluación de un generador de resúmenes de texto con modelado de usuario en un entorno de recuperación de información
- Author
-
Maña López, Manuel Jesús, Buenaga Rodríguez, Manuel de, and Gómez Hidalgo, José María
- Subjects
Generador de resúmenes ,Modelos de usuarios ,WordNet ,Recuperación de información - Abstract
En este trabajo presentamos un generador de resúmenes que incorpora el modelado de las necesidades de información del usuario con el fin de crear resúmenes adaptados a las mismas. Los resúmenes se generan mediante la extracción de las frases que resultan mejor puntuadas bajo tres criterios: palabras clave, localización y título. El modelado del usuario se consigue a partir de las consultas a un sistema de Recuperación de Información y de la expansión de las mismas utilizando WordNet. Se presenta también un método de evaluación sistemático y objetivo que nos permite comparar la eficacia de los distintos tipos de resúmenes generados. Los resultados demuestran la mayor eficacia de los resúmenes adaptados a las consultas y los de aquellos que emplean WordNet.
- Published
- 1998
34. Integrando una base de datos léxica y una colección de entrenamiento para la desambiguación del sentido de las palabras
- Author
-
Ureña López, Luis Alfonso, Gómez Hidalgo, José María, García Vega, Manuel, and Díaz Esteban, Alberto
- Subjects
Ventana contextual ,WordNet ,Traducción automática ,Desambiguación del sentido de las palabras ,Categorización de texto ,SemCor ,Recuperación de información - Abstract
La resolución de la ambigüedad es una tarea compleja y útil para muchas aplicaciones del procesamiento del lenguaje natural. En concreto, la ambigüedad causa problemas en aplicaciones como: la Recuperación de Información (IR), donde los problemas pueden ser substanciales y ser superados si se utilizan grandes consultas, y la traducción automática, donde es un gran problema inherente. Recientemente han sido varios los enfoques y algoritmos propuestos para realizar esta tarea. Presentamos un nuevo enfoque basado en la integración de varios recursos lingüísticos de dominio público, como una base de datos léxica y una colección de entrenamiento. Nuestro enfoque integra la información de sinonimia de WordNet y la colección de entrenamiento SemCor para incrementar la efectividad de la desambiguación, a través del Modelo del Espacio Vectorial. Hemos probado nuestro enfoque sobre un gran conjunto de documentos con una fina granularidad de sentidos, como son los de WordNet, consiguiendo una alta precisión en la resolución de la ambigüedad léxica.
- Published
- 1998
35. Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico
- Author
-
Carrero García, Francisco, Gómez Hidalgo, José María, Buenaga Rodríguez, Manuel de, Mata Vázquez, Jacinto, Maña López, Manuel Jesús, Carrero García, Francisco, Gómez Hidalgo, José María, Buenaga Rodríguez, Manuel de, Mata Vázquez, Jacinto, and Maña López, Manuel Jesús
- Abstract
Unos de los enfoques más prometedores en la Recuperación de Información Croslingüe es la utilización de recursos léxico-semánticos para realizar una indexación conceptual de los documentos y consultas. Hemos seguido esta aproximación para proponer un sistema de acceso a la información para profesionales sanitarios, que facilita la preparación de casos clínicos, y la realización de estudios e investigaciones. En nuestra propuesta se conecta la documentación de los pacientes (la historia clínica), en castellano, con la información científica relacionada (artículos científicos), en inglés y castellano, usando para ellos recursos de gran cobertura y calidad como la ontología SNOMED. Se describe asimismo como se gestiona la confidencialidad de la información., One of the most promising approaches to Cross-Language Information Retrieval is the utilization of lexical-semantic resources for concept-indexing documents and queries. We have followed this approach in a proposal of an Information Access system designed for medicine professionals, aiming at easing the preparation of clinical cases, and the development of studies and research. In our proposal, the clinical record information, in Spanish, is connected to related scientific information (research papers), in English and Spanish, by using high quality and coverage resources like the SNOMED ontology. We also describe how we have addressed information privacy.
- Published
- 2007
36. Spam filtering for short messages
- Author
-
Cormack, Gordon V., primary, Gómez Hidalgo, José María, additional, and Sánz, Enrique Puertas, additional
- Published
- 2007
- Full Text
- View/download PDF
37. Content based SMS spam filtering
- Author
-
Gómez Hidalgo, José María, primary, Bringas, Guillermo Cajigas, additional, Sánz, Enrique Puertas, additional, and García, Francisco Carrero, additional
- Published
- 2006
- Full Text
- View/download PDF
38. SmallHelp: un sistema de ayuda para el entorno Smalltalk
- Author
-
Gómez Hidalgo, José María, Gómez Albarrán, María de las Mercedes, Fernández-Pampillón Cesteros, Ana, Gómez Hidalgo, José María, Gómez Albarrán, María de las Mercedes, and Fernández-Pampillón Cesteros, Ana
- Published
- 1996
39. The Role of Word Sense Disambiguation in Automated Text Categorization.
- Author
-
Montoyo, Andrés, Muñoz, Rafael, Métais, Elisabeth, Gómez Hidalgo, José María, Buenaga Rodríguez, Manuel, and Cortizo Pérez, José Carlos
- Abstract
Automated Text Categorization has reached the levels of accuracy of human experts. Provided that enough training data is available, it is possible to learn accurate automatic classifiers by using Information Retrieval and Machine Learning Techniques. However, performance of this approach is damaged by the problems derived from language variation (specially polysemy and synonymy). We investigate how Word Sense Disambiguation can be used to alleviate these problems, by using two traditional methods for thesaurus usage in Information Retrieval, namely Query Expansion and Concept Indexing. These methods are evaluated on the problem of using the Lexical Database WordNet for text categorization, focusing on the Word Sense Disambiguation step involved. Our experiments demonstrate that rather simple dictionary methods, and baseline statistical approaches, can be used to disambiguate words and improve text representation and learning in both Query Expansion and Concept Indexing approaches. [ABSTRACT FROM AUTHOR]
- Published
- 2005
- Full Text
- View/download PDF
40. Named Entity Recognition for Web Content Filtering.
- Author
-
Montoyo, Andrés, Muñoz, Rafael, Métais, Elisabeth, Gómez Hidalgo, José María, Carrero García, Francisco, and Puertas Sanz, Enrique
- Abstract
Effective Web content filtering is a necessity in educational and workplace environments, but current approaches are far from perfect. We discuss a model for text-based intelligent Web content filtering, in which shallow linguistic analysis plays a key role. In order to demonstrate how this model can be realized, we have developed a lexical Named Entity Recognition system, and used it to improve the effectiveness of statistical Automated Text Categorization methods. We have performed several experiments that confirm this fact, and encourage the integration of other shallow linguistic processing techniques in intelligent Web content filtering. [ABSTRACT FROM AUTHOR]
- Published
- 2005
- Full Text
- View/download PDF
41. Towards SMS Spam Filtering: Results under a New Dataset.
- Author
-
Almeida, Tiago A., Gómez Hidalgo, José María, and Silva, Tiago P.
- Subjects
- *
TEXT messages , *SPAM filtering (Email) , *CELL phones , *INTERNET service providers , *COMPARATIVE studies , *MACHINE learning , *SUPPORT vector machines - Abstract
The growth of mobile phone users has lead to a dramatic increasing of SMS spam messages. Recent reports clearly indicate that the volume of mobile phone spam is dramatically increasing year by year. In practice, fighting such plague is difficult by several factors, including the lower rate of SMS that has allowed many users and service providers to ignore the issue, and the limited availability of mobile phone spam-filtering software. Probably, one of the major concerns in academic settings is the scarcity of public SMS spam datasets, that are sorely needed for validation and comparison of different classifiers. Moreover, traditional content-based filters may have their performance seriously degraded since SMS messages are fairly short and their text is generally rife with idioms and abbreviations. In this paper, we present details about a new real, public and non-encoded SMS spam collection that is the largest one as far as we know. Moreover, we offer a comprehensive analysis of such dataset in order to ensure that there are no duplicated messages coming from previously existing datasets, since it may ease the task of learning SMS spam classifiers and could compromise the evaluation of methods. Additionally, we compare the performance achieved by several established machine learning techniques. In summary, the results indicate that the procedure followed to build the collection does not lead to near-duplicates and, regarding the classifiers, the Support Vector Machines outperforms other evaluated techniques and, hence, it can be used as a good baseline for further comparison. [ABSTRACT FROM AUTHOR]
- Published
- 2013
42. Short Messages Spam Filtering Combining Personality Recognition and Sentiment Analysis
- Author
-
Ezpeleta Gallastegi, Enaitz, Garitano Garitano, Iñaki, Zurutuza Ortega, Urko, and Gómez Hidalgo, José María
- Subjects
SMS ,spam ,sentiment analysis ,polarity ,security - Abstract
Currently, short communication channels are growing up due to the huge increase in the number of smartphones and online social networks users. This growth attracts malicious campaigns, such as spam campaigns, that are a direct threat to the security and privacy of the users. While most researches are focused on automatic text classification, in this work we demonstrate the possibility of improving current short messages spam detection systems using a novel method. We combine personality recognition and sentiment analysis techniques to analyze Short Message Services (SMS) texts. We enrich a publicly available dataset adding these features, first separately and after in combination, of each message to the dataset, creating new datasets. We apply several combinations of the best SMS spam classifiers and filters to each dataset in order to compare the results of each one. Taking into account the experimental results we analyze the real inuence of each feature and the combination of both. At the end, the best results are improved in terms of accuracy, reaching to a 99.01% and the number of false positive is reduced.
- Published
- 2017
43. A study of the personalization of spam content using Facebook public information
- Author
-
Ezpeleta Gallastegi, Enaitz, Zurutuza Ortega, Urko, and Gómez Hidalgo, José María
- Subjects
personalized spam ,Facebook ,InformationSystems_INFORMATIONSYSTEMSAPPLICATIONS ,spam ,online social networks ,ComputingMilieux_LEGALASPECTSOFCOMPUTING ,security - Abstract
Millions of users per day are affected by unsolicited email campaigns. Spam filters are capable of detecting and avoiding an increasing number of messages, but researchers have quantified a response rate of a 0.006% [1], still significant to turn a considerable profit sending millions of emails, as the spammers do. While research directions are addressing topics such as better spam filters, or spam detection inside online social networks, in this paper we demonstrate that a classic spam model using online social network information can harvest a 7.62% of click-through rate. We collect email addresses from the Internet, complete email owner information using their public social network profile data, and analyze response of personalized spam sent to users according to their profile using a fake website. Finally we demonstrate the effectiveness of these profile-based emails to circumvent spam detection and we compare results between typical spam and personalized spam.
- Published
- 2017
44. New approaches for content-based analysis towards online social network spam detection
- Author
-
Ezpeleta Gallastegi, Enaitz, Zurutuza Ortega, Urko, and Gómez Hidalgo, José María
- Subjects
Informática ,Inteligencia artificial - Abstract
Unsolicited email campaigns remain as one of the biggest threats affecting millions of users per day. Although spam filtering techniques are capable of detecting significant percentage of the spam messages, the problem is far from being solved, specially due to the total amount of spam traffic that flows over the Internet, and new potential attack vectors used by malicious users. The deeply entrenched use of Online Social Networks (OSNs), where millions of users share unconsciously any kind of personal data, offers a very attractive channel to attackers. Those sites provide two main interesting areas for malicious activities: exploitation of the huge amount of information stored in the profiles of the users, and the possibility of targeting user addresses and user spaces through their personal profiles, groups, pages... Consequently, new type of targeted attacks are being detected in those communication means. Being selling products, creating social alarm, creating public awareness campaigns, generating traffic with viral contents, fooling users with suspicious attachments, etc. the main purpose of spam messages, those type of communications have a specific writing style that spam filtering can take advantage of. The main objectives of this thesis are: (i) to demonstrate that it is possible to develop new targeted attacks exploiting personalized spam campaigns using OSN information, and (ii) to design and validate novel spam detection methods that help detecting the intentionality of the messages, using natural language processing techniques, in order to classify them as spam or legitimate. Additionally, those methods must be effective also dealing with the spam that is appearing in OSNs. To achieve the first objective a system to design and send personalized spam campaigns is proposed. We extract automatically users’ public information from a well known social site. We analyze it and design different templates taking into account the preferences of the users. After that, different experiments are carried out sending typical and personalized spam. The results show that the click-through rate is considerably improved with this new strategy. In the second part of the thesis we propose three novel spam filtering methods. Those methods aim to detect non-evident illegitimate intent in order to add valid information that is used by spam classifiers. To detect the intentionality of the texts, we hypothesize that sentiment analysis and personality recognition techniques could provide new means to differentiate spam text from legitimate one. Taking into account this assumption, we present three different methods: the first one uses sentiment analysis to extract the polarity feature of each analyzed text, thus we analyze the optimistic or pessimistic attitude of spam messages compared to legitimate texts. The second one uses personality recognition techniques to add personality dimensions (Extroversion/Introversion, Thinking/Feeling, Judging/Perceiving and Sensing/Intuition) to the spam filtering process; and the last one is a combination of the two previously mentioned techniques. Once the methods are described, we experimentally validate the proposed approaches in three different types of spam: email spam, SMS spam and spam from a popular OSN. Las campañas de correo electrónico no deseado, siguen siendo una de las mayores amenazas que afectan a millones de usuarios al día. Aunque las técnicas de detección de spam son capaces de detectar un porcentaje muy alto de spam, el problema esta lejos de ser solventado, sobre todo por la cantidad tan alta de tráfico spam, y las nuevas estrategias utilizados por los atacantes. Además el auge del número de usuarios de las redes social en Internet, muchos de los cuales publican mucha información privada en sus perfiles, han proporcionado que estos sitios se conviertan en atractivos para los atacantes, principalmente por dos razones: posibilidad de explotar la información guardada en los perfiles, y por el contacto directo con los usuarios mediante los perfiles, los grupos, las páginas... Como consecuencia, cada vez más actividades ilegales son detectados en estas redes. Siendo los principales objetivos de los mensajes spam vender algo, crear alarma social, crear campañas de sensibilización, etc. este tipo de comunicaciones suelen tener una forma de escritura que puede ser usado para su detección. Los principales objetivos de esta tésis son: demostrar que es posible desarrollar spam personalizado usando información públicada en redes sociales que eluda los sistemas actuales de detección; y diseñar y validar métodos nuevos para la detección y filtrado de spam usando técnicas de procesamiento de lenguaje natural. Además, estos sistemas deberán ser efectivos con el spam que se propaga dentro de las redes sociales. Para conseguir el primer objetivo de la tésis se ha diseñado y desarrollado un sistema que permite enviar campañas de spam personalizado. Extraemos información pública de una famosa red social, el cual luego analizamos y lo usamos para crear plantillas de correo. Después se realizan diferentes experimentos en los que se envía spam típico y spam personalizado con el objetivo de comparar la eficiencia de cada tipo de spam. En la segunda parte de la tésis presentamos tres nuevos modelos para el filtrado del spam. Estos métodos tienen como objetivo detectar intencionalidad comercial no evidente en los textos que luego ayuden a clasificarlos. Para ello, planteamos que la utilización de técnicas de análisis de sentimento y reconocimiento de personalidad pueden ser opciones interesantes. Tomando en cuenta eso hemos desarrollado los tres métodos: el primero utiliza análisis de sentimento, el segundo reconocimiento de personalidad y el último usa combinadamente ambas técnicas. Una vez que los métodos son descritos, se validan de forma experimental usando tres tips diferentes de spam: email spam, SMS spam, y spam de una popular red social. Hartzailearen baimenik gabe bidalitako mezuak (spam) egunean milioika erabiltzaileri eragiten dien mehatxua dira. Nahiz eta spam detekzio tresnek gero eta emaitza hobeagoak lortu, arazoa konpontzetik oso urruti dago oraindik, batez ere spam kopuruari eta erasotzaileen estrategia berriei esker. Hori gutxi ez eta azken urteetan sare sozialek izan duten erabiltzaile gorakadaren ondorioz, non milioika erabiltzailek beraien datu pribatuak publiko egiten dituzten, gune hauek oso leku erakargarriak bilakatu dira erasotzaileentzat. Batez ere bi arlo interesgarri eskaintzen dituzte webgune hauek: profiletan pilatutako informazio guztiaren ustiapena, eta erabiltzaileekin harreman zuzena izateko erraztasuna (profil bidez, talde bidez, orrialde bidez...). Ondorioz, gero eta ekintza ilegal gehiago atzematen ari dira webgune hauetan. Spam mezuen helburu nagusienak zerbait saldu, alarma soziala sortu, sentsibilizazio kanpainak martxan jarri, etab. izaki, mezu mota hauek eduki ohi duten idazketa mezua berauen detekziorako erabilia izan daiteke. Lan honen helburu nagusiak ondorengoak dira: alde batetik, sare sozialetako informazio publikoa erabiliz egungo detekzio sistemak saihestuko dituen spam pertsonalizatua garatzea posible dela erakustea; eta bestetik hizkuntza naturalaren prozesamendurako teknikak erabiliz, testuen intentzionalitatea atzeman eta spam-a detektatzeko metodologia berriak garatzea. Gainera, sistema horiek sare sozialetako spam mezuekin lan egiteko gaitasuna ere izan beharko dute. Lehen helburu hori lortzekolan honetan spam pertsonalizatua diseinatu eta bidaltzeko sistema bat aurkeztu da. Era automatikoan erabiltzaileen informazio publikoa ateratzen dugu sare sozial ospetsu batetik, ondoren informazio hori aztertu eta txantiloi ezberdinak garatzen ditugu erabiltzaileen iritziak kontuan hartuaz. Behin hori egindakoan, hainbat esperimentu burutzen ditugu spam normala eta pertsonalizatua bidaliz, bien arteko emaitzen ezberdintasuna alderatzeko. Tesiaren bigarren zatian hiru spam atzemate metodologia berri aurkezten ditugu. Berauen helburua tribialak ez den intentzio komertziala atzeman ta hori baliatuz spam mezuak sailkatzean datza. Intentzionalitate hori lortze aldera, analisi sentimentala eta pertsonalitate detekzio teknikak erabiltzen ditugu. Modu honetan, hiru sistema ezberdin aurkezten dira hemen: lehenengoa analisi sentimentala soilik erabiliz, bigarrena lan honetarako pertsonalitate detekzio teknikek eskaintzen dutena aztertzen duena, eta azkenik, bien arteko konbinazioa. Tresna hauek erabiliz, balidazio esperimentala burutzen da proposatutako sistemak eraginkorrak diren edo ez aztertzeko, hiru mota ezberdinetako spam-arekin lan eginez: email spam-a, SMS spam-a eta sare sozial ospetsu bateko spam-a.
- Published
- 2016
45. Short Messages Spam Filtering Using Sentiment Analysis
- Author
-
Ezpeleta Gallastegi, Enaitz, Zurutuza Ortega, Urko, and Gómez Hidalgo, José María
- Subjects
ComputingMethodologies_PATTERNRECOGNITION ,SMS ,spam ,sentiment analysis ,polarity ,security - Abstract
In the same way that short instant messages are more and more used, spam and non-legitimate campaigns through this type of communication systems are growing up. Those campaigns, besides being an illegal online activity, are a direct threat to the privacy of the users. Previous short messages spam filtering techniques focus on automatic text classification and do not take message polarity into account. Focusing on phone SMS messages, this work demonstrates that it is possible to improve spam filtering in short message services using sentiment analysis techniques. Using a publicly available labelled (spam/legitimate) SMS dataset, we calculate the polarity of each message and aggregate the polarity score to the original dataset, creating new datasets. We compare the results of the best classifiers and filters over the different datasets (with and without polarity) in order to demonstrate the influence of the polarity. Experiments show that polarity score improves the SMS spam classification, on the one hand, reaching to a 98.91% of accuracy. And on the other hand, obtaining a result of 0 false positives with 98.67% of accuracy.
- Published
- 2016
46. Ingeniería de atributos y minería de datos para la recuperación de información con adversario
- Author
-
Puertas Sanz, Enrique and Gómez Hidalgo, José María
- Subjects
Filtros anti-spam ,Recuperación de la información ,Recuperación de información - Abstract
Tesis inédita presentada en la Universidad Europea de Madrid. Escuela Politécnica. Programa de Doctorado en Tecnologías de la Información Aplicadas El creciente uso de Internet ha venido acompañado de numerosas ventajas, pero también de oportunidades para el fraude. Un buen ejemplo de este tipo de abuso lo encontramos en el correo electrónico, una herramienta con indudable valor para la comunicación de las personas, pero que tiene el inconveniente del correo no solicitado (spam). Otros abusos son, por ejemplo, la descarga de páginas web inapropiadas (e.g. pornográficas) en el puesto de trabajo, o el spam enviado a dispositivos móviles. Debido a la naturaleza de índole textual que se maneja en ese tipo de escenarios, éstos han sido abordados normalmente por medio de técnicas de minería de texto, es decir, de descubrimiento de conocimiento en bases de datos textuales. Sin embargo, ese tipo de abusos tienen elemento común que hace que las tareas de minería de texto tradicionales no funcionen correctamente: En todas ellas existe un adversario que intenta degradar la eficiencia de los categorizadores de texto generados por técnicas de aprendizaje automático. En estos casos se habla de tareas de clasificación o categorización (de texto) con adversario, en el que los sistemas de análisis y aprendizaje deben tener presente la existencia de un adversario (por ejemplo, el spammer) cuyo objetivo es degradar la efectividad de los sistemas de clasificación construidos con estas técnicas. En esta Tesis, las dos contribuciones fundamentales del trabajo son la aplicación de técnicas de ingeniería de atributos y el desarrollo de un método específico de evaluación, más adecuado que los precedentes, para este tipo de problemas con adversario. Éste método de evaluación que hemos propuesto en esta investigación se ha convertido en un estándar en el campo científico de la seguridad, y se ha utilizado en competiciones científicas del más alto nivel, como las Conferencias TREC (Text REtrieval Conferences), para la evaluación de sistemas de filtrado de correo basura. Más concretamente, en esta Tesis hemos demostrado que es posible tratar de una manera unificada el proceso más sensible en la Categorización de Texto con Adversario, que es la representación de los textos, usando técnicas de ingeniería del Lenguaje Natural, y realizar una evaluación homogénea para diversas tareas a pesar de los distintos costes, variables, y de los distintas asimetrías en la distribución de las clases. [Resumen Teseo] UEM
- Published
- 2013
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.