5 results on '"Bruno Martins"'
Search Results
2. Uma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em Português
- Author
-
Miguel Ângelo Abrantes Costa and Bruno Martins
- Subjects
Sumarização Extrativa ,Recuperção de Informação ,Processamento de Linguagem Natural ,Language and Literature ,Philology. Linguistics ,P1-1091 - Abstract
A sumarização automática consiste na tarefa de gerar automaticamente versões condensadas de textos fonte, apresentando-se como um dos problemas fundamentais nas áreas da Recuperação de Informação e do Processamento de Linguagem Natural. Neste artigo, considerando metodologias puramente extrativas, são comparadas diferentes abordagens na tarefa de sumarizar documentos individuais correspondendo a textos jornalísticos escritos em Português. Através da utilização da bancada ROUGE como forma de medir a qualidade dos sumários produzidos, são reportados resultados para dois domínios experimentais diferentes, respetivamente envolvendo (i) a geração de títulos para textos jornalísticos escritos na variante Europeia do Português, e (ii) a geração de sumários com base em artigos jornalísticos escritos na variante Brasileira do Português. Os resultados obtidos demonstram que uma baseline simples, baseada na seleção da primeira frase, obtém melhores resultados na construção de títulos de notícias de forma extrativa, em termos de várias métricas ROUGE. No segundo domínio experimental, envolvendo a geração de sumários de notícias, o método que obteve melhores resultados foi o algoritmo LSA Squared, para as várias métricas ROUGE consideradas neste trabalho.
- Published
- 2015
3. Realização de Previsões com Conteúdos Textuais em Português
- Author
-
Indira Gandi Mascarenhas de Brito and Bruno Martins
- Subjects
Previsões com Base em Textos ,Modelos de Regressão ,Agrupamento Automático de Palavras ,Engenharia de Caraterísticas em Aplicações de PLN ,Language and Literature ,Philology. Linguistics ,P1-1091 - Abstract
A previsão de quantidades do mundo real com base em informação textual atraiu recentemente um interesse significativo, embora os estudos anteriores se tenham concentrado em aplicações que envolvem apenas textos em inglês. Este artigo apresenta um estudo experimental sobre a realização de previsões com base em textos em português, envolvendo o uso de documentos associados a três domínios distintos. Relatamos experiências utilizando diferentes tipos de modelos de regressão, usando esquemas de ponderação para as caraterísticas descritivas do atual estado da arte, e usando caraterísticas descritivas derivadas de representações para as palavras baseadas no agrupamento automático das mesmas. Através de experiências, demonstramos que modelos de regressão usando a informação textual atingem melhores resultados, quando comparados com abordagens simples tais como realizar as previsões com base no valor médio dos dados de treino. Demonstramos ainda que as representações de documentos mais ricas (e.g., usando o algoritmo de Brown para o agrupamento automático de palavras, e o esquema de ponderação das caraterísticas denominado Delta-TF-IDF) resultam em ligeiras melhorias no desempenho.
- Published
- 2014
4. Extracção de Relações Semânticas de Textos em Português Explorando a DBpédia e a Wikipédia
- Author
-
David Soares Batista, David Forte, Rui Silva, Bruno Martins, and Mário Silva
- Subjects
Extração de Relações ,Extração de Informação ,Language and Literature ,Philology. Linguistics ,P1-1091 - Abstract
A identificação de relações semânticas, expressas entre entidades mencionadas em textos, é um passo importante para a extracção automática de conhecimento a partir de grandes colecções de documentos, tais como a Web. Vários trabalhos anteriores abordaram esta tarefa para o caso da língua inglesa, usando técnicas de aprendizagem automática supervisionada para classificação de relações, sendo que o actual estado da arte recorre a métodos baseados em string kernels. No entanto, estas abordagens requerem dados de treino anotados manualmente para cada tipo de relação, além de que os mesmos têm problemas de escalabilidade para as dezenas ou centenas de diferentes tipos de relações que podem ser expressas. Este artigo discute uma abordagem com supervisão distante para a extracção de relações de textos escritos em português, a qual usa uma técnica eficiente para a medição de similaridade entre exemplares de relações, baseada em valores mínimos de dispersão (i.e., min-hashing) e em dispersão sensível à localização (i.e., Locality-Sensitive Hashing). No método proposto, os exemplos de treino são recolhidos automaticamente da Wikipédia, correspondendo a frases que expressam relações entre pares de entidades extraídas da DBPédia. Estes exemplos são representados como conjuntos de tetragramas de caracteres e de outros elementos representativos, sendo os conjuntos indexados numa estrutura de dados que implementa a ideia da dispersão sensível à localização. Procuram-se os exemplos de treino mais similares para verificar qual a relação semântica que se encontra expressa entre um determinado par de entidades numa frase, com base numa aproximação ao coeficiente de Jaccard obtida por min-hashing. A relação é atribuída por votação ponderada, com base nestes exemplos. Testes com um conjunto de dados da Wikipédia comprovam a adequabilidade do método proposto, tendo sido extraídos 10 tipos diferentes de relações, 8 deles assimétricos, com uma pontuação média de 55.6% em termos da medida F1.
- Published
- 2013
5. Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
- Author
-
Duarte Dias, Ivo Anastácio, and Bruno Martins
- Subjects
Processamento de Texto ,Recuperação de Informação Geográfica ,Geocodificação de Documentos ,Language and Literature ,Philology. Linguistics ,P1-1091 - Abstract
A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem capturado a atenção de diversos investigadores em áreas relacionadas com a prospecção de informação e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualização de informação textual, com base em representações cartográficas. Neste trabalho, comparamos experimentalmente diferentes técnicas automáticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribuição de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evidência de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando colecções de artigos georreferenciados da Wikipédia em três línguas distintas, nomeadamente em Inglês, Espanhol e Português. Experimentamos também diferentes métodos de pós-processamento para atribuir as coordenadas geoespaciais com base nas classificações. O melhor método utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma técnica de pós-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previsão médio de 265 Kilómetros, e um erro mediano de apenas 22 Kilómetros, para o caso da colecção da Wikipédia Inglesa. Para as colecções Portuguesa e Espanhola, as quais são significativamente mais pequenas, o mesmo método obteve um erro de previsão médio de 278 e 273 Kilómetros, respectivamente, e um erro de previsão mediano de 28 e de 45 Kilómetros.
- Published
- 2012
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.