Classificação de textos com árvore de decisão adaptativa

VN:RO [1.9.11_1134]
terça-feira, 16 d novembro d 2010
Por Hugo Baraúna

Este post visa apresentar brevemente o meu projeto de formatura, um sistema de classificação de textos utilizando árvore de decisão adaptativa. Esse projeto foi desenvolvido durante o ano de 2010 como trabalho de conclusão de curso do curso de Engenharia de Computação Cooperativo da Escola Politécnica da USP. O projeto foi desenvolvido por mim (Hugo Pessoa de Baraúna) sob a orientação do Prof. Dr. Ricardo Luis de Azevedo Rocha.

Classificação de Textos

Classificação de textos é a assinalação automática de um documento de texto em formato eletrônico para um ou mais elementos de um conjunto pré-definido de classes. O problema de classificação de textos pertence ao campo de inteligência artificial, mais especificamente, ao campo de aprendizado de máquina.

Um sistema de aprendizado de máquina possui duas fases, a fase de aprendizado e a fase de testes. A fase de aprendizado consiste na construção do classificador em si através de um conjunto de treinamento. No caso de classificação de texto, o conjunto de treinamento consiste em um conjunto de documentos de texto e suas respectivas categorias. Através do processamento do conjunto de treinamento, o sistema constroi um classificador que será então utilizado na fase de testes. A fase de testes consiste em utilizad o classificador para inferir a categorias de novos documentos de texto.

O aprendizado de máquina pode ser incremental ou não incremental. No aprendizado não incremental é necessário que o conjunto de treinamento in- teiro esteja presente desde o início. Já no aprendizado incremental, o sistema pode aprender ao longo do tempo, ou seja, pode receber novos elementos no seu conjunto de treinamento ao longo do tempo.

No aprendizado não incremental, caso seja necessário adicionar um novo elemento ao conjunto de treinamento, o sistema terá que reprocessar todo o conjunto de treinamento novamente. Isso é um problema, porque reprocessar um conjunto de treinamento muito grande é custoso do ponto de vista com- putacional. Uma solução para esse problema seria o uso de algoritmos de aprendizado incremental.

Pesquisas já foram realizadas no desenvolvimento de algoritmos de aprendizado incremental, entre eles temos por exemplo, o CART incremental, o ID5R e o ITI. O meu projeto visa explorar mais o campo de pesquisa do uso de aprendizado incremental na classificação de textos, propondo o uso de árvore de decisão adaptativa na abordagem do problema.

Objetivo

O objetivo deste trabalho é construir e avaliar um classificador de textos de aprendizado incremental baseado em árvore de decisão adaptativa.

Motivação

A motivação do desenvolvimento deste trabalho é baseada na minha vontade em aprender mais sobre inteligência artificial e na minha curiosidade em avaliar o uso da tecnologia de árvore de decisão adaptativa no problema de classificação de texto.

A tecnologia de árvore de decisão adaptativa está bem definida na tese de doutorado “Tecnologia Adaptativa em Engenharia de Computação: estado da arte e aplicações” do Prof. Dr Hermeson PIstori. Ela já tem algumas aplicações práticas, como por exemplo em interação homem-máquina através de línguas de sinais, em detecção de defeitos em couro bovino e detecção de direção do olhar. Este projeto tem como uma nova aplicação da tecnologia e teoria de árvore de decisão adaptativa, no caso, a aplicação no problema de classificação de texto.

Árvore de decisão adaptativa

Árvore de decisão adaptativa é um dispositivo adaptativo cujo mecanismo subjacente é uma árvore de decisão. Esse dispositivo permite que a estrutura hierárquica da árvore possa ser dinamicamente alterada durante o processo de decisão.

No meu projeto foi utilizado uma árvore de decisão adaptativa para construir o classificador a partir do conjunto de treinamento, mais especificamente, foi utilizadoo algoritmo AdapTree.

Desenvolvido no doutorado do Prof. Dr. Hemerson Pistori, o AdapTree é um algoritmo de aprendizado de máquina supervisionado, incremental, que permiteque as fases de treinamento e teste sejam executadas intercaladamente.

Abaixo segue um exemplo de uma árvore de decisão adaptativa.

Exemplo de árvore de decisão adaptativa

A árvore acima foi construída utilizando o sistema desenvolvido através do aprendizado a partir do seguinte conjunto de treinamento: { (ruby programming language, Lang), (ruby brightness, Gem) }, onde Lang e Gem são as categorias dos documentos em questão.

VN:F [1.9.11_1134]
Rating: 3.0/5 (2 votes cast)
Classificação de textos com árvore de decisão adaptativa, 3.0 out of 5 based on 2 ratings
Related Posts with Thumbnails

Deixe um Comentário

Spam Protection by WP-SpamFree

Get Adobe Flash playerPlugin by wpburn.com wordpress themes