Agregador RSS PoliClipping

VN:RO [1.9.11_1134]
segunda-feira, 24 d novembro d 2014
Por Annibal Biondi, Semestral14

Esse artigo pretende apresentar brevemente o projeto de formatura de graduação feito por mim sob a orientação do Professor Jorge Kinoshita.

O objetivo deste projeto é criar um agregador de conteúdo (denominado  genericamente notícias daqui para frente) baseado em feeds RSS.
A ideia do projeto surgiu após o anúncio da desativação do Google Reader, quando vários usuários lamentaram o seu fim. Então, decidimos criar algo semelhante.

O agregador é capaz de realizar as seguintes funções:

  1. assinatura de feeds;
  2. sugestão de notícias potencialmente interessantes ao usuário;
  3. geração de uma pagina inicial com as notícias recomendadas ao usuário.

RSS

O RSS, sigla pra Real Simple Syndication (“Distribuição Bem Simples”, em tradução livre), é um padrão que facilita a distribuição de conteúdo pela Internet.

Geradores de conteúdo, como portais de notícias ou blogs, disponibilizam um endereço que contém um documento RSS com um breve resumo das mais novas (geralmente um título, uma descrição e o link no qual o item pode ser acessado); este endereço é o que se chama feed RSS. O documento presente nos feeds RSS é atualizado por seus mantenedores, conforme novas notícias são geradas.

Um agregador RSS provê um serviço de assinatura de feeds RSS: o agregador checa periodicamente por novos documentos em feeds RSS e armazena as notícias lá presentes, para que o usuário possa acessá-las mais tarde. Assim, agregadores RSS permitem que seus usuários possam ter acesso a notícias de vários canais em um único lugar.

Classificação de notícias

Quando um usuário lê uma notícia através do PoliClipping, esta notícia é marcada como lida no banco de dados no qual ela foi armazenada; com base nas palavras contidas no título e na descrição das notícias lidas, um classificador é construído para avaliar a probabilidade de outras notícias provenientes dos feeds assinados pelo usuário pertencerem a cada uma de duas categorias: notícias interessantes ou desinteressantes para o usuário.

O classificador utilizado é o naive Bayes, um método simples de aprendizado supervisionado que utiliza a hipótese simplificadora de independência entre as palavras dada uma determinada categoria: em outras palavras, a ocorrência de uma palavra em uma notícia não influencia a probabilidade da ocorrência de outras palavras na mesma notícia.

Para determinar se uma notícia é interessante para o usuário, o classificador:

  1. extrai as palavras do seu título e da sua descrição;
  2. compara as palavras extraídas com as das notícias utilizadas no treinamento;
  3. estima a probabilidade da notícia pertencer a cada uma das categorias (interessante ou desinteressante).

Para saber mais:

VN:F [1.9.11_1134]
Rating: 5.0/5 (1 vote cast)
Agregador RSS PoliClipping, 5.0 out of 5 based on 1 rating
Related Posts with Thumbnails

Deixe um Comentário

Spam Protection by WP-SpamFree

Get Adobe Flash playerPlugin by wpburn.com wordpress themes