[Projeto] Crawler Stats

[Projeto] Crawler Stats

Ficha Técnica
Linguagens:

Python

Tecnologias:

beautifulsoup4 (mais FTDHandler e StringStats, bibliotecas que eu construí)

Repositório:

https://github.com/rodrigogomesrc/CrawlerStats

Sobre o Projeto

O projeto é composto de um módulo Crawler e outro de Stats, como sugere o nome. O que isso significa?O projeto trata de percorrer páginas, através dos links e usar esses links para extrair estatísticas sobre essas páginas.

Mais detalhadamente, o programa que eu construí percorre uma página e captura os links dessa página, salva eles e acessa para procurar por mais links. O programa continua fazendo isso até atingir o limite mínimo de links a ser obtidos.

Após obter todos esses links, outro módulo do projeto percorre e salva o texto dessas páginas em um arquivo e usa esse arquivo para fazer as análises e gerar as estatísticas.

Essas estatísticas, nesse projeto, se tratam de saber a quantidade de palavras e caracteres, com suas respectivas frequências, levando em conta ou não as chamadas “stopwords”, um termo da computação que é definida por palavras que são filtradas antes do processamento de linguagem natural. Essas palavras removidas são geralmente as palavras mais comuns dos idiomas, como artigos e preposições, por não darem muitas informações sobre o real significado e conteúdo dos textos.

Por que eu construí o projeto?

Antes de construí esse projeto, eu construí duas bibliotecas que eu usei nesse projeto: FTDHandler e StringStats. A primeira para manipular textos vindos de arquivos e a segundos para fornecer funções que analisam esses textos. Eu fiz isso tanto para praticar Python como porque análises e estatísticas são coisas que me interessam.

Depois que construí essas bibliotecas, tive ideias para analisar coisas mais reais. Então, construí na intenção de testar com a wikipédia. E foi o que eu fiz.

Futuro do Projeto

Como eu usei esse projeto para me ajudar da extração de dados da Wikipédia, eu pretendo usar esse projeto com outras coisas como para processar dados retirados do Twitter e fazer mais análises com eles. Quando eu fizer isso eu vou escrever mais artigos sobre.

Status atual do projeto

O projeto foi feito mais ou menos como um rascunho com o objetivo de testar tecnologias. Atualmente não se está sendo desenvolvido e nem com planos de ser melhorado. O que pode mudar se futuramente eu ache um melhor uso para ele.

Sobre os artigos de projetos

Esses artigos sobre projetos contidos nesse site são para descrever vários aspectos de projetos de programação (ou sobre outras coisas), descrevendo aspectos do desenvolvimento ou outras informações que eu achar pertinentes. São mais como relatórios do que Artigos propriamente ditos.

Como esses “relatórios” são sobre projetos que podem estar em constante evolução, esses artigos também seguem a mesma linha, sendo atualizados de forma a se manter coerente com a versão atual do projeto.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *