TagCrowd
TagCrowd é uma ferramenta gratuita de análise de texto, que indica ocorrência de termos e gera nuvem de palavras/tags. Criada pelo estudante de doutorado da Universidade de Stanford, Daniel Steinbock, TagCrowd exibe ocorrência de termos de um texto qualquer, com opção de múltiplos idiomas. Além da clássica mineração de texto, a visualização de tags auxilia estudantes, pesquisadores e empresas a extraírem insights de avaliação qualitativa e otimização de mecanismos de busca (SEO).
Índice
Política de uso
Em relação à política de uso, TagCrowd pode ser utilizada para qualquer fim, incluindo comercial. Sua licença está especificada como Licença de Atribuição Creative Commons, ou seja, basta citar o nome e link da ferramenta. Por ser um projeto pessoal, o desenvolvedor não possui ainda recursos para suportar API externa.
Privacidade
Sobre a política de privacidade dos dados, o sistema informa que os dados analisados pela TagCrowd não são armazenados em nenhum lugar nem compartilhados com terceiros.
Como funciona a TagCrowd?
Existem três maneiras de inserir texto no TagCrowd para criar uma nuvem de palavras: copiar e colar o texto na íntegra em espaço específico, com no máximo 500 kilobytes; extração de termos por meio da URL da página que o usuário deseja analisar (nesta opção, o programa não interpreta URLs em PDF e o tamanho máximo é de 5 megabytes) e upload de um arquivo de texto simples, com tamanho máximo de 5 megabytes.
Depois de indicar a fonte de texto, o usuário pode filtrar sua busca por:
Idioma do texto: O usuário deve escolher a linguagem escrita do texto que irá analisar. A TagCrowd mantém uma lista de palavras comuns para cada idioma suportado, de modo que essas palavras não apareçam na nuvem de palavras. Se o usuário desejar desativar esta função, selecionará 'none' para o idioma. Se houver palavras adicionais que por ventura queira remover da nuvem de palavras, preencherá o campo "Não mostrar essas palavras".
Número máximo de palavras para mostrar: O valor apropriado dependerá do aplicativo e do tamanho do texto de origem. Em geral, é melhor usar nuvens menores para textos de origem mais curtos e nuvens maiores para textos de origem mais longos.
Frequência mínima: O usuário pode determinar a quantidade mínima que um determinado aparece para sua coleta. Por exemplo: se digitar "2" para a frequência mínima, apenas as palavras que aparecerem pelo menos duas vezes na fonte de texto serão incluídas na sua nuvem de palavras.
Mostrar frequências: Ao habilitar essa opção, cada termo virá acompanhado de sua ocorrência na nuvem de palavras.
Agrupar palavras semelhantes (somente em inglês): O TagCrowd usa o algoritmo Stemming para detectar e combinar palavras similares. Por exemplo: as palavras "professores", "ensinar" e "ensinar" serão combinadas para que sua nuvem de palavras seja menos redundante. A mais frequente das variantes é escolhida para representar todas elas. No caso de empate, a variante mais curta é usada.
Não mostre estas palavras: O usuário tem a liberdade de excluir de sua coleta os termos que desejar. Por exemplo: ao analisar um texto sobre tecnologia digital, é natural que o termo digital seja o mais frequente. Por isso, o usuário pode remover tal termo para ter uma lista mais limpa e útil.
Como criar uma imagem ou PDF da nuvem de palavras? Após gerar a nuvem, o usuário pode salvar o resultado por meio do botão “Salvar como”. As opções disponíveis são: imprimir/print, HTML e PDF.
Como personalizar a aparência da minha nuvem de palavras? Na opção do código HTML Embed, há a seção “Personalizar”, onde é possível personalizar alguns dos estilos CSS para se adequar ao estilo da sua página da web. Os estilos personalizados incluem fonte e tamanho da fonte, tamanho geral da nuvem, margens, preenchimento, bordas e cor de fundo.
Como manter várias palavras juntas na nuvem (por exemplo, "Humanidades Digitais")? Use um caractere til entre as palavras que você deseja manter juntas. Para fazer isso, execute um localizar e substituir no arquivo de texto original e insira um ~ (caractere til) entre as palavras que você deseja agrupar. Por exemplo: substitua 'Humanidades Digitais' por 'Humanidades ~ Digitais', 'word cloud' por 'word ~ cloud', etc. A nuvem resultante terá espaços sem quebra inseridos para o til.
O que fazer se uma determinada palavra não aparecer na nuvem de palavras? O TagCrowd usa listas específicas de idioma de palavras comuns para manter as nuvens de palavras relevantes. Para impedir que determinadas palavras sejam removidas, adicione um ~ (caractere til) ao final de qualquer palavra que você deseja preservar.
Por exemplo, 'IT' é um acrônimo para 'information technology', mas também é um termo em inglês comum, o 'it'. Deve-se substituir todas as ocorrências de 'IT' por 'IT ~' para mantê-lo na nuvem.
TagCrowd na prática
Figura 1: Opção Upload File
Conteúdo escolhido: bloco de notas com o conteúdo do Manifesto Comunista, de Marx e Engels.
Filtros escolhidos: frequência mínima de uma ocorrência; nuvem sem exibir a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; nenhum termo foi removido do texto original.
Figura 2: Resultado com a nuvem de palavras
Após definir os parâmetros de coleta e clicar no botão "Visualizar", o sistema retornou com a nuvem de tags. No caso do Manifesto Comunista, os termos mais recorrentes são: classe (157), burguês (108) e burguesia (91).
Importante notar que, mesmo a fonte de texto original ter sido um bloco de notas, automaticamente o sistema transcreveu seu conteúdo na seção “Paste Text”, conforme imagem abaixo.
Figura 3: Texto transcrito
Figura 4: Opção Copiar e Colar texto na íntegra.
Conteúdo escolhido: Manifesto das Humanidades Digitais
Figura 5: Filtros escolhidos
Frequência mínima de uma ocorrência; nuvem exibindo a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; exclusão dos termos “digital” e “humanities”.
Figura 6: Resultado da nuvem de palavras
Conforme observado abaixo, a nuvem de palavras referente à coleta no Manifesto das Humanidades Digitais demonstra o amplo uso dos termos cultura, prática e conhecimento.
Figura 7: Opção Web Page URL
URL escolhida: verbete Digital Humanities na Wikipédia
Filtros escolhidos: frequência mínima de uma ocorrência; nuvem exibindo a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; exclusão dos termos “digital” e “humanities”.
Figura 8: Resultado da nuvem de palavras
Usabilidade
A interface da TagCrowd é simples e acessível a todos os tipos de usuários. A ferramenta tem uma funcionalidade específica e os ícones comunicam bem seus objetivos. Observa-se que na aba "URL", poderia haver um aviso sobre as extensões não aceitáveis pelo sistema, como PDFs online. O manuseio da ferramenta não exige conhecimentos sobre programação, exceto se o usuário desejar exportar a nuvem de palavras para páginas HTML.