TagCrowd

De LARHUD
Revisão de 19h56min de 2 de julho de 2018 por Fvgalvao (Discussão | contribs)

Ir para: navegação, pesquisa

TagCrowd é uma ferramenta de análise de texto, que indica ocorrência de termos e gera nuvem de palavras/tags. Criada pelo estudante de doutorado da Universidade de Stanford, Daniel Steinbock, TagCrowd exibe ocorrência de termos de um texto qualquer, com opção de múltiplos idiomas. Além da clássica mineração de texto, a visualização de tags auxilia estudantes, pesquisadores e empresas a extraírem insights de avaliação qualitativa e otimização de mecanismos de busca (SEO).

Em relação à política de uso, TagCrowd pode ser utilizada para qualquer fim, incluindo comercial. Sua licença está especificada como Licença de Atribuição Creative Commons, ou seja, basta citar o nome e link da ferramenta. Por ser um projeto pessoal, o desenvolvedor não possui ainda recursos para suportar API externa.

Sobre a política de privacidade dos dados, o sistema informa que os dados analisados pela TagCrowd não é armazenado em nenhum lugar nem compartilhado com terceiros.

Existem três maneiras de inserir texto no TagCrowd para criar uma nuvem de palavras: copiar e colar o texto na íntegra em espaço específico, com no máximo 500 kilobytes; extração de termos por meio da URL da página que o usuário deseja analisar (nesta opção, o programa não interpreta URLs em PDF e o tamanho máximo é de 5 megabytes) e upload de um arquivo de texto simples, com tamanho máximo de 5 megabytes.

Depois de indicar a fonte de texto, o usuário pode filtrar sua busca por:

Idioma do texto: O usuário deve escolher a linguagem escrita do texto que irá analisar. A TagCrowd mantém uma lista de palavras comuns para cada idioma suportado, de modo que essas palavras não apareçam na nuvem de palavras. Se o usuário desejar desativar esta função, selecionará 'none' para o idioma. Se houver palavras adicionais que por ventura queira remover da nuvem de palavras, preencherá o campo "Não mostrar essas palavras".

Número máximo de palavras para mostrar: O valor apropriado dependerá do aplicativo e do tamanho do texto de origem. Em geral, é melhor usar nuvens menores para textos de origem mais curtos e nuvens maiores para textos de origem mais longos.

Frequência mínima: O usuário pode determinar a quantidade mínima que um determinado aparece para sua coleta. Por exemplo: se digitar "2" para a frequência mínima, apenas as palavras que aparecerem pelo menos duas vezes na fonte de texto serão incluídas na sua nuvem de palavras.

Mostrar frequências: Ao habilitar essa opção, cada termo virá acompanhado de sua ocorrência na nuvem de palavras.

Agrupar palavras semelhantes (somente em inglês): O TagCrowd usa o algoritmo Stemming para detectar e combinar palavras similares. Por exemplo: as palavras "professores", "ensinar" e "ensinar" serão combinadas para que sua nuvem de palavras seja menos redundante. A mais frequente das variantes é escolhida para representar todas elas. No caso de empate, a variante mais curta é usada.

Não mostre estas palavras: O usuário tem a liberdade de excluir de sua coleta os termos que desejar. Por exemplo: ao analisar um texto sobre tecnologia digital, é natural que o termo digital seja o mais frequente. Por isso, o usuário pode remover tal termo para ter uma lista mais limpa e útil.

Como criar uma imagem ou PDF da nuvem de palavras? Após gerar a nuvem, o usuário pode salvar o resultado por meio do botão “Salvar como”. As opções disponíveis são: imprimir/print, HTML e PDF.

Como personalizar a aparência da minha nuvem de palavras? Na opção do código HTML Embed, há a seção “Personalizar”, onde é possível personalizar alguns dos estilos CSS para se adequar ao estilo da sua página da web. Os estilos personalizados incluem fonte e tamanho da fonte, tamanho geral da nuvem, margens, preenchimento, bordas e cor de fundo.

Como manter várias palavras juntas na nuvem (por exemplo, "Humanidades Digitais")? Use um caractere til entre as palavras que você deseja manter juntas. Para fazer isso, execute um localizar e substituir no arquivo de texto original e insira um ~ (caractere til) entre as palavras que você deseja agrupar. Por exemplo: substitua 'Humanidades Digitais' por 'Humanidades ~ Digitais', 'word cloud' por 'word ~ ​​cloud', etc. A nuvem resultante terá espaços sem quebra inseridos para o til.

O que fazer se uma determinada palavra não aparecer na nuvem de palavras? O TagCrowd usa listas específicas de idioma de palavras comuns para manter as nuvens de palavras relevantes. Para impedir que determinadas palavras sejam removidas, adicione um ~ (caractere til) ao final de qualquer palavra que você deseja preservar.

Por exemplo, 'IT' é um acrônimo para 'information technology', mas também é um termo em inglês comum, o 'it'. Deve-se substituir todas as ocorrências de 'IT' por 'IT ~' para mantê-lo na nuvem.