Mudanças entre as edições de "TagCrowd"

De LARHUD
Ir para: navegação, pesquisa
Linha 44: Linha 44:
  
 
Por exemplo, 'IT' é um acrônimo para 'information technology', mas também é um termo em inglês comum, o 'it'. Deve-se substituir todas as ocorrências de 'IT' por 'IT ~' para mantê-lo na nuvem.
 
Por exemplo, 'IT' é um acrônimo para 'information technology', mas também é um termo em inglês comum, o 'it'. Deve-se substituir todas as ocorrências de 'IT' por 'IT ~' para mantê-lo na nuvem.
 +
 +
== TagCrowd na prática: ==
 +
 +
'''Figura 1:''' ''Opção Upload File''
 +
 +
'''Conteúdo escolhido:'''  bloco de notas com o conteúdo do Manifesto Comunista, de Marx e Engels.
 +
 +
'''Filtros escolhidos:''' frequência mínima de uma ocorrência; nuvem sem exibir a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; nenhum termo foi removido do texto original.
 +
 +
[[Arquivo:UploadFile.jpg]]
 +
 +
 +
'''Figura 2:''' ''Resultado com a nuvem de palavras''
 +
 +
[[Arquivo:Nuvem1.jpg]]
 +
 +
Importante notar que, mesmo a fonte de texto original ter sido um bloco de notas, automaticamente o sistema transcreveu seu conteúdo na seção “Paste Text”, conforme imagem abaixo.
 +
 +
'''Figura 3:''' ''Texto transcrito''
 +
 +
[[Arquivo:Textotranscrito.jpg]]
 +
 +
'''Figura 4:''' ''Opção Copiar e Colar texto na íntegra.''
 +
 +
'''Conteúdo escolhido:''' Manifesto das Humanidades Digitais
 +
 +
[[Arquivo:CopiareColar.jpg]]
 +
 +
'''Figura 5:''' ''Filtros escolhidos''
 +
 +
Frequência mínima de uma ocorrência; nuvem exibindo a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; exclusão dos termos “digital” e “humanities”.
 +
 +
[[Arquivo:Filtros.jpg]]
 +
 +
'''Figura 6:''' ''Resultado da nuvem de palavras''
 +
 +
[[Arquivo:Nuvem2.jpg]]
 +
 +
'''Figura 7:''' ''Opção Web Page URL''
 +
 +
'''URL escolhida:''' verbete Digital Humanities na Wikipédia
 +
'''Filtros escolhidos:''' frequência mínima de uma ocorrência; nuvem exibindo a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; exclusão dos termos “digital” e “humanities”.
 +
 +
[[Arquivo:URL.jpg]]

Edição das 20h32min de 2 de julho de 2018

TagCrowd é uma ferramenta de análise de texto, que indica ocorrência de termos e gera nuvem de palavras/tags. Criada pelo estudante de doutorado da Universidade de Stanford, Daniel Steinbock, TagCrowd exibe ocorrência de termos de um texto qualquer, com opção de múltiplos idiomas. Além da clássica mineração de texto, a visualização de tags auxilia estudantes, pesquisadores e empresas a extraírem insights de avaliação qualitativa e otimização de mecanismos de busca (SEO).

Figura 1: Página Inicial da ferramenta

Em relação à política de uso, TagCrowd pode ser utilizada para qualquer fim, incluindo comercial. Sua licença está especificada como Licença de Atribuição Creative Commons, ou seja, basta citar o nome e link da ferramenta. Por ser um projeto pessoal, o desenvolvedor não possui ainda recursos para suportar API externa.

Sobre a política de privacidade dos dados, o sistema informa que os dados analisados pela TagCrowd não é armazenado em nenhum lugar nem compartilhado com terceiros.

Existem três maneiras de inserir texto no TagCrowd para criar uma nuvem de palavras: copiar e colar o texto na íntegra em espaço específico, com no máximo 500 kilobytes; extração de termos por meio da URL da página que o usuário deseja analisar (nesta opção, o programa não interpreta URLs em PDF e o tamanho máximo é de 5 megabytes) e upload de um arquivo de texto simples, com tamanho máximo de 5 megabytes.

Depois de indicar a fonte de texto, o usuário pode filtrar sua busca por:

Idioma do texto: O usuário deve escolher a linguagem escrita do texto que irá analisar. A TagCrowd mantém uma lista de palavras comuns para cada idioma suportado, de modo que essas palavras não apareçam na nuvem de palavras. Se o usuário desejar desativar esta função, selecionará 'none' para o idioma. Se houver palavras adicionais que por ventura queira remover da nuvem de palavras, preencherá o campo "Não mostrar essas palavras".

Número máximo de palavras para mostrar: O valor apropriado dependerá do aplicativo e do tamanho do texto de origem. Em geral, é melhor usar nuvens menores para textos de origem mais curtos e nuvens maiores para textos de origem mais longos.

Frequência mínima: O usuário pode determinar a quantidade mínima que um determinado aparece para sua coleta. Por exemplo: se digitar "2" para a frequência mínima, apenas as palavras que aparecerem pelo menos duas vezes na fonte de texto serão incluídas na sua nuvem de palavras.

Mostrar frequências: Ao habilitar essa opção, cada termo virá acompanhado de sua ocorrência na nuvem de palavras.

Agrupar palavras semelhantes (somente em inglês): O TagCrowd usa o algoritmo Stemming para detectar e combinar palavras similares. Por exemplo: as palavras "professores", "ensinar" e "ensinar" serão combinadas para que sua nuvem de palavras seja menos redundante. A mais frequente das variantes é escolhida para representar todas elas. No caso de empate, a variante mais curta é usada.

Não mostre estas palavras: O usuário tem a liberdade de excluir de sua coleta os termos que desejar. Por exemplo: ao analisar um texto sobre tecnologia digital, é natural que o termo digital seja o mais frequente. Por isso, o usuário pode remover tal termo para ter uma lista mais limpa e útil.

Como criar uma imagem ou PDF da nuvem de palavras? Após gerar a nuvem, o usuário pode salvar o resultado por meio do botão “Salvar como”. As opções disponíveis são: imprimir/print, HTML e PDF.

SalvarComo.jpg

Como personalizar a aparência da minha nuvem de palavras? Na opção do código HTML Embed, há a seção “Personalizar”, onde é possível personalizar alguns dos estilos CSS para se adequar ao estilo da sua página da web. Os estilos personalizados incluem fonte e tamanho da fonte, tamanho geral da nuvem, margens, preenchimento, bordas e cor de fundo.

Como manter várias palavras juntas na nuvem (por exemplo, "Humanidades Digitais")? Use um caractere til entre as palavras que você deseja manter juntas. Para fazer isso, execute um localizar e substituir no arquivo de texto original e insira um ~ (caractere til) entre as palavras que você deseja agrupar. Por exemplo: substitua 'Humanidades Digitais' por 'Humanidades ~ Digitais', 'word cloud' por 'word ~ ​​cloud', etc. A nuvem resultante terá espaços sem quebra inseridos para o til.

O que fazer se uma determinada palavra não aparecer na nuvem de palavras? O TagCrowd usa listas específicas de idioma de palavras comuns para manter as nuvens de palavras relevantes. Para impedir que determinadas palavras sejam removidas, adicione um ~ (caractere til) ao final de qualquer palavra que você deseja preservar.

Por exemplo, 'IT' é um acrônimo para 'information technology', mas também é um termo em inglês comum, o 'it'. Deve-se substituir todas as ocorrências de 'IT' por 'IT ~' para mantê-lo na nuvem.

TagCrowd na prática:

Figura 1: Opção Upload File

Conteúdo escolhido: bloco de notas com o conteúdo do Manifesto Comunista, de Marx e Engels.

Filtros escolhidos: frequência mínima de uma ocorrência; nuvem sem exibir a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; nenhum termo foi removido do texto original.

UploadFile.jpg


Figura 2: Resultado com a nuvem de palavras

Nuvem1.jpg

Importante notar que, mesmo a fonte de texto original ter sido um bloco de notas, automaticamente o sistema transcreveu seu conteúdo na seção “Paste Text”, conforme imagem abaixo.

Figura 3: Texto transcrito

Textotranscrito.jpg

Figura 4: Opção Copiar e Colar texto na íntegra.

Conteúdo escolhido: Manifesto das Humanidades Digitais

CopiareColar.jpg

Figura 5: Filtros escolhidos

Frequência mínima de uma ocorrência; nuvem exibindo a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; exclusão dos termos “digital” e “humanities”.

Filtros.jpg

Figura 6: Resultado da nuvem de palavras

Nuvem2.jpg

Figura 7: Opção Web Page URL

URL escolhida: verbete Digital Humanities na Wikipédia Filtros escolhidos: frequência mínima de uma ocorrência; nuvem exibindo a quantidade de ocorrência dos termos; número máximo de 50 termos na nuvem; exclusão dos termos “digital” e “humanities”.

URL.jpg