Voyant Tools
Voyant Tools
O Voyant Tools é um aplicativo online e open source de análise de textos (text analysis). Desenvolvido pelos canadenses Stéfan Sinclair – professor associado de Humanidades Digitais na Universidade McGill (Canadá) – e Geoffrey Rockwell – professor de Filosofia e Ciências Humanas na University of Alberta (Canadá) e atual diretor do Kule Institute for Advanced Study. Importante referência para o uso do Voyant Tools é o Hermeneutica: Computer-Assisted Interpretation in the Humanities, o livro demonstra diferentes abordagens para análise de textos usando o aplicativo.
O Voyant Tools permite que seus usuários trabalhem com seus próprios textos ou com coleções de textos existentes (online ou não) para executarem funções básicas de mineração de textos. Os produtos gerados pelo Voyant Tools - listas de frequência de palavras, gráficos de distribuição de frequência e exibições de KWIC – permitem a extração rápida das características de determinado corpus teórico, ampliando a possibilidade de descoberta de temas. Dessa forma, o Voyant Tools se configura como um ambiente de análise, leitura e visualização de textos que, por tentar equilibrar facilidade de uso com uma gama de funções interpretativas e analíticas, atinge uma ampla gama de usuários – estudantes, pesquisadores, jornalistas, analistas de mercado, entre outros.
Pesquisadores têm usado o Voyant Tools para analisar textos em amplos contextos, entre eles: literatura, ensino de idiomas, saúde e arquitetura de sistemas. Diversos projetos internacionais de humanidades digitais estão executando o Voyant em seus próprios servidores, como o projeto francês Huma-Num, o italiano CNR ILC e o projeto alemão DARIAH-DE.
Sua interface é composta de painéis que destacam todas essas variadas tarefas analíticas ao mesmo tempo. Esses painéis podem ser utilizados em textos externos da Web, por exemplo: um artigo da Web pode incluir um painel do Voyant que gera uma nuvem de palavras a partir dele.
Algumas características do Voyant Tools que merecem ser destacadas: importa documentos de vários formatos (texto, HTML, XML, PDF, RTF, MS Word, ODF, etc.); disponibiliza várias ferramentas para estudar distribuições e frequências de termos dentro de documentos e dentro de uma coleção de documentos (um corpus); suporta textos grandes e recursos interativos; permite a interação entre ferramentas que facilitam a navegação e a exploração em escalas diferentes, de “leitura próxima” a “leitura distante”; possui mecanismo para bookmarking e compartilhamento de instâncias do Voyant Tools (textos e ferramentas específicas) através de URLs; acesso a versão online ou a versão para download.
A ajuda com o uso da interface está disponível no site de documentação do Voyant Tools. O aplicativo também possibilita e estimula a contribuição do usuário para o aprimoramento do aplicativo.
Utilizando o Voyant Tools:
Ao abrir a página do aplicativo (https://voyant-tools.org/\), nos deparamos com uma interface amigável e intuitiva – poucos ícones e todos facilmente identificáveis:
Figura 1 – Página inicial do Voyant Tools
Com o voyant-tools é possível importar um texto em diferentes formatos: digitando uma ou mais URLs na caixa de texto inicial, fazendo o upload de algum arquivo do computador, ou abrindo algum arquivo de sample do aplicativo. As seguintes extensões são comportadas: HTML, XML, MS Word, RTF, PDF e texto simples.
Há a possibilidade de mudança de linguagem, são dez línguas no total e o português não está contemplado.
Figura 2 – Auto-detecção do Voyant Tools
Também há uma opção para a configuração de texto, dependendo de cada formato inserido. Sendo assim, inserindo o texto via endereço de URL, é possível configurar exatamente o que será extraído do endereço clicando no menu de opções.
Após a seleção do texto, via os diferentes formatos possibilitados pelo Voyant-Tools, ele carregará a seguinte tela:
Figura 3 – Tela de ferramentas padrão do Voyant Tools
O Voyant-Tools apresenta, em sua interface, diversas janelas divididas em três colunas que apresentam diferentes recursos de análise altimétrica do texto referenciado. Em cada janela, aproximando-se dos pontos de interrogação, é possível configurar mais opções de cada recurso, exportar a visualização da janela em diferentes formatos de visualização, como em imagem no formato PNG, código HTML para acoplar em uma página de internet, ou referência bibliográfica para compor a base teórica de um artigo; além de trocar a ferramenta exibida naquela janela em específico por outra de maior conveniência do usuário.
Dentre as ferramentas no aplicativo, temos:
1) Cirrus (WordCloud ou Nuvens de Palavras): ferramenta que conta todas as palavras presentes no texto e elenca a quantidade de vezes que eles são repetidos, apresentando-as de forma visual que possibilite a compreensão dos termos mais utilizados e o seu respectivo grau de repetição – quanto mais vezes um termo se repete, maior ele será na nuvem de palavras. No menu de opções, é possível selecionar exatamente quais palavras que irão compor a nuvem de cores, assim como definir categorias para as mesmas, além de mudar a fonte de exibição e a paleta de cores do gráfico É possível utilizar a barra “Termos” logo abaixo da nuvem de palavras, determinando a quantidade total de palavras que serão exibidas no gráfico, aumentando o diminuindo o seu escopo. Passando o cursor em cima de cada palavra, é possível recuperar a quantidade de vezes que ela se repete ao longo do texto.
2) Termos: Permite a visualização de uma tabela com a relação e a contagem de todas as palavras presentes no texto. Clicando em um termo em específico, ele será iluminado no texto, para facilitar a identificação.
3) Gráfico de Bolhas: Possibilita a visualização da frequência e a repetição de uso de um determinado termo em um corpus. Cada termo fica representado como uma bolha em que o seu raio é determinado pela quantidade de vezes que ele se repete ao longo do texto. No menu de opções, é possível excluir termos para reconfigurar a visualização do gráfico de bolhas, assim como escolher uma nova paleta de cores para visualização.
4) Correlações: Permite a verificação sincronizada das frequências dos termos, ou seja, se existem termos que serão sempre acompanhados de outros em específico, além de determinar um grau de correlação entre os termos. É possível selecionar os termos correlatos na barra de seleção que fica na parte debaixo da janela.
5) Co-ocorrências: Exibe, em formato de tabela, os termos que aparecem com maior frequência em proximidade com outras palavras-chave em todo o corpus. No menu de opções, é possível excluir a relação de termos que não são desejados para análise.
6) Mandala: Ferramenta de visualização conceitual que demonstra as relações entre os termos e os documentos que estão sendo analisados. Cada termo disponível é atraído pelos documentos em função de sua frequência no corpus. No menu de opções, é possível excluir a relação de termos que não são desejados para a análise.
7) Micro-busca: Ferramenta de visualização que mostra, de maneira gráfica, o grau de incidência de cada termo no documento. Selecionando um termo em específico, um gráfico mostrará o tamanho do documento e iluminará quantas vezes o termo preenche o documento como um todo.
8) Diagrama de fluxo: Ferramenta de visualização que representa a evolução da frequência das palavras em um corpus. É possível selecionar os termos específicos para fazer a análise na barra de busca abaixo da janela. Também é possível fazer a troca para o gráfico de Tendências.
9) Tendências: ferramenta que identifica, de maneira padrão, os termos mais utilizados no texto e demonstra, a partir de um gráfico de linhas, o grau de frequência de repetição dos termos ao longo de cada seção e/ou parágrafo do texto. Cada ponto no gráfico de linha é referente à seção que os termos são repetidos. Na parte debaixo da janela, é possível reiniciar o resultado do gráfico e escolher apenas os termos desejados para análise de tendências. Na opção “Termos do Documento”, na parte de cima da janela, novamente é possível escolher as palavras que aparecerão no gráfico de linhas, além de acessar dados como o número de vezes que cada termo se repete e o gráfico de tendência único para cada palavra, em formato simplificado. No menu de opções, é possível escolher quais palavras serão excluídas na análise total do documento.
10) Frases: Exibe a relação de frases que se repetem ao longo do texto, apresentando dados como a quantidade de vezes que a frase se repete e o comprimento da frase em quantidade de palavras. É possível aumentar ou diminuir o escopo de repetições, na barra que se localiza na parte debaixo da janela, assim como selecionar uma frase em específico para análise, na barra de busca ao lado. No menu de opções é possível escolher quais palavras serão excluídas na análise total do documento.
11) Documentos: Ferramenta que possibilita selecionar exatamente qual documento está sendo analisado pela ferramenta, caso se tenha subido mais de um texto utilizando a função de exportar URLs, além de adquirir outros dados como a quantidade de palavras e porcentagem de proporção das mesmas no texto.
12) Leitor: ferramenta que apresenta o texto designado para análise, utilizada para identificação dos termos iluminados que sejam selecionados em outras janelas, ou na própria janela do leitor, utilizando a barra de busca de termos. Clicando na opção ”Termos Berry” acima na janela, o texto dá lugar para um gráfico circular com a relação de palavras presentes no texto e a quantidade de vezes que elas se repetem, funcionando de maneira semelhante à nuvem de palavras – quanto maior o número de vezes que um termo se repete, maior será o raio do círculo que envolve cada palavra. Também é possível utilizar a barra “Termos” para determinar a quantidade total de palavras exibidas no gráfico, aumentando ou diminuindo seu escopo. No menu de opções, é possível escolher quais palavras serão excluídas na análise total do documento, referentes à opção “Termos Berry”.
13) Sumário: esta ferramenta apresenta dados básicos sobre o texto analisado, trazendo a contagem total de palavras distintas, a densidade vocabular, a média de palavras por frase e a quantidade de palavras mais frequentes do texto, que pode ser alterada na barra abaixo da janela, sendo possível aumentar ou diminuir a relação e palavras frequentes de acordo com a necessidade do usuário.
14) Contextos: Ferramenta que mostra a relação de cada termo selecionado e o contexto em que ele se encontra, evidenciando a frase que aparece anteriormente e posteriormente ao termo. É possível selecionar o termo para análise na barra de busca na parte debaixo da janela.
15) Gráficos de dispersão: Demonstra a correspondência do uso de termos em um corpus. É baseado em uma análise estatística que considera a correlação de cada termo dentro de um documento. No menu de opções é possível excluir termos que não serão utilizados na análise.
16) Termos-Rádio: Semelhante às ferramentas de Tendências e Diagrama de Fluxo, sua função está em examinar as ocorrências das palavras em um corpus, abrangendo um período de tempo. No menu de opções é possível excluir termos que não serão utilizados na análise.
17) Temas: Ferramenta que identifica possíveis temas do trabalho com base nas frases que compõem o documento, de forma aleatória e com base nas palavras utilizadas no documento como um todo.
18) Árvore de palavras: Mostra, de maneira gráfica, a relação de palavras mais utilizadas que circundam cada termo analisado. Na barra localizada abaixo da janela, é possível aumentar o escopo de palavras que circundam o termo pesquisado, aumentando a árvore, além de selecionar outros termos para serem analisados.
19) Nós: visualização gráfica que determina nós para os termos mais utilizados e/ou pesquisados no documento. Quanto maior a curva de um nó, mais é a incidência de repetição de um termo ao longo do texto. A ferramenta Voyant-Tools ainda possui a opção de chat com a inteligência artificial Veliza, que poderá guiar o usuário na utilização de algumas ferramentas disponíveis no aplicativo.
Considerações acerca do Voyant Tools
Ao possuir diversas ferramentas aplicadas dentro do programa, o Voyant-Tools permite a utilização para uma série de aplicações, dentre elas, principalmente as que estão voltadas para análise altimétricas em documentos. Com a possibilidade de anexar diferentes documentos numa mesma seção, a ferramenta se torna bastante útil para a realização de uma análise conjunta, sendo possível a exibição de maneira gráfica e textual de cada elemento do texto.
A maior facilidade em relação a utilização da ferramenta é a possibilidade de gerar gráficos de maneira automática, sendo possível alterar os termos de interesse para análise, além de exportá-los em formatos utilizáveis na produção de artigos, como o formato .PNG.
Cada recurso disponível no Voyant-Tools possui um menu com um ícone de ajuda que explica de maneira bastante superficial o tema de cada ferramenta, o que ajuda a compreensão dos recursos, porém não guia um usuário que não compreende como utilizá-lo.
Tutoriais para o uso da ferramenta