Google Ngram Viewer

De LARHUD
Revisão de 01h36min de 1 de julho de 2018 por Amanda Salomão (Discussão | contribs)

Ir para: navegação, pesquisa

Google Ngram Viewer

O Google Books Ngram Viewer é uma ferramenta cujo objetivo é visualizar a história, ascensão, desenvolvimento e desuso de termos, palavras, ideias ou expressões ao longo do tempo. Em linhas gerais, a ferramenta apresenta a evolução de um termo ao longo do tempo desde seu surgimento, perpassando os períodos em que mais aparece, até quando, possivelmente, deixa de ser utilizado.

A ferramenta apresenta em sua interface um gráfico que representa a evolução de um termo que aparece nos livros, de modo a ilustrar quantas vezes esse termo é mencionado ao longo dos anos e como o mesmo aparece. Se a busca for realizada por mais de uma palavra ou expressão, a ferramenta apresenta linhas em diferentes cores para ilustrar o contraste entre os diferentes termos.

Figura 1 – Interface do Google Books Ngram Viewer, a partir dos exemplos de Albert Einstein, Sherlock Holmes e Frankestein

Figura 1 ngram.jpg

Os textos analisados, denominados como corpus, são provenientes de uma grande quantidade de livros digitalizados pela empresa Google, em seu projeto Google Books. O projeto tem como intuito disponibilizar o acesso à toda produção científica mundial, tendo como foco, especialmente, as obras pertencentes às bibliotecas universitárias e públicas, as quais possuem parcerias, como: Harvard, Michigan, Oxford, Standford e Biblioteca Pública de Nova York.

As obras digitalizadas não são oferecidas ao público na íntegra, em razão das limitações de direitos autorais. Contudo, boa parte do conteúdo encontra-se disponível online para acesso.

A primeira versão da ferramenta, publicada em 2009, incorporou mais de cinco milhões de livros, contendo cerca de um trilhão de palavras, sendo 361 bilhões apenas em língua inglesa - divididas em inglês britânico e ficção em inglês. Contavam, ainda, com dados em língua espanhola, francesa, alemã, russa, chinesa e hebraica. Os metadados selecionados decorrem de 15 milhões de livros digitalizados, sendo sua maioria provenientes de bibliotecas universitárias.

A segunda versão, publicada em 2012, conta com oito milhões de livros, também beirando um trilhão de palavras somente em inglês, incluindo, além dos idiomas já mencionados, a língua italiana.

Os termos pertencentes às amostras de livros são denominados de n-grams, entendidos como uma série de caracteres de uma dada extensão. Tipicamente, são blocos de texto separados, na forma de análise estatística do conteúdo de um texto ou discurso para encontrar o n (número) em uma certa quantidade de itens no texto. Podem ser todo tipo de item: fonemas, prefixos, frases ou letras.

A busca do Ngram Viewer é dividida por idioma: american english, british english – livros de língua inglesa publicados no Reino Unido -, chinês, inglês no todo, ficção em língua inglesa, francês, alemão, hebreu, italiano, russo, espanhol, e por tempo, no período compreendido entre 1800 a 2000.

No caso dos idiomas, é possível procurar por duas línguas simultaneamente - ex. british e american english. Isso permite identificar o contraste da utilização de termos em diferentes línguas.

Figura 2 – Busca no Ngram Viewer por idioma e período

Figura 2 ngram.jpg

Como realizar uma pesquisa básica no Google Ngram Viewer:

1) Não é necessário ter uma conta no Google, pois a ferramenta não demanda nenhum tipo de cadastro; 2) Acesse o Google Books Ngram Viewer; 3) Na caixa de busca, digite o(s) termo(s) que deseja pesquisar, lembrando-se sempre de separá-los por vírgula. Ex.: librarianship,

       library science;

4) A ferramenta não é intuitiva, portanto, certifique-se de colocar sempre a letra maiúscula, caso necessário. Ex.: Jane Austen e não

       jane austen;

5) Selecione o período de pesquisa desejado, desde que seja entre 1800 a 2008, pois a ferramenta não busca obras posteriores à essa data; 6) Escolha o idioma das obras em que deseja pesquisar; lembre-se apenas que é preferível que o idioma dos termos seja igual ao idioma dos livros

       a serem mapeados, caso contrário, é possível que a recuperação do termo sofra impactos;

7) Os casos em que aparecem os idiomas acompanhados de 2009 correspondem ao corpus da primeira versão da ferramenta, podendo ser ignorados pelo

       usuário ou selecionados, quando da necessidade de analisar coleções de dados mais antigas. Ex.: American English 2009;

8) Corpus significa o conjunto de textos a serem analisados; 9) Em “smoothing of”, é possível escolher de 0 a 50, sendo os resultados apresentados uma média aritmética entre o intervalo escolhido. Ex.:

       a porcentagem equivalente ao resultado do ano de 1850 é, na verdade, uma média dos anos de 1850, 1851 e 1852, caso o smoothing 
       escolhido seja 3. Ainda que esteticamente não seja tão simples, para pesquisas básicas e iniciais, é preferível optar pelo smoothing 
       zero, que apresenta os resultados correspondentes à cada ano;

10) Clique em “search lots of books” ou apenas no botão “enter”; 11) O gráfico gerado apresenta linhas em diferentes cores, para os casos em que a busca é feita por mais de um termo, para ilustrar o contraste

       entre os diferentes termos. Nos casos em que a busca é realizada apenas por meio de uma palavra ou expressão, o resultado é indicado apenas em 
       uma única cor;

12) Para visualizar a representação gráfica de apenas alguns termos específicos, clique com o botão esquerdo no termo desejado, de modo que as

       linhas coloridas a aparecerem sejam apenas dos termos grifados e as outras não estejam destacadas. Tal procedimento facilita a análise do 
       gráfico, nos casos em que se pesquise diversos termos;

13) Caso queira realizar o download dos dados brutos resultantes da pesquisa, vá na parte inferior da página, em “Run your own experiment!

       Raw data is available for download here.”;

14) A pesquisa está realizada e agora é só analisar os dados.

Obs.: Além do gráfico, pode-se pesquisar também pelo Google Books, através do período desejado. O Google retorna a busca com a lista de livros digitalizados por período e termo pesquisado, através do qual é possível identificar brevemente como o termo foi utilizado diretamente nas obras.

Figura 3 – Pesquisa através do Google Books, filtrado pelo período

Figura 3 ngram.jpg

Figura 4 – Pesquisa através do Google Books, pelo termo Librarianship, filtrado pelo período de 1800-1935

Figura 4 ngram.jpg

Exemplo de pesquisa no Google Ngram Viewer:

Aqui, como exemplo, utilizamos os seguintes termos: information science, librarianship e library science, em língua inglesa - english -, no período compreendido entre 1800-2000, com vistas à identificar o “surgimento” e “evolução” desses termos na produção científica.

Figura 5 – Exemplo de pesquisa no Google Ngram Viewer

Figura 5 ngram.jpg

De acordo com o gráfico, as análises prévias a serem realizadas denotam uma ênfase maior no termo librarianship, pelo menos em língua inglesa, a partir do século XIX, em vista, sobretudo, da corrente humanista francesa, que muito influenciou nos estudos biblioteconômicos. Com o advento e influência da corrente tecnicista norte-americana, podemos observar um aumento do uso do termo library science, a partir, especialmente, da década de 1860 e, com mais ênfase, em 1920) que incorpora as técnicas sobretudo de recuperação da informação e o cunho científico do campo aos estudos humanistas da Biblioteconomia.

Em um segundo momento, com o surgimento da Ciência da Informação em meados do século XX, especialmente a partir da Segunda Guerra Mundial, já notamos o aparecimento do termo information science na produção científica, que representa o início dos estudos na área, atingindo seu pico em 1982.

São exemplos e análises incipientes, mas que, em um primeiro momento, podem oferecer alguns indicadores sobre o uso ou popularidade dos termos nas produções científicas, se levarmos em consideração que muitos dos livros digitalizados são provenientes de bibliotecas universitárias.

Como analisar esses dados com mais profundidade:

Em uma primeira análise, o gráfico apresentado não é de difícil interpretação. Através das linhas coloridas, é possível ter uma certa compreensão acerca dos usos e desusos dos termos, conforme observado no exemplo acima. Contudo, os resultados gerados para cada ano não são tão precisos, de modo a dificultar a análise. Por isso, para aqueles que não possuem vasto conhecimento em programação, mas que desejam trabalhar com a ferramenta, o tutorial oferecido pela Standford University dá algumas dicas para analisar com mais exatidão a quantidade de vezes que um termo aparece em determinado ano.

A ferramenta disponibiliza os dados brutos de todos os ngrams. Contudo, além de demandar um grande espaço de armazenamento, tendo em vista que o arquivo é consideravelmente “pesado”, a análise não é de fácil compreensão para aqueles que não entendem muito de computação.

Para tanto, o Google Ngram também oferece um arquivo em txt., denominado “total counts”, para a apresentação do número total de palavras contabilizadas e páginas digitalizadas. Cada idioma conta com um arquivo para cada ano específico, no qual somam o total de palavras, de páginas e de livros totalizadas em um dado ano.

Para os que desejam realizar uma análise de um determinado ano - ex.: o ano em que um termo teve seu pico de menção - e que não tem muita habilidade em programação, o procedimento manual pode ser uma boa saída.

Veja o exemplo abaixo de como esse arquivo é apresentado em txt.:

Figura 6Total counts em txt.

Totalcounts ngram.jpg

O exemplo dado acima contém a seguinte linha: 1982,4839530894,24286876,48446.

Isso significa dizer que, para o ano de 1982, existem um total de 4839530894 palavras em 24286876 páginas digitalizadas em 48446 livros.

Com isso, torna-se possível calcular com que frequência um determinado termo apareceu em um dado ano.

Veja o exemplo dado acima, para o termo Information Science, que atingiu seu pico de menção no ano de 1982:

1) Vá no gráfico apresentado pelo Google Ngram Viewer, com os termos pesquisados; 2) Arraste a seta do cursor até o pico de menção para o termo escolhido; 3) Ao visualizar os dados referentes ao ano, observe a porcentagem. Ex.: 1982 – 0.0000442813%; 4) Faça o seguinte cálculo: porcentagem para o ano escolhido x 0.01 x número de palavras contabilizadas na digitalização. Ex.: 0.0000442813 x

       0.01 x 4839530894 = ~ 2143, onde, no ano de 1982, o termo “information science” apareceu cerca de 2143 vezes no corpus de livros 
       digitalizados pelo Google Books naquele período.

Nos casos em que se deseje verificar uma quantidade considerável de anos, a análise manual não é indicada. Nesse sentido, o tutorial apresentado pela Standford University oferece uma análise mais aprofundada, a partir da ferramenta Python.

Possíveis dificuldades a serem encontradas no uso da ferramenta:

1) Os livros digitalizados pelo Google não possuem seu conteúdo integral, isto é, não foram digitalizados na íntegra, apenas o número de

       páginas correspondente ao permitido pelos direitos autorais. Por este motivo, não há certeza sobre a quantidade exata dos termos procurados; 
       muito provavelmente, existem mais menções ao termo do que os ali elencados;

2) Digitalizar os livros não significa que os mesmos foram lidos, de modo que, na maioria das vezes, não pode ser considerado como um indicador

       concreto de popularidade;

3) A plataforma não é intuitiva, de forma que é necessário destacar, por exemplo, a letra maiúscula de um determinado termo; 4) Caso o corpus da pesquisa abarque os livros digitalizados do século XIX, é importante saber que muitos deles possuíam, à época, uma grafia

       diferente. Ex.: o f parecia o s e vice-versa, o que acaba eventualmente por influenciar na recuperação do termo;  

5) Nem sempre a qualidade ou reprodução digital do material permite recuperar o termo desejado; 6) Em casos específicos nos quais seja necessário saber quantas vezes um termo aparece em um determinado livro ou período, a ferramenta não

       informa; esses dados são apresentados em porcentagem, dificultando sua leitura;

7) É preciso utilizar um software para realizar essa tradução - à exemplo da ferramenta Python -, ou analisar manualmente essas

       informações, a partir dos dados brutos oferecidos pelo Google Ngram, que apresentam a quantidade exata de páginas, palavras e livros 
       digitalizados por ano pelo Google Books, desde 1800 até 2000. A partir da conta “porcentagem equivalente ao ano que deseja verificar x 
       0.01 x número de palavras digitalizadas por ano”, é possível saber quantas vezes o termo foi utilizado em um determinado ano. Ainda assim, não 
       se sabe ao certo em qual livro o termo foi mencionado;

8) Dificuldade em realizar análises conceituais muito profundas tendo por base apenas a ferramenta, pois a mesma não permite saber a conotação

       dada à cada termo nessas obras.

Tutoriais e materiais reflexivos que podem ajudar no uso da ferramenta:

Tutorial Standford University

Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution

The pitfalls of using Google Ngram to study language