Mudanças entre as edições de "Google Ngram Viewer"

De LARHUD
Ir para: navegação, pesquisa
Linha 1: Linha 1:
O ''Google Books Ngram Viewer'' é uma ferramenta cujo objetivo é visualizar a história, ascensão, desenvolvimento e desuso de termos, palavras, ideias ou expressões ao longo do tempo. Em linhas gerais, a ferramenta apresenta a evolução de um termo ao longo do tempo desde seu surgimento, perpassando os períodos em que mais aparece, até quando, possivelmente, deixa de ser utilizado.
+
Google Books Ngram Viewer es una herramienta cuyo objetivo es visualizar la historia, auge, desarrollo y desuso de términos, palabras, ideas o expresiones a lo largo del tiempo. En términos generales, la herramienta presenta la evolución de un término a lo largo del tiempo desde su aparición, pasando por los periodos en los que más aparece, hasta cuando, posiblemente, deja de ser utilizado.
  
A ferramenta apresenta em sua interface um gráfico que representa a evolução de um termo que aparece nos livros, de modo a ilustrar quantas vezes esse termo é mencionado ao longo dos anos e como o mesmo aparece. Se a busca for realizada por mais de uma palavra ou expressão, a ferramenta apresenta linhas em diferentes cores para ilustrar o contraste entre os diferentes termos.
+
La herramienta presenta en su interfaz un gráfico que representa la evolución de un término que aparece en los libros, con el fin de ilustrar cuántas veces se menciona este término a lo largo de los años y cómo aparece. Si la búsqueda se realiza por más de una palabra o expresión, la herramienta muestra líneas en diferentes colores para ilustrar el contraste entre los diferentes términos.
  
'''Figura 1''' – Interface do ''Google Books Ngram Viewer'', a partir dos exemplos de Albert Einstein, Sherlock Holmes e Frankestein
+
'''Figura 1''' – Interfaz de ''Google Books Ngram Viewer'', a partir los ejemplos de Albert Einstein, Sherlock Holmes y Frankestein
  
 
[[Arquivo:Figura_1_ngram.jpg]]
 
[[Arquivo:Figura_1_ngram.jpg]]
  
Os textos analisados, denominados como ''corpus'', são provenientes de uma grande quantidade de livros digitalizados pela empresa ''Google'', em seu projeto ''Google Books''. O projeto tem como intuito disponibilizar o acesso à toda produção científica mundial, tendo como foco, especialmente, as obras pertencentes às bibliotecas universitárias e públicas, as quais possuem parcerias, como: ''Harvard'', ''Michigan'', ''Oxford'', ''Standford'' e Biblioteca Pública de Nova York.
+
Los textos analizados, denominados ''corpus'', proceden de un gran número de libros digitalizados por la empresa ''Google'', en su proyecto ''Google Books''. El proyecto pretende dar acceso a toda la producción científica a nivel mundial, centrándose, especialmente, en obras pertenecientes a bibliotecas universitarias y públicas, que tengan colaboraciones, tales como: ''Harvard'', ''Michigan'', ''Oxford'', Standford y la Biblioteca Pública de Nueva York.
  
As obras digitalizadas não são oferecidas ao público na íntegra, em razão das limitações de direitos autorais. Contudo, boa parte do conteúdo encontra-se disponível online para acesso.
 
  
A primeira versão da ferramenta, publicada em 2009, incorporou mais de cinco milhões de livros, contendo cerca de um trilhão de palavras, sendo 361 bilhões apenas em língua inglesa - divididas em inglês britânico e ficção em inglês. Contavam, ainda, com dados em língua espanhola, francesa, alemã, russa, chinesa e hebraica. Os metadados selecionados decorrem de 15 milhões de livros digitalizados, sendo sua maioria provenientes de bibliotecas universitárias.
+
Las obras digitalizadas no se ofrecen al público en su totalidad debido a limitaciones de derechos de autor. Sin embargo, gran parte del contenido está disponible en línea para su acceso.
  
A segunda versão, publicada em 2012, conta com oito milhões de livros, também beirando um trilhão de palavras somente em inglês, incluindo, além dos idiomas já mencionados, a língua italiana.  
+
La primera versión de la herramienta, publicada en 2009, incorporó más de cinco millones de libros, que contenían alrededor de un billón de palabras, de las cuales 361 mil millones están solo en inglés, divididos en inglés británico y ficción en inglés. También tenían datos en español, francés, alemán, ruso, chino y hebreo. Los metadatos seleccionados provienen de 15 millones de libros digitalizados, la mayoría de los cuales provienen de bibliotecas universitarias.
  
Os termos pertencentes às amostras de livros são denominados de n-grams, entendidos como uma série de caracteres de uma dada extensão. Tipicamente, são blocos de texto separados, na forma de análise estatística do conteúdo de um texto ou discurso para encontrar o n (número) em uma certa quantidade de itens no texto. Podem ser todo tipo de item: fonemas, prefixos, frases ou letras.  
+
La segunda versión, publicada en 2012, cuenta con ocho millones de libros, acercándose también al billón de palabras solo en inglés, incluyendo, además de los idiomas ya mencionados, el idioma italiano.
  
A busca do ''Ngram Viewer'' é dividida por idioma: ''american'' ''english'', ''british english'' – livros de língua inglesa publicados no Reino Unido -, chinês, inglês no todo, ficção em língua inglesa, francês, alemão, hebreu, italiano, russo, espanhol, e por tempo, no período compreendido entre 1800 a 2000.
+
Los términos pertenecientes a las muestras del libro se denominan n-gramas, entendidos como una serie de caracteres de una longitud determinada. Por lo general, estos son bloques de texto separados, en forma de análisis estadístico del contenido de un texto o discurso para encontrar la n (número) en una cierta cantidad de elementos en el texto. Pueden ser todo tipo de elementos: fonemas, prefijos, frases o letras
  
No caso dos idiomas, é possível procurar por duas línguas simultaneamente - ex. ''british'' e ''american english''. Isso permite identificar o contraste da utilização de termos em diferentes línguas.
+
La búsqueda de ''Ngram Viewer'' se divide por idioma: ''inglés americano", ''inglés británico'' -libros en inglés publicados en el Reino Unido-, chino, inglés en su totalidad, ficción en inglés , francés, alemán, hebreo, italiano, ruso, español; y por tiempo, en el período comprendido entre 1800 y 2000.
  
'''Figura 2''' – Busca no ''Ngram Viewer'' por idioma e período
+
En el caso de los idiomas, es posible buscar dos idiomas simultáneamente, ej: ''Inglés Británico'' e ''Inglés americano''. Esto permite identificar el contraste en el uso de términos en diferentes idiomas.
 +
 
 +
'''Figura 2''' – Buscar en ''Ngram Viewer'' por idioma y período
  
 
[[Arquivo:Figura_2_ngram.jpg]]
 
[[Arquivo:Figura_2_ngram.jpg]]
  
'''Como realizar uma pesquisa básica no Google Ngram Viewer:'''
 
  
1) Não é necessário ter uma conta no Google, pois a ferramenta não demanda nenhum tipo de cadastro;
+
'''Cómo realizar una búsqueda básica en Google Ngram Viewer:'''
 +
 
 +
1) No es necesario tener una cuenta de Google, ya que la herramienta no requiere ningún tipo de registro;
  
2) Acesse o [https://books.google.com/ngrams Google Books Ngram Viewer];
+
2) Vaya a [https://books.google.com/ngrams Google Books Ngram Viewer];
  
3) Na caixa de busca, digite o(s) termo(s) que deseja pesquisar, lembrando-se sempre de separá-los por vírgula. Ex.: librarianship, library science;
+
3) En el cuadro de búsqueda, escriba el o los términos que desea buscar, recordando siempre separarlos con una coma. Ej: "librarianship", "library science";
  
4) A ferramenta não é intuitiva, portanto, certifique-se de colocar sempre a letra maiúscula, caso necessário. Ex.: Jane Austen e não jane austen;
+
4) La herramienta no es intuitiva, así que asegúrese de usar siempre mayúsculas si es necesario. Ej.: "Jane Austen" y no "jane austen";
  
5) Selecione o período de pesquisa desejado, desde que seja entre 1800 a 2008, pois a ferramenta não busca obras posteriores à essa data;
+
5) Seleccione el período de búsqueda deseado, siempre que sea entre 1800 y 2008, ya que la herramienta no busca obras posteriores a esa fecha;
  
6) Escolha o idioma das obras em que deseja pesquisar; lembre-se apenas que é preferível que o idioma dos termos seja igual ao idioma dos livros a serem mapeados, caso contrário, é possível que a recuperação do termo sofra impactos;
+
6) Elija el idioma de las obras en las que desea buscar; solo recuerde que es preferible que el idioma de los términos sea el mismo que el de los libros a mapear, de lo contrario es posible que la recuperación del término se resienta;
  
7) Os casos em que aparecem os idiomas acompanhados de 2009 correspondem ao corpus da primeira versão da ferramenta, podendo ser ignorados pelo usuário ou selecionados, quando da necessidade de analisar coleções de dados mais antigas. Ex.: ''American English'' 2009;
+
7) Los casos en los que aparecen los idiomas acompañados de 2009 corresponden al corpus de la primera versión de la herramienta, y pueden ser ignorados por el usuario o seleccionados, cuando sea necesario analizar recopilaciones de datos más antiguas. Por ejemplo: ''Inglés americano'' 2009;
  
8) ''Corpus'' significa o conjunto de textos a serem analisados;
+
8) ''Corpus'' significa el conjunto de textos a ser analizado;
  
9) Em “''smoothing of''”, é possível escolher de 0 a 50, sendo os resultados apresentados uma média aritmética entre o intervalo escolhido. Ex.: a porcentagem equivalente ao resultado do ano de 1850 é, na verdade, uma média dos anos de 1850, 1851 e 1852, caso o ''smoothing'' escolhido seja 3. Ainda que esteticamente não seja tão simples, para pesquisas básicas e iniciais, é preferível optar pelo ''smoothing'' zero, que apresenta os resultados correspondentes à cada ano;
+
9) En “''smoothing of''”, es posible elegir de 0 a 50, y los resultados se presentan como una media aritmética entre el rango elegido. Ej: el porcentaje equivalente al resultado del año 1850 es, en realidad, una media de los años 1850, 1851 y 1852, si se elige el 'smoothing' 3. Aunque estéticamente no es tan sencillo, para la investigación básica e iniciales, es preferible optar por el "smoothing" cero, que presenta los resultados correspondientes a cada año;
  
10) Clique em “''search lots of books''” ou apenas no botão “''enter'';
+
10) Haga clic en "search lots of books" ('buscar muchos libros') o simplemente en el botón "enter" ('ingresar');
  
11) O gráfico gerado apresenta linhas em diferentes cores, para os casos em que a busca é feita por mais de um termo, para ilustrar o contraste entre os diferentes termos. Nos casos em que a busca é realizada apenas por meio de uma palavra ou expressão, o resultado é indicado apenas em uma única cor;
+
11) El gráfico generado presenta líneas en diferentes colores, para los casos en que la búsqueda se realiza por más de un término, para ilustrar el contraste entre los diferentes términos. En los casos en que la búsqueda se realice únicamente por medio de una palabra o expresión, el resultado se indicará en un solo color;
  
 
12) Para visualizar a representação gráfica de apenas alguns termos específicos, clique com o botão esquerdo no termo desejado, de modo que as linhas coloridas a aparecerem sejam apenas dos termos grifados e as outras não estejam destacadas. Tal procedimento facilita a análise do gráfico, nos casos em que se pesquise diversos termos;
 
12) Para visualizar a representação gráfica de apenas alguns termos específicos, clique com o botão esquerdo no termo desejado, de modo que as linhas coloridas a aparecerem sejam apenas dos termos grifados e as outras não estejam destacadas. Tal procedimento facilita a análise do gráfico, nos casos em que se pesquise diversos termos;

Edição das 12h11min de 8 de março de 2022

Google Books Ngram Viewer es una herramienta cuyo objetivo es visualizar la historia, auge, desarrollo y desuso de términos, palabras, ideas o expresiones a lo largo del tiempo. En términos generales, la herramienta presenta la evolución de un término a lo largo del tiempo desde su aparición, pasando por los periodos en los que más aparece, hasta cuando, posiblemente, deja de ser utilizado.

La herramienta presenta en su interfaz un gráfico que representa la evolución de un término que aparece en los libros, con el fin de ilustrar cuántas veces se menciona este término a lo largo de los años y cómo aparece. Si la búsqueda se realiza por más de una palabra o expresión, la herramienta muestra líneas en diferentes colores para ilustrar el contraste entre los diferentes términos.

Figura 1 – Interfaz de Google Books Ngram Viewer, a partir los ejemplos de Albert Einstein, Sherlock Holmes y Frankestein

Figura 1 ngram.jpg

Los textos analizados, denominados corpus, proceden de un gran número de libros digitalizados por la empresa Google, en su proyecto Google Books. El proyecto pretende dar acceso a toda la producción científica a nivel mundial, centrándose, especialmente, en obras pertenecientes a bibliotecas universitarias y públicas, que tengan colaboraciones, tales como: Harvard, Michigan, Oxford, Standford y la Biblioteca Pública de Nueva York.


Las obras digitalizadas no se ofrecen al público en su totalidad debido a limitaciones de derechos de autor. Sin embargo, gran parte del contenido está disponible en línea para su acceso.

La primera versión de la herramienta, publicada en 2009, incorporó más de cinco millones de libros, que contenían alrededor de un billón de palabras, de las cuales 361 mil millones están solo en inglés, divididos en inglés británico y ficción en inglés. También tenían datos en español, francés, alemán, ruso, chino y hebreo. Los metadatos seleccionados provienen de 15 millones de libros digitalizados, la mayoría de los cuales provienen de bibliotecas universitarias.

La segunda versión, publicada en 2012, cuenta con ocho millones de libros, acercándose también al billón de palabras solo en inglés, incluyendo, además de los idiomas ya mencionados, el idioma italiano.

Los términos pertenecientes a las muestras del libro se denominan n-gramas, entendidos como una serie de caracteres de una longitud determinada. Por lo general, estos son bloques de texto separados, en forma de análisis estadístico del contenido de un texto o discurso para encontrar la n (número) en una cierta cantidad de elementos en el texto. Pueden ser todo tipo de elementos: fonemas, prefijos, frases o letras

La búsqueda de Ngram Viewer se divide por idioma: inglés americano", inglés británico -libros en inglés publicados en el Reino Unido-, chino, inglés en su totalidad, ficción en inglés , francés, alemán, hebreo, italiano, ruso, español; y por tiempo, en el período comprendido entre 1800 y 2000.

En el caso de los idiomas, es posible buscar dos idiomas simultáneamente, ej: Inglés Británico e Inglés americano. Esto permite identificar el contraste en el uso de términos en diferentes idiomas.

Figura 2 – Buscar en Ngram Viewer por idioma y período

Figura 2 ngram.jpg


Cómo realizar una búsqueda básica en Google Ngram Viewer:

1) No es necesario tener una cuenta de Google, ya que la herramienta no requiere ningún tipo de registro;

2) Vaya a Google Books Ngram Viewer;

3) En el cuadro de búsqueda, escriba el o los términos que desea buscar, recordando siempre separarlos con una coma. Ej: "librarianship", "library science";

4) La herramienta no es intuitiva, así que asegúrese de usar siempre mayúsculas si es necesario. Ej.: "Jane Austen" y no "jane austen";

5) Seleccione el período de búsqueda deseado, siempre que sea entre 1800 y 2008, ya que la herramienta no busca obras posteriores a esa fecha;

6) Elija el idioma de las obras en las que desea buscar; solo recuerde que es preferible que el idioma de los términos sea el mismo que el de los libros a mapear, de lo contrario es posible que la recuperación del término se resienta;

7) Los casos en los que aparecen los idiomas acompañados de 2009 corresponden al corpus de la primera versión de la herramienta, y pueden ser ignorados por el usuario o seleccionados, cuando sea necesario analizar recopilaciones de datos más antiguas. Por ejemplo: Inglés americano 2009;

8) Corpus significa el conjunto de textos a ser analizado;

9) En “smoothing of”, es posible elegir de 0 a 50, y los resultados se presentan como una media aritmética entre el rango elegido. Ej: el porcentaje equivalente al resultado del año 1850 es, en realidad, una media de los años 1850, 1851 y 1852, si se elige el 'smoothing' 3. Aunque estéticamente no es tan sencillo, para la investigación básica e iniciales, es preferible optar por el "smoothing" cero, que presenta los resultados correspondientes a cada año;

10) Haga clic en "search lots of books" ('buscar muchos libros') o simplemente en el botón "enter" ('ingresar');

11) El gráfico generado presenta líneas en diferentes colores, para los casos en que la búsqueda se realiza por más de un término, para ilustrar el contraste entre los diferentes términos. En los casos en que la búsqueda se realice únicamente por medio de una palabra o expresión, el resultado se indicará en un solo color;

12) Para visualizar a representação gráfica de apenas alguns termos específicos, clique com o botão esquerdo no termo desejado, de modo que as linhas coloridas a aparecerem sejam apenas dos termos grifados e as outras não estejam destacadas. Tal procedimento facilita a análise do gráfico, nos casos em que se pesquise diversos termos;

13) Caso queira realizar o download dos dados brutos resultantes da pesquisa, vá na parte inferior da página, em “Run your own experiment! Raw data is available for download here.”;

14) A pesquisa está feita e agora é só analisar os dados.

Obs.: Além do gráfico, pode-se pesquisar também pelo Google Books, através do período desejado. O Google retorna a busca com a lista de livros digitalizados por período e termo pesquisado, através do qual é possível identificar brevemente como o termo foi utilizado diretamente nas obras.

Figura 3 – Pesquisa através do Google Books, filtrado pelo período

Figura 3 ngram.jpg

Figura 4 – Pesquisa através do Google Books, pelo termo Librarianship, filtrado pelo período de 1800-1935

Figura 4 ngram.jpg

Exemplo de pesquisa no Google Ngram Viewer:

Aqui, como exemplo, utilizamos os seguintes termos: information science, librarianship e library science, em língua inglesa - english -, no período compreendido entre 1800-2000, com vistas à identificar o “surgimento” e “evolução” desses termos na produção científica.

Figura 5 – Exemplo de pesquisa no Google Ngram Viewer

Figura 5 ngram.jpg

De acordo com o gráfico, as análises prévias a serem realizadas denotam uma ênfase maior no termo librarianship, pelo menos em língua inglesa, a partir do século XIX, em vista, sobretudo, da corrente humanista francesa, que muito influenciou nos estudos biblioteconômicos. Com o advento e influência da corrente tecnicista norte-americana, podemos observar um aumento do uso do termo library science, a partir, especialmente, da década de 1860 e, com mais ênfase, em 1920) que incorpora as técnicas sobretudo de recuperação da informação e o cunho científico do campo aos estudos humanistas da Biblioteconomia.

Em um segundo momento, com o surgimento da Ciência da Informação em meados do século XX, especialmente a partir da Segunda Guerra Mundial, já notamos o aparecimento do termo information science na produção científica, que representa o início dos estudos na área, atingindo seu pico em 1982.

São exemplos e análises incipientes, mas que, em um primeiro momento, podem oferecer alguns indicadores sobre o uso ou popularidade dos termos nas produções científicas, se levarmos em consideração que muitos dos livros digitalizados são provenientes de bibliotecas universitárias.

Como analisar esses dados com mais profundidade:

Em uma primeira análise, o gráfico apresentado não é de difícil interpretação. Através das linhas coloridas, é possível ter uma certa compreensão acerca dos usos e desusos dos termos, conforme observado no exemplo acima. Contudo, os resultados gerados para cada ano não são tão precisos, de modo a dificultar a análise. Por isso, para aqueles que não possuem vasto conhecimento em programação, mas que desejam trabalhar com a ferramenta, o tutorial oferecido pela Standford University dá algumas dicas para analisar com mais exatidão a quantidade de vezes que um termo aparece em determinado ano.

A ferramenta disponibiliza os dados brutos de todos os ngrams. Contudo, além de demandar um grande espaço de armazenamento, tendo em vista que o arquivo é consideravelmente “pesado”, a análise não é de fácil compreensão para aqueles que não entendem muito de computação.

Para tanto, o Google Ngram também oferece um arquivo em txt., denominado “total counts”, para a apresentação do número total de palavras contabilizadas e páginas digitalizadas. Cada idioma conta com um arquivo para cada ano específico, no qual somam o total de palavras, de páginas e de livros totalizadas em um dado ano.

Para os que desejam realizar uma análise de um determinado ano - ex.: o ano em que um termo teve seu pico de menção - e que não tem muita habilidade em programação, o procedimento manual pode ser uma boa saída.

Veja o exemplo abaixo de como esse arquivo é apresentado em txt.:

Figura 6Total counts em txt.

Totalcounts ngram.jpg

O exemplo dado acima contém a seguinte linha: 1982,4839530894,24286876,48446.

Isso significa dizer que, para o ano de 1982, existem um total de 4839530894 palavras em 24286876 páginas digitalizadas em 48446 livros.

Com isso, torna-se possível calcular com que frequência um determinado termo apareceu em um dado ano.

Veja o exemplo dado acima, para o termo Information Science, que atingiu seu pico de menção no ano de 1982:

1) Vá no gráfico apresentado pelo Google Ngram Viewer, com os termos pesquisados;

2) Arraste a seta do cursor até o pico de menção para o termo escolhido;

3) Ao visualizar os dados referentes ao ano, observe a porcentagem. Ex.: 1982 – 0.0000442813%;

4) Faça o seguinte cálculo: porcentagem para o ano escolhido x 0.01 x número de palavras contabilizadas na digitalização. Ex.: 0.0000442813 x 0.01 x 4839530894 = ~ 2143, onde, no ano de 1982, o termo “information science” apareceu cerca de 2143 vezes no corpus de livros digitalizados pelo Google Books naquele período.

Nos casos em que se deseje verificar uma quantidade considerável de anos, a análise manual não é indicada. Nesse sentido, o tutorial apresentado pela Standford University oferece uma análise mais aprofundada, a partir da ferramenta Python.

Possíveis dificuldades a serem encontradas no uso da ferramenta:

1) Os livros digitalizados pelo Google não possuem seu conteúdo integral, isto é, não foram digitalizados na íntegra, apenas o número de páginas correspondente ao permitido pelos direitos autorais. Por este motivo, não há certeza sobre a quantidade exata dos termos procurados; muito provavelmente, existem mais menções ao termo do que os ali elencados;

2) Digitalizar os livros não significa que os mesmos foram lidos, de modo que, na maioria das vezes, não pode ser considerado como um indicador concreto de popularidade;

3) A plataforma não é intuitiva, de forma que é necessário destacar, por exemplo, a letra maiúscula de um determinado termo;

4) Caso o corpus da pesquisa abarque os livros digitalizados do século XIX, é importante saber que muitos deles possuíam, à época, uma grafia diferente. Ex.: o f parecia o s e vice-versa, o que acaba eventualmente por influenciar na recuperação do termo;

5) Nem sempre a qualidade ou reprodução digital do material permite recuperar o termo desejado;

6) Em casos específicos nos quais seja necessário saber quantas vezes um termo aparece em um determinado livro ou período, a ferramenta não informa; esses dados são apresentados em porcentagem, dificultando sua leitura;

7) É preciso utilizar um software para realizar essa tradução - à exemplo da ferramenta Python -, ou analisar manualmente essas informações, a partir dos dados brutos oferecidos pelo Google Ngram, que apresentam a quantidade exata de páginas, palavras e livros digitalizados por ano pelo Google Books, desde 1800 até 2000. A partir da conta “porcentagem equivalente ao ano que deseja verificar x 0.01 x número de palavras digitalizadas por ano”, é possível saber quantas vezes o termo foi utilizado em um determinado ano. Ainda assim, não se sabe ao certo em qual livro o termo foi mencionado;

8) Dificuldade em realizar análises conceituais muito profundas tendo por base apenas a ferramenta, pois a mesma não permite saber a conotação dada à cada termo nessas obras.

Tutoriais e materiais reflexivos que podem ajudar no uso da ferramenta:

Tutorial Standford University

Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution

The pitfalls of using Google Ngram to study language