Google Ngram Viewer
Google Books Ngram Viewer es una herramienta cuyo objetivo es visualizar la historia, auge, desarrollo y desuso de términos, palabras, ideas o expresiones a lo largo del tiempo. En términos generales, la herramienta presenta la evolución de un término a lo largo del tiempo desde su aparición, pasando por los periodos en los que más aparece, hasta cuando, posiblemente, deja de ser utilizado.
La herramienta presenta en su interfaz un gráfico que representa la evolución de un término que aparece en los libros, con el fin de ilustrar cuántas veces se menciona este término a lo largo de los años y cómo aparece. Si la búsqueda se realiza por más de una palabra o expresión, la herramienta muestra líneas en diferentes colores para ilustrar el contraste entre los diferentes términos.
Figura 1 – Interfaz de Google Books Ngram Viewer, a partir los ejemplos de Albert Einstein, Sherlock Holmes y Frankestein
Los textos analizados, denominados corpus, proceden de un gran número de libros digitalizados por la empresa Google, en su proyecto Google Books. El proyecto pretende dar acceso a toda la producción científica a nivel mundial, centrándose, especialmente, en obras pertenecientes a bibliotecas universitarias y públicas, que tengan colaboraciones, tales como: Harvard, Michigan, Oxford, Standford y la Biblioteca Pública de Nueva York.
Las obras digitalizadas no se ofrecen al público en su totalidad debido a limitaciones de derechos de autor. Sin embargo, gran parte del contenido está disponible en línea para su acceso.
La primera versión de la herramienta, publicada en 2009, incorporó más de cinco millones de libros, que contenían alrededor de un billón de palabras, de las cuales 361 mil millones están solo en inglés, divididos en inglés británico y ficción en inglés. También tenían datos en español, francés, alemán, ruso, chino y hebreo. Los metadatos seleccionados provienen de 15 millones de libros digitalizados, la mayoría de los cuales provienen de bibliotecas universitarias.
La segunda versión, publicada en 2012, cuenta con ocho millones de libros, acercándose también al billón de palabras solo en inglés, incluyendo, además de los idiomas ya mencionados, el idioma italiano.
Los términos pertenecientes a las muestras del libro se denominan n-gramas, entendidos como una serie de caracteres de una longitud determinada. Por lo general, estos son bloques de texto separados, en forma de análisis estadístico del contenido de un texto o discurso para encontrar la n (número) en una cierta cantidad de elementos en el texto. Pueden ser todo tipo de elementos: fonemas, prefijos, frases o letras
La búsqueda de Ngram Viewer se divide por idioma: inglés americano", inglés británico -libros en inglés publicados en el Reino Unido-, chino, inglés en su totalidad, ficción en inglés , francés, alemán, hebreo, italiano, ruso, español; y por tiempo, en el período comprendido entre 1800 y 2000.
En el caso de los idiomas, es posible buscar dos idiomas simultáneamente, ej: Inglés Británico e Inglés americano. Esto permite identificar el contraste en el uso de términos en diferentes idiomas.
Figura 2 – Buscar en Ngram Viewer por idioma y período
Cómo realizar una búsqueda básica en Google Ngram Viewer:
1) No es necesario tener una cuenta de Google, ya que la herramienta no requiere ningún tipo de registro;
2) Vaya a Google Books Ngram Viewer;
3) En el cuadro de búsqueda, escriba el o los términos que desea buscar, recordando siempre separarlos con una coma. Ej: "librarianship", "library science";
4) La herramienta no es intuitiva, así que asegúrese de usar siempre mayúsculas si es necesario. Ej.: "Jane Austen" y no "jane austen";
5) Seleccione el período de búsqueda deseado, siempre que sea entre 1800 y 2008, ya que la herramienta no busca obras posteriores a esa fecha;
6) Elija el idioma de las obras en las que desea buscar; solo recuerde que es preferible que el idioma de los términos sea el mismo que el de los libros a mapear, de lo contrario es posible que la recuperación del término se resienta;
7) Los casos en los que aparecen los idiomas acompañados de 2009 corresponden al corpus de la primera versión de la herramienta, y pueden ser ignorados por el usuario o seleccionados, cuando sea necesario analizar recopilaciones de datos más antiguas. Por ejemplo: Inglés americano 2009;
8) Corpus significa el conjunto de textos a ser analizado;
9) En “smoothing of”, es posible elegir de 0 a 50, y los resultados se presentan como una media aritmética entre el rango elegido. Ej: el porcentaje equivalente al resultado del año 1850 es, en realidad, una media de los años 1850, 1851 y 1852, si se elige el 'smoothing' 3. Aunque estéticamente no es tan sencillo, para la investigación básica e iniciales, es preferible optar por el "smoothing" cero, que presenta los resultados correspondientes a cada año;
10) Haga clic en "search lots of books" ('buscar muchos libros') o simplemente en el botón "enter" ('ingresar');
11) El gráfico generado presenta líneas en diferentes colores, para los casos en que la búsqueda se realiza por más de un término, para ilustrar el contraste entre los diferentes términos. En los casos en que la búsqueda se realice únicamente por medio de una palabra o expresión, el resultado se indicará en un solo color;
12) Para visualizar a representação gráfica de apenas alguns termos específicos, clique com o botão esquerdo no termo desejado, de modo que as linhas coloridas a aparecerem sejam apenas dos termos grifados e as outras não estejam destacadas. Tal procedimento facilita a análise do gráfico, nos casos em que se pesquise diversos termos;
13) Caso queira realizar o download dos dados brutos resultantes da pesquisa, vá na parte inferior da página, em “Run your own experiment! Raw data is available for download here.”;
14) A pesquisa está feita e agora é só analisar os dados.
Obs.: Além do gráfico, pode-se pesquisar também pelo Google Books, através do período desejado. O Google retorna a busca com a lista de livros digitalizados por período e termo pesquisado, através do qual é possível identificar brevemente como o termo foi utilizado diretamente nas obras.
Figura 3 – Pesquisa através do Google Books, filtrado pelo período
Figura 4 – Pesquisa através do Google Books, pelo termo Librarianship, filtrado pelo período de 1800-1935
Exemplo de pesquisa no Google Ngram Viewer:
Aqui, como exemplo, utilizamos os seguintes termos: information science, librarianship e library science, em língua inglesa - english -, no período compreendido entre 1800-2000, com vistas à identificar o “surgimento” e “evolução” desses termos na produção científica.
Figura 5 – Exemplo de pesquisa no Google Ngram Viewer
De acordo com o gráfico, as análises prévias a serem realizadas denotam uma ênfase maior no termo librarianship, pelo menos em língua inglesa, a partir do século XIX, em vista, sobretudo, da corrente humanista francesa, que muito influenciou nos estudos biblioteconômicos. Com o advento e influência da corrente tecnicista norte-americana, podemos observar um aumento do uso do termo library science, a partir, especialmente, da década de 1860 e, com mais ênfase, em 1920) que incorpora as técnicas sobretudo de recuperação da informação e o cunho científico do campo aos estudos humanistas da Biblioteconomia.
Em um segundo momento, com o surgimento da Ciência da Informação em meados do século XX, especialmente a partir da Segunda Guerra Mundial, já notamos o aparecimento do termo information science na produção científica, que representa o início dos estudos na área, atingindo seu pico em 1982.
São exemplos e análises incipientes, mas que, em um primeiro momento, podem oferecer alguns indicadores sobre o uso ou popularidade dos termos nas produções científicas, se levarmos em consideração que muitos dos livros digitalizados são provenientes de bibliotecas universitárias.
Como analisar esses dados com mais profundidade:
Em uma primeira análise, o gráfico apresentado não é de difícil interpretação. Através das linhas coloridas, é possível ter uma certa compreensão acerca dos usos e desusos dos termos, conforme observado no exemplo acima. Contudo, os resultados gerados para cada ano não são tão precisos, de modo a dificultar a análise. Por isso, para aqueles que não possuem vasto conhecimento em programação, mas que desejam trabalhar com a ferramenta, o tutorial oferecido pela Standford University dá algumas dicas para analisar com mais exatidão a quantidade de vezes que um termo aparece em determinado ano.
A ferramenta disponibiliza os dados brutos de todos os ngrams. Contudo, além de demandar um grande espaço de armazenamento, tendo em vista que o arquivo é consideravelmente “pesado”, a análise não é de fácil compreensão para aqueles que não entendem muito de computação.
Para tanto, o Google Ngram também oferece um arquivo em txt., denominado “total counts”, para a apresentação do número total de palavras contabilizadas e páginas digitalizadas. Cada idioma conta com um arquivo para cada ano específico, no qual somam o total de palavras, de páginas e de livros totalizadas em um dado ano.
Para os que desejam realizar uma análise de um determinado ano - ex.: o ano em que um termo teve seu pico de menção - e que não tem muita habilidade em programação, o procedimento manual pode ser uma boa saída.
Veja o exemplo abaixo de como esse arquivo é apresentado em txt.:
Figura 6 – Total counts em txt.
O exemplo dado acima contém a seguinte linha: 1982,4839530894,24286876,48446.
Isso significa dizer que, para o ano de 1982, existem um total de 4839530894 palavras em 24286876 páginas digitalizadas em 48446 livros.
Com isso, torna-se possível calcular com que frequência um determinado termo apareceu em um dado ano.
Veja o exemplo dado acima, para o termo Information Science, que atingiu seu pico de menção no ano de 1982:
1) Vá no gráfico apresentado pelo Google Ngram Viewer, com os termos pesquisados;
2) Arraste a seta do cursor até o pico de menção para o termo escolhido;
3) Ao visualizar os dados referentes ao ano, observe a porcentagem. Ex.: 1982 – 0.0000442813%;
4) Faça o seguinte cálculo: porcentagem para o ano escolhido x 0.01 x número de palavras contabilizadas na digitalização. Ex.: 0.0000442813 x 0.01 x 4839530894 = ~ 2143, onde, no ano de 1982, o termo “information science” apareceu cerca de 2143 vezes no corpus de livros digitalizados pelo Google Books naquele período.
Nos casos em que se deseje verificar uma quantidade considerável de anos, a análise manual não é indicada. Nesse sentido, o tutorial apresentado pela Standford University oferece uma análise mais aprofundada, a partir da ferramenta Python.
Possíveis dificuldades a serem encontradas no uso da ferramenta:
1) Os livros digitalizados pelo Google não possuem seu conteúdo integral, isto é, não foram digitalizados na íntegra, apenas o número de páginas correspondente ao permitido pelos direitos autorais. Por este motivo, não há certeza sobre a quantidade exata dos termos procurados; muito provavelmente, existem mais menções ao termo do que os ali elencados;
2) Digitalizar os livros não significa que os mesmos foram lidos, de modo que, na maioria das vezes, não pode ser considerado como um indicador concreto de popularidade;
3) A plataforma não é intuitiva, de forma que é necessário destacar, por exemplo, a letra maiúscula de um determinado termo;
4) Caso o corpus da pesquisa abarque os livros digitalizados do século XIX, é importante saber que muitos deles possuíam, à época, uma grafia diferente. Ex.: o f parecia o s e vice-versa, o que acaba eventualmente por influenciar na recuperação do termo;
5) Nem sempre a qualidade ou reprodução digital do material permite recuperar o termo desejado;
6) Em casos específicos nos quais seja necessário saber quantas vezes um termo aparece em um determinado livro ou período, a ferramenta não informa; esses dados são apresentados em porcentagem, dificultando sua leitura;
7) É preciso utilizar um software para realizar essa tradução - à exemplo da ferramenta Python -, ou analisar manualmente essas informações, a partir dos dados brutos oferecidos pelo Google Ngram, que apresentam a quantidade exata de páginas, palavras e livros digitalizados por ano pelo Google Books, desde 1800 até 2000. A partir da conta “porcentagem equivalente ao ano que deseja verificar x 0.01 x número de palavras digitalizadas por ano”, é possível saber quantas vezes o termo foi utilizado em um determinado ano. Ainda assim, não se sabe ao certo em qual livro o termo foi mencionado;
8) Dificuldade em realizar análises conceituais muito profundas tendo por base apenas a ferramenta, pois a mesma não permite saber a conotação dada à cada termo nessas obras.
Tutoriais e materiais reflexivos que podem ajudar no uso da ferramenta: