Mudanças entre as edições de "Google Ngram Viewer"

De LARHUD
Ir para: navegação, pesquisa
 
(2 revisões intermediárias pelo mesmo usuário não estão sendo mostradas)
Linha 49: Linha 49:
 
10) Haga clic en "search lots of books" ('buscar muchos libros') o simplemente en el botón "enter" ('ingresar');
 
10) Haga clic en "search lots of books" ('buscar muchos libros') o simplemente en el botón "enter" ('ingresar');
  
11) El gráfico generado presenta líneas en diferentes colores, para los casos en que la búsqueda se realiza por más de un término, para ilustrar el contraste entre los diferentes términos. En los casos en que la búsqueda se realice únicamente por medio de una palabra o expresión, el resultado se indicará en un solo color;
+
11) El gráfico generado presenta líneas en diferentes colores, para los casos en que la búsqueda se realice para más de un término, de modo que se ilustre el contraste entre estos. En los casos en que la búsqueda se realice únicamente por medio de una palabra o expresión, el resultado se indicará en un solo color;
  
12) Para visualizar a representação gráfica de apenas alguns termos específicos, clique com o botão esquerdo no termo desejado, de modo que as linhas coloridas a aparecerem sejam apenas dos termos grifados e as outras não estejam destacadas. Tal procedimento facilita a análise do gráfico, nos casos em que se pesquise diversos termos;
+
12) Para ver la representación gráfica de solo algunos términos específicos, haga clic con el botón izquierdo en el término deseado, de modo que las líneas de colores que aparecen sean solo los términos subrayados y los demás no estén resaltados. Este procedimiento facilita el análisis del gráfico, en los casos en que se busquen varios términos;
  
13) Caso queira realizar o ''download'' dos dados brutos resultantes da pesquisa, vá na parte inferior da página, em “''Run your own experiment! Raw data is available for download here''.”;
+
13) Si desea descargar los datos brutos resultantes de la investigación, vaya al final de la página, en “Run your own experiment! Raw data is available for download here" (¡Ejecute su propio experimento! Los datos sin procesar están disponibles para descargar aquí);
  
14) A pesquisa está feita e agora é só analisar os dados.
+
14) La investigación está hecha y ahora solo se trata de analizar los datos.
  
'''Obs.:''' Além do gráfico, pode-se pesquisar também pelo ''Google Books'', através do período desejado. O ''Google'' retorna a busca com a lista de livros digitalizados por período e termo pesquisado, através do qual é possível identificar brevemente como o termo foi utilizado diretamente nas obras.
+
'''Obs.:''' Además del gráfico, también se puede buscar ''Google Books'', a través del período deseado. ''Google'' devuelve la búsqueda con la lista de libros escaneados por período y término buscado, a través de la cual es posible identificar brevemente cómo se utilizó el término directamente en las obras.
  
'''Figura 3''' – Pesquisa através do ''Google Books'', filtrado pelo período
+
'''Figura 3''': búsqueda a través de ''Google Books'', filtrada por período
  
 
[[Arquivo:Figura_3_ngram.jpg]]
 
[[Arquivo:Figura_3_ngram.jpg]]
  
'''Figura 4''' – Pesquisa através do ''Google Books'', pelo termo ''Librarianship'', filtrado pelo período de 1800-1935
+
'''Figura 4''': búsqueda en ''Google Books'' el término ''Bibliotecología'', filtrado por el período 1800-1935''
  
 
[[Arquivo:Figura_4_ngram.jpg]]
 
[[Arquivo:Figura_4_ngram.jpg]]
  
'''Exemplo de pesquisa no Google Ngram Viewer:'''
+
'''Ejemplo de búsqueda en Google Ngram Viewer:'''
  
Aqui, como exemplo, utilizamos os seguintes termos: information science, librarianship e library science, em língua inglesa - english -, no período compreendido entre 1800-2000, com vistas à identificar o “surgimento” e “evolução” desses termos na produção científica.
+
Aquí, a modo de ejemplo, utilizamos los siguientes términos: information sience (ciencia de la información), librarianship (bibliotecología) y library sience (biblioteconomía), en inglés - english -, en el período comprendido entre 1800-2000, con el fin de identificar el "surgimiento" y la "evolución" de estos términos en producción científica.
  
'''Figura 5''' – Exemplo de pesquisa no ''Google Ngram Viewer''
+
'''Figura 5''' – Ejemplo de búsqueda en ''Google Ngram Viewer''
  
 
[[Arquivo:Figura_5_ngram.jpg]]
 
[[Arquivo:Figura_5_ngram.jpg]]
  
De acordo com o gráfico, as análises prévias a serem realizadas denotam uma ênfase maior no termo ''librarianship'', pelo menos em língua inglesa, a partir do século XIX, em vista, sobretudo, da corrente humanista francesa, que muito influenciou nos estudos biblioteconômicos. Com o advento e influência da corrente tecnicista norte-americana, podemos observar um aumento do uso do termo ''library science'', a partir, especialmente, da década de 1860 e, com mais ênfase, em 1920) que incorpora as técnicas sobretudo de recuperação da informação e o cunho científico do campo aos estudos humanistas da Biblioteconomia.  
+
Según el gráfico, los análisis anteriores a realizar denotan un mayor énfasis en el término ''bibliotecología'', al menos en lengua inglesa, a partir del siglo XIX, gracias a, sobre todo, de la corriente humanista francesa, que influyó mucho en los estudios bibliotecarios. Con el advenimiento e influencia de la corriente tecnicista americana, podemos observar un incremento en el uso del término ''bibliotecología'', a partir, especialmente, de la década de 1860 y, con mayor énfasis, en 1920) que incorpora técnicas principalmente de recuperación de información y el carácter científico del campo a los estudios humanistas de Biblioteconomía.  
  
Em um segundo momento, com o surgimento da Ciência da Informação em meados do século XX, especialmente a partir da Segunda Guerra Mundial, já notamos o aparecimento do termo ''information science'' na produção científica, que representa o início dos estudos na área, atingindo seu pico em 1982.  
+
En un segundo momento, con el surgimiento de las Ciencias de la Información a mediados del siglo XX, especialmente después de la Segunda Guerra Mundial, ya hemos notado la aparición del término ''ciencias de la información'' en la producción científica, lo que representa el inicio de los estudios en área, alcanzando su apogeo en 1982.
  
São exemplos e análises incipientes, mas que, em um primeiro momento, podem oferecer alguns indicadores sobre o uso ou popularidade dos termos nas produções científicas, se levarmos em consideração que muitos dos livros digitalizados são provenientes de bibliotecas universitárias.
+
Se trata de ejemplos y análisis incipientes, pero que, en un principio, pueden ofrecer algunos indicadores sobre el uso o popularidad de los términos en las producciones científicas, si tenemos en cuenta que muchos de los libros digitalizados proceden de bibliotecas universitarias.
  
'''Como analisar esses dados com mais profundidade:'''
+
'''Cómo analizar estos datos con más profundidad:'''
  
Em uma primeira análise, o gráfico apresentado não é de difícil interpretação. Através das linhas coloridas, é possível ter uma certa compreensão acerca dos usos e desusos dos termos, conforme observado no exemplo acima. Contudo, os resultados gerados para cada ano não são tão precisos, de modo a dificultar a análise. Por isso, para aqueles que não possuem vasto conhecimento em programação, mas que desejam trabalhar com a ferramenta, o tutorial oferecido pela ''Standford University'' dá algumas dicas para analisar com mais exatidão a quantidade de vezes que um termo aparece em determinado ano.
+
En un primer análisis, el gráfico presentado no es difícil de interpretar. A través de las líneas de colores, es posible tener una cierta comprensión sobre los usos y desusos de los términos, como se observa en el ejemplo anterior. Sin embargo, los resultados generados para cada año no son tan precisos, lo que dificulta el análisis. Por eso, para aquellos que no tengan amplios conocimientos de programación, pero deseen trabajar con la herramienta, el tutorial que ofrece ''Standford University'' da algunos consejos para analizar con mayor precisión el número de veces que aparece un término en un año determinado. .
  
A [http://storage.googleapis.com/books/ngrams/books/datasetsv2.html ferramenta] disponibiliza os dados brutos de todos os ''ngrams''. Contudo, além de demandar um grande espaço de armazenamento, tendo em vista que o arquivo é consideravelmente “pesado”, a análise não é de fácil compreensão para aqueles que não entendem muito de computação.  
+
La [http://storage.googleapis.com/books/ngrams/books/datasetsv2.html herramienta] proporciona los datos sin procesar de todos los ''ngrams''. Sin embargo, además de demandar un gran espacio de almacenamiento, dado que el archivo es considerablemente “pesado”, el análisis no es fácil de entender para quien no entiende mucho de informática.
  
Para tanto, o ''Google Ngram'' também oferece um arquivo em txt., denominado “''total counts'', para a apresentação do número total de palavras contabilizadas e páginas digitalizadas. Cada idioma conta com um arquivo para cada ano específico, no qual somam o total de palavras, de páginas e de livros totalizadas em um dado ano.  
+
Con este fin, ''Google Ngram'' también ofrece un archivo txt, llamado ''''recuentos totales'''', para presentar el número total de palabras contadas y páginas digitalizadas. Cada idioma tiene un archivo para cada año específico, en la que se suma el total de palabras, páginas y libros totalizados en un año determinado.
  
Para os que desejam realizar uma análise de um determinado ano - ex.: o ano em que um termo teve seu pico de menção - e que não tem muita habilidade em programação, o procedimento manual pode ser uma boa saída.
+
Para aquellos que deseen realizar un análisis de un año determinado, por ejemplo, el año en el que un término tuvo su máxima mención, y que no tengan muchas habilidades de programación, el procedimiento manual puede ser una buena salida.
 
 
Veja o exemplo abaixo de como esse arquivo é apresentado em txt.:
 
  
 +
Vea el siguiente ejemplo de cómo se presenta este archivo en txt.:
 
'''Figura 6''' – ''Total counts'' em txt.
 
'''Figura 6''' – ''Total counts'' em txt.
  
 
[[Arquivo:Totalcounts_ngram.jpg]]
 
[[Arquivo:Totalcounts_ngram.jpg]]
  
O exemplo dado acima contém a seguinte linha: 1982,4839530894,24286876,48446.
+
El ejemplo anterior contiene la siguiente línea: 1982,4839530894,24286876,48446.
  
Isso significa dizer que, para o ano de 1982, existem um total de 4839530894 palavras em 24286876 páginas digitalizadas em 48446 livros.
+
Esto significa que para el año 1982 hay un total de 4839530894 palabras en 24286876 páginas digitalizadas en 48446 libros.
  
Com isso, torna-se possível calcular com que frequência um determinado termo apareceu em um dado ano.
+
Con esto, es posible calcular con qué frecuencia apareció un término determinado en un año determinado.
  
Veja o exemplo dado acima, para o termo ''Information Science'', que atingiu seu pico de menção no ano de 1982:
+
Vea el ejemplo dado arriba, para el término ''Ciencia de la Información'', que alcanzó su máxima mención en el año 1982:
  
1) Vá no gráfico apresentado pelo ''Google Ngram Viewer'', com os termos pesquisados;
+
1) Ir al gráfico presentado por ''Google Ngram Viewer'', con los términos buscados;
  
2) Arraste a seta do cursor até o pico de menção para o termo escolhido;
+
2) Arrastre la flecha del cursor hasta el pico de mención del término elegido;
  
3) Ao visualizar os dados referentes ao ano, observe a porcentagem. Ex.: 1982 – 0.0000442813%;
+
3) Al ver los datos del año, tenga en cuenta el porcentaje. Ej.: 1982 – 0,0000442813%;
  
4) Faça o seguinte cálculo: porcentagem para o ano escolhido x 0.01 x número de palavras contabilizadas na digitalização. Ex.: 0.0000442813 x 0.01 x 4839530894 = ~ 2143, onde, no ano de 1982, o termo “''information science''” apareceu cerca de 2143 vezes no ''corpus'' de livros digitalizados pelo ''Google Books'' naquele período.
+
4) Realice el siguiente cálculo: porcentaje para el año elegido x 0,01 x número de palabras contadas en el escaneo. Ej: 0.0000442813 x 0.01 x 4839530894 = ~ 2143, donde, en 1982, el término “''ciencias de la información''” apareció unas 2143 veces en el ''corpus'' de libros digitalizados por ''Google Books'' en ese periodo .
  
Nos casos em que se deseje verificar uma quantidade considerável de anos, a análise manual não é indicada. Nesse sentido, o [http://stanford.edu/~risi/tutorials/absolute_ngram_counts.html tutorial] apresentado pela ''Standford University'' oferece uma análise mais aprofundada, a partir da ferramenta ''Python''.
+
En los casos en que se quiera verificar una cantidad considerable de años, no se indica el análisis manual. En este sentido, el [http://stanford.edu/~risi/tutorials/absolute_ngram_counts.html tutorial] presentado por ''Standford University'' ofrece un análisis más profundo, utilizando la herramienta ''Python''.
  
'''Possíveis dificuldades a serem encontradas no uso da ferramenta:'''
+
'''Posibles dificultades que se pueden encontrar en el uso de la herramienta:'''
  
1) Os livros digitalizados pelo ''Google'' não possuem seu conteúdo integral, isto é, não foram digitalizados na íntegra, apenas o número de páginas correspondente ao permitido pelos direitos autorais. Por este motivo, não há certeza sobre a quantidade exata dos termos procurados; muito provavelmente, existem mais menções ao termo do que os ali elencados;
+
1) Los libros escaneados por ''Google'' no tienen su contenido completo, es decir, no fueron escaneados en su totalidad, solo el número de páginas correspondiente a lo permitido por los derechos de autor. Por esta razón, no hay certeza sobre la cantidad exacta de términos buscados; lo más probable es que haya más referencias al término que las enumeradas allí;
  
2) Digitalizar os livros não significa que os mesmos foram lidos, de modo que, na maioria das vezes, não pode ser considerado como um indicador concreto de popularidade;
+
2) Digitalizar los libros no significa que hayan sido leídos, por lo que, en la mayoría de los casos, no puede considerarse como un indicador concreto de popularidad;
  
3) A plataforma não é intuitiva, de forma que é necessário destacar, por exemplo, a letra maiúscula de um determinado termo;
+
3) La plataforma no es intuitiva, por lo que es necesario resaltar, por ejemplo, la letra mayúscula de un determinado término;
  
4) Caso o ''corpus'' da pesquisa abarque os livros digitalizados do século XIX, é importante saber que muitos deles possuíam, à época, uma grafia diferente. Ex.: o ''f'' parecia o ''s'' e vice-versa, o que acaba eventualmente por influenciar na recuperação do termo;
+
4) Si el ''corpus'' de la investigación incluye libros digitalizados del siglo XIX, es importante saber que muchos de ellos tenían, en su momento, una ortografía diferente. Ej.: la ''f'' se parecía a la ''s'' y viceversa, lo que eventualmente termina influyendo en la recuperación del término;
  
5) Nem sempre a qualidade ou reprodução digital do material permite recuperar o termo desejado;
+
5) La calidad o reproducción digital del material no siempre permite recuperar el término deseado;
  
6) Em casos específicos nos quais seja necessário saber quantas vezes um termo aparece em um determinado livro ou período, a ferramenta não informa; esses dados são apresentados em porcentagem, dificultando sua leitura;
+
6) En casos específicos donde es necesario saber cuántas veces aparece un término en un libro o período determinado, la herramienta no lo informa; estos datos se presentan en porcentaje, lo que dificulta su lectura;
  
7) É preciso utilizar um ''software'' para realizar essa tradução - à exemplo da ferramenta ''Python'' -, ou analisar manualmente essas informações, a partir dos dados brutos oferecidos pelo ''Google Ngram'', que apresentam a quantidade exata de páginas, palavras e livros digitalizados por ano pelo ''Google Books'', desde 1800 até 2000. A partir da conta “porcentagem equivalente ao ano que deseja verificar x 0.01 x número de palavras digitalizadas por ano”, é possível saber quantas vezes o termo foi utilizado em um determinado ano. Ainda assim, não se sabe ao certo em qual livro o termo foi mencionado;
+
7) Es necesario utilizar un ''software'' para realizar esta traducción -como la herramienta ''Python''-, o analizar manualmente esta información, en base a los datos brutos que ofrece ''Google Ngram'', que presentan el número exacto de páginas, palabras y libros digitalizados al año por ''Google Books'', de 1800 a 2000. De la cuenta “porcentaje equivalente al año que se quiere verificar x 0,01 x número de palabras digitalizadas al año”, es posible saber cuántas veces se utilizó el término en un año determinado. Aún así, no está claro en qué libro se mencionó el término;
  
8) Dificuldade em realizar análises conceituais muito profundas tendo por base apenas a ferramenta, pois a mesma não permite saber a conotação dada à cada termo nessas obras.
+
8) Dificultad para realizar análisis conceptuales muy profundos basados ​​únicamente en la herramienta, ya que no permite conocer la connotación que se le da a cada término en estos trabajos.
  
'''Tutoriais e materiais reflexivos que podem ajudar no uso da ferramenta:'''
+
'''Tutoriales y materiales reflexivos que pueden ayudar con el uso de la herramienta:'''
  
 
[http://stanford.edu/~risi/tutorials/absolute_ngram_counts.html Tutorial Standford University]
 
[http://stanford.edu/~risi/tutorials/absolute_ngram_counts.html Tutorial Standford University]

Edição atual tal como às 12h59min de 16 de novembro de 2022

Google Books Ngram Viewer es una herramienta cuyo objetivo es visualizar la historia, auge, desarrollo y desuso de términos, palabras, ideas o expresiones a lo largo del tiempo. En términos generales, la herramienta presenta la evolución de un término a lo largo del tiempo desde su aparición, pasando por los periodos en los que más aparece, hasta cuando, posiblemente, deja de ser utilizado.

La herramienta presenta en su interfaz un gráfico que representa la evolución de un término que aparece en los libros, con el fin de ilustrar cuántas veces se menciona este término a lo largo de los años y cómo aparece. Si la búsqueda se realiza por más de una palabra o expresión, la herramienta muestra líneas en diferentes colores para ilustrar el contraste entre los diferentes términos.

Figura 1 – Interfaz de Google Books Ngram Viewer, a partir los ejemplos de Albert Einstein, Sherlock Holmes y Frankestein

Figura 1 ngram.jpg

Los textos analizados, denominados corpus, proceden de un gran número de libros digitalizados por la empresa Google, en su proyecto Google Books. El proyecto pretende dar acceso a toda la producción científica a nivel mundial, centrándose, especialmente, en obras pertenecientes a bibliotecas universitarias y públicas, que tengan colaboraciones, tales como: Harvard, Michigan, Oxford, Standford y la Biblioteca Pública de Nueva York.


Las obras digitalizadas no se ofrecen al público en su totalidad debido a limitaciones de derechos de autor. Sin embargo, gran parte del contenido está disponible en línea para su acceso.

La primera versión de la herramienta, publicada en 2009, incorporó más de cinco millones de libros, que contenían alrededor de un billón de palabras, de las cuales 361 mil millones están solo en inglés, divididos en inglés británico y ficción en inglés. También tenían datos en español, francés, alemán, ruso, chino y hebreo. Los metadatos seleccionados provienen de 15 millones de libros digitalizados, la mayoría de los cuales provienen de bibliotecas universitarias.

La segunda versión, publicada en 2012, cuenta con ocho millones de libros, acercándose también al billón de palabras solo en inglés, incluyendo, además de los idiomas ya mencionados, el idioma italiano.

Los términos pertenecientes a las muestras del libro se denominan n-gramas, entendidos como una serie de caracteres de una longitud determinada. Por lo general, estos son bloques de texto separados, en forma de análisis estadístico del contenido de un texto o discurso para encontrar la n (número) en una cierta cantidad de elementos en el texto. Pueden ser todo tipo de elementos: fonemas, prefijos, frases o letras

La búsqueda de Ngram Viewer se divide por idioma: inglés americano", inglés británico -libros en inglés publicados en el Reino Unido-, chino, inglés en su totalidad, ficción en inglés , francés, alemán, hebreo, italiano, ruso, español; y por tiempo, en el período comprendido entre 1800 y 2000.

En el caso de los idiomas, es posible buscar dos idiomas simultáneamente, ej: Inglés Británico e Inglés americano. Esto permite identificar el contraste en el uso de términos en diferentes idiomas.

Figura 2 – Buscar en Ngram Viewer por idioma y período

Figura 2 ngram.jpg


Cómo realizar una búsqueda básica en Google Ngram Viewer:

1) No es necesario tener una cuenta de Google, ya que la herramienta no requiere ningún tipo de registro;

2) Vaya a Google Books Ngram Viewer;

3) En el cuadro de búsqueda, escriba el o los términos que desea buscar, recordando siempre separarlos con una coma. Ej: "librarianship", "library science";

4) La herramienta no es intuitiva, así que asegúrese de usar siempre mayúsculas si es necesario. Ej.: "Jane Austen" y no "jane austen";

5) Seleccione el período de búsqueda deseado, siempre que sea entre 1800 y 2008, ya que la herramienta no busca obras posteriores a esa fecha;

6) Elija el idioma de las obras en las que desea buscar; solo recuerde que es preferible que el idioma de los términos sea el mismo que el de los libros a mapear, de lo contrario es posible que la recuperación del término se resienta;

7) Los casos en los que aparecen los idiomas acompañados de 2009 corresponden al corpus de la primera versión de la herramienta, y pueden ser ignorados por el usuario o seleccionados, cuando sea necesario analizar recopilaciones de datos más antiguas. Por ejemplo: Inglés americano 2009;

8) Corpus significa el conjunto de textos a ser analizado;

9) En “smoothing of”, es posible elegir de 0 a 50, y los resultados se presentan como una media aritmética entre el rango elegido. Ej: el porcentaje equivalente al resultado del año 1850 es, en realidad, una media de los años 1850, 1851 y 1852, si se elige el 'smoothing' 3. Aunque estéticamente no es tan sencillo, para la investigación básica e iniciales, es preferible optar por el "smoothing" cero, que presenta los resultados correspondientes a cada año;

10) Haga clic en "search lots of books" ('buscar muchos libros') o simplemente en el botón "enter" ('ingresar');

11) El gráfico generado presenta líneas en diferentes colores, para los casos en que la búsqueda se realice para más de un término, de modo que se ilustre el contraste entre estos. En los casos en que la búsqueda se realice únicamente por medio de una palabra o expresión, el resultado se indicará en un solo color;

12) Para ver la representación gráfica de solo algunos términos específicos, haga clic con el botón izquierdo en el término deseado, de modo que las líneas de colores que aparecen sean solo los términos subrayados y los demás no estén resaltados. Este procedimiento facilita el análisis del gráfico, en los casos en que se busquen varios términos;

13) Si desea descargar los datos brutos resultantes de la investigación, vaya al final de la página, en “Run your own experiment! Raw data is available for download here" (¡Ejecute su propio experimento! Los datos sin procesar están disponibles para descargar aquí);

14) La investigación está hecha y ahora solo se trata de analizar los datos.

Obs.: Además del gráfico, también se puede buscar Google Books, a través del período deseado. Google devuelve la búsqueda con la lista de libros escaneados por período y término buscado, a través de la cual es posible identificar brevemente cómo se utilizó el término directamente en las obras.

Figura 3: búsqueda a través de Google Books, filtrada por período

Figura 3 ngram.jpg

Figura 4: búsqueda en Google Books el término Bibliotecología, filtrado por el período 1800-1935

Figura 4 ngram.jpg

Ejemplo de búsqueda en Google Ngram Viewer:

Aquí, a modo de ejemplo, utilizamos los siguientes términos: information sience (ciencia de la información), librarianship (bibliotecología) y library sience (biblioteconomía), en inglés - english -, en el período comprendido entre 1800-2000, con el fin de identificar el "surgimiento" y la "evolución" de estos términos en producción científica.

Figura 5 – Ejemplo de búsqueda en Google Ngram Viewer

Figura 5 ngram.jpg

Según el gráfico, los análisis anteriores a realizar denotan un mayor énfasis en el término bibliotecología, al menos en lengua inglesa, a partir del siglo XIX, gracias a, sobre todo, de la corriente humanista francesa, que influyó mucho en los estudios bibliotecarios. Con el advenimiento e influencia de la corriente tecnicista americana, podemos observar un incremento en el uso del término bibliotecología, a partir, especialmente, de la década de 1860 y, con mayor énfasis, en 1920) que incorpora técnicas principalmente de recuperación de información y el carácter científico del campo a los estudios humanistas de Biblioteconomía.

En un segundo momento, con el surgimiento de las Ciencias de la Información a mediados del siglo XX, especialmente después de la Segunda Guerra Mundial, ya hemos notado la aparición del término ciencias de la información en la producción científica, lo que representa el inicio de los estudios en área, alcanzando su apogeo en 1982.

Se trata de ejemplos y análisis incipientes, pero que, en un principio, pueden ofrecer algunos indicadores sobre el uso o popularidad de los términos en las producciones científicas, si tenemos en cuenta que muchos de los libros digitalizados proceden de bibliotecas universitarias.

Cómo analizar estos datos con más profundidad:

En un primer análisis, el gráfico presentado no es difícil de interpretar. A través de las líneas de colores, es posible tener una cierta comprensión sobre los usos y desusos de los términos, como se observa en el ejemplo anterior. Sin embargo, los resultados generados para cada año no son tan precisos, lo que dificulta el análisis. Por eso, para aquellos que no tengan amplios conocimientos de programación, pero deseen trabajar con la herramienta, el tutorial que ofrece Standford University da algunos consejos para analizar con mayor precisión el número de veces que aparece un término en un año determinado. .

La herramienta proporciona los datos sin procesar de todos los ngrams. Sin embargo, además de demandar un gran espacio de almacenamiento, dado que el archivo es considerablemente “pesado”, el análisis no es fácil de entender para quien no entiende mucho de informática.

Con este fin, Google Ngram también ofrece un archivo txt, llamado 'recuentos totales', para presentar el número total de palabras contadas y páginas digitalizadas. Cada idioma tiene un archivo para cada año específico, en la que se suma el total de palabras, páginas y libros totalizados en un año determinado.

Para aquellos que deseen realizar un análisis de un año determinado, por ejemplo, el año en el que un término tuvo su máxima mención, y que no tengan muchas habilidades de programación, el procedimiento manual puede ser una buena salida.

Vea el siguiente ejemplo de cómo se presenta este archivo en txt.: Figura 6Total counts em txt.

Totalcounts ngram.jpg

El ejemplo anterior contiene la siguiente línea: 1982,4839530894,24286876,48446.

Esto significa que para el año 1982 hay un total de 4839530894 palabras en 24286876 páginas digitalizadas en 48446 libros.

Con esto, es posible calcular con qué frecuencia apareció un término determinado en un año determinado.

Vea el ejemplo dado arriba, para el término Ciencia de la Información, que alcanzó su máxima mención en el año 1982:

1) Ir al gráfico presentado por Google Ngram Viewer, con los términos buscados;

2) Arrastre la flecha del cursor hasta el pico de mención del término elegido;

3) Al ver los datos del año, tenga en cuenta el porcentaje. Ej.: 1982 – 0,0000442813%;

4) Realice el siguiente cálculo: porcentaje para el año elegido x 0,01 x número de palabras contadas en el escaneo. Ej: 0.0000442813 x 0.01 x 4839530894 = ~ 2143, donde, en 1982, el término “ciencias de la información” apareció unas 2143 veces en el corpus de libros digitalizados por Google Books en ese periodo .

En los casos en que se quiera verificar una cantidad considerable de años, no se indica el análisis manual. En este sentido, el tutorial presentado por Standford University ofrece un análisis más profundo, utilizando la herramienta Python.

Posibles dificultades que se pueden encontrar en el uso de la herramienta:

1) Los libros escaneados por Google no tienen su contenido completo, es decir, no fueron escaneados en su totalidad, solo el número de páginas correspondiente a lo permitido por los derechos de autor. Por esta razón, no hay certeza sobre la cantidad exacta de términos buscados; lo más probable es que haya más referencias al término que las enumeradas allí;

2) Digitalizar los libros no significa que hayan sido leídos, por lo que, en la mayoría de los casos, no puede considerarse como un indicador concreto de popularidad;

3) La plataforma no es intuitiva, por lo que es necesario resaltar, por ejemplo, la letra mayúscula de un determinado término;

4) Si el corpus de la investigación incluye libros digitalizados del siglo XIX, es importante saber que muchos de ellos tenían, en su momento, una ortografía diferente. Ej.: la f se parecía a la s y viceversa, lo que eventualmente termina influyendo en la recuperación del término;

5) La calidad o reproducción digital del material no siempre permite recuperar el término deseado;

6) En casos específicos donde es necesario saber cuántas veces aparece un término en un libro o período determinado, la herramienta no lo informa; estos datos se presentan en porcentaje, lo que dificulta su lectura;

7) Es necesario utilizar un software para realizar esta traducción -como la herramienta Python-, o analizar manualmente esta información, en base a los datos brutos que ofrece Google Ngram, que presentan el número exacto de páginas, palabras y libros digitalizados al año por Google Books, de 1800 a 2000. De la cuenta “porcentaje equivalente al año que se quiere verificar x 0,01 x número de palabras digitalizadas al año”, es posible saber cuántas veces se utilizó el término en un año determinado. Aún así, no está claro en qué libro se mencionó el término;

8) Dificultad para realizar análisis conceptuales muy profundos basados ​​únicamente en la herramienta, ya que no permite conocer la connotación que se le da a cada término en estos trabajos.

Tutoriales y materiales reflexivos que pueden ayudar con el uso de la herramienta:

Tutorial Standford University

Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution

The pitfalls of using Google Ngram to study language