Internet Archive

De LARHUD
Ir para: navegação, pesquisa

Internet Archive.org, [1] é um repositório digital, sem fins lucrativos, que ao longo do tempo tornou- se um grande projeto de Biblioteca digital, reunindo coleções de páginas web, livros e textos, gravações de áudio, vídeos, imagens e programas de software e que de alguma forma estão ligados a questão da preservação digital de artefatos culturais importantes para historiadores, pesquisadores acadêmicos e o público em geral. Reconhecida pela American Library Association, a missão da ferramenta em questão é fornecer acesso universal a todos os conhecimentos. A alimentação do repositório é colaborativa, em que qualquer internauta pode cadastrar uma conta gratuita e fazer upload de arquivos de mídia. O site é mantido com de doações de usuários e pelas parcerias estabelecidas.[2]


MENU PRINCIPAL DO IA.ORG

About: Dá uma breve explicação sobre o que é a ferramenta e seus objetivos

Contact: Informações sobre a localização, endereços de e-mail e telefones da instituição

Blog: redireciona o usuário para o blog da ferramenta

Projects: direciona o usuário para o projeto específico, caso ele se interesse em obter mais detalhes sobre cada um deles.

Help: Nesta aba o usuário desfruta do serviço de FAQ que a ferramenta oferece

Donate: apresenta uma breve conclamação do fundador da ferramenta a fazer donativos para a manutenção do IA. org.

Jobs: apresenta anúncios de vagas para quem deseja trabalhar no projeto de acordo com as atribuições estabelecidas pelo perfil.

Volunteer: apresenta informações para quem deseja ser voluntário no projeto e como fazer para se cadastrar para essa função.

People: fornece uma lista de todas as pessoas que trabalham no staff , contando com uma equipe com cerca de 80 pessoas das mais variadas áreas do conhecimento.

Exemplo.jpg

Página inicial do Internet Archive.org [2]. Fonte: https://archive.org/about/

ONDE TUDO COMEÇOU?

A sede da Internet Archive (IA.org) fica localizada em São Francisco, EUA e teve como fundador Brewster Kahle, atual diretor executivo, que se intitula como bibliotecário digital, apesar de ser engenheiro de computação. Kahle se especializou em Inteligência Artificial, mas isso nunca o impediu de defender o acesso público à internet e acreditar no acesso universal a todo o conhecimento. Hoje, os servidores do projeto, tem um espaço de aproximadamente 30 petabytes de dados preservados. Existe um interesse de várias bibliotecas e pesquisadores neste grande projeto, devido ao potencial que este repositório tem de salvaguardar os artefatos digitais que contam a história da humanidade ao longo do tempo, contribuindo para a herança cultural que foi sendo construída pela Sociedade da Informação em um tempo em que tudo se torna efêmero. O projeto começou o ano de 1996, em um momento em que as pessoas ainda estavam se ambientando com a internet e que os profissionais de computação buscavam cada vez mais o aprimoramento na construção de páginas na web. Nesse sentido, o projeto Wayback Machine foi criado como uma forma de colecionar páginas da internet ao longo do tempo, por entender que é um meio de comunicação efêmero. No ano 2000, o IA.org começou a arquivar também programas de televisão tendo como primeira coleção um arquivo de reportagens de TV sobre os eventos relacionados ao 11 de setembro de 2001. Em 2005, a Internet Archive iniciou um projeto de digitalização de livros que estão disponíveis pelo Open library, um subprojeto que permite o empréstimo virtual de itens deste acervo. Atualmente, o Internet Archive atende milhões de pessoas todos os dias e é um dos 300 principais sites do mundo.


PROJETOS

POLITICAL TV AD ARCHIVE (ARQUIVO DE ANÚNCIOS DE TV POLÍTICA)

Este projeto reúne os anúncios de TV da eleição presidencial americana de 2016. Os arquivos podem ser pesquisados e compartilhados por qualquer pessoa. Foi custeado com doações individuais e de organizações.

BUILDING LIBRARIES TOGETHER (CONSTRUINDO BIBLIOTECAS JUNTOS)

O Internet Archive é uma das maiores bibliotecas digitais públicas do mundo, mas poucos usuários da web estão engajados na ideia de preservar e disseminar o conhecimento produzido pelo mundo. Apesar de hoje a plataforma já contar com mais de 2 milhões de livros, 430 bilhões de páginas web e 3 milhões de horas de programas de TV, este número é muito pequeno se comparado ao que é produzido diariamente no mundo. Por este motivo, o IA está empenhado neste projeto que incentiva a alimentação da plataforma com os materiais que podem ser acessados por todos. Para atingir este objetivo, o IA está melhorando as ferramentas de upload, descrição e organização dos itens e tornando-as mais fáceis de usar. Ao mesmo tempo que difunde o nome e objetivos projeto, também agrega mais simpatizantes e voluntários, o que é fundamental para o sucesso da plataforma, já que é de uma iniciativa colaborativa.

OPEN LIBRARY ( BIBLIOTECA ABERTA)

Na verdade, o OpenLibrary.org é a união de dois projetos em um só. Ao mesmo tempo em que funciona como uma biblioteca gratuita que oferece empréstimo digital de livros também tem a proposta de criar um website na internet para cada livro já publicado na história. Mais de 2 milhões de ebooks já estão disponíveis para download ou leitura online e mais de 20 milhões já possuem sua própria página na web. O projeto é completamente open e todos os dados, o software, a documentação e o site estão abertos para serem alimentados, usados e melhorados colaborativamente.

SCANNING SERVICES ( SERVIÇOS DE DIGITALIZAÇÃO)

O IA oferece serviços de digitalização de documentos para instituições que estejam dispostas a fornecer acesso aberto e gratuito às suas coleções. Além disso, armazenamento de longo prazo, downloads ilimitados e gerenciamento de arquivos são outras garantias vitalícias garantidas pelo projeto.

SOFTWARE ARCHIVE (ARQUIVO DE SOFTWARE)

Este projeto tem por objetivo salvaguardar e dar acesso a todos os tipos de softwares freeware ou shareware em suas versões descontinuadas e que encontram-se legalmente disponíveis para download. Além disso, fornece informações básicas sobre estes títulos, trailers de lançamentos de jogos, imagens, cartazes, etc.

WAYBACK MACHINE (MÁQUINA WAYBACK)

O projeto já fez mais de 150 bilhões de capturas de páginas web em mais de 200 milhões de sites,o que se traduz em mais de 2 petabytes de dados compactados. O objetivo principal é armazenar todas as versões, incluindo layout e informações, de todas as páginas web disponíveis na internet, oferecendo a busca pelo domínio e pela data. É possível saber exatamente como era apresentado um determinado site em uma data específica.

ARCHIVE-IT (ARQUIVE)

Este projeto caracteriza-se por ser um serviço de assinatura de arquivamento da web. Trata-se de um iniciativa que coleta, cria, cataloga, gerencia e preserva coleções de conteúdos digitais para organizações como bibliotecas, arquivos e museus. O serviço funciona 24 horas por dia e 7 dias por semana arquivando e dando acesso aos documentos que ficam hospedados e armazenados nos centros de dados do Internet Archive.

BOOKSERVER

O BookServer é uma plataforma aberta que permite vender, emprestar e distribuir livros pela internet, dando à livrarias, editoras e bibliotecas a oportunidade de disponibilizar seus catálogos diretamente ao usuário final através de dispositivos eletrônicos que forneçam acesso à internet. De acordo com o site do projeto, todos os envolvidos na cadeia de distribuição de livros se beneficiam já que:

Os autores encontram uma distribuição mais ampla para o seu trabalho.

Editores grandes e pequenos podem distribuir livros diretamente para os leitores.

Os vendedores de livros encontram novos e maiores públicos para seus produtos.

Os fabricantes de dispositivos podem oferecer acesso a milhões de livros instantaneamente.

As bibliotecas podem continuar a emprestar livros da maneira que os clientes esperam.

Os leitores obtêm acesso universal a todo conhecimento.

OPEN CONTENT ALLIANCE ( ALIANÇA DE CONTEÚDO ABERTO)

A Open Content Alliance (OCA) é um esforço de diversas organizações culturais, tecnológicas, sem fins lucrativos e governamentais que colaborativamente ajuda a construir um arquivo (texto e multimídia) permanente e multilíngue. Todo o material encontra-se disponível no portal do Internet Archive e em diversos motores de busca web.

EDUCATION (EDUCAÇÃO)

É uma biblioteca aberta que contém centenas de cursos gratuitos e palestras de diversas universidades chinesas e americanas

BOOKMOBILE (LIVRO MÓVEL)

O Bookmobile funciona dentro de uma van e desde 2002 percorre diversos lugares dos Estado Unidos fornececendo uma biblioteca digital móvel onde é possível baixar e imprimir livros em domínio público. O projeto já foi replicado no Egito e em Uganda e o IA deseja expandi-lo para outros países do mundo.

OPEN COMMUNITY NETWORKS (REDES COMUNITÁRIAS ABERTAS)

O projeto oferece internet gratuita e de alta velocidade para comunidades carentes em São Francisco.

PETABOX

O PetaBox foi projetado para armazenar e processar com segurança e baixo custo um petabyte (um milhão de gigabytes) de informações. Atualmente, os PetaBoxes são utilizados pelas principais instituições acadêmicas e agências governamentais dos Estados Unidos.

301WORKS.ORG

É um projeto que auxilia usuários de site que oferecem o serviço de encurtar URL. Ele se propõe a fornecer transparência e permanência dos mapeamentos dos links.


RECURSOS INFORMACIONAIS DO IA.ORG

Em 22 anos de trajetória, as coleções no IA. org foram ganhando visibilidade dos pesquisadores e instituições de memória ao redor do mundo, como bibliotecas, museus, etc., e que também contribuem para a difusão do conhecimento na plataforma. Até o momento, o IA. org , têm os seguintes recursos informacionais armazenados em seu servidor:

279 bilhões de páginas da web

11 milhões de livros e textos

4 milhões de gravações de áudio (incluindo 160.000 shows ao vivo)

3 milhões de vídeos (incluindo 1 milhão de programas de notícias de televisão)

1 milhão de imagens


FUNCIONALIDADES DAS BUSCAS

O IA. org possuí uma caixa única de pesquisa, que facilita a busca do usuário, permitindo a varredura de todo o repositório com o termo pesquisado, além da possibilidade de busca avançada pelos campos escolhidos e pelo uso dos operadores booleanos. A ferramenta busca termos aspeados pelo usuário, que são destacados nos resultados encontrados. No IA.org é possível também fazer uma busca pelos tipos de recursos materiais que se encontram na base.

Exemplo.jpg

Página de busca do Internet Archive.org. Fonte: https://archive.org/

Outro recurso que a ferramenta possui, é a possibilidade que o usuário tem de criar uma conta na qual ele poderá organizar, armazenar o que for de interesse, selecionar seus materiais e estratégias de buscas favoritas e compartilhar os itens dos resultados com outras pessoas.

Exemplo.jpg

Página de resultados do Internet Archive.org. Fonte:https://archive.org/search.php?query=%22digital+humanities%22

Ao fazer a pesquisa, o usuário tem a opção de escolher em qual base de dados ele vai buscar, se é nos metadados, se é na base de textos, se é na base de captações televisivas ou na base de web sites arquivados.

Exemplo.jpg

Continuação Página de resultados do Internet Archive.org. Fonte: https://archive.org/search.php?query=%22digital+humanities%22

Em uma busca simples, pela base de metadados, com o termo “ digital humanities” é possível ver os filtros e categorizações dos documentos encontrados. Nas categorizações é possível classificar os resultados por relevância, visualizações, data de arquivamento e criadores (detentor dos direitos autorais) dos arquivos. Nos filtros é possível delimitar os documentos por tipo de mídia, ano, assuntos ou tópicos, coleções as quais os resultados pertencem, idioma e criador.


FUNCIONALIDADES DAS COLEÇÕES

Ao selecionar uma coleção do IA.org, o usuário pode visualisar a descrição da coleção verificar os usuários que interagem e contribuem com a manutenção da mesma através da identificação em nicknames.

Exemplo.jpg

Coleção Prelinger Archives (tela de descrição da coleção). Fonte: https://archive.org/details/prelinger&tab=about

O usuário também pode verificar estatísticas acesso da coleção, o arquivamento de itens ao longo do tempo e a visualização de usuários por área geográfica,nos últimos 30 dias.

Exemplo.jpg

Estatística de acesso e uso da Coleção Prelinger Archives. Fonte: https://archive.org/details/prelinger&tab=about

Na aba collection, estão todos os ítens que fazem parte da coleção desejada.

Exemplo.jpg

Tela de exploração da coleção Prelinger Archives. Fonte: https://archive.org/details/prelinger&tab=collection

Já na aba Forum é o local reservado para os posts de elogios, dúvidas e reclamações dos usuários sobre a coleção. Além dessa possibilidade, todos os comentários tem opção de exportação por e-mail ou pela utilização da tecnologia RSS.

Exemplo.jpg

Forum da coleção Prelinger Archives. Fonte: https://archive.org/details/prelinger&tab=forum


LICENÇA E PERMISSÕES PARA O DEPÓSITO DOS ITENS

Como o objetivo do IA.org é oferecer acesso universal a todo o conhecimento, as coleções armazenadas no repositório são de Open Access, contudo, isto não significa que os conteúdos disponibilizados estão livres da proteção aos direitos autorais. A maioria dos websites arquivados pelo AI.org são de domínio público, porém outros tipos de materiais que são inseridos através da contribuições de usuários, são licenciados pela creative commons [3]. Posso pesquisar por licença Creative Commons ? Esta foi a pergunta de um usuária na área de FAQ do IA.org, que foi respondido da seguinte forma:

Exemplo.jpg

Pergunta de um usuário do IA.org sobre o uso de licença Creative Commons (tradução livre). Fonte: https://archive.org/about/faqs.php


ARMAZENAMENTO E SEGURANÇA DOS DADOS

A PetaBox é um instrumento de armazenamento que faz parte do conjunto de tecnologias desenvolvidas pelo IA.org e foi projetada de maneira personalizada pela equipe do para armazenar e processar com segurança um petabyte (um milhão de gigabytes) de informações. O objetivo era criar um sistema de armazenamento de baixa potência, alta densidade, fácil de dimensionar e manter e de baixo custo. PetaBoxes estão agora em uso nas principais instituições acadêmicas e agências governamentais. O Internet Archive abriga mais de 10 petabytes de tecnologia de armazenamento PetaBox e está expandindo constantemente.

Exemplo.jpg Petabox do Internet Archive. Fonte: https://archive.org/web/petabox.php

O IA.org tem um custo aproximado de 1 milhão de dólares por ano para manter o petabox funcionando. A petabox armazena pelo menos duas cópias de cada documento inserido na Biblioteca.


SUPORTE AO USUÁRIO E DOCUMENTAÇÃO

Apesar de não ter tutorial de utilização, o IA.org tem um serviço de resposta a questões levantadas pelo usuário que pode ser acessada pela aba HELP. Sobre documentação, existe uma iniciativa de disponibilização no blog da AI.org.


A IMPORTÂNCIA DO USO DO USO DA INTERNET ARCHIVE.ORG NAS HUMANIDADES DIGITAIS

Ao buscar o termo “digital humanities” no IA.org, foram recuperados 261 resultados, dos quais 33 referiam- se a coleções, 73 filmes, 55 textos, 61 áudios, 1 software e 1 account. Na exploração dos resultados por tipo de material filtrado que:

Apesar do filtro coleções apresentar um número bastante expressivo, apenas uma teve destaque, porque as demais eram arquivos de páginas web, que os data crawlers armazenam de tempos em tempos. Devido a limitação no conhecimento de linguagem de programação, não foi possível identificar as saídas de interface dessas coleções para uma visualização de conteúdo pelos usuários. A coleção em destaque para este filtro é a coleção do Centro de Preservação de textos religiosos antigos,[4] ligado a Brigham Young University e Neal A. Maxwell Institute for Religious Scholarship.Trata- se de uma coleção que têm por objetivo avançar nos estudos de literatura siríaca através do estudo de textos religiosos antigos. Na coleção é possível fazer uma pesquisa textual e acesso aos escritos do mar morto, aos papiros de Herculano, aos manuscritos siríacos da Biblioteca do Vaticano e a muitos outros.

Tanto em áudios, como em vídeos, foi observada a existência de várias registros publicados por pesquisadores e instituições colocando em debate as contribuições para o campo das HD.

Em textos é possível verificar uma diversidade de documentos, com destaque para o livro Digital humanities and digital media com organização de Roberto Simanowski. O upload do livro foi feito por Open Humanities Press.

Exemplo.jpg

Página de informações sobre o livro Digital Humanities and Digital media no IA.org. Fonte: https://archive.org/details/DigitalHumanitiesAndDigitalMedia

Em software, foi indexado uma coleção de projetos do Github,[5] uma página na qual vários desenvolvedores de software ao redor do mundo trabalham juntos na revisão de códigos e gerenciamento de projetos de softwares. Na descrição da coleção Github no IA.org, foi mencionado o software Rletters [6]-Aplicativo Web desenvolvido para realizar tarefas de pesquisa em humanidades digitais em um banco de dados de artigos de periódicos em open source.

Assim, é observado que poucos são os documentos e materiais indexados no IA.org sobre o termo Humanidades Digitais, e que por esse motivo talvez, a ferramenta dependa de uma ampla divulgação e aceitação ou conhecimento de existência pelas comunidades que trabalham com Humanidades Digitais.


REFERÊNCIAS

[1] Internet Archive.org . Disponível em: <https://archive.org/index.php >

[2] By: Barbara Mannara. Internet Archive: como usar o site que é o ‘baú da web’. Disponível em:< http://www.techtudo.com.br/dicas-e-tutoriais/noticia/2015/05/internet-archive-como-usar-o-site-que-e-o-bau-da-web.html>. acesso em: 30 jun. 2018. [3] Creative Commons. Disponível em:<https://creativecommons.org/>.

[4] Center for the Preservation of Ancient Religious Texts. Disponível em:<https://byuorg.lib.byu.edu/index.php/Center_for_the_Preservation_of_Ancient_Religious_Texts >.

[5] Github. Disponível em:< https://github.com/DominicBM/narabot>.

[6] Rletters. Disponível em:< https://www.rletters.net/ >.