Erro 404: quase 40% de páginas da internet desapareceram em 10 anos 

Pesquisa aponta que quantitativo sumiu principalmente entre 2013 e 2023, e muitas, agora, exibem clássico erro 404

Erro 404? Entenda por que tantas páginas estão sumindo da internet. Erro 404? Entenda por que tantas páginas estão sumindo da internet. • Créditos: Unsplash. -

Existem milhares de páginas na internet, desde fóruns e redes sociais até sites de compras e bibliotecas online. Contudo, essas páginas podem não durar para sempre — o “erro 404” ilustra esse cenário.

Uma pesquisa recente sugere que quase 40% de todo o conteúdo já hospedado na internet não existe mais — pelo menos até o final de 2023. Ou seja, esse material não está mais disponível pelos meios oficiais.

Segundo uma pesquisa do Pew Research Center, aproximadamente 38% de todo o conteúdo que existia na internet entre 2013 e 2023 não pode mais ser acessado. Se você tentar abrir um desses links, receberá a clássica mensagem de erro 404. Esse código indica que o servidor não conseguiu encontrar a página no endereço solicitado, seja porque ela foi removida, alterada sem redirecionamento ou o link está desatualizado.

Como a internet está sempre acessível, muitas pessoas acreditam que as informações permanecerão disponíveis para sempre. Porém, a pesquisa aponta que até mesmo páginas recentes estão desaparecendo. Cerca de 8% das páginas que estavam no ar em 2023 já não existem mais.

Erro 404 em ascensão

O Pew Research Center analisou uma amostra de quase um milhão de páginas registradas pela organização sem fins lucrativos Common Crawl. Os pesquisadores descobriram que o desaparecimento não ocorreu apenas em páginas aleatórias: links de sites governamentais, grandes portais de notícias, a Wikipédia e outros domínios relevantes também apresentam diversos links com erro 404.

“Se uma biblioteca queima é uma tragédia, mas a maioria dos livros sobrevive em outros lugares. Mas o mundo digital é inerentemente frágil e potencialmente efêmero”, explica Mark Graham, diretor do projeto que cataloga sites da web WayBack Machine, ao site Business Insider.

Apesar de não estarem mais acessíveis em seus sites originais, cerca de dois terços dos 38% de páginas da web que desapareceram na última década ainda podem ser encontrados na Wayback Machine. Graham explica que o projeto arquiva mais de um bilhão de URLs todos os dias — incluindo até alguns vídeos do YouTube.

Mesmo assim, a Wayback Machine e outros projetos do tipo não conseguem catalogar todas as páginas, pois alguns sites impõem obstáculos, como paywalls e bloqueadores que impedem a ação de robôs rastreadores. Paywall é um modelo de monetização que restringe o acesso a conteúdos e permite a visualização apenas para assinantes do site.

Páginas da internet desaparecendo

Os dados do Pew Research Center indicam que, entre 2013 e 2023, aproximadamente 23% dos sites de notícias apresentaram pelo menos um link com erro 404. Na Wikipédia, 54% das páginas continham pelo menos um link de referência que não está mais disponível.

Alguns especialistas acreditam que existe um problema ainda pior: a maior parte dos dados armazenados na internet está sob o controle de grandes empresas, como o Google. Segundo a estrategista sênior de coleção nas Bibliotecas do MIT, Marlene Manoff, isso dificulta a preservação dos dados, pois essas corporações podem não estar preocupadas com a conservação do histórico da web.

“A longo prazo, não é possível preservar um objeto digital em sua forma original. Mas, no caso de propriedade corporativa, a probabilidade de uma gestão responsável e duradoura do conteúdo digital se torna cada vez menor”, disse Manoff ao Business Insider

Além da Wayback Machine, que pertence ao Internet Archive, iniciativas como o Common Crawl também estão catalogando bilhões de páginas da web. É importante destacar que o Common Crawl apenas coleta dados para pesquisa e análise, enquanto o Internet Archive realmente preserva conteúdos para acesso futuro.

Dessa forma, mesmo que essas iniciativas não consigam registrar todo o histórico da internet, uma parte significativa dos links continuará acessível para consulta.

FONTE: CNN BRASIL