Si vous avez navigué sur le Web et que vous êtes tombé sur une page d’erreur 404 ou une redirection inattendue, vous avez vu la pourriture des liens en action. Au fil du temps, les liens qui maintiennent la cohésion du web se brisent, menaçant notre histoire culturelle commune. Voici pourquoi cela se produit.

Qu’est-ce que la pourriture des liens ?

On parle de pourriture des liens lorsque les liens d’un site Web se brisent avec le temps, créant ainsi un lien brisé ou mort. Par « lien brisé », nous entendons un lien qui ne pointe plus vers la cible visée au moment où le lien a été créé. Lorsque vous cliquez sur l’un de ces liens brisés, vous obtenez une erreur 404 ou vous voyez la mauvaise page ou le mauvais site Web.

La pourriture des liens est courante. Une étude menée par Harvard en 2021 a examiné les hyperliens de plus de 550 000 articles du New York Times entre 1996 et 2019 et a constaté que 25 % des liens vers des pages spécifiques étaient inaccessibles, le taux de dégradation augmentant considérablement en fonction de l’ancienneté des liens (par exemple, environ 6 % des liens de 2018 étaient morts contre 72 % des liens de 1998). Une autre étude a révélé que sur un ensemble de 360 liens rassemblés en 1995, seuls 1,6 % fonctionnaient encore en 2016.

Pourquoi la pourriture des liens se produit-elle ?

Le web est un média fluide, décentralisé et sans contrôle centralisé. Le contenu peut donc devenir indisponible à tout moment et sans avertissement. Les serveurs vont et viennent, les sites Web ferment, les services migrent vers de nouveaux hôtes, les logiciels sont mis à jour, les publications passent à de nouvelles plateformes de gestion de contenu et ne migrent pas le contenu, les domaines expirent, etc.

Il existe un autre problème connexe sur le Web, appelé  » dérive du contenu « , dans lequel le lien reste fonctionnel mais le contenu du lien a changé depuis le lien original, ce qui peut causer des problèmes car l’auteur original du lien avait l’intention de pointer vers des informations différentes.

Qu’y a-t-il de si grave dans la perte d’anciens sites Web ?

C’est dans la nature du monde que les choses se dégradent et disparaissent. Maintenir l’information en vie est un processus actif qui demande du temps, de l’énergie et des efforts. Ainsi, le principal problème de la pourriture des liens n’est pas nécessairement que nous devons stocker toutes les informations pour toujours, mais que les informations et références électroniques sont potentiellement devenues plus fragiles et vulnérables que les références papier principalement utilisées dans le passé.

De nombreux auteurs d’articles journalistiques, de documents universitaires et même de décisions de justice utilisent des liens Web comme mécanisme de citation pour fournir des sources essentielles de contexte aux informations présentées. Ce problème s’est également posé avec Wikipédia. Comme l’explique Jonathan Zittrain dans un article de 2021 sur la pourriture des liens pour The Atlantic, « L’approvisionnement est la colle qui maintient ensemble les connaissances de l’humanité. C’est ce qui vous permet d’en apprendre davantage sur ce qui n’est que brièvement mentionné dans un article comme celui-ci, et pour les autres de revérifier les faits tels que je les représente. »

Si les liens se rompent et que les sources deviennent indisponibles, il est beaucoup plus difficile pour un lecteur de juger si l’auteur a représenté de manière honnête et précise la source d’information originale. Et même au-delà des liens, certains sites Web fournissent des informations en ligne qui ne peuvent être trouvées nulle part ailleurs. La perte de ces pages crée des lacunes dans le savoir collectif de l’humanité et des trous dans le tissu de notre culture commune.

Quelle est la solution à la pourriture des liens ?

Les experts considèrent que la pourriture des liens et la dérive des contenus sont endémiques au Web tel qu’il est conçu actuellement. Cela signifie qu’elles font partie de la nature fondamentale du web et qu’elles ne disparaîtront pas, à moins que nous n’essayions activement de les corriger ou de les atténuer.

L’une des solutions les plus efficaces au problème de la pourriture des liens est apparue en 1996 avec l’Internet Archive, qui a conservé des archives publiques de milliards de sites Web au cours des 25 dernières années. Si vous trouvez un lien cassé, visitez la Wayback Machine de l’Internet Archive et collez le lien dans sa barre de recherche. Si le site a été capturé, vous pourrez parcourir les résultats. Si le site a été récemment mis hors service, il est possible d’afficher le contenu original à partir d’une copie en cache stockée par Google.

Au-delà de l’Internet Archive, un projet dirigé par Harvard, appelé Perma.cc, capture des versions permanentes de sites Web dans le but de permettre des citations académiques et légales à long terme. Un consortium de bibliothèques assure la maintenance des liens, qui devraient donc rester en place pendant un certain temps. L’objectif est de créer des liens qui ne pourrissent pas – ils devraient persister aussi longtemps que l’archive Perma.cc est maintenue.

D’autres solutions potentielles à la pourriture des liens sont encore à l’état embryonnaire, notamment les solutions potentielles du Web 3.0 et le stockage distribué des données grâce à des protocoles tels que IPFS. Ironiquement, dans des centaines d’années, il est possible que les seuls sites Web de cette époque qui survivent soient ceux que les gens ont imprimés sur papier. Soyez prudents !