Dépôt légal du web "made in France" : accès public à la "Pétabox" le 7 avril !
le 04-04-2008 02:00

Sections : TIC, Moteurs et autres engins,


Ajouter à votre site

ImageSelon la formule consacrée, c'est « de source autorisée… » que nous apprenons que le dépôt légal de l’Internet, prévu par la loi du 1er août 2006,  va connaître une phase décisive à partir du … 7 avril 2008. 

(A noter que pour le dépot légal il en est de même que pour la loi sur le handicap, les lois existent les décrets d'applications se font désirer...)

Dans le triptyque RECOLTER, CONSERVER, COMMUNIQUER c’est donc bien la troisième phase qui sera effective avec le début de la consultation en ligne du dépôt légal du web !

Une communication progressive aupublic donc : thématique, des dossiers "élections", et .... des surprises !

Mis en place autour des deux opérateurs que sont l’INA et surtout la BnF, le dépôt légal du Web concerne bien sur les sites du domaine « .fr », mais aussi tous les sites français en .org, .net, .info, etc…

La BnF accède ainsi à une autonomie importante pour cette fonction patrimoniale du web, un temps sous-traitée à la Fondation Internet Archive, ce qui permet à tous, par exemple, de consulter le site de la BNF depuis 1996.

Le choix du législateur d’intégrer l’archivage d’Internet au dispositif juridique du dépôt légal s’inscrit dans la tradition française et prolonge la double mission du dépôt légal : assurer la continuité et la complétude des collections en intégrant chaque nouveau support, collecter les oeuvres et les objets révélateurs des mutations d’une époque. 

La BnF se prépare à cette tâche depuis 1999. Elle a conduit notamment des expériences concernant les sites électoraux lors de la présidentielle, des législatives, des régionales et des européennes, entre 2002 et 2004, la dernière expérimentation ayant concerné les sites relatifs à l’élection présidentielle française en 2007.

Enfin, l’archivage des sites web au titre du dépôt légal, s'il s’inscrit bien sur dans la volonté de valorisation des collections par la numérisation, apparait comme un laboratoire de la BnF de demain :  le document « né numérique » est en effet complémentaire du document numérisé. Il lui succédera progressivement.

Petit tour du sujet…. 

L’archivage de la Toile s’attache à la fois aux sites en tant qu’unités et aux liens qui tissent des relations entre les pages d’un site et entre les sites eux-mêmes.

L’outil principal est constitué par des moteurs de recherche qui utilisent des robots, Heritrix dans le cas de la BnF,  destinés à la fois à parcourir ces liens et à collecter les contenus eux-mêmes (pages, fichiers encapsulés et liens). Pour que ces robots puissent travailler, il leur faut trouver au moins un lien qui mène vers les sites et les pages qui les composent.

Or, ils peuvent être arrêtés par des outils techniques qu’ils ne connaissent pas ou par des mots de passe qu’ils ignorent. 

{xtypo_quote_right} Dans le cas des dernières élections municipales, par exemple, une « capture du web est réalisée, dans des moments cruciaux tels que les résultats de scrutins, quasiment minute par minute.  {/xtypo_quote_right} La technique de collecte automatique ne peut donc être appliquée qu’à la « surface » de la Toile, accessible aux robots.

Elle a été utilisée dès 1996 pour l’archivage d’Internet à grande échelle par la Fondation Internet Archive aux Etats-Unis et par la Bibliothèque Royale de Suède qui réalise (environ deux fois par an) une prise de vue périodique du domaine national suédois depuis 1997. Les archives rassemblées selon cette méthode représentent une « photographie instantanée » de tout un ensemble de sites et offrent une bonne représentation de la diversité et de la richesse des contenus de la Toile, mais elles ne rendent pas compte de tous les changements fréquents intervenus à l’intérieur de chaque site, dans un univers éditorial souvent éphémère.

Car c’est bien toute la difficulté de l’opération : si l’unité intellectuelle retenue pour archiver la Toile est celle du site (qui recouvre des ensembles documentaires dont le volume et les caractéristiques techniques sont très variables), la difficulté est bien de conserver l’ensemble dan son contexte, son interaction, et ses mutations : web2.0, blogosphère, sites sociaux, …

De même qu’une fréquence de sauvegarde qui n’intègrerait pas, dans son calendrier, les grands moments de l’actualité nationale (élections, actualités, commémoration, …) serait bien insuffisante.

Dans le cas des dernières élections municipales, par exemple, une « capture du web est réalisée, dans des moments cruciaux tels que les résultats de scrutins, quasiment minute par minute. 

Dans cette tache, la BnF n’est pas seule au monde et le Consortium international pour l’archivage de la Toile, qu'elle a contribué à mettre en place, regroupe une dizaine de grandes bibliothèques patrimoniales, même si la cartographie des pays membres laisse apparaître une absence quasi-totale des pays du Sud…

Ensuite il restera à s'attaquer au web invisible qui est pluriel : 

- le web opaque : les ressources qui pourraient être indexées par les moteurs de recherche mais qui ne le sont pas à cause, notamment, de la limitation du nombre de pages d'un site indexées, de la fréquence d'indexation, des liens absents vers certaines pages qui ne permettent pas au moteur de les trouver ;

 - le web privé : les ressources rendues volontairement inaccessibles par les administrateurs des sites ;

- le web propriétaire : les ressources accessibles uniquement aux personnes qui s'identifient ;

 - le web "vraiment invisible ": les ressources qui ne peuvent pas être indexées pour des raisons techniques (ex : parce que leur format n'est pas reconnu par le moteur, des pages générées seulement dynamiquement, lors d'une requête, etc.).

Dans certains cas, des collectes en accord avec les éditeurs des sites seront également effectuées afin de recueillir ce « Web profond », notamment le contenu des bases de données.

 

Patience et longueur de temps...

 

 Image Bibliofrance.org


 Voir aussi ...

 Voir « Dépôt légal Internet»  site « Professionnels » de la BnF, dans « Dépôt légal »

DOSSIER 

- L’archivage du Web

- Le dépôt légal à la Bibliothèque nationale de France .PDF

 -  BBF 2006-03 Dossier Bibliothèques sur le web : Le dépôt légal d’Internet à la Bibliothèque nationale de France ...

ARTICLES 

La linguistique pour analyser le web français

 VIDEO

Comment la BNF archive la Toile française

AUDIO

L'archivage du web et le dépôt légal de l'internet : L'archivage du web et le dépôt légal de l'internet  (46 min/mp3) par Christian Lupovici, intervention faite le 1er février 2006 dans le cadre de la 1ère réunion des jurys des CAPES de documentation  (externe et 3è concours) à la BNF


Tags : Dépôt légal du web
Commentaires utilisateurs Citer cet article dans votre site web Votez pour cet article Imprimer cet article Envoyer à un(e) ami(e) Articles associés Lire la suite
 
Autour du thème : un article au hasard ?