Macchine del tempo Print
Thursday, 26 March 2009 08:32

22-7-2004

A chi non è capitato di scoprire che una pagina web, magari individuata con grande fatica, non è più raggiungibile? Credo a ben pochi.

Bene, c’è chi si è inventato una (parziale) soluzione al problema.

Sto parlando di “Internet Archive: Wayback Machine” (http://www.archive.org/web/web.php), un gigantesco (più di 100 terabytes!) archivio di pagine web, raccolte a partire dal 1996. È quindi assolutamente possibile che una pagina giacente nei nostri segnalibri o il cui url sia stato da noi scoperto attraverso un motore di ricerca, mediante il link da un altro sito, grazie all’indicazione di un amico e così via e che risulti scomparsa ad una normale “chiamata” del nostro browser, sia raggiungibile in copia attraverso webarchive.org.

Basterà inserire l’indirizzo così come lo conosciamo nell’apposito spazio e, se la pagina è stata a suo tempo archiviata, potremo accedervi. Spesso ciò vale anche per le connessioni ad altre pagine possibili da quella da noi cercata in origine. Non sempre dell’originale è stato archiviato proprio tutto: il più delle volte non ci sono le immagini e i frames secondari o i files in download, qualche sito (per esempio Virgilio.it) ha impedito le procedure di archiviazione, ma l’opportunità resta davvero interessante, perché risolve, come detto in parte, il problema della caducità degli indirizzi di Internet, ancora abbastanza frequente, anche se meno del passato.

E non basta. Inserendo un indirizzo si ottiene in realtà qualcosa di più ampio e significativo del semplice accesso alla pagina cercata, soprattutto quando essa abbia subito variazioni nel tempo. Ci si presenta infatti una sorta di tabella, divisa in anni, ed è possibile quindi accedere a diverse versioni della pagina che ci interessa.

Nell’archivio, inoltre, sono presenti non solo pagine che nel frattempo siano state cancellate, ma anche pagine tuttora esistenti. Inserendo http://www.osservatoriotecnologico.net, per esempio, si accede a 10 diverse versioni della pagina iniziale dell’OTE, corrispondenti a 10 aggiornamenti significativi della pagina stessa. Questo significa che non solo è possibile recuperare informazioni che sembravano perdute, ma che, in una certa misura, è anche possibile ricostruire i percorsi e le variazioni che i siti di nostro interesse hanno vissuto, in chiave magari di impostazione del design, di qualità, quantità, impostazione delle informazioni, di attenzione all’usabilità e all’accessibilità, di adeguamento alle mode tecnologiche del momento e così via.

Il lettore di questo articolo provi per esempio a inserire nella casella Wayback Machine http://www.repubblica.it; non otterrà tutte le pagine iniziali del quotidiano, ma avrà comunque accesso a una massa imponente di informazioni (se del 2000 sono presentate 98 variazioni – e quindi meno del numero dei giorni dell’anno, del 2001 ci sono ben 823 pagine – e quindi molto più del doppio dei giorni dell’anno).

Webarchive si avvale di alcune collaborazioni istituzionali (http://www.archive.org/index.php#contributors), ha numerosi collaboratori individuali (http://www.archive.org/about/contributors.php) e dispone anche di un mirror -fuori dal gergo, di una duplicazione- in http://www.bibalex.org/english/initiatives/internetarchive/web.htm, collegato alla Biblioteca di Alessandria d’Egitto, il che aggiunge ulteriore fascino alla dimensione storica dell’iniziativa. Il nostro interesse è poi destinato a crescere ulteriormente, perché il sito propone una serie di collezioni organizzate di archivi tematici, per esempio sui siti nati dopo l’11 settembre 2001 o su quelli che si sono occupati della contestata elezione di Bush o ancora sui “Pionieri del web”. La barra degli strumenti del mio Mozilla (http://www.mozillaitalia.org/), inoltre, si è arricchita di un pulsantino, ottenuto trascinandovi, come consigliato nell’homepage di Webarchive, un link: quando raggiungo un sito, d’ora in poi, posso, se mi interessa, verificare con un semplice click se esso è presente negli archivi Wayback e quindi verificarne il percorso e le variazioni nel tempo.

Oltre al progetto sommariamente descritto finora, Webarchive ne propone un altro, attualmente in beta testing - fuori dal gergo, in versione di collaudo: Recall, full text search. Si tratta di una ricerca su tutto il testo di più di 11 bilioni di pagine, realizzate ed archiviare sempre a partire dal 1996, che funziona con lo stesso modello logico-operativo di un motore per parole chiave. Vi sono anche possibilità di ricerca avanzata, importante in particolare per ampliare e restringere le indicazioni temporali all’interno delle quali effettuare la ricerca stessa. Nella rappresentazione dei risultati vanno segnalati anche alcuni grafici statistici, che, se li ho interpretati correttamente nelle prove che ho fatto fino ad ora, valutano in modo quantitativo la rilevanza sul Web dell’oggetto della nostra ricerca.

Last Updated on Thursday, 26 March 2009 08:32