In principio era il motore di ricerca. Dopo, venne il searchbot. Poi fu la volta del portale. Ma è già iniziata una nuova era: quella del document clustering engine. Chi cerca, ha ora nuove possibilità per trovare.
[ZEUS News - www.zeusnews.it - 17-07-2001]
Internet è una fonte inesauribile di informazioni; tuttavia, queste sono spesso destrutturate e disperse nei milioni e milioni di pagine web a disposizione dei "naviganti". Proprio a causa dell'immensità dell'orizzonte virtuale e della modalità di indicazione della rotta, trovare in Rete una qualsiasi informazione è praticamente impossibile senza l'aiuto di un meccanismo che prescinda dall'indirizzo al quale essa si trova e sia in grado di rintracciarla in base a qualche criterio di ricerca.
Per rispondere a tale esigenza nascono, alcuni anni fa, siti che mettono a disposizione del pubblico potenti programmi dotati di tre componenti: un crawler, cioè un software in grado di navigare in modo asincrono nella Rete seguendo ricorsivamente i links rilevati nelle pagine visitate; un database destinato a raccogliere i collegamenti ai siti esplorati dal crawler indicizzandoli in base al testo in essi contenuto; una interfaccia web per l'interrogazione della base dati. Si tratta dei motori di ricerca.
Se stiamo cercando un manuale sulla programmazione in C++ è sufficiente specificare attraverso detta interfaccia, ad esempio, le parole "tutorial" e "C++" per ottenere un elenco di siti ove esse compaiono. Il limite evidente di tale approccio è che parole piuttosto comuni possono comparire in pagine web che, dal punto di vista del contenuto, hanno ben poco a che fare con il nostro oggetto del desiderio.
Un ulteriore tentativo di facilitare la ricerca in Rete è rappresentato dai searchbots, programmi (da installare sul nostro computer) che implementano la form in cui devono essere specificate le parole da cercare e si preoccupano di "passarle" a più motori di ricerca, per poi presentare una sintesi dei risultati offerti da ciascuno di essi. I searchbots rappresentano certamente un valido sistema di espansione degli orizzonti, ma, generalmente, sono di poco aiuto nella definizione di efficaci criteri di ricerca. Anzi, si rischia che la troppa informazione, in quanto non utilizzabile nella pratica, equivalga a nessuna informazione.
Molti motori di ricerca, perciò, si trasformano in portali: le pagine web rilevate dal crawler vengono (in aggiunta alla consueta indicizzazione) categorizzate sulla scorta dell'argomento trattato. L'interfaccia del portale offre, oltre alla form per ricerca testuale, un elenco di categorie, ciascuna delle quali è spesso suddivisa in sottocategorie, e così via per diversi livelli di profondità. Ciò consente un approccio differente: invece di cercare l'informazione sulla base di parole che si presume compaiano nelle pagine di nostro interesse, la si raggiunge seguendo un percorso logico. Riprendendo l'esempio precedente, si può partire dalla categoria "Computer", per passare, al suo interno, a "Programmazione", poi "Linguaggi", "C++" e, infine "Manuali", ove ci aspettiamo di trovare un elenco di links a siti che propongono o sono, essi stessi, manuali di programmazione in C++.
Anche tale metodologia di ricerca ha i suoi limiti: le categorie sono generate a priori dal team di gestione del portale e può accadere che l'informazione ricercata sia di difficile collocazione in una di esse. Inoltre, persone diverse possono adottare differenti criteri di categorizzazione: ciò può costringerci ad adattare il nostro modo di ragionare a quello di chi ha definito le categorie.
Ma, in Rete, il tempo scorre veloce, ed oggi è già l'inizio di una nuova era: un gruppo di ricercatori presso la Carneige Mellon University ha sviluppato Vivisimo, dagli stessi definito un document clustering engine, cioè "motore per il raggruppamento di documenti". Vediamo, in pratica, di che si tratta.
Vivisimo riassume in sè le caratteristiche di tutti gli strumenti di ricerca descritti: si presenta come un search engine vecchio stile (solo form, niente categorie) ma, come un searchbot, interroga contemporaneamente diversi motori di ricerca; infine categorizza dinamicamente le pagine reperite presentando, quale risultato della ricerca, una sorta di portale "dedicato", nel quale i documenti sono raccolti in gruppi (clusters) costruiti in modo del tutto automatico in base a criteri di rilevanza testuale (ricorrenze di parole, posizione delle stesse nel documento o relativamente ad altre parole ricorrenti, e via dicendo).
Per ragioni di performance, Vivisimo analizza solo i risultati che i motori di ricerca interrogati restituiscono entro tempi piuttosto brevi; considerata la lentezza che spesso affligge la comunicazione in Rete, ripetendo più volte la stessa ricerca è possibile ottenere risultati differenti. Inoltre, al momento, non sono categorizzati i risultati di Google, uno dei più efficaci search engines.
Si consideri però che il motore di Vivisimo può lavorare su qualsiasi database testuale (in quest'ottica il sito è una vetrina per la commercializzazione del prodotto) e, opprtunamente configurato, su documenti in qualsiasi lingua, consentendo all'utilizzatore una "scrematura" veloce del materiale, con la possibilità di approfondire la ricerca in modo realmente mirato: esso si propone senza dubbio come valida alternativa ai metodi "tradizionali" di reperimento delle informazioni e potrebbe davvero indicare una nuova via verso la strutturazione logica dell'informazione o, forse, della Rete stessa.
Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News
ti consigliamo di iscriverti alla Newsletter gratuita.
Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui
sotto, inserire un commento
(anche anonimo)
o segnalare un refuso.
© RIPRODUZIONE RISERVATA |
|
|
||
|