Per chi cerca l'ago nel Grande Pagliaio

In principio era il motore di ricerca. Dopo, venne il searchbot. Poi fu la volta del portale. Ma è già iniziata una nuova era: quella del document clustering engine. Chi cerca, ha ora nuove possibilità per trovare.



[ZEUS News - www.zeusnews.it - 17-07-2001]

Internet è una fonte inesauribile di informazioni; tuttavia, queste sono spesso destrutturate e disperse nei milioni e milioni di pagine web a disposizione dei "naviganti". Proprio a causa dell'immensità dell'orizzonte virtuale e della modalità di indicazione della rotta, trovare in Rete una qualsiasi informazione è praticamente impossibile senza l'aiuto di un meccanismo che prescinda dall'indirizzo al quale essa si trova e sia in grado di rintracciarla in base a qualche criterio di ricerca.

Per rispondere a tale esigenza nascono, alcuni anni fa, siti che mettono a disposizione del pubblico potenti programmi dotati di tre componenti: un crawler, cioè un software in grado di navigare in modo asincrono nella Rete seguendo ricorsivamente i links rilevati nelle pagine visitate; un database destinato a raccogliere i collegamenti ai siti esplorati dal crawler indicizzandoli in base al testo in essi contenuto; una interfaccia web per l'interrogazione della base dati. Si tratta dei motori di ricerca.

Se stiamo cercando un manuale sulla programmazione in C++ è sufficiente specificare attraverso detta interfaccia, ad esempio, le parole "tutorial" e "C++" per ottenere un elenco di siti ove esse compaiono. Il limite evidente di tale approccio è che parole piuttosto comuni possono comparire in pagine web che, dal punto di vista del contenuto, hanno ben poco a che fare con il nostro oggetto del desiderio.

Si giunge così all'introduzione di nuove tag HTML, appositamente concepite per consentire allo sviluppatore del sito di elencare le parole chiave da associare a ciascuna pagina web. Diventa possibile contribuire alla correttezza dell'indicizzazione dei propri siti, fornendo una indicazione di massima della logica sottostante al testo. Nonostante le interessanti potenzialità, detto sistema ha poco successo (chi sviluppa siti spesso ignora addirittura l'esistenza del meccanismo descritto o, nel migliore dei casi, non si preoccupa di utilizzarlo).

Un ulteriore tentativo di facilitare la ricerca in Rete è rappresentato dai searchbots, programmi (da installare sul nostro computer) che implementano la form in cui devono essere specificate le parole da cercare e si preoccupano di "passarle" a più motori di ricerca, per poi presentare una sintesi dei risultati offerti da ciascuno di essi. I searchbots rappresentano certamente un valido sistema di espansione degli orizzonti, ma, generalmente, sono di poco aiuto nella definizione di efficaci criteri di ricerca. Anzi, si rischia che la troppa informazione, in quanto non utilizzabile nella pratica, equivalga a nessuna informazione.

Molti motori di ricerca, perciò, si trasformano in portali: le pagine web rilevate dal crawler vengono (in aggiunta alla consueta indicizzazione) categorizzate sulla scorta dell'argomento trattato. L'interfaccia del portale offre, oltre alla form per ricerca testuale, un elenco di categorie, ciascuna delle quali è spesso suddivisa in sottocategorie, e così via per diversi livelli di profondità. Ciò consente un approccio differente: invece di cercare l'informazione sulla base di parole che si presume compaiano nelle pagine di nostro interesse, la si raggiunge seguendo un percorso logico. Riprendendo l'esempio precedente, si può partire dalla categoria "Computer", per passare, al suo interno, a "Programmazione", poi "Linguaggi", "C++" e, infine "Manuali", ove ci aspettiamo di trovare un elenco di links a siti che propongono o sono, essi stessi, manuali di programmazione in C++.

Anche tale metodologia di ricerca ha i suoi limiti: le categorie sono generate a priori dal team di gestione del portale e può accadere che l'informazione ricercata sia di difficile collocazione in una di esse. Inoltre, persone diverse possono adottare differenti criteri di categorizzazione: ciò può costringerci ad adattare il nostro modo di ragionare a quello di chi ha definito le categorie.

Ma, in Rete, il tempo scorre veloce, ed oggi è già l'inizio di una nuova era: un gruppo di ricercatori presso la Carneige Mellon University ha sviluppato Vivisimo, dagli stessi definito un document clustering engine, cioè "motore per il raggruppamento di documenti". Vediamo, in pratica, di che si tratta.

Vivisimo riassume in sè le caratteristiche di tutti gli strumenti di ricerca descritti: si presenta come un search engine vecchio stile (solo form, niente categorie) ma, come un searchbot, interroga contemporaneamente diversi motori di ricerca; infine categorizza dinamicamente le pagine reperite presentando, quale risultato della ricerca, una sorta di portale "dedicato", nel quale i documenti sono raccolti in gruppi (clusters) costruiti in modo del tutto automatico in base a criteri di rilevanza testuale (ricorrenze di parole, posizione delle stesse nel documento o relativamente ad altre parole ricorrenti, e via dicendo).

Per ragioni di performance, Vivisimo analizza solo i risultati che i motori di ricerca interrogati restituiscono entro tempi piuttosto brevi; considerata la lentezza che spesso affligge la comunicazione in Rete, ripetendo più volte la stessa ricerca è possibile ottenere risultati differenti. Inoltre, al momento, non sono categorizzati i risultati di Google, uno dei più efficaci search engines.

Si consideri però che il motore di Vivisimo può lavorare su qualsiasi database testuale (in quest'ottica il sito è una vetrina per la commercializzazione del prodotto) e, opprtunamente configurato, su documenti in qualsiasi lingua, consentendo all'utilizzatore una "scrematura" veloce del materiale, con la possibilità di approfondire la ricerca in modo realmente mirato: esso si propone senza dubbio come valida alternativa ai metodi "tradizionali" di reperimento delle informazioni e potrebbe davvero indicare una nuova via verso la strutturazione logica dell'informazione o, forse, della Rete stessa.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Commenti all'articolo (0)


La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Immaginiamo un mondo popolato dalle auto di Google: senza pilota, senza sterzo e senza pedali. Qual è il maggior vantaggio? (vedi anche gli svantaggi)
Sarà più comodo viaggiare: non dovremo preoccuparci di guidare e avremo più tempo libero a disposizione.
Potranno spostarsi in auto anche i non vedenti, gli invalidi o in generale le persone non più in grado di guidare.
Si risparmierà carburante grazie all'ottimizzazione: niente accelerazioni o frenate brusche, rispetto dei limiti di velocità e così via.
Con il Gps incorporato ci si smarrirà di meno e non sarà necessario consultare mappe o chiedere indicazioni.
Ci sarà maggiore sicurezza e meno incidenti: niente ubriachi al volante o anziani non più in grado di guidare. Zero distrazioni, zero stanchezza, zero errori del conducente (causa del 90% degli incidenti).
Ci sarà meno traffico: potremo più facilmente condividere un'auto in car sharing che ci venga a prendere e ci porti dove desideriamo andare, trovando parcheggio da sola o rimettendosi a disposizione della comunità.
La casta dei tassisti non avrà più ragione di esistere e sarà finalmente azzerata.

Mostra i risultati (1990 voti)
Febbraio 2026
Il dottor IA è sempre disponibile e gratuito. Ora è autorizzato a operare come un medico vero
Il mercato è invaso da SSD fake, inaffidabili e con prestazioni inferiori
L'Europa accende IRIS 2, la costellazione satellitare che vuole ridurre la dipendenza da Starlink
Apple rivoluziona l'acquisto dei Mac
Gennaio 2026
WhatsApp, chatbot di terze parti a pagamento. Ma solo in Italia
WhatsApp, 4 euro al mese per rimuovere la pubblicità
Windows 11, aggiornamento d'emergenza risolve i bug della patch di gennaio
NexPhone, lo smartphone 3-in-1 con Android, Windows e Linux che può sostituire un PC completo
Outlook "completamente inutilizzabile" dopo l'aggiornamento di Windows 11
Batterie rimovibili per legge, la UE riscrive il design degli smartphone
Windows 11, dopo l'aggiornamento di gennaio il PC non si spegne più
Rovigo, foto intime rubate dai telefoni in riparazione e condivise in rete
Windows 11, il primo aggiornamento del 2026 causa errori e instabilità
Amazon aggiorna Alexa senza permesso: Alexa Plus imposto in automatico gli abbonati Prime
Windows 11 troppo pieno di IA? Winslop cancella Copilot e le integrazioni nascoste
Tutti gli Arretrati
Accadde oggi - 7 febbraio


web metrics