Con questa sesta puntata del ciclo "Il Pagano alla ricerca dell’informazione" entriamo nel pieno della seconda parte del ciclo, quella dedicata ai motori di ricerca e al web in generale.
Fino a qualche anno fa erano ancora ben distinti in motori di ricerca propriamente detti e directories: i motori di ricerca, esattamente come fanno tutti quelli che sicuramente conoscete e usate, cercano le parole richieste all’interno del testo di una pagina, tutta la pagina; le directories invece ordinano le pagine all’interno di un sistema gerarchico di argomenti, com’è la classificazione Dewey di cui abbiamo tanto parlato e allo stesso modo in cui ordinate i vostri files sul computer all’interno di cartelle. Oggi comunque si usano per lo più motori di ricerca e anche le vecchie directories, Yahoo in testa, si sono dotate di un sistema per la ricerca delle parole all’interno non tanto delle pagine, ma delle descrizioni, o delle parti ritenute significative per capire il contenuto di una pagina. La differenza non è sempre evidente, perché molti motori di ricerca fanno comparire per prime le pagine che hanno le parole cercate in queste stesse parti significative, ma si vede di più con le ricerche più complesse, quelle che coinvolgono almeno due parole. Provate voi stessi, lo vedrete meglio di quanto possa spiegarvi io per radio: scegliete due parole, ad esempio "paganesimo" e "Sparta" e vedrete la differenza qualitativa dei risultati.
La ricerca di parole su tutto il testo della pagina può portare a risultati che poco hanno a che fare con l’argomento vero della propria ricerca. Perché il motore di ricerca non conosce il significato delle parole, ma lavora in base ad un algoritmo che determina l’ordine dei risultati ed è questo algoritmo che rende un motore di ricerca il più valido possibile. La maggior parte di noi, penso, quando fa una ricerca con Google non va oltre la decima pagina, tranne in casi particolari, perciò il motore di ricerca deve fare attenzione a che nelle prime pagine appaiano i risultati più appropriati. In termini tecnici, si chiama precisione la percentuale di documenti rispondenti all’argomento della ricerca sul totale dei documenti richiamati; il richiamo è invece la percentuale di documenti richiamati sul totale dei documenti disponibili in rete (i motori di ricerca si avvalgono di appositi programmi, gli spiderbot, che visitano le pagine e le inseriscono nell’indice del motore di ricerca, ma potrebbero non aver visitato tutte le pagine presenti sul web). Maggiore è il richiamo, minore sarà la precisione, perché verranno richiamati anche molti documenti che c’entrano poco con quello che stavate cercando. Quindi al di là della potenza di questi programmi spiderbot, è l’algoritmo che ordina i risultati a fare la differenza tra un motore e l’altro; questo algoritmo è una ricetta segreta, che viene cambiato ogni tanto per non farlo scoprire alla concorrenza. Dall’articolo Strumenti e strategie per la ricerca di informazioni WWW di Riccardo Ridi, apparso su Biblioteche Oggi nel 2000 (ma con versioni più recenti su EBS Forum) vi elenco alcuni criteri usati dai motori di ricerca:
Nell’articolo originale ne sono indicati una decina, che potete divertirvi a leggere lì. Ma se non possiamo capire qual è l’algoritmo, come facciamo a regolare una ricerca per ottenere quello che vogliamo?
Non è sempre facile decidere cosa inserire nella nostra stringa di ricerca per ottenere i risultati desiderati e il più delle volte dovremo ripetere la ricerca variando le parole, ma possiamo tenere presente alcune cose. Innanzitutto gli operatori logici o booleani di cui parlavamo nella puntata precedente: i principali motori di ricerca usano di default l’operatore AND. Significa che se inserite più parole da cercare il motore cercherà automaticamente tutte e sole le pagine che contengono tutte le parole. Questi motori spesso hanno una schermata di ricerca avanzata, dove invece è possibile scegliere l’operatore. Poi c’è la possibilità di cercare una frase esatta, mettendola in genere tra virgolette; succede quando dovete cercare una citazione, anche se perché la vostra ricerca abbia successo, bisogna che chi abbia inserito la citazione in internet usi la vostra stessa versione di quella citazione (una cosa della ricerca su Internet spesso non è abbastanza chiara: in Internet non c’è tutto, ma solo quello che qualcuno ha inserito; anche se sembra banale, questo concetto ha più implicazioni di quante non appaiano a prima vista).
I motori di ricerca dovrebbero anche avere delle liste di parole che, anche se inserite nel campo della ricerca, non vengono in realtà cercate. In genere queste sono innanzitutto gli articoli (il, lo, i, gli, la, le) e altre parole comuni che comunque per una buona ricerca non andrebbero usate perché sono irrilevanti o rischiano di peggiorare i risultati della ricerca. Ci sono poi gli errori più eclatanti: quello più tremendo è quello di chi inserisce qualsiasi cosa desideri cercare tra www e it, un vizio che per fortuna si perde e che immagino che comunque nessuno di voi che ascolta abbia. Eppure c’è gente che ancora cerca cose del tipo www che cos’è la stregoneria .it. Va bene che nella lista dei risultati verranno prima le pagine con la parola cercata nell’indirizzo, ma non c’è un dominio per tutto! Altro errore tipico dei principianti: fare la domanda al motore di ricerca, magari con tanto di punto di domanda. Il motore di ricerca è un programma, non una persona. Sono persone quelle che hanno creato i siti, per cui se fate al motore di ricerca la domanda "che tempo farà" e compare nei risultati un sito di meteorologia è perché chi ha creato quel sito ha scommesso che voi avreste fatto quella domanda e l’ha inserita in un punto strategico, non perché il motore ha capito. Spesso chi progetta un sito cerca di prevenire alcune domande e di fare in modo che il proprio sito appaia come una risposta a quelle domande, ma non è sempre così o non è possibile farlo per tutte le domande e per tutti i siti.
In qualsiasi ricerca di questo tipo occorre individuare le parole chiave, quelle essenziali per compiere la ricerca e considerare anche il possibile uso di sinonimi o termini tecnici se la ricerca si fa particolarmente specifica. Ad esempio, tanto per tornare un attimo alle biblioteche di cui abbiamo trattato nella prima parte di questo ciclo, sapevate che il soggettario della BNCF (almeno nella sua prima versione, non ho controllato in quella successiva) non usa il termine paganesimo ma lo sostituisce con idolatria? Magari potrebbe essere interessante, un’altra volta, spendere due parole sull’influenza che il cristianesimo in Italia ha avuto persino sugli standard di catalogazione bibliografica.
Infine, i motori di ricerca spesso consentono di selezionare il tipo di documento desiderato: testo, ma anche immagine, notizia, video e così via. In questo modo potete evitare di inserire queste stesse parole nella ricerca ed evitare risultati fuorvianti: se voleste delle foto di statue antiche potreste selezionare la ricerca per immagini e cercare con "statue antiche" (anche se è comunque abbastanza vago) anziché con "foto statue antiche" per trovarvi magari in siti, quando vi va bene, dedicati a foto antiche che tra le altre cose ritraggono anche delle statue; alcuni motori di ricerca ultimamente hanno aggiustato il proprio algoritmo per evitare che l’uso del termine foto o immagini o video nella ricerca potesse compromettere i risultati.
Quando però si fa una ricerca qualsiasi, su internet e non, la cosa più importante e più difficile al tempo stesso è quella di sapere quale tipo di fonte può darci la risposta desiderata o comunque indirizzarci a ciò che vogliamo. Internet è stato salutato come il luogo della libertà di espressione, dove tutti possono dire la loro e in parte è vero, ma questo significa anche che bisogna essere in grado di distinguere il genere di fonti e capirne l’utilità. Queste abilità in inglese vengono chiamate information skills, il termine tecnico per indicare tutte quelle abilità di ricerca che permettono di trovare, selezionare, ottenere e rielaborare un’informazione a partire da diverse fonti; dovrebbero essere insegnate in una scuola che voglia stare al passo con i tempi, ma la situazione della scuola italiana la conoscete, spesso le vecchie "ricerche" delle scuole medie e purtroppo ormai anche qualche tesina per certi esami universitari, si risolvono con un copia-incolla da internet, tipicamente da wikipedia o da qualche altra enciclopedia online più o meno specializzata. Per questo, ne faremo l’argomento della prossima puntata: è vero che Internet consente a tutti di accedere all’informazione in ugual modo? E’ vero che Internet contiene la risposta a tutte le domande, così come qualcuno sembra voler credere?
Manuela Simeoni
La riproduzione dei contenuti del sito, qualora non espressamente indicato, è permessa a condizione di citare il sito ed eventualmente l'autore del brano citato. Per ulteriori informazioni: info@giornopaganomemoria.it