La differenza fra precision e recall (anche in italiano) l’ho capita, finalmente, su Tumblr (precisamente, con l’account di AlmaDL (l’ovvio almadl.tumblr.com)).
La teoria dice che:
- precision: fraction of retrieved instances that are relevant
- recall: fraction of relevant instances that are retrieved
In modo un po’ più sbrodolato, in una ricerca (es. con un motore di ricerca, su delle pagine web) la precisione è una misura di esattezza, cioè la percentuale degli elementi ritrovati che sono attinenti alla ricerca (sulla totalità degli elementi ritrovati).
Recall invece è una misura di completezza, cioè la percentuale degli elementi ritrovati che sono attinenti alla ricerca (sulla totalità degli elementi attinenti).
Come si può vedere qui sopra, è il denominatore a cambiare: precision e recall sono dunque elementi inversamente proporzionali, più aumenta l’una, più diminuisce l’altra. Da qui, necessariamente, deriva la non esistenza del motore di ricerca perfetto, cioè di un motore che cerchi e trovi tutti e soli gli elementi attinenti alla nostra ricerca. Se vogliamo essere più precisi, dobbiamo sacrificare la completezza, se vogliamo essere più completi, avremo sicuramente meno precisione e più rumore di fondo (forse sono solo io, ma sento Gödel che se la ride).
E, dunque (torniamo all’inizio), è quello che mi accade con il tumblr di Almadl, che in teoria si dovrebbe occupare di foto di libri antichi, manoscritti, incunaboli ecc. (e ovviamente anche di open access). Costruendo il tumblr da zero, ho iniziato a seguire diversi utenti, piano piano, selezionadoli con cura (è un tumblr “di lavoro”), fino ad accorgermi dell’incompatibilità tra il volere un rapporto segnale/rumore ottimale (precision), e l’avere molti elementi attinenti al mio argomento (recall).
Più tumblr seguo, più aumenteranno le probabilità di incappare in qualcosa di interessante e attinente, ma aumenteranno anche molto le possibilità di trovare elementi che non mi interessano.
Meno tumblr seguo, al contrario, più potrò essere preciso e trovare solo e soltanto cose che mi interessano, ma verranno (ahimè) sempre dalle stesse persone, e mi perderei un sacco di roba interessante da altri utenti.
Un altro aspetto importante (credo) è che tumblr non ha un ranking, un “ordinamento per rilevanza” (come invece ha Google, per esempio, che oltre a trovare gli elementi che ti interessano te li mette in ordine, secondo uno schema complicatissimo per cui sa sempre cosa vuoi (o almeno ci riesce abbastanza bene (e spesso))).
In questo modo, Google (penso) cerca di dare un po’ il colpo al cerchio e il colpo alla botte, spingendo in fondo risultati che non interessano solo marginalmente. Tumblr, al contrario, non è un motore di ricerca, ma posta i suoi elementi in ordine cronologico, per cui quello che potremmo definire rumore di fondo, elementi che mi interessano poco, è decisamente più visibile (e fastidioso). Sta di fatto che non esiste un equilibrio ottimale fra l’avere solo quello che vuoi e tutto ciò che vuoi.
[questo post non ha una morale (a parte l’ultima frase che ho scritto dopo), era soltanto una cosa un po’ nerd che volevo sapeste].
visto che non mi fa mettere il “mi piace” (maccome! ma non sei un iscritto wordpress! maccome!) ti condivido su facebook.
sempre esatto, preciso e completo.
:)
"Mi piace""Mi piace"
Ma io ci sono su WordPress! I like si possono mettere! Sei tu che non sei loggata! (grazie)
"Mi piace""Mi piace"
(che poi, io su facebook non ti sono amico, non so come ti chiami :-P)
"Mi piace""Mi piace"
la parte tra parentesi è il rimprovero che Mr WordPress mi fa ogni volta; io non sono su wordpress.
l’importante è divulgare, fa nulla se non siamo amici.
ma se vuoi ti cerco io, che so il tuo nome (pare una minaccia a metà tra la bibbia e un fantasy).
:)
"Mi piace""Mi piace"