Precision, recall e Tumblr

La differenza fra precision e recall (anche in italiano) l’ho capita, finalmente, su Tumblr (precisamente, con l’account di AlmaDL (l’ovvio almadl.tumblr.com)).

La teoria dice che:

  • precision: fraction of retrieved instances that are relevant
  • recall: fraction of relevant instances that are retrieved

In modo un po’ più sbrodolato, in una ricerca (es. con un motore di ricerca, su delle pagine web) la precisione è una misura di esattezza, cioè la percentuale degli elementi ritrovati che sono attinenti alla ricerca (sulla totalità degli elementi ritrovati).

Recall invece è una misura di completezza, cioè la percentuale degli elementi ritrovati che sono attinenti alla ricerca (sulla totalità degli elementi attinenti).

Come si può vedere qui sopra, è il denominatore a cambiare: precision e recall sono dunque elementi inversamente proporzionali, più aumenta l’una, più diminuisce l’altra. Da qui, necessariamente, deriva la non esistenza del motore di ricerca perfetto, cioè di un motore che cerchi e trovi tutti e soli gli elementi attinenti alla nostra ricerca. Se vogliamo essere più precisi, dobbiamo sacrificare la completezza, se vogliamo essere più completi, avremo sicuramente meno precisione e più rumore di fondo (forse sono solo io, ma sento Gödel che se la ride).

E, dunque (torniamo all’inizio), è quello che mi accade con il tumblr di Almadl, che in teoria si dovrebbe occupare di foto di libri antichi, manoscritti, incunaboli ecc. (e ovviamente anche di open access). Costruendo il tumblr da zero, ho iniziato a seguire diversi utenti, piano piano, selezionadoli con cura (è un tumblr “di lavoro”), fino ad accorgermi dell’incompatibilità tra il volere un rapporto segnale/rumore ottimale (precision), e l’avere molti elementi attinenti al mio argomento (recall).
Più tumblr seguo, più aumenteranno le probabilità di incappare in qualcosa di interessante e attinente, ma aumenteranno anche molto le possibilità di trovare elementi che non mi interessano.
Meno tumblr seguo, al contrario, più potrò essere preciso e trovare solo e soltanto cose che mi interessano, ma verranno (ahimè) sempre dalle stesse persone, e mi perderei un sacco di roba interessante da altri utenti.

Un altro aspetto importante (credo) è che tumblr non ha un ranking, un “ordinamento per rilevanza” (come invece ha Google, per esempio, che oltre a trovare gli elementi che ti interessano te li mette in ordine, secondo uno schema complicatissimo per cui sa sempre cosa vuoi (o almeno ci riesce abbastanza bene (e spesso))).
In questo modo, Google (penso) cerca di dare un po’ il colpo al cerchio e il colpo alla botte, spingendo in fondo risultati che non interessano solo marginalmente. Tumblr, al contrario, non è un motore di ricerca, ma posta i suoi elementi in ordine cronologico, per cui quello che potremmo definire rumore di fondo, elementi che mi interessano poco, è decisamente più visibile (e fastidioso). Sta di fatto che non esiste un equilibrio ottimale fra l’avere solo quello che vuoi e tutto ciò che vuoi.

[questo post non ha una morale (a parte l'ultima frase che ho scritto dopo), era soltanto una cosa un po' nerd che volevo sapeste].

About these ads

4 thoughts on “Precision, recall e Tumblr

  1. visto che non mi fa mettere il “mi piace” (maccome! ma non sei un iscritto wordpress! maccome!) ti condivido su facebook.
    sempre esatto, preciso e completo. :)

      1. la parte tra parentesi è il rimprovero che Mr WordPress mi fa ogni volta; io non sono su wordpress.
        l’importante è divulgare, fa nulla se non siamo amici.
        ma se vuoi ti cerco io, che so il tuo nome (pare una minaccia a metà tra la bibbia e un fantasy). :)

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...