Curiosità sul Captcha
Anche Tosslab contribuisce alla digitalizzazione dei testi antichi grazie al test reCaptcha.
Chissà quante volte, trovandoci a creare un nuovo indirizzo e-mail o fare un'iscrizione in uno dei tanti siti immersi nella rete, ci veniva richiesto di scrivere delle lettere o dei numeri, presenti in una sequenza, che apparivano distorti o offuscati sullo schermo. Ebbene, questo sistema, noto con il nome di test captcha, è utilizzato per difenderci dallo spam, ma non solo..

L'acronimo inglese C.A.P.T.C.H.A. - Completely Automated Public Turing test to tell Computers and Humans Apart (Test di Turing pubblico e completamente automatico per distinguere computer e umani), in ambito informatico, fa riferimento ad un test, fatto di una o più domande e risposte, utile a determinare se l'utente sia un umano (e non un computer o, più precisamente, un bot).
I test Captcha hanno avuto degli utilizzi secondari non legati unicamente all'eliminazione dello spam, il più noto riguarda il riconoscimento di testi contenuti in libri antichi e prende il nome di reCaptcha.
Molte biblioteche stanno provvedendo a convertire in digitale le loro collezioni di antichi manoscritti, questa conversione viene ottenuta tramite la digitalizzazione delle pagine e la loro successiva analisi tramite un programma OCR - Optical Character Recognition (riconoscimento ottico dei caratteri) che, interpretando le immagini, genera il testo contenuto.
I programmi OCR, purtroppo, interpretano con difficoltà le lettere sbiadite e le pagine ingiallite dei testi antichi e quindi, normalmente, necessitano di un supporto umano che rallenta il processo e innalza il costo della digitalizzazione.
La novità di reCAPTCHA è quella di migliorare il processo di riconoscimento utilizzando le parole non riconosciute per creare delle immagini captcha che i visitatori del portale devono decifrare. Il computer non sa a che parola corrisponde l'immagine (visto che non è riuscito a digitalizzarla), quindi per capire se la corrispondenza è giusta, reCAPTCHA invia all'utente due parole: una è quella che non riesce a leggere, mentre l'altra è una parola conosciuta. Ad entrambe vengono aggiunte linee e sono distorte alla stessa maniera, per cui, se l'utente riesce a leggere con esattezza la parola conosciuta (che è possibile verificare) possiamo essere certi (con un minimo margine di errore) che anche quella sconosciuta sia esatta.
Ricercatori della Carnegie Mellon University hanno deciso di utilizzare i sistemi captcha per interpretare le parole dubbie individuate dai programmi OCR. Quando due sistemi OCR identificano in modo diverso una parola, questa viene associata a una parola nota e inviata a un utente che deve superare un test captcha per accedere a un servizio. Si presuppone che, se un utente individui correttamente la parola nota, allora individuerà anche la parola ignota con elevata probabilità.
Quando tre utenti danno la stessa risposta il sistema archivia la parola come corretta.
Questo sistema ha permesso di convertire 440 milioni di parole con un'accuratezza del 99%. Da agosto 2008 il sistema converte 4 milioni di parole al giorno.
Link di riferimento:















