viernes, 16 de diciembre de 2011

reCaptcha Bug

This is happening with reCaptcha - I guess is a kind of Bug. Otherwise, they may be having wrong information for using with the OCR software.



Estuve escuchando la charla de Luis von Ahn (creador de reCaptcha) y ahora proyecto de Google.

http://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration.html

Donde explica algo que muchos sabemos y es que se usa este famoso sistema para poder ayudar en la digitalización de libros (de la biblioteca digital de Google)

Cómo se hace? Fácil: cuando ingresamos un código, vemos 2 palabras. Una de esas palabras no pudo ser reconocida por el software OCR de Google entonces nos pide ayuda para que la interpretemos nosotros.

La otra palabra está puesta para que el sitio sepa que hay un humano detrás del monitor y no un robot programado para hacer spam o descargar automáticamente, etc.

Bueno, entonces cuando vi esto me pregunté: Qué pasa si yo se cual es la palabra que necesita Google interpretar? Si el software de OCR no supo cuál es, entonces cómo podrá saber que la estoy ingresando bien? Si sabemos esto, entonces podemos terminar haciendo que las digitalizaciones de libros en Google terminen diciendo cualquier cosa!

Y el problema es que es muy fácil saber cuál de las dos palabras es la que no sabe reCaptcha... ¡Es la que está tachada! Porque ellos pueden colocar ese tachón de forma dinámica. La otra palabra es la que el software no pudo interpretar.

Sabiendo esto, me fui a probar lo siguiente: Ingreso cualquier cosa en el lugar de la palabra que no detectó el programa OCR y entonces no solo que me dejará pasar para el paso siguiente sino que le meto basura a la base de datos de Google!

Algunas capturas de eso. Al día de hoy persistía el error. Informé a reCaptcha mediante el email de prensa de Google pero no he recibido respuesta.

Yo creo que es un asunto a tener en cuenta...