Imperialismo Google (XXIII) Google Compra reCAPTCHA, digitalización de libros, SPAM ... [5 enlaces][5 links]

Debo encontrar una verdad que sea verdad para mí

Soren Kierkegaard

Yo mismo soy mi poder y soy por él mi propiedad

Max Stirner

El mago hizo un gesto y desapareció el hambre, hizo otro gesto y desapareció la injusticia, hizo otro gesto y se acabo la guerra. El político hizo un gesto y desapareció el mago."

Woody Allen

“El sentido no es nunca principio ni origen, sino producto. No hay que descubrirlo, restaurarlo, ni reemplearlo sino que hay que producirlo mediante una nueva maquinaria”

Gilles Deleuze

Hoy traemos para nuestra sección [5 enlaces][5 links] y también para nuestra serie imperialism Google / imperialismo Google la noticia desde 5 interesantísimos blogs sobre la compra de ReCaptcha por Google.

1) Google Acquires reCAPTCHA to Fight Spam and Improve Google Books OCR en Read Write WEb.

recaptcha_logo_dec08.pngGoogle just announced that it has acquired reCAPTCHA, one of the leading providers of CPATCHAs, the hard-to-read puzzles you often have to solve before you can sign up for a new web service. Google, of course, isn't so much interested in owning software that can generate CAPTCHAs - that's an easy problem to solve - but is looking at reCAPTCHA as a way to improve the optical character recognition (OCR) software it uses for large scale text scanning projects like Google Books and the Google News Archive Search.

According to Google, reCAPTCHA is currently in use on over 100,000 websites to prevent spam and fraud. the reCAPTCHA team, which is currently based at Carnegie Mellon University, will join Google.

2) Google Buys reCAPTCHA en Google Operating System.

reCAPTCHA seems like a perfect match for Google: it's a project that generates CAPTCHAs and uses the results to digitize books. "reCAPTCHA improves the process of digitizing books by sending words that cannot be read by computers to the Web in the form of CAPTCHAs for humans to decipher. (...) Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one."


3) Google compra reCAPTCHA en Denken Über.

En una de las compras más interesantes que hizo en los últimos tiempos Google acaba de adquirir reCAPTCHA el sistema que permite evitar spam en comentarios o, más formalmente diferenciar bots de humanos a través de un Completely Automated Public Turing test to tell Computers and Humans Apart” y que es interesante porque su arquitectura de dos palabras está pensada para ayudar en la digitalización de libros.

google recaptcha Google compra reCAPTCHA

Y, es obvio, que eso es lo que Google quiere para si mismo; comprar una tecnología que demuestra su validez día a día y que tiene dos usos: evitar que robots abran cuentas o spammeen sus servicios y, por otro lado, automatizar y afinar más y más su tecnología de digitalización de texto… que necesitan con urgencia para Google Books y Google News Search

4) Google compra ReCaptcha para mejorar la digitalización de libros en Comunicación Cultural.

Google ha adquirido la compañía ReCaptcha para mejorar el proceso de digitalización de libros, reconociendo así que los seres humanos son mejores que los algoritmos informáticos para según qué tareas. Esta empresa utiliza un método que sus creadores llaman "computación humana", es decir, capital intelectual humano para ayudar a resolver los problemas de los ordenadores que no pueden resolver por sí mismos. The New York Times, por ejemplo, ya ha utilizado los servicios de esta empresa para escanear 150 años de archivos.

JaneEyre.jpg

Es una compra muy estratégica por parte de Google para mejorar el servicio a lectores, bibliotecarios y libreros.

5) Google adquiere reCAPTCHA: Enseñando a leer a la máquina en Fayer Wayer


Prueba de Turing pública y automática para diferenciar máquinas y humanos

El día de ayer Google compró reCAPTCHA, un sistema desarrollado originalmente por la Universidad de Carnegie Mellon y que más tarde se convirtió en una compañía sólida encargada de proporcionar CAPTCHAS o bien letras cifradas que fueran difícilmente interpretadas por bots. De esta manera ayuda a proteger más de 100,000 sitios de spam y fraude, ¿Recuerdan el caso de Christopher Poole (aka moot ó la persona más influyente del mundo)?.

Pero la importancia de la empresa radica no solo en la implementación de un servicio Web gratuito para brindar CAPTCHAs en lenguajes de programación como PHP o plugins para Wordpress, sino en el método que utiliza para brindar esta imágenes que solo los humanos pueden interpretar y que al mismo tiempo ayuda a digitalizar textos.

Dado a que lo textos digitalizados generalmente provienen de los archivos escaneados periódicos y libros antiguos, a los programas de OCR les resulta difícil reconocer estas palabras porque la tinta y el papel se han degradado a lo largo del tiempo, pero si estas se convierten en CAPTCHAs para resolverse por humanos se simplifica el proceso de reconocimiento.

Fuente: [varias, imagen vía tecmoviles ]