2009/09/16

Google acquiert reCaptcha: nous allons bosser "au black" pour Mountain View

Google annonce aujourd'hui l'acquisition de la société reCaptcha.

C'est une toute petite boîte de 6 personnes donc la taille de l'acquisition n'est pas le sujet.

Ce qui m'intéresse, c'est le modèle qui se cache derrière: nous faire bosser au noir pour le géant de Mountain View en améliorant la reconnaissance optique pour que les 10 millions de livres déjà digitalisés dans Google Books et ceux à venir soient encore de plus haute qualité.

En effet, un volume important (en millions...) de livres sont de vieux livres afin qu'ils soient libres de droit: la qualité du papier, de l'encre et de l'impression se sont dégradés. Le processus OCR est donc plus difficile.

L'idée que je trouve brillante est d'utiliser les captchas produits par le service reCaptcha pour "faire d'une pierre deux coups" selon le proverbe:
  • utiliser le captcha pour son but habituel: vérifier que celui qui veut commenter, écrire une contribution, etc... est bien un humain. Pour ceux qui sont encore perplexes, les détails de ce test de Turing automatisé sont abondants sur cette page de Wikipedia.
  • utiliser simultanément la conversion de l'image en texte faite par l'humain en information destinée à convertir un passage flou traité avec peu de fiabilité.

Comment ? Regardez bien les captchas de reCaptcha (cf ci-dessus): contrairement à d'autres, ils comportent 2 mots. Et donc, dans l'idée Google: l La transcription d'un des 2 mots est pour l'authentication à partir d'un mot connu et défini par le service, l'autre est la bitmap scannée (mais nettoyée du bruit numérique...) issue d'un mot "douteux" trouvé dans Google Books.

En saisissant les deux mots, l'utilisateur du site communautaire sert les 2 buts: il s'authentifie par le mot déjà connu d'un côté et il bosse un peu pour Google de l'autre.... Bien sûr, un même mot sera vérifié plusieurs fois pour "blinder" le processus avant de le confirmer à Google Books.

Avec 30 millions de captchas servis chaque jour par reCaptcha sur plus de 100'000 sites, Google recrute ainsi une myriade de travailleurs clandestins! Je charrie peut-être un peu avec le mot "clandestin" mais c'est pour la force de la métaphore... ;-) [Note pour les tire-au-flanc: on n'est bien sûr pas sûr à tous les coups que l'un des 2 mots servent vraiment à la reconnaissance. Il n'est donc pas possible de "saloper" le boulot en ne saisissant qu'un mot...]

[Précision utile de Gallypette: ce modèle de fonctionnement est le modèle originel de reCaptcha - créée par des chercheurs de Carnegie-Mellon - que Google rachète purement et simplement pour l'utiliser à son profit]

Le modèle est donc finalement à 2 niveaux:
  • Google offre un service d'authentification anti-spam gratuit à des sites communautaires du Web Squared
  • Il le fait payer (avec une vraie valeur business pour le géant de Mountain View...) par les utilisateurs du site....
Les 2 y gagnent sur notre dos finalement. Mais, puisqu'on peut finalement placer notre commentaire ultra-brillant sur ce site très en vue, c'est "win-win", non? ;-)

On avait les fourmis-taggueuses de del.icio.us. Maintenant on a les fourmis-OCR de Google!

C'est donc du crowdsourcing canonique ! Puisque sa définition est selon Wikipedia:. "le crowdsourcing consiste à utiliser la créativité, l'intelligence et le savoir-faire d'un grand nombre d'internautes, et ce, au moindre coût". Bon, en même temps, tant avec la Base de Données des Intentions que le PageRank, Google n'en est vraiment pas à son coup d'essai avec cette "technologie"....

PS: C'est aussi une forme améliorée du Mechanichal Turk d'Amazon!

Source: blog Media & Tech (par didier durand)

Aucun commentaire:

lala moulati ana9a maghribia