Le nouveau reCAPTCHA de Google a un côté obscur

Le nouveau reCAPTCHA de Google a un côté obscur


La dernière version du reCaptcha, détecteur de robots, est invisible pour les utilisateurs et s’est répandue sur plus de 650 000 sites web. C’est une bonne chose pour la sécurité, mais pas pour la vie privée.

Il nous est arrivé à tous de nous connecter à un site web ou de remplir un formulaire et de cliquer sur des cases représentant des feux de signalisation, des vitrines de magasins ou des ponts, dans une tentative désespérée de convaincre l’ordinateur que nous ne sommes pas un robot.

Depuis de nombreuses années, c’est l’une des principales méthodes utilisées par reCaptcha – le détecteur de robots Internet géré par Google – pour déterminer si un utilisateur est un robot ou non. Mais l’automne dernier, Google a lancé une nouvelle version de l’outil, dans le but d’éliminer complètement cette expérience ennuyeuse pour l’utilisateur. Désormais, lorsque vous saisissez un formulaire sur un site Web qui utilise reCaptcha V3, vous ne verrez pas la case à cocher « Je ne suis pas un robot » et vous n’aurez pas à prouver que vous savez à quoi ressemble un chat. Au contraire, vous ne verrez rien du tout.
« C’est une meilleure expérience pour les utilisateurs. Tout le monde a déjà échoué à un Captcha », explique Cy Khormaee, responsable du produit reCaptcha chez Google. Au lieu de cela, Google analyse la façon dont les utilisateurs naviguent sur un site Web et leur attribue un score de risque en fonction du degré de malveillance de leur comportement. M. Khormaee ne veut pas partager les signaux utilisés par Google pour déterminer ces scores, car cela permettrait aux escrocs d’imiter plus facilement des utilisateurs inoffensifs, mais il pense que cette nouvelle version de reCaptcha rend la tâche incroyablement difficile aux bots ou aux agriculteurs de Captcha (des humains qui sont payés pour casser des Captchas en ligne) pour tromper le système de Google.

C’est un problème très difficile par rapport au problème général de « faire semblant d’être un humain ». Les administrateurs de sites Web ont ensuite accès aux scores de risque de leurs visiteurs et peuvent décider de la manière de les traiter : Par exemple, si un utilisateur ayant un score de risque élevé tente de se connecter, le site Web peut définir des règles pour lui demander de saisir des informations de vérification supplémentaires par le biais d’une authentification à deux facteurs. Comme le dit Khormaee, « dans le pire des cas, nous avons un petit désagrément pour les utilisateurs légitimes, mais s’il y a un adversaire, nous empêchons le vol de votre compte. »

Selon le site Web de statistiques technologiques Built With, plus de 650 000 sites Web utilisent déjà reCaptcha v3 ; globalement, au moins 4,5 millions de sites Web utilisent reCaptcha, dont 25 % des 10 000 premiers sites. Google teste également actuellement une version entreprise de reCaptcha v3, dans laquelle Google crée un reCaptcha personnalisé pour les entreprises qui recherchent des données plus granulaires sur les niveaux de risque des utilisateurs afin de protéger les algorithmes de leurs sites contre les utilisateurs et les robots malveillants.

Mais ce nouveau système

Il est basé sur le score de risque, s’accompagne d’un sérieux compromis : la vie privée des utilisateurs.

Selon deux chercheurs en sécurité qui ont étudié le système reCaptcha, l’une des façons dont Google détermine si vous êtes un utilisateur malveillant ou non est de savoir si un cookie Google est déjà installé sur votre navigateur. Il s’agit du même cookie qui vous permet d’ouvrir de nouveaux onglets dans votre navigateur et de ne pas avoir à vous reconnecter à votre compte Google à chaque fois. Mais selon Mohamed Akrout, un étudiant en doctorat d’informatique à l’Université de Toronto qui a étudié le système reCaptcha, il semble que Google utilise également ses cookies pour déterminer si une personne est un humain dans les tests reCaptcha v3. Dans un article publié en avril, M. Akrout explique que les simulations de reCaptcha v3 effectuées sur un navigateur avec un compte Google connecté ont obtenu des scores de risque inférieurs à ceux des navigateurs sans compte Google connecté.

« Si vous avez un compte Google, il est plus probable que vous soyez humain », dit-il. Google n’a pas répondu aux questions sur le rôle que les cookies Google jouent dans reCaptcha.Avec reCaptcha v3, le consultant en technologie Marcos Perona et les tests d’Akrout ont tous deux constaté que leurs scores reCaptcha étaient toujours à faible risque lorsqu’ils visitaient un site Web de test sur un navigateur où ils étaient déjà connectés à un compte Google. En revanche, s’ils se rendaient sur le site de test à partir d’un navigateur privé tel que Tor ou un VPN, leurs résultats étaient à haut risque.

Pour que ce système de score de risque fonctionne correctement, les administrateurs de sites Web sont censés intégrer le code reCaptcha v3 sur toutes les pages de leur site, et pas seulement sur les formulaires ou les pages de connexion. Ensuite, reCaptcha apprend au fil du temps comment les utilisateurs de leur site Web agissent généralement, ce qui aide l’algorithme d’apprentissage automatique sous-jacent à générer des scores de risque plus précis. Étant donné que reCaptcha v3 est susceptible de se trouver sur chaque page d’un site Web, si vous êtes connecté à votre compte Google, il y a de fortes chances que Google obtienne des données sur chaque page Web que vous visitez et qui est intégrée à reCaptcha v3 – et il n’y a souvent aucune indication visuelle sur le site que cela se produit, à part un petit logo reCaptcha caché dans le coin.

Le secret professionnel de google

Khormaee n’a pas voulu aborder la façon dont Google utilise les données pour reCaptcha de quelque façon que ce soit et a plutôt renvoyé Fast Company aux conditions de service de Google, qui sont liées sous le logo reCaptcha sur la plupart des sites. Cependant, il n’y avait aucune référence à reCaptcha dans les conditions de service. Après la publication de cet article, Google a fait savoir que l’API de reCaptcha envoie des informations sur le matériel et les logiciels, y compris des données sur les appareils et les applications, à Google pour analyse, et que le service est uniquement utilisé pour lutter contre le spam et les abus.

Selon M. Perona, le fait que Google encourage les administrateurs de sites à installer reCaptcha sur l’ensemble de leurs sites, puis à partager les scores de risque qui en résultent avec ces administrateurs est une excellente chose pour la sécurité, car il estime que cela « donne aux propriétaires de sites plus de contrôle et de visibilité sur ce qui se passe » avec les attaques potentielles d’escrocs et de robots, et que le système donnera aux administrateurs des scores plus précis que si reCaptcha n’utilise que les données d’une seule page Web pour analyser le comportement des utilisateurs. Mais il y a un compromis à faire. « C’est logique et plus convivial, mais cela donne aussi à Google plus de données », dit-il. Google n’a pas voulu préciser ce qu’il fait des données qu’il recueille sur le comportement des utilisateurs via reCaptcha, se contentant de dire qu’elles sont utilisées pour améliorer reCaptcha et à des fins de sécurité générale.

Ce type de collecte de données à l’aide de cookies se produit ailleurs sur Internet. Les grandes entreprises l’utilisent comme un moyen d’évaluer où vont leurs utilisateurs lorsqu’ils surfent sur le Web, ce qui peut ensuite être lié à la fourniture de publicités mieux ciblées. Par exemple, le cookie reCaptcha de Google suit la même logique que le bouton « J’aime » de Facebook lorsqu’il est intégré à d’autres sites Web : il donne au site une fonctionnalité de média social, mais il permet également à Facebook de savoir que vous êtes là. Auparavant, Google avait déclaré que les données capturées par reCaptcha n’étaient pas utilisées pour le ciblage publicitaire ou l’analyse des intérêts et des préférences des utilisateurs. Après la publication de cette histoire, Google a déclaré que les informations collectées par reCaptcha ne seront pas utilisées pour la publicité personnalisée par Google.

M. Perona considère l’utilisation de reCaptcha par Google comme une « prise de terrain en ligne » qui renforce l’emprise de Google sur l’internet. Il pense que reCaptcha est similaire en cela à d’autres produits de Google comme Accelerated Mobile Pages (AMP), un programme qui permet aux pages des sites d’information de se charger plus rapidement sur les appareils mobiles, mais qui a suscité la consternation des éditeurs qui se demandent si Google n’enlève pas du trafic web aux sites d’information. Il en va de même pour Google Chrome, que le Washington Post a récemment qualifié de « logiciel de surveillance » (je fais partie de ceux qui ont abandonné Chrome pour Firefox).

« C’est toujours une arme à double tranchant », dit Perona. « Vous gagnez quelque chose, mais vous donnez aussi à Google un peu plus de contrôle sur tout ce qui est en ligne ». Le gain est la sécurité et une meilleure expérience utilisateur, mais la vie privée peut en pâtir.

Google n’a pas abordé les problèmes potentiels de confidentialité et a insisté sur le fait que reCaptcha v3 est une question de responsabilité d’entreprise. Elle considère reCaptcha v3 comme un moyen d’assurer une expérience en ligne sûre et sans friction. « Google est si profondément intégré à l’internet », dit Khormaee. « Nous voulons faire tout ce que nous pouvons pour le protéger ».

Thomas GROLLEAU

Thomas GROLLEAU est un passionné du journaliste et d'internet depuis plus de 25 ans. Il a créé le site Journal du Freenaute pour partager sa passion au plus grand nombre. Il est le responsable de la rédaction. Thomas vous fera aimer les informations relatives à l'informatique.