Enquête : le moteur Qwant offre-t-il la vie privée de ses utilisateurs à Microsoft ?

Le moteur de recherche Qwant veut se faire une place sur le Web en affirmant protéger la vie privée de ses utilisateurs, contrairement à ses principaux concurrents. Des voix s’élèvent toutefois pour remettre en cause le discours commercial de la société française.

À première vue, Qwant semble particulièrement éthique. La société affirme utiliser 100 % d’énergie renouvelable, elle travaille avec la plateforme de bug bounty Yes We Hack du blogueur Korben pour récompenser les hackers qui lui remontent des failles de sécurité (au lieu de porter plainte contre eux) et, alors que son concurrent Google utilise les paradis fiscaux pour loger des bénéfices, elle assure payer tous ses impôts en France. Certes, mais avec 8,5 millions d’euros de pertes en 2017 (les chiffres 2018 ne sont pas encore connus), on rétorquera qu’il n’y a pas (encore) d’impôt à payer sur les bénéfices… La Lettre A se pose, d’ailleurs, des questions sur la solidité financière du moteur de recherche français, affirmant que les salaires de février ont été payés avec retard. De tels retards peuvent arriver à toutes les sociétés (ils seraient partis le 1er mars au lieu d’être payés le 28 du mois courant comme habituellement, rien d’illégal donc) et les salaires de mars ont été payés à temps, selon nos informations. Revenons à l’aspect éthique : pour les utilisateurs, le principal atout de Qwant est la promesse d’une vie privée protégée lors des navigations sur ce moteur, aucune information ne serait stockée. Or plusieurs personnes pointent sur les réseaux sociaux des failles dans le discours commercial : l’entreprise tire des revenus de l’affichage de publicités gérées par Bing Ads (Microsoft) à qui elle transmet, outre la requête de l’utilisateur, son adresse IP4/24 et son User Agent, avant même que l’utilisateur ne clique éventuellement sur une publicité. Ces informations transmises ne sont pas clairement indiquées à l’utilisateur dans les pages traitant de la confidentialité du site Web, ni dans la FAQ, la rubrique dédiée aux questions fréquentes, où Qwant s’attarde plutôt sur les informations qu’elle ne transmet pas.

L’adresse IP4/24
La transmission de l’IP4/24 à Microsoft a été reconnue dans une interview d’Éric Léandri (le dirigeant de Qwant) réalisée par Laurent Bourrelly, par Guillaume Champeau (en charge de l’éthique chez Qwant) sur Twitter et lors d’une procédure devant le conseil des prud’hommes de Nice (lire plus loin). Une adresse IP4 est une série de quatre nombres (octets) compris chacun entre 0 et 255, elle identifie ordinateur (ou téléphone, ou objet connecté…) ou un réseau de tels appareils. IP4/24 signifie que le dernier nombre est omis. Cela veut dire qu’une même information est fournie à Microsoft pour 256 adresses IP différentes. Selon Qwant, et visiblement la Commission nationale de l'informatique et des libertés (CNIL) qui aurait effectué un contrôle de Qwant (la CNIL ne répondant jamais à nos questions, nous ne pouvons donc confirmer), ce serait suffisant pour « anonymiser » une personne. Quand bien même, il serait possible de retrouver la ville, voire le quartier d’un utilisateur, à partir d’une adresse IP en utilisant des annuaires spécialisés en ligne comme api.db-ip.com. À titre d’analogie, en 2015, la CNIL s’était opposée à un dispositif de JCDecaux destiné à estimer le flux des piétons à La Défense. La société d’affichage publicitaire avait prévu de tronquer le dernier demi-octet de l'adresse MAC de la carte Wi-Fi des smartphones des piétons détectée par ses boîtiers, puis de « hacher » et « saler » le nombre restant (des opérations mathématiques plus ou moins complexes). La CNIL avait estimé que cette anonymisation était insuffisante, et le Conseil d’État avait validé cette analyse.

Mais pourquoi Qwant transmet-elle l’adresse IP4/24 à Microsoft ? Éric Léandri nous a expliqué que la raison est, pour son partenaire, la lutte contre la fraude au clic, c’est-à-dire des utilisateurs (robots par exemple) qui cliqueraient artificiellement sur les publicités pour générer des revenus pour Qwant.

Parenthèse : l’adresse IP tronquée, seule, pourrait aussi permettre d’identifier une administration qui possèderait une plage d’IP complète. C’est le cas de l’armée française, qui a décidé de passer ses machines sous Qwant pour éviter Google et les potentiels espions états-uniens. Pour mieux tomber dans la gueule du loup Microsoft ? Selon nos informations, et c’est logique, aucune publicité n’est affichée sur les écrans des militaires, pas de risque de transmission d’informations à l’étranger donc.

Le User Agent
Un User Agent (ou « agent utilisateur » en français) est une application cliente sur un réseau, par exemple un navigateur Web. Une chaine de caractères est envoyée dans la communication HTTP pour identifier ce dernier et adapter au besoin le contenu affiché (tous les navigateurs n’interprètent pas de la même façon du code HTML, le contenu envoyé par les serveurs peut donc différer). Cette chaine contient des informations comme le nom de l'application, la version, le système d'exploitation, la langue… Par exemple, le User agent de Safari sur iOS 12 est « Mozilla/5.0 (iPhone; CPU iPhone OS 12_0 like Mac OS X) AppleWebKit/ 604.1.21 (KHTML, like Gecko) Version/ 12.0 Mobile/17A6278a Safari/602.1.26 ». Pour les navigateurs et systèmes d’exploitation les plus courants (Safari sur un iPhone récent, Chrome sur un PC sous Windows 10…), dans une plage de 256 adresses IP, il est logiquement impossible d’identifier un utilisateur à partir de son seul User Agent, on parle de « taux de collision » important. Parenthèse (qui ne concerne pas Qwant) : il serait possible de faire du browser fingerprinting pour réduire le nombre d’utilisateurs correspondant à un même User Agent en analysant d’autres informations récupérées par un script auprès du navigateur Web comme les plug-ins installés, le fuseau horaire, etc. Ce, sans cookie ! Revenons à Qwant : si vous êtes utilisateur d’un navigateur ayant un User Agent « exotique », vous êtes plus facilement identifiable.

Qwant s’explique
Nous avons soumis ce problème à la société. Elle nous a déclaré : « Qwant ne conserve pas les adresses IP de ses utilisateurs et ne les transmet pas à son partenaire publicitaire. Toutes les adresses IP sont anonymisées en retirant le dernier octet. Le User Agent du navigateur de l'utilisateur est transmis avec la requête, mais dans l'énorme majorité des cas il s'agit du même User Agent pour de très nombreux utilisateurs différents qui utilisent le même type de navigateur. Le User Agent est nécessaire pour afficher sur Qwant des résultats et des publicités cohérentes avec l'équipement de l'utilisateur ; par exemple proposer plutôt des liens vers des applications iOS qu'Android sur Safari. Faute de pouvoir croiser les données avec d'autres, les possibilités de désanonymisation sont quasi nulles même en cas de User Agent très rare. Toutefois pour pousser toujours plus loin ses mesures de protection de la vie privée, Qwant va travailler sur la possibilité de détecter en temps réel que le User Agent de l'utilisateur présente un risque d'être statistiquement discriminant, afin de le traiter différemment. »

Mais…
Or, contrairement à ce qui est dit dans cette réponse, un croisement théorique des informations est possible, entre l’adresse IP tronquée et un User Agent « exotique ». Prenons l’exemple (imaginaire) d’un lecteur de Virus Info qui surfe avec un Atari ST (nous avons encore des lecteurs qui utilisent de vieilles machines) depuis un village en Belgique. Il est très probablement le seul à utiliser une machine de ce type dans sa zone géographique. Ajoutons que les services fiscaux belges imposent d’avoir un compte chez Microsoft pour pouvoir consulter des documents censés être publics (lire Virus Info 39). Microsoft sait donc qui se connecte depuis ce village belge avec un Atari ST. Toutes ces informations pourraient être théoriquement croisées, cet internaute ne serait plus anonyme aux yeux de Microsoft lors de ses sessions chez Qwant. Cela ne concerne pas que les utilisateurs de vieilles machines, il existe aussi des navigateurs « exotiques » sur des machines modernes.

Un correctif est annoncé
Guillaume Champeau, en charge de l’éthique chez Qwant (et dont nous avons publié un article dans Pirates Mag’ lorsqu’il était encore journaliste), reconnaît qu’« il est possible dans de très rares cas que le User Agent d'un utilisateur soit le seul utilisé dans une tranche d'adresses IPv4/24. Dans un tel cas ça faciliterait théoriquement l'identification par un tiers, s'il a connaissance du même User Agent utilisé sur la même tranche IP, s'il sait que c'est le seul User Agent sur cette tranche d'IP, et s'il fait un croisement avec les données de Qwant, au mépris de la législation et des accords contractuels. Ce n'est pas totalement impossible, mais on s'approche de la chauve-souris de Bigard [smiley clin d’oeil] Mais vu que c'est pas totalement impossible, on va encore renforcer nos mesures de sécurité en détectant les User Agents « exotiques » pour leur appliquer un traitement particulier. » La solution reposerait hachage et salage.

Selon Qwant, 95 % des utilisateurs auraient un User Agent courant. Le problème concernant donc les 5 % restant. Guillaume Champeau insiste sur le fait que « Microsoft n'a pas le droit de croiser ce qu'on leur envoie à des fins d'identification ou de ciblage publicitaire. Je sais les limites du droit contractuel, mais tout de même, c'est important à noter. » Or Éric Léandri avait pointé du doigt (lire Virus Info 36) que des services de sécurité états-uniens pourraient avoir accès aux données des utilisateurs de son concurrent DuckDuckGo (qui promet, lui aussi, de protéger la vie privée) en accédant directement aux serveurs qu’il utilise. Il existe aussi le risque que ces services de sécurité puissent accéder aux serveurs de Microsoft de la même façon, et donc aux données d’utilisateurs de Qwant. Vivement donc que le moteur de recherche mette en place un correctif !
En attendant, vous pouvez, dans certains navigateurs, modifier dans leurs réglages le User Agent afin qu’ils retournent une information plus classique (attention, car cela peut impacter l’expérience utilisateur !), voire recompiler le code source, s’il est disponible, dans ce but (on parle de user agent spoofing).

Dans le passé, Qwant a été accusé de n’être qu’un « métamoteur » de recherche, comme DuckDuckGo, c’est-à-dire qu’il renvoyait la requête à un autre moteur (Bing de Microsoft) en « anonymisant » les données de l’internaute. Certains utilisateurs avaient constaté que les résultats donnés par Qwant et Bing étaient identiques, Qwant avait reconnu à demi-mot un partenariat. Il y a quelques mois encore, nous avons constaté que Qwant et Bing indexaient au fur et à mesure de la même façon nos nouveaux sites Internet. En 2017, nous avons demandé à Qwant de pouvoir visiter ses installations et constater par nous-mêmes de l’importance du nombre de ses serveurs qui parcourent le Web. Cette visite nous avait été refusée.

Pendant ce temps, devant les tribunaux
Stéphane Erard, développeur Web embauché chez Qwant en 2015, en a été licencié pour faute en 2017. Selon la société, la rupture de contrat est justifiée par des messages diffamatoires, dénigrants et déloyaux postés sur Twitter, après un premier avertissement. Devant le conseil des prud’hommes, l’ancien employé demandait des dommages et intérêts pour licenciement abusif et harcèlement moral, la requalification de son titre compte tenu des taches qui lui ont été attribuées en sus de celles prévues dans son contrat de travail, ainsi que le rappel de la différence de salaire qui en découle, le rattrapage de salaire sur diverses erreurs estimées… Le conseil a suivi la demande et requalifié le poste de cadre, mais sans rattrapage de salaire, car le salaire qui avait été payé était déjà supérieur à celui prévu par la convention collective. L’ensemble des autres demandes a été rejeté. Il s’agit probablement du cas évoqué par La Lettre A. Or le média n’a pas indiqué que l’ancien salarié a perdu et fait appel de la décision. Stéphane Erard dément cependant être la personne concernée par l’article de nos confrères.

L’affaire sera également jugée au tribunal correctionnel suite à une plainte de Qwant concernant les messages sur Twitter. L’audience aura lieu en 2020. Stéphane Erard se voit en tant que donneur d’alerte et a porté plainte devant la CNIL, reprochant à Qwant de communiquer à Bing une information qui peut révéler indirectement la ville, voire le quartier des utilisateurs à leur insu, ce qu’il estime être une information personnelle (selon nous, elle n’identifie pas, seule, une personne toutefois). Pour expliquer ses critiques publiques, il avait communiqué au conseil des prud’hommes, le « code source « search_ads » sur lequel apparait clairement les informations envoyées à Bing à savoir […] les mots recherchés sur le moteur de recherche, l’adresse IP de l’utilisateur (sauf le dernier nombre, appelé IP/24), le User Agent de l’utilisateur ». Le conseil des prud’hommes n’en a pas tenu compte, estimant que le demandeur ne « démontre pas la réalité des dissimulations qu’il prête à l’entreprise et qui justifierait qu’il alerte le public » et qu’il y a eu « usage abusif de la liberté d’expression ». Le ton parfois dénigrant des messages incriminés n’est, peut-être, pas étranger à cette conclusion.

Le demandeur avait également versé aux débats un courriel « expliquant comment l’utilisation de Bing a été masquée au moment de l’audit par un « fake call » [confirmant] qu’il a été demandé à Monsieur Erard de dissimuler le recours au moteur de recherche Bing par la société Qwant au moment de son audit. Le salarié a été particulièrement choqué de cette pratique qui avait pour objectif final de tromper la Caisse des Dépôts et Consignation afin qu’elle participe à la levée de fonds ! » À l’appui, trois versions du code source ont été communiquées au conseil des prud’hommes : celle avec « utilisation massive de Bing », celle avec « (avant l’audit) suppression de l’appel à BING et introduction le 9/06/2016 du « fake call » » et celle « (après l’audit) : le « webBrainLocal » (c’est-à-dire les résultats propres de Qwant) sont vides, et le moteur de recherche n’utilise à nouveau qu’exclusivement les résultats de Bing » Des accusations très graves ! Nous avons eu l’occasion de voir les documents en question. Mais, que ce soit pour des conversations (qui ont pu se tenir à la fois par écrit et oralement) ou un code source, difficile pour nous de trancher sur des extraits hors contexte.

Dans sa réponse au conseil, Qwant « assure que le recours à Bing était connu des investisseurs. Le développement d’un moteur de recherches nécessite un travail préalable d’indexation du réseau et, le temps d’y procéder, le recours partiel à la sous-traitance des recherches par un autre moteur. C’est dans ce contexte que la société a conclu un accord de coopération avec la société Microsoft pour utiliser le moteur Bing. Toutefois, cet accord […] donne lieu à des échanges financiers dont rend compte le bilan de la société et qui sont connus des financeurs. » Ce qui, pour Qwant expliquerait ce « programme destiné à assurer le fonctionnement du moteur sans renvoi vers Bing, simulation qui était nécessaire à la démonstration du fonctionnement du dispositif auprès de ces interlocuteurs sans que le fonctionnement réel avec le concours de Bing soit pour autant dissimulé. » Finalement, là encore, le conseil des prud’hommes semble avoir écarté les arguments avancés par l’ancien employé pour appuyer les accusations portées contre Qwant. Ces points seront, sans doute, à nouveau abordés plus en profondeur lors de la procédure en correctionnelle. Qwant nous a déclaré vouloir une condamnation financière symbolique, mais surtout la diffusion d’un démenti afin de laver son honneur. En attendant, Stéphane Erard continue son combat sur Twitter.

Vous trouverez la suite de ce long dossier dans Virus Info 40

[MAJ]
- rajout de l'année de la demande de visite chez Qwant
- rajout sur le "retard" des salaires de février
- rajout du démenti de Stéphane Erard concernant le passage évocant le parallèle avec l'article de la Lettre A.
- correction pour l'audience en 2020, suite mauvaise information reçue de M. Erard au départ.

Vous voulez soutenir une information indépendante ? Rejoignez notre Club privé !

Vous cherchez un ancien numéro ? Nous avons peut-être un exemplaire pour vous ! !

Certains liens présents dans cette page peuvent être affiliés. Sauf si c'est spécifié dans le texte, cela ne veut pas dire que la rédaction vous recommande les produits/services en question.

Vous pouvez recopier librement le contenu de cette page ailleurs (en indiquant le lien de cette page), mais sans le modifier ni en faire un usage commercial. Ce contenu est sous licence Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

[homepage] [RSS] [archives]
[contact & legal & cookies] [since 1997]