Donnée je t’aime #1 : les assistants vocaux

15 décembre 2021

Selon PwC, deux tiers des données stockées dans le monde sont des informations concernant des humains.

Nerf d’une guerre commerciale d’un nouveau genre, cet or digital n’est autre que notre identité et la retranscription de nos actions quotidiennes, de nos goûts et de nos conversations.

Orange Cyberdefense a donc décidé, pour l’été 2021, de proposer une série de contenus sur cette nouvelle denrée des entreprises à travers six exemples. Dans ce premier épisode, concentrons-nous sur ces petits appareils qui investissent nos salons : les assistants vocaux. « Ok, Google », c’est parti.

Une assistante vocale… humaine

Selon Juniper Reasearch, 8 milliards d’assistants vocaux seront utilisés dans le monde en 2023. Un engouement qui a interpellé l’artiste et programmeuse américaine Lauren McCarthy. Diplômée du Massachusetts Institute of Technology (MIT), elle est aussi professeure à l’University of California Los Angeles, plus connue sous son acronyme UCLA. Lauren McCarthy s’intéresse de très près à l’impact de la technologie sur nos vies et crée des œuvres et performances artistiques pour le moins originales.

En 2018, elle a notamment pris le sujet des assistants vocaux à bras le corps : comprenez, Lauren a décidé de devenir une assistante vocale. « J’essaie de devenir la version humaine de l’Alexa d’Amazon », explique-t-elle au magazine Usbek&Rica la même année.

Outils créés par Lauren McCarthy. Source : https://lauren-mccarthy.com/

C’est sur Internet qu’elle recrute des volontaires. Ces derniers voient ensuite débarquer l’artiste « avec tout un arsenal de caméras, micros, serrures, ampoules, robinets, prises électriques et autres objets connectés, qu’elle vient installer aux quatre coins de l’appartement, après les avoir customisés », détaille l’article.

Et l’artiste de poursuivre : « Je regarde la personne 24 heures sur 24 et 7 jours sur 7, et je contrôle toute la maison. J’aspire à être meilleure qu’une intelligence artificielle parce qu’en tant qu’être humain, je peux les comprendre, et anticiper leurs besoins ».

Pour être encore plus crédible, Lauren s’exprime au travers d’un synthétiseur pour obtenir une voix plus robotique. Au journal britannique The Guardian, la jeune femme expliquait en 2019 : « Je dors lorsqu’ils [les participants, NDLR] dorment. […] Emotionnellement, cela a été épuisant, essayer de penser à qui ils sont, ce qu’ils désirent ».

L’une des images analysées en temps réel par Lauren. Source : https://lauren-mccarthy.com/

Elle analyse ainsi sa démarche : « Je pense juste à comment ils [les assistants vocaux, NDRL] sont constamment en train de nous écouter et nous enregistrer. […] C’est trop simple de laisser ce genre d’appareils nous guider quelque part, sans même réfléchir à où cela nous mène. Nous imaginons ces technologies comme neutres, mais celles-ci sont programmées pour prendre des décisions bien spécifiques. A quelles règles obéissent-elles ? […] Nous les faisons entrer au sein de territoires très intimes ».

Aux fabricants d’assistants vocaux pour la maison, Lauren envoie ce message : « J’aimerais que ces entreprises aient plus de considération sur ce que veut dire d’avoir des humains comme clients, ce que cela signifie de contrôler la maison de quelqu’un ».

Pour découvrir les témoignages des participants à l’expérience de Lauren McCarthy, il est possible de visionner cette courte vidéo, produite et réalisée par l’artiste elle-même.

Des assistants vocaux pas si digitaux

Derrière toute technologie se trouve un humain, en réalité, plutôt des centaines voire des milliers. Parce que les assistants vocaux doivent encore se perfectionner pour comprendre au mieux nos comportements, ils sont entraînés. Ainsi, des sociétés comme Google ou Amazon (pour ne citer qu’elles) font appel à des transcripteurs, mandatés d’écouter les requêtes des utilisateurs et surtout la réponse de l’assistant. Le but ? Contrôler que celui-ci répond bien au besoin du client, et permettre, dans le cas contraire, d’améliorer l’outil.

La Quadrature du Net, association française spécialisée dans la défense des données personnelles et de la vie privée, écrit en 2018 sur son site Internet : « Les assistants virtuels qui équipent les enceintes connectées trônant dans nos salles à manger ou qui se nichent jusque dans nos poches, installés dans nos smartphones, ne naissent pas intelligents. Ils doivent apprendre à interpréter les requêtes et les habitudes de leurs utilisateurs ».

La démonstration de Lauren McCarthy, certes volontairement encapsulée dans un dispositif hyperbolique, ne semble, par certains aspects, pas si éloignée de notre réalité.

« Parfois, les personnes qui trient vos requêtes regardent vos photos, écoutent vos propos, sont situées dans votre pays, voire dans votre ville », poursuit l’article. Il peut également s’agir de travailleurs précaires de pays francophones, comme le précise l’article.

A noter que les pistes audio écoutées sont « généralement très courtes, entre 3 et 15 secondes en moyenne » pour « entre 120 et 170 transcriptions par heure » et par transcripteur, précise encore l’association.

L’une d’entre eux, interrogée par la Quadrature du net, détaille : « Une partie du travail consistait à ajouter des tags dans le texte signalant les évènements sonores qui pourraient expliquer pourquoi Cortana avait mal compris ceci, ou mieux compris cela ». Pour information, Cortana est l’assistant virtuel de Microsoft. Bien entendu, l’idée n’est pas de pointer spécifiquement cette entreprise, toute société utilisant l’intelligence artificielle faisant aujourd’hui appel à des salariés ou freelances en chair et en os pour améliorer ses équipements.

Assistants vocaux et sécurité des données

Assistants vocaux : malwares et chevaux de Troie

En 2018, lors de Defcon, l’une des plus grandes conférences de hacking au niveau mondial, « un groupe de hackers est parvenu à contourner tous les pare-feu de l’enceinte [Amazon Echo, NDLR]. […] Le hack mis au point par les pirates est capable de se propager d’enceinte à enceinte, et donc de compromettre l’intégralité d’un réseau », écrit clubic.com.

Le site web précise également que l’enceinte piratée a été au préalable « bidouillée pour qu’elle serve de Cheval de Troie », puis raconte : « Une fois connectée au même réseau que d’autres enceintes encore vierges de toute modification, ils sont parvenus à faire de celles-ci des dispositifs d’écoute, retransmettant tous les enregistrements au dispositif d’origine. En gros : tous les sons captés par les appareils Alexa connectés à un même réseau sont retransmis aux hackers ».

A noter qu’Amazon avait été au préalable prévenu de la démonstration et a réparé la faille ayant permis le hack.

Même enceinte, autre histoire. En 2017, un expert britannique en cybsersécurité, Mark Barnes a démontré qu’il était possible de pirater les modèles Amazon Echo fabriqués avant 2017 en y installant un malware. Comme pour le premier hack, il est important de noter que l’enceinte a, au préalable été physiquement modifiée.

La version anglaise du mensuel américain Wired écrivait en 2017 : « Après avoir réussi à écrire son propre logiciel sur Echo, Barnes a développé un script assez simple qui lui a permis de prendre le contrôle du microphone et envoyer la piste audio enregistrée à l’ordinateur de son choix. Il précise tout de même que son malware pourrait remplir d’autres fonctions dangereuses, comme servir de point d’accès pour attaquer d’autres parties du réseau, dérober les identifiants des personnes ayant un compte Amazon ou installer un ransomware ». Barnes le résume ainsi : « Vous pouvez en faire ce que vous voulez, vraiment ». Là encore, Amazon a depuis corrigé la faille. Pour consulter l’article (technique) de Mark Barnes, cliquez ici.

Là où le bât blesse, c’est que les assistants vocaux sont également très utilisés pour retranscrire du texte, dicté par un utilisateur, des messages ou des documents texte comme des compte-rendu professionnels par exemple. En cas de cyberattaques, c’est donc plus que des informations personnelles qui peuvent fuiter (cela a évidemment une réelle gravité), mais aussi des données professionnelles.

Assistants vocaux : le hack par ultrasons

En avril 2018, quatre chercheurs de l’University of Illinois, Nirupam Roy, Sheng Shen, Haitham Hassanieh et Romit Roy Choudhur ont démontré, dans leurs travaux (consultables ici) qu’il était possible d’utiliser des signaux inaudibles par l’homme, mais très bien perçus par les assistants vocaux pour les pirater. « Nos analyses récentes ont prouvé que les signaux inaudibles (fréquences ultra-sons) peuvent être créés de telle manière qu’ils deviennent perceptibles par les microphones. Bien conçus, cela donne la capacité à un pirate de s’immiscer et contrôler silencieusement des enceintes comme Amazon Echo et Google Home au sein des maisons. Une commande de type “Alexa, ouvre la porte du garage“, peut ainsi devenir une menace sérieuse ».

Assistants vocaux et vie privée : les conseils de la CNIL

Le site de la Commission nationale de l’informatique et des libertés (CNIL) est une mine d’or pour trouver des conseils relatifs à la protection des données. Dans son article intitulé Assistants vocaux : bien comprendre les enjeux autour de votre vie privée, elle explique que « même si votre parole s’envole, vos requêtes restent enregistrées dans le cloud […] En veille permanente, l’enceinte connectée peut s’activer et enregistrer inopinément une conversation dès lors qu’elle croît détecter le mot-clé ».

Que font les entreprises de ces requêtes ? Elles servent à effectuer du ciblage publicitaire. « Le profil publicitaire des utilisateurs se trouve donc alimenté par les différentes interactions de l’utilisateur avec l’assistant (par exemple, habitudes de vie : heure lever, réglage du chauffage, goûts culturels, achats passés, centres d’intérêts, etc.) », détaille la CNIL.

Ce n’est ainsi pas une surprise si le marché mondial du “voice shopping” – achats déclenchés via des assistants vocaux – a atteint 40 milliards de dollars en 2019, selon PwC.

Pour protéger ses données, la CNIL recommande de* :

privilégier l’utilisation d’enceintes équipées d’un bouton de désactivation du microphone ;
couper le micro / éteindre / débrancher l’appareil lorsque vous ne souhaitez pas être écouté. Certains dispositifs n’ont pas de bouton on/off et doivent être débranchés ;
avertir des tiers/invités de l’enregistrement potentiel des conversations (ou couper le micro lorsqu’il y a des invités) ;
encadrer les interactions des enfants avec ce type d’appareils (rester dans la pièce, éteindre le dispositif lorsqu’on n’est pas avec eux) ;
vérifier qu’il est bien réglé par défaut pour filtrer les informations à destination des enfants.
connecter des services qui présentent réellement une utilité pour vous, tout en considérant les risques à partager des données intimes ou des fonctionnalités sensibles (ouverture porte, alarme…) ;
être vigilant sur le fait que les propos tenus face à l’appareil peuvent enrichir votre profil publicitaire ;
se rendre régulièrement sur le tableau de bord pour supprimer l’historique des conversations/questions posées et personnaliser l’outil selon vos besoins. Par exemple, définir le moteur de recherche ou la source d’information utilisé par défaut par l’assistant.

Et pour finir : les faux-positifs

Terminons notre joyeuse épopée au sein du monde des enceintes connectées par une dernière anecdote, plus légère, rapportée par cnetfrance.com : « En mai 2018, dans l’Oregon, près de Portland, Alexa, l’assistant vocal d’Amazon a enregistré, à son insu, la conversation d’un couple américain. Le cylindre d’Amazon Echo a ensuite partagé cette discussion privée mais heureusement anodine, en l’envoyant à un contact – un collègue du mari. […] Selon Amazon, “Echo s’est réveillé à cause d’un mot prononcé dans une conversation de fond qui ressemblait à ‘Alexa’”. Puis l’assistant aurait ensuite compris que le couple lui demandait : “envoie un message”. Alexa aurait alors demandé “à qui ?” et entendu le nom du collègue en question… à qui il aurait ensuite envoyé un message vocal. Un “faux positif”, donc, une mauvaise interprétation de 5 commandes différentes ».

Attention à ce que la machine ne vous hacke pas à son insu…

Notes :

*Ces recommandations ont été directement copiées/collées du site de la CNIL. Elles sont à considérer comme une citation directe, même en l’absence de guillemets.