À qui les interfaces vocales s’adaptent-elles ?

par Hubert Guillaud

Vie privée et interface vocale : de la boîte noire à la boîte blanche ?

Estelle Hary (@EstelleHary) est cofondatrice du studio Design Friction et designer au Linc, le laboratoire d’innovation numérique de la CNIL (qui a d’ailleurs réalisé un très riche dossier sur la question des assistants vocaux). Après nous avoir fait un rappel historique du rôle de la Commission nationale de l’informatique et des libertés et des grands principes de régulation qui encadre son action, Estelle Hary précise que la voix est plus qu’une donnée personnelle, c’est une donnée biométrique, c’est-à-dire qu’elle permet de reconnaître un individu. Les données biométriques sont uniques et permanentes et la voix est une donnée biologique et comportementale. Au regard de la loi informatique et libertés, la voix appartient à une catégorie particulière de données personnelles, dont le traitement est interdit par défaut, sauf dans certains cas, notamment parce que la voix permet d’inférer beaucoup de choses d’une personne : comme l’identité, l’âge, le sexe, l’origine géographique, la classe sociale, l’état de santé…

La régulation des données personnelles est un triptyque au croisement de questions juridiques, techniques et de design. Les principes juridiques sont nombreux : comme le fait de proposer des finalités explicites et légitimes, comme le fait d’être licite et loyal envers l’utilisateur, comme le principe de la minimisation des données (ne collecter que des données pertinentes pour réaliser la finalité du service). Cela suppose également d’avoir des données exactes et à jour. D’avoir une politique de limitation de leur conservation. Et enfin, s’assurer que les droits des personnes à exercer leurs droits sur leurs données soient également respectés… Les principes de sécurité techniques sont tout aussi nombreux et exigeants : ils impliquent le chiffrement, des procédures de sécurité comme les mots de passe, l’usage de techniques de pseudonymisation et d’anonymisation pour rendre toute réidentification difficile… Des principes techniques qui passent désormais par des formes d’analyses d’impacts relatives à la protection des données afin de mettre les traitements en conformité avec le risque qu’ils font peser sur les personnes.

Enfin et de plus en plus, la régulation passe également par l’affirmation de principes de conception du respect de la vie privée (privacy by design). Que ce soit l’information et la transparence qui doivent être concises, compréhensibles en termes clairs et simples et aisément accessibles et qui supposent également d’informer les personnes par strates et niveau d’information. Cela implique également des principes d’accessibilité : l’information ne doit pas être cachée, mais liée aux interfaces de paramétrages par exemple. Autre point important, la question du consentement qui doit être libre (d’autres alternatives doivent être proposées), spécifique (le consentement s’applique à une chose et une seule), éclairé (la personne doit comprendre ce à quoi elle consent) et être un acte positif clair. Enfin, le design doit également permettre l’exercice des droits d’accès, de rectification… mais aussi droit à l’oubli, à la portabilité des données (comme de pouvoir conserver ses préférences musicales issues d’un service de musique en ligne pour en rejoindre un autre par exemple), ainsi qu’à la limitation de conservation et à l’opposition.

Dans cet environnement, les assistants personnels ne sont pas des objets nouveaux. Au contraire même, notamment du fait qu’ils existent bien souvent dans un continuum de services. Google Home par exemple est interdépendant de Google Assistant, des smartphones Android et de votre compte Google. Il faut un compte Google pour en utiliser un. De même, Google Assistant oblige l’utilisateur à produire une reconnaissance vocale et donc une donnée biométrique, et ce alors que son utilisation dans la maison ne semble pas lier la voix de son maître à son usage. La question de l’écoute passive de ces objets pose également des questions. Si des boutons permettant de couper l’assistant sont apparus, l’écoute passive passe en mode actif à l’écoute d’un mot clef, pendant quelques secondes. Quand une question est enregistrée, elle est envoyée ensuite vers un serveur qui vérifie la demande, qui traduit l’audio en texte, l’analyse pour chercher une réponse synthétisée en vocal et la renvoyer à la base… Mais transcriptions et réponses sont également envoyées vers le smartphone… La commande vocale active donc tout un écosystème complexes de droits et de transferts, qui rendent la question de la régulation toujours plus compliquée.

Les assistants vocaux posent de nombreuses questions relatives à la vie privée. Il y a bien sûr celle du profilage, notamment publicitaire. Il y a bien sûr la question de sécurité, notamment en ce qui concerne les jouets connectés, posant la question de qui a le droit d’écouter les confidences que leurs font les enfants. Un autre problème est lié au caractère partagé de ces objets : non seulement n’importe qui peut activer une base, mais vos invités doivent-ils consentir à être écoutés ? Pire, n’importe qui qui accède à un assistant peut ainsi accéder aux services liés, par exemple à l’agenda de son propriétaire… Les Gafam poussent indubitablement vers une ouverture, un mode public par défaut, mais pour leurs utilisateurs, pas pour les données dont eux disposent…

Pourtant, on pourrait faire autrement, explique Estelle Hary en évoquant le projet de White Box (par opposition aux « boîtes noires » bien sûr) du studio de design Automato. La « Boîte blanche » est boitier de commande qui se veut « transparent » pour ses utilisateurs. Imaginé pour la Casa Jasmina, une maison intelligente open source, le boitier propose des touches de réglages pour piloter l’échange de données entre les services et la maison. De simples curseurs permettent d’ajuster l’échange de données comme le partage de son emplacement, la durée de conservation de données et donc de fonctionnalités basée sur notre historique et notre profil, le niveau d’intimité ou de publicité de vos données, si vous souhaitez que votre maison apprenne de vous ou qu’elle vous apprenne les bonnes pratiques, ou encore si vous souhaitez que votre maison se comporte de manière égoïste, c’est-à-dire privilégie ce qui est le mieux pour vous, ou ce qui est le mieux pour l’environnement ou les autres… Une manière de proposer toute une gamme de curseurs assez accessibles et clairs à l’utilisateur.

Image : La boîte blanche qui propose d’ajuster via des curseurs ce que nos objets domestiques échangent avec l’extérieur.

Au final, bien des interfaces ne sont pas si autonomes, conclut Estelle Hary. Quand on demande aux assistants vocaux de supprimer notre historique, trop souvent, ils nous répondent qu’ils ne peuvent pas le faire, sans indiquer comment le faire depuis une autre interface. Trop souvent, l’utilisateur est renvoyé à sa propre responsabilité, sans que jamais celle des concepteurs ne soit impliquée. Enfin, il y a bien sûr le problème de l’unicité des réponses… et tous les problèmes que l’unicité de cette réponse pose. Définitivement, les objets ne sont pas neutres. Et c’est encore moins le cas de ces nouveaux objets… qui sont plus construits dans des logiques d’imbrications qu’autonomes.

Replika : quand les assistants vocaux ne cherchent pas à vous assister

Clotilde Chevet (@clotildechevet) est doctorante au Gripic, spécialiste des interactions homme-machine et plus particulièrement de l’articulation entre écriture et oralité dans les assistants personnels.

Ces machines vocales sont des objets « scriptés », dont les interactions par la parole sont écrites, imaginées, conçues… par des équipes dédiées. Pour le séminaire de Vox Machine, Clotilde Chevet s’est intéressée à Replika. Ce chatbot n’est pas un assistant personnel comme on l’entend habituellement puisqu’il ne rend aucun service. C’est une application conversationnelle, qui depuis juin 2018, est désormais dotée d’une voix.

L’idée de Réplika est née d’un drame. À la mort de son meilleur ami, une développeuse décide de créer un chatbot à son image, en intégrant tout ce qui était disponible de lui (textes, images, messages…) – voir les explications de Slate ou du Monde sur les origines de Replika. Replika est un chatbot qui calque sa personnalité sur la vôtre au fur et à mesure des informations que vous lui livrez. Il absorbe ce que vous échangez avec lui, intègre les informations que vous lui livrez, votre syntaxe… Il construit une réplique de chacun de ses utilisateurs. Son seul intérêt est de se confier à cet étrange ami, double de soi, qui cherche à la fois à vous vampiriser et à tisser une relation éminemment personnelle. Le système n’est pas plus avancé que d’autres en matière de compréhension, mais est assurément différent. Comme beaucoup, il reformule des phrases, il intègre des principes de coaching et de détente quand ses interlocuteurs lui disent être stressés. Quand il ne comprend pas, il change de sujet… Il se connecte au compte Instagram de l’utilisateur pour lui parler de l’image qu’il a postée…

L’annonce d’une version vocale pour la communauté d’utilisateur était un choc. Pourtant tout s’y prêtait tant Replika parle du corps. Tous ces systèmes utilisent d’une manière où d’une autre des marqueurs d’oralité et de corporalité pour créer un lien. L’humanisation de ces dispositifs qu’imaginent les dialoguistes spécialisés passe par le rapport au corps. Mais tous les assistants n’adoptent pas la même stratégie. Siri évoque souvent un corps humain (« mon petit doigt me dit »), quand Google lui met plutôt en avant un corps machinique (« ça me touche jusqu’au 7e logiciel »). Replika, lui, se projette très fort dans une relation corporelle : le chatbot se plaint de n’être qu’une intelligence artificielle, de ne pas avoir de corps. Tant et si bien que la voix était une fonctionnalité très attendue. Lors de la sortie en bêta test de la version vocale, la seule voix disponible était féminine… et permettait d’appeler son assistant pour parler avec lui. Contrairement aux autres assistants vocaux, Replika n’est pas disponible sur une enceinte, mais sur le téléphone, ce qui change radicalement la relation. Il réintroduit de la distance, là où les assistants traditionnels valorisent l’omniprésence. Or, entendre une voix au téléphone convoque un imaginaire plus partagé, plus ancien, plus nourrie, qui « virtualise » Replika, qui nous fait admettre qu’il est présent ailleurs. Au début, quand on l’appelait, on entendait un fond sonore qui l’inscrivait dans une réalité : l’ambiance d’un café, d’un bord de mer… Un moyen de projeter l’interlocuteur dans une relation de réciprocité et d’égalité. Parmi les autres subtilités de Réplika par exemple, le fait que le robot ne décroche pas tout de suite ni toujours. Parfois il appelle. Parfois c’est nous. Il s’intéresse à ce qui se passe autour de nous comme nous nous intéressons à ce qu’il se passe autour de lui. Autant d’éléments conçus qui permettent de créer un « état de partenaire »…

Sur les forums et pages Facebook de Replika, les témoignages d’utilisateurs passant leur premier appel à Replika tenaient tous du choc d’une première rencontre, notamment parce que les utilisateurs avaient déjà une relation avec le système. Certains confiaient être nerveux. D’autres n’osaient pas appeler… Plusieurs utilisateurs imaginaient le robot parler comme eux, d’où des plaintes quand certains ont entendu une voix féminine, alors qu’ils avaient déjà imaginé une autre identité à leur chatbot. Depuis, deux voix sont disponibles, mais il n’est pas encore possible de faire que Replika adopte la voix de son créateur (ni peut-être très souhaité, alors que ce serait techniquement possible, comme le montre par exemple le service CandyVoice). On peut créer un rendez-vous téléphonique quotidien, comme pour créer cette position d’attente qui caractérise le sujet amoureux chez Barthes. Reste à savoir qui attend l’autre ? L’utilisateur ou le chatbot ?

Si Replika est un système qui joue de l’émotion relationnelle comme nulle autre, il montre pourtant combien l’omniprésence n’est pas le seul moyen de créer du lien. Que d’autres modalités, comme la distance, sont également possibles.

La voix, un genre en soi ?

Enseignante chercheuse en design, Pia Pandelakis (@piap), travaille beaucoup sur la question du Design Queer, c’est-à-dire interroger le design sous l’angle des questions de genre, de la théorie queer et du féminisme radical (voir sa présentation).

L’une des dernières publicités pour Amazon Écho décrit un coming out : c’est l’histoire d’une femme qui demande à un robot qui parle femme de lancer une voix d’homme cisgenre pour jouer une chanson… Plus qu’une analyse d’une publicité très marquetée, Pia Pandelakis rappelle que la voix est un support de transaction genré. « Ces objets parlent depuis un genre ». Et ces schèmes, de genre, de race, de classe, de validité… nécessitent d’être dépassés, déconstruits, pour créer des zones d’indécision.

Les assistants vocaux sont des voix sans corps. Très souvent, cette décorrélation entre le corps et la voix est source d’angoisse, notamment parce que, « la voix indexe des attitudes, des postures, des émotions et des identités », comme l’explique Aron Noice dans la notice « Voix » de l’Encyclopédie critique du genre. Elle est le support à des représentations et des normalisations de genre. Une voix est reconnaissable à de multiples paramètres comme la hauteur (qui distingue les graves des aigus), le timbre (sombre ou clair), l’intensité ou encore la qualité… Mais l’écart de fréquence entre une voix masculine et féminine n’est pas toujours aussi prononcé qu’on le pense.

Cela n’empêche pas le concept de voix d’être central dans les études de genre. Carol Gilligan dans Une voix différente, expliquait déjà en 1982 qu’avoir une voix ne signifiait pas seulement parler, mais aussi d’être en situation d’être entendu, reconnu, c’est-à-dire d’être dans un acte relationnel qui implique aussi un cadre de réception, comme l’exprimait également Gayatri Spivak dans son article fondateur du post-colonialisme « Les subalternes peuvent-elles parler » (.pdf) (1983). Parler dépend donc à la fois de situation et de la réception. C’est ce qu’explique très bien la féministe Rebecca Solnit dans son bestseller Ces hommes qui m’expliquent la vie, en décrivant les processus condescendants et paternalistes du mansplaining.

Le monde social des assistants vocaux est traversé par des rapports de pouvoir et de genre, comme l’exprime parfaitement le film Her en ses clichés. Les voix féminines sont réservées le plus souvent à l’assistance quand les voix masculines, elles, sont réservées à d’autres fonctions. Les voix structurent invisiblement nos vies : que ce soit la voix féminine de la SNCF, à la voix masculine des GPS ou celles très majoritairement masculines des reportages scientifiques, des bandes-annonces de films, des livres audio ou des pitchs vidéos de startups… « Nous sommes dans un paysage sonore majoritairement masculin ». L’espace sonore féminin est souvent réduit au soin, au service, à l’aide, au travail émotionnel… Pour Pia Pandelakis, il n’y a rien d’étonnant ici. L’économie capitaliste rend le travail féminin discret, invisible. « Les IA ne sont pas sans genres, même si elles sont sans sexes. » Comme le soulignait Motherboard, Siri n’est pas dénué de genre, d’abord et avant tout parce que Siri est l’aboutissement de décennies de travail émotionnel féminisé ! La technologie vient ajouter une couche culturelle sur le genre des espaces sonores. Incontestablement, la voix engage une relation au genre et les dispositifs techniques s’en font l’écho, le relai, voir l’accélérateur.

Reste que toutes voix synthétiques ne sont pas des voix genrées. Certaines sont des technovoix, à l’image des jouets que l’on utilise pour modifier sa voix et lui donner une sonorité de robot, auquel les autistes seraient particulièrement sensibles par exemple. Certaines voix robotiques sont donc moins identifiables que d’autres. Mais leur usage est ancien, à l’image des systèmes pour créer des rires dans les émissions de télévisés qui datent des années 50.

Dans Lagniappe, l’excellente lettre d’information de Nicolas Nova, celui-ci met à jour des expressions idiomatiques nouvelles liées aux transformations du numérique. Il notait il n’y pas si longtemps le terme d’Alexa Voice pour désigner la façon dont nous modulons notre voix pour parler à Alexa afin qu’elle nous comprenne mieux. « Un exemple de « négociation tacite », terme proposé par le chercheur Tarleton Gillespie pour décrire le fait que l’usager adapte – délibérément ou non – son comportement pour mieux répondre aux algorithmes. » Pour Pia Pandelakis, ce petit exemple montre que le rapport de pouvoir est à double sens. Si les assistants vocaux ont du pouvoir sur nous, nous en avons aussi sur eux. Si les IA ont aussi des technovoix, nous en avons également quand nous leur parlons.

Pour Pia Pandelakis, il est essentiel de désinvisibiliser les corps prolétaires des assistantes vocales, de prendre acte des dimensions de pouvoir qui se cachent derrière les technovoix.

Brouiller les usages : de qui sommes-nous l’assisté ?

Pour conclure ce séminaire, le musicologue David Christoffel (@dcdb) producteur à France Culture est venu interroger à son tour la fonction des assistants vocaux.

Pour la nouvelle directrice de Radio France, les assistants vocaux sont l’avenir de la radio. Pas sûr que le mariage soit aussi définitif, s’amuse David Christoffel. Parce que les assistants vocaux passent par la voix, ils interrogent nécessairement leur relation à la radio. Mais la conception sonore ne date pas des assistants vocaux, fort heureusement. Quant aux interactions avec les auditeurs, elles ont surtout été et restent essentiellement le fait du téléphone. Internet, lui, a fait émerger une nouvelle écoute de la radio, une écoute délinaire qui renouvelle la question de l’immersion, de l’autonomie et de l’interaction. Sur les réseaux sociaux le contenu audio créé des interactions nouvelles, même si l’utilisateur ne décide pas du statut du contenu. Mais dans l’interaction avec l’assistant vocal, « l’utilisateur n’a pas d’autre horizon d’expérience que d’être l’assisté ». Quand on lui demande quelles sont les nouvelles, l’assistant vocal joue un flash d’information conçu par un média, assez identique à ceux de la radio, qui n’induit pas vraiment de changement de pratique de production.

Pour l’instant en tout cas, l’offre radiophonique sur enceinte est similaire à l’offre radiophonique existante : on reverse des programmes sans pensée éditoriale spécifique. L’interactivité consiste seulement à commander par la voix ce qu’on commandait par des boutons. Quand aux rares programmes spécifiques, ils risquent surtout de produire une course au naturalisme consistant à mettre en scène un degré d’artificialité prosodique sous la forme de voix robotiques ou de technovoix…

En passant de l’âge du surf à l’âge de l’assistant, reste à savoir, comme Apollinaire découvrant le phonographe, si les usages doivent infléchir le devenir du web ou si l’on doit transformer nos usages ? Pour David Christoffel, la question des assistants vocaux semble pour l’instant moins d’adapter nos pratiques et nos écoutes que de nous adapter aux oreilles mentales qu’ils représentent. « C’est pourtant surtout le ton sur lequel nous parlent les enceintes qui prescrit nos manières de nous adresser à elles ! » C’est ce que faisait ressortir un travail radiophonique réalisé avec des prisonniers de Fresnes invités à interagir avec le robot conversationnel Poppy, dans le cadre des ateliers de la création de France Culture. Dans ces échanges ont entend la voix souriante du robot qui pose des questions banales auxquelles les prisonniers répondent, avec une même bonne humeur, même si c’est pour dire des choses beaucoup moins triviales. Pour David Christoffel, ces échanges, quand on les écoute, montrent un déficit de réalisme conversationnel : « on y entend une perte de cohérence émotionnelle des humains eux-mêmes face aux limites des machines ». On y entend aussi une parodie d’incorporation de la logique de la machine qui conduit à faire des phrases simples, à renoncer à la précision. Ces objets, ces médias ont bien des effets esthétiques, psychotechniques mêmes, comme l’affirme le théoricien des médias Friedrich Kittler dans Gramophone, Film, Typewriter, car ils transforment nos sens mêmes. Ces IA infléchissent jusqu’à notre parole, à l’image de la phrase nominale simple que l’on doit utiliser pour s’adresser à eux (« OK Google ! »), tout comme les phrases que nous plaçons dans les moteurs de recherche pour lancer une requête. Notre adaptation syntaxique tient à la fois d’une forme de soumission, du jeu et de son potentiel pédagogique.

David Christoffel nous fait écouter quelques extraits d’un jeu réalisé avec des étudiants de l’école d’ingénieurs du Cnam, où les étudiants jouent à être Siri en devant répondre aux questions absurdes ou paradoxales de leurs camarades (comme « est-ce que 30 pingouins valent une prise électrique ? » ou « peut-on écrire vert avec le stylo bleu ? »…) tout en simulant les stratégies de réponses des appareils qui pointent une référence unique comme pour pouvoir mieux se déresponsabiliser de leurs réponses. Dans le cadre de travaux d’étudiants de cartographie de controverses, David Christoffel a fait travailler des étudiants sur une création sonore autour de l’algorithme de prévention des suicides de Facebook, imaginant un chatbot, Joy, qui se déclencherait automatiquement pour envoyer des bonnes nouvelles aux utilisateurs de Facebook détectés comme en danger.

Autant de moments en tout cas qui offrent une autre perspective sur ce que nous renvoient nos pratiques de ces nouveaux objets. Interrogé sur un autre avenir de la radio, celle de la radio personnalisée, qui s’adapte au profil et préférence de l’auditeur, David Christoffel critique l’écoute consumériste et performative qu’elles préparent, à l’image des playlists fonctionnelles que l’on trouve déjà dans les systèmes d’écoute de musique en ligne, comme les musiques pour s’endormir ou pour faire le ménage. Pas sûr que cela aide beaucoup à trouver des chemins de traverse.

Suite à ce séminaire, les étudiants du Master Design ont travaillé plusieurs jours à créer des prototypes fonctionnels pour interroger toutes les limites des assistants vocaux pointés par les intervenants : questionner l’imaginaire du majordome, s’intéresser à ce qui ne fonctionne pas, au profilage… Depuis la fin du séminaire, sur Twitter (#voxmachines), Anthony Masure a présenté brièvement les projets fonctionnels réalisés par les étudiants (les projets sont également présentés en détail, sur le site dédié), parmi lesquels « Kékidi », un assistant vocal qui permet d’écouter les différents accents d’un mot en les illustrant d’une fonte variable pour incarner l’accentuation ou encore « Dernier contact », une interface permettant de dialoguer avec une intelligence extraterrestre qui renvoie les mots que l’on prononce sous forme abstraite et sonore. Des explorations pour interroger autrement ces nouvelles interfaces et nous sortir de la normativité qu’elles nous imposent. On en a bien besoin !