Hypervoix 2/2 : les enjeux de la voix au-delà de la voix

par Hubet Guillaud
Avec la complicité de Fanny Maurel et Véronique Routin.

L’enjeu des assistants vocaux ne se limite pas à leur seule conception sonore et vocale, comme nous le rappelions dans la première partie de ce dossier. A l’occasion de la journée d’étude Hypervoix qui avait lieu le 15 avril à Paris, retour sur les autres enjeux de conception que posent les assistants vocaux en élargissant le champ des questions et des critiques.

Assistants vocaux : quelles voix pour le design ?

Anthony Masure (@anthonymasure), maître de conférences et chercheur en design, co-organisateur de cette journée d’étude, a introduit la matinée (voir sa présentation) en dressant le bilan d’une précédente journée d’étude, intitulée Vox Machines (dont nous avions rendu compte). Il est revenu notamment sur les projets produits par les étudiants du master Design transdisciplinaire, cultures et territoires de l’université de Toulouse-Jean Jaurès, suite à cette journée, qui ont questionné, par exemple, les enjeux de la normativité des voix (via la question des accents régionaux), ceux de l’interaction entre la voix et sa représentation visuelle (ou comment rendre tangible les voix et les sons, via les projets dernier contact et swiiiing) ou encore d’éprouver de nouvelles formes de commandes vocales (via un sextoy à commande vocale par exemple)… Autant d’exemples et de prototypes qui soulignent combien les usages stéréotypés des assistants vocaux tels qu’ils se proposent aujourd’hui peuvent être subvertis.

Pour Anthony Masure, une conception critique des assistants vocaux nécessite d’interroger les limites des systèmes proposés actuellement. Comment rendre les techniques qui sous-tendent le fonctionnement de ces objets, intelligibles ? Comment ouvrir les usages ? Comment associer les interfaces vocales aux interfaces graphiques ? Comment travailler la question vocale dans toutes ses dimensions et penser l’interaction sonore au-delà de la voix ?… Telles sont quelques-uns des enjeux que posent ces appareils à l’heure où la question vocale incarnée dans les assistants vocaux et leur apparente simplicité ne cesse de masquer la complexité de leur fonctionnement. C’était par exemple tout l’enjeu du travail de Kate Crawford et Vladan Joler qui ont tenté de mettre à jour toute la complexité d’Amazon Echo, de ses impacts techniques de transcription entre la voix et le texte jusqu’au rôle des transcripteurs et écouteurs humains qui se dissimulent derrière ces systèmes présentés pourtant comme complètement automatisés.

le lustre d'iPhone de Made In Machina

Derrière l’aspect ludique de ces appareils, la question de la voix n’est pas sans impacts et enjeux. Par exemple, celle de penser l’interaction vocale au prisme des questions de genre, de classe ou de race. C’est ce que questionne le collectif Feminist Internet qui a travaillé notamment à des prototypes d’une Alexa féministe, pour susciter de la conversation autour des stéréotypes sexistes que perpétuent les assistants trop souvent dotés de voix féminines pour souligner leur serviabilité (et ce alors que les appareils auraient plus de mal à répondre aux commandes provenant de femmes que d’hommes). Bien souvent, contrairement à ce qu’annonce leur marketing, ces appareils qui ne sont pas conçus pour susciter des conversations, mais juste là pour apporter des réponses formatées. Cela montre qu’il est plus que jamais nécessaire d’hybrider la conception des interfaces vocales avec les enjeux de la société d’aujourd’hui. C’est ce que propose par exemple les designers du projet Made in Machina/e, qui veulent faire se rencontrer le design Ikea avec la culture de la fabrication des contrefaçons de matériel électronique des Shanzhai, à l’image des multiples interrogations que pose leur lustre d’iPhone, qui propose de composer son lampadaire de téléphones… On a besoin d’une conception critique des objets technologiques, souligne Anthony Masure en faisant référence au projet de l’artiste Jennifer Lyn Morone, qui a décidé de se transformer elle-même en entreprise, transformant sa santé, son patrimoine génétique, sa personnalité, ses savoir-faire, son expérience en ressources pour en tirer profit. Comment se transformer soi-même en produit qui exploite ses propres ressources ? À l’image des assistants personnels qui exploitent ce qu’on leur dit de nous pour produire leur propre rentabilité depuis l’exploitation de nos données…

« Le design ne peut avoir pour vocation d’accompagner sans heurts le développement du capitalisme cognitif qu’incarnent les assistants vocaux », conclut Anthony Masure. Il n’est pas là pour produire de l’acceptation sociale de procédés qui ne sont pas acceptables. C’est assurément aux designers de trouver des formes d’ancrages permettant de contrecarrer les faisceaux de prescriptions que ces technologies produisent par-devers nous.
Promesses et illusions des interfaces vocales

« Derrière leur promesse de fluidité, d’interaction « naturelle », les assistants vocaux jouent de ce qu’ils disent et entendent, comme de ce qu’ils montrent et cachent de leur fonctionnement. La question de leur conception se joue précisément là, entre ce que l’on voit et ce qui est masqué, entre ce qui est rendu visible, lisible, audible et ce qui est invisibilisé, illisible, et également inaudible ». Cette question de la tension entre visibilité et invisibilité des processus techniques qui façonnent les dispositifs vocaux, est l’une des clés de lecture du programme Hypervoix, explique Cécile Christodoulou, qui copilote ce programme de recherche de la Fing avec Véronique Routin (voir sa présentation).

Depuis leurs apparitions, les principaux usages des assistants vocaux sont demeurés simples et constants : poser une question, lancer sa musique, demander la météo ou programmer une alarme sont toujours en tête des usages. Pourtant, de nouvelles pratiques apparaissent, principalement liées aux fonctions domotiques et ludiques des applications que l’on trouve dans les magasins d’applications vocales qu’ont ouverts Amazon et Google. Pour l’instant, comme le souligne l’étude d’usage de voicebot.ai, le problème de ces applications vocales tierces consiste plutôt à les trouver qu’à les utiliser… Si la découverte était améliorée, peut-être que certaines applications pourraient alors venir bousculer la monotonie des usages des interfaces vocales. Cela ne signifie pas pour autant que l’application vocale de la relation client dont rêvent nombre de grandes entreprises qui se lancent sur le créneau de la voix sera simple à construire… Mais que peut-être, certaines d’entre elles pourraient se faire une place dans le paysage des usages des interfaces vocales.

Le système technique des assistants vocaux demeure complexe, comme l’ont montré Kate Crawford et Vladan Joler. La simple formulation d’une requête telle que “quel temps fait-il ?” implique, pour que l’IA donne une réponse, des ressources naturelles, des lignes d’assemblage, des données et du travail humain pour entraîner la machine. On s’aperçoit que la forme de ces objets, qui semblent si anodins, masque une complexité technique invisible et un coût social, environnemental et économique significatif. Nous sommes encore bien loin de la machine auto-apprenante, intelligente, que les assistants vocaux nous promettent, à l’image du témoignage publié par la Quadrature du net qui montrait comment nos conversations avec les machines sont écoutées, retranscrites, analysées par des humains, véritables « dresseurs d’IA » invisibles. L’impact social des techniques vocales est un enjeu encore bien insuffisamment documenté.

Un autre enjeu majeur de ces technologies repose sur la communication entre l’homme et la machine (ou l’humain derrière la machine) : comment se fait-on comprendre par la machine ? Comment formuler sa requête ? L’art de la conversation avec les machines semble encore à explorer, tant nous sommes loin de la fluidité ou du « naturel » annoncé. Et ce alors que chacun a sa “façon de parler”, son tempo, son style d’interaction, directif, poli, articulé ou non… Sans compter les particularités locales et culturelles : en français par exemple, “Avec ça”, est interprété par erreur comme le mot clé d’activation “Alexa”. « À l’avenir, faudra-t-il inventer de nouveaux langages humain-machine, une langue commune et spécifique à l’interaction avec les machines ? »

La relation de confiance entre l’utilisateur et ces objets connectés est également importante : comment rendre visible la voix ou l’écoute, comment savoir si un objet est équipé d’un micro ou doté d’une voix ? Récemment, lors d’une mise à jour de la suite domotique Nest Secure (le système de sécurité domestique de Google), Google a annoncé que la commande vocale était désormais active, sans avoir jamais prévenu ses clients dans la notice de l’appareil qu’un micro était pré-installé dans l’appareil. Un exemple parmi d’autres qui questionne la confiance que l’utilisateur peut accorder aux concepteurs de ces dispositifs. À titre prospectif, se pose la question de la conception des systèmes vocaux et de leur capacité à rendre visibles l’interaction vocale et l’écoute.

Image du projet Alias

La question de la confiance, de la surveillance, capacité intrinsèque de ces outils, et de l’intrusion dans nos vies privées, ne cesse d’interroger les acteurs du secteur. Plusieurs projets tentent d’apporter des réponses ou de questionner ces enjeux, à l’image du projet Alias, développé par Borek Karmann et Topp Tore Knudsen. Alias se présente comme un « parasite », un couvercle imprimé en 3D qui se fixe au sommet d’une enceinte intelligente ; à l’intérieur, un microphone et deux haut-parleurs produisent un bruit blanc qui empêche le haut-parleur cible de s’activer. Le système permet à l’utilisateur de paramétrer un mot d’activation personnel pour « libérer » l’écoute de son assistant vocal et de permettre aux utilisateurs de retrouver du contrôle sur ces machines.

Finalement, on peut également interroger la réponse unique donnée par l’assistant vocal. À la différence de l’écran, la voix ne permet pas de proposer en simultané plusieurs réponses. C’est une des grandes limites aujourd’hui des assistants vocaux, incapables d’un art de la conversation. Comment la réponse est-elle choisie ? Quelle est sa qualité, pertinence, précision ? L’Arcep, autorité de régulation, alertait dans un rapport sur cet enjeu politique et économique des terminaux : “lorsqu’elles sont contraintes à une restitution orale, les enceintes connectées ne fournissent souvent qu’un seul résultat pour une requête, choisi par l’algorithme de classement. […] il reste que la nécessité d’une réponse unique constitue une restriction structurelle à l’ouverture d’internet.”

Face à ces enjeux (et il y en a d’autres, comme la faible portabilité des données vocales ou les limites de l’interaction quand elle est uniquement basée sur la voix), le défi est de parvenir à mieux cartographier et prioriser ces questions au croisement de la recherche, du développement et de leurs impacts sociaux.
Partager la parole avec les machines

« Le premier outil de régulation d’un État de droit est la parole », explique la philosophe Cynthia Fleury. C’est dire si la voix et ses impacts ne sont pas à prendre à la légère, rappelle la designer Zoé Aegerter de l’agence de design fiction spécialisée dans les questions vocales, Postillon prospective (voir sa présentation .pdf). Notre société est en apparence bavarde, mais ce n’est pas sans finalité. La parole est un moyen d’agir ! Si la parole reste un exercice difficile, qui nécessite d’en maîtriser des codes multiples qui ne sont pas accessibles à tous, celle-ci ne se déploie pas de la même manière et par les mêmes personnes selon qu’elle s’exprime sur un plateau télévisé, à l’Assemblée nationale ou à la terrasse d’un café. En cela, la parole est influencée par les dispositifs dans lesquels elle s’exprime. D’où l’importance de la conception des dispositifs et espaces qui l’accueillent.

Le concerteur vocalise les SMS du publicC’est ce que réalise la designer avec le projet de « concerteur » des causeuses électroniques. Le concerteur est une boîte vocale à laquelle on envoie des messages par SMS et qui, via une voix de synthèse, permet d’écouter les réactions du public à la question à laquelle ils ont répondu par SMS. Pour Zoé Aegerter, ce prototype est un moyen d’humaniser les interfaces en réduisant la distance entre l’humain et la technique. A l’heure où l’humain perd le monopole de la parole et doit le partager avec les machines, il est nécessaire de réfléchir à développer des modes de communication inter-espèces plus accessibles.

Trop souvent encore, la machine ne comprend pas l’intention. Quand on demande la météo à un assistant vocal par exemple, l’intention non explicite de la question consiste à savoir si l’on doit prévoir de prendre son parapluie ou comment s’habiller en conséquence… Cela montre que la réponse apportée (« forts risques d’averses annoncés pour demain ») ne correspond pas toujours exactement à l’intention non exprimée. C’est tout l’enjeu du travail de design et de conception des dialogues de la machine d’implémenter des réponses qui correspondent mieux aux attentes humaines. Pour l’instant, l’assistant vocal demeure un pantin technologique qui dépend entièrement des choix de conception qui le façonne. Dans un prototype de jeu pour enfant réalisé pour EDF afin de les sensibiliser aux enjeux écologiques dans l’habitat, la designer a conçu une application vocale où des comédiens donnaient une voix à des objets domestiques que les enfants devaient reconnaître et trouver. Cette voix des objets était elle-même une synthèse, une rencontre hybride entre la voix humaine et celle des machines. Une manière à nouveau d’interroger les enjeux du rapport humain-machine, pour tenter de trouver des pistes pour vivre avec les machines vocales. La designer a produit d’ailleurs des cartes de scénarios de réflexion sur les formes de prospective autour de la parole, en proposant des scénarios qui interrogent les espaces, les identités, les environnements cognitifs comme l’économie de la parole. Un moyen complémentaire pour cartographier les enjeux à venir de la voix à mesure qu’ils vont envahir nos interactions.

Image : cartographie de scénarios d’enjeux prospectifs de la parole par Postillon Prospective.
Vers une relation schizophrénique avec les interfaces vocales ?

Notre collègue Rémi Sussan, journaliste pour InternetActu.net, avait la mission, lors de cette journée d’étude, d’éclairer l’avenir des interfaces vocales.

L’avenir des interfaces, de la relation entre l’homme et la machine, semble balancer, hésiter, entre deux visions, deux tendances opposées : d’un côté la machine qui s’intègre à nous, qui connecte nos cerveaux à des extensions, les augmente ; de l’autre la projection de l’homme dans la machine, notre intégration à des formes de réalité virtuelle. On peut d’ailleurs envisager une synthèse entre ces deux approches : la réalité virtuelle totale, celle où le cerveau se connecte directement au monde virtuel. C’est bien sûr l’idée de base du film Matrix, mais également celle du cyberespace imaginé par l’auteur de science-fiction William Gibson dans son roman Neuromancien.

Les auteurs de science-fiction ont imaginé des futurs lointains qui ne sont bien sûr pas près de se réaliser. Mais on observe déjà des recherches contemporaines qui apparaissent comme des petits pas vers les fantasmes les plus fous… Outre le cyberespace, l’une des présentations sciences-fictionnelles les plus excitantes de la réalité virtuelle est celle donnée par Bruce Sterling dans son livre La Schismatrice. Il y imagine une « arène » où les joueurs doivent se combattre en se retrouvant dans le corps d’une créature dont ils ne connaissent pas la nature et les capacités. Ils doivent donc apprendre à contrôler leurs corps en même temps qu’affronter leur adversaire.

On imagine souvent la réalité virtuelle comme une technologie essentiellement audiovisuelle, mais pour son créateur, Jaron Lanier, l’un des aspects les plus intéressants de cette technologie est justement de permettre à la conscience d’incarner un autre corps.

Côté interfaces cerveau-machine, les auteurs de SF s’interrogent beaucoup sur les conséquences de la délégation de nos facultés mentales à un système technique extérieur. Dans son excellent roman (le meilleur probablement sur le transhumanisme) Accelerando, Charles Stross met en scène un personnage qui ne quitte jamais ses lunettes, qui concentrent la plupart de ses données personnelles et qui est truffée d’algorithmes et d’IA. Ayant perdu ses dernières, il se demande un moment qui il est, il est frappé d’une espèce d’amnésie : « Cliquez sur mon arborescence mémétique, je suis perdu. Oh merde. Qui suis-je ? Qu’est-il arrivé ? Pourquoi tout est-il flou ? Je ne retrouve plus mes lunettes… »

Cette expérience extrême, les chercheurs en lifelogging (activité qui consiste à enregistrer sa vie en permanence) Jim Gemmel et Gordon Bell, en ont eu un avant-goût. Gemmel a eu l’impression de perdre une partie de sa mémoire à la suite d’un crash de disque dur, tandis que Bell s’est demandé si mylifebits, son logiciel de lifelogging, n’allait pas dégrader la capacité de son cerveau biologique à se ressouvenir.

La télépathie, elle, est l’horizon fantasmatique de l’interface cerveau-machine. Du reste, lorsque le neurologue allemand Hans Berger créa le premier électro-encéphalogramme d’un cerveau humain en 1924, c’était au cours de recherches sur ce mystérieux pouvoir paranormal. Reste que la télépathie est un sujet récurrent de la littérature de SF, qui se développe souvent sous la forme d’une évolution du genre humain comme dans Les enfants de Darwin de Greg Bear, ou via des machines, à l’image du professeur Xavier, dans la saga X-Men qui utilise une machine, le Cerebro, susceptible d’accélérer ses pouvoirs mentaux.

Pourrons-nous un jour lire les pensées grâce aux machines ? Là encore, on en est loin, mais des recherches existent déjà dans ce sens, comme celles de Marcel Just et Tom Mitchell à l’université Carnegie Mellon.

Dans sa trilogie Nexus, Crux et Apex, l’écrivain transhumaniste Ramez Naam imagine une molécule capable de relier les cerveaux entre eux. Dans sa Trilogie du Vide, l’auteur de science-fiction Peter Hamilton imagine un « internet de la pensée ». À l’aide d’outils technologiques, les pensées et les sensations de tout un chacun deviennent accessibles à tous. Mais la réalité est encore bien loin de la fiction. Pour l’instant, on en est encore à tester des « interfaces-cerveau-cerveau », comme celle utilisée par Rajesh Rao et Andrea Stocco, à l’université de Washington.

Reste enfin la question de l’IA. Comment celle-ci peut-elle s’intégrer à une interface cerveau-machine ? Dans son roman Aristoï, Walter Jon Williams imagine que ses personnages sont dotés de « personnalités artificielles ». Autrement dit, à l’intérieur même de leur cerveau vivent des entités purement virtuelles, boostées par des implants IA, avec lesquelles le « moi » d’origine peut discuter et à qui il peut demander différents services. Telle personnalité artificielle est capable par exemple de contrôler les niveaux de stress ou de prendre certaines décisions…

Sommes-nous prêts à devenir des « personnalités multiples » et à abandonner ainsi l’unité de notre moi, à héberger en notre sein des entités extérieures à notre esprit ? Nous n’en sommes peut-être pas si loin d’une certaine manière, s’amuse Rémi Sussan. Il existe déjà, aux marges, toute une sous-culture qui tend vers ce but, celle des « tulpamanciens »…

En tout cas, ces romans comme ce genre de mouvements marginaux nous montrent que bien souvent, l’imaginaire précède la technologie, et non l’inverse. Et que des promesses des interfaces vocales à la télépathie ou à la schizophrénie… Il n’y a parfois qu’un pas !