Assistants vocaux, quel est le problème ?

par Hubert Guillaud

Les interfaces vocales sont en plein boom, mais leurs modalités s’imposent souvent à nous sans que nous, utilisateurs, ayons beaucoup d’espaces pour les interroger. Dans le cadre d’une journée d’étude organisée par le Master Design transdisciplinaire, cultures et territoires de l’université de Toulouse, designers et chercheurs ont exploré des voies pour remettre la voix en contexte, pour interroger le rapport entre la parole et sa transcription, tels que les proposent les nouvelles modalités d’interaction des assistants vocaux. Retour sur cette journée de séminaire pour mieux saisir les promesses et limites des interactions vocales à l’heure où elles se préparent à envahir nos relations…

Enjeux critiques : à quoi répondent les interfaces vocales ?

Le maître de conférence et chercheur en design, Anthony Masure (@anthonymasure), coorganisateur de cette journée, l’a introduite en revenant sur les enjeux critiques des assistants vocaux en en dressant un historique (voir sa présentation).

Le premier assistant vocal, Audrey, est né aux Bell Laboratories en 1952 : il était capable de reconnaître les chiffres de 0 à 9 afin de faciliter la commutation téléphonique. Il a été suivi de nombres d’amélioration, comme la Shoebox d’IBM (1961), du premier programme de chatbot, Eliza, de Joseph Weizenbaum en 1964 qui visait à simuler sous forme textuelle, un psychothérapeute. Puis de programmes de la Darpa et d’une machine à écrire vocale d’IBM dans les années 80 qui donneront naissance aux premiers systèmes de reconnaissance vocale. En 1987, l’un des grands spécialistes du sujet, Frederick Jelinek explicite les enjeux de ces recherches en posant le principe d’une interface « naturelle », sans que cette caractéristique ne soit jamais pleinement explicitée.

Les véritables applications commerciales vont commencer à décoller avec le développement de l’informatique personnelle. En 1997, Dragon lance la première version de son logiciel de reconnaissance vocale, qui transcrit la voix en mots. Le boom actuel des outils de reconnaissance vocale repose sur les progrès réalisés depuis et qui s’incarnent au début des années 2010, avec Watson d’IBM (2011), Siri d’Apple (2011), Google Now (2012), Cortana de Microsoft (2013) des interfaces qui vont entrer en interaction avec les fonctions du téléphone pour proposer des réponses à des questions vocales. Puis, ces assistants intégrés aux téléphones vont s’externaliser dans des objets dédiés pour une utilisation domestique, comme les enceintes connectées avec Alexa d’Amazon (2014), Google Home (2016), HomePod d’Apple (2018), Portal de Facebook (2018)… Une ultime génération commerciale commence à arriver qui propose de sortir les interfaces vocales d’appareils spécifiques pour intégrer tous types d’appareils : casques, lunettes, appareils électroménagers…

Les manuels de fonctionnalités et les documents de spécifications pour développeurs permettent de regarder dans le détail ce qu’il est possible de faire et ne pas faire avec ces outils. À l’heure où ils promettent de faire de la voix un service accessible en permanence et à distance dans le cloud, se pose la question du respect des libertés individuelles autour de l’exploitation biométrique de la voix. Hormis Snips et quelques rares services similaires, peu de dispositifs ont fait le choix de limiter les fonctionnalités de contrôle/commande vocale au dispositif lui-même. Les propositions visant à respecter les données et des libertés individuelles demeurent marginales.

Début 2018, 39 millions d’Américains possédaient une enceinte connectée. D’ici 2020, 50 % des recherches sur mobile devraient se faire en vocal (20 % des recherches depuis un mobile se font en vocal aujourd’hui et les recherches depuis un appareil mobile totalisent 50 % des recherches sur Google). Quant à la commande vocale pour faire ses courses, le marché annuel devrait passer de 2 milliards en 2018 à 40 milliards en 2022 ! Dans cette perspective de massification des usages, les Gafam dominent déjà le marché. Cependant, les usages demeurent encore circonscrits à du contrôle commande domestique et domotique. Dans les usages quotidiens (qui ne sont pas si courants, ils sont souvent plus épisodiques qu’on ne le pense), on s’en sert plus pour lancer sa musique ou connaître le temps que pour obtenir une réponse à une question particulière.

Image : A quoi servent les assistants vocaux et selon quelle fréquence ?, via VoiceBot.ai.

Pour Anthony Masure, il est nécessaire de porter un regard critique sur la conception de ces interfaces, qui semblent plutôt révélatrices de la multiplication des « boîtes noires » que deviennent tous nos objets quotidiens. Derrière la facilité d’usage, ces dispositifs ne font pas qu’invisibiliser leur fonctionnement, ils invisibilisent également les valeurs encodées dans les programmes. Au final, ils réduisent nos options, nos choix, au profit d’une réponse unique, qui n’est pas sans poser des questions sur les éléments qui président à cette réponse plutôt que d’autres. Le développement des interfaces vocales pose en regard des questions sur l’avenir des interfaces visuelles. « Si les assistants vocaux sont la solution, quel est le problème ? » A quoi leur développement répond-il ? Pourquoi existent-ils ? Quelle est la fonction du designer dans le développement de ces objets ? N’a-t-il pour fonction que d’accompagner le développement du capitalisme cognitif ? Comment rendre intelligibles tous les processus cachés par ces boîtes noires ? Anthony Masure évoque bien sûr le travail de Kate Crawford et Vladan Joler qui ont tenté de dresser une cartographie du fonctionnement d’Amazon Écho, de montrer tout ce qu’impliquait l’utilisation de la boîte noire, jusqu’aux petites mains qui surveillent l’écoutent et la retranscription de nos ordres, armée prolétaire rendue elle aussi invisible.

« La facilité d’utilisation des assistants vocaux masque de nombreux déterminismes dans le calcul des résultats de requêtes qui se limitent souvent à un seul résultat dont le choix n’est jamais neutre. » Sans compter les innombrables problèmes relatifs à la vie privée dont ces dispositifs ont été à l’origine… Pour Anthony Masure, ces objets réinterrogent la question du respect de la vie privée dès la conception (privacy by design)…

Enfin, les usages de ces objets sont particulièrement stéréotypés, comportementaux… La typologie des usages demeure simpliste : météo, alarme, lancement d’une fonction, commande de produits… Comme le souligne le spécialiste de la captologie, Nir Eyal, ces objets ont pour fonction de modifier nos habitudes. Ce qui pose pour les designers des défis pour élargir le spectre de ce qu’il est possible de faire avec la voix. Comment créer de nouvelles fonctionnalités ? Comment détourner ces objets ? Peut-on les pirater via des fréquences inaudibles à l’homme ? Comment inventer d’autres détournements vocaux ? L’artiste et programmeuse Nicole He, qui donne un cours sur les usages non conventionnels des technologies vocales à la New York University, en pointait récemment une quinzaine imaginés par ses étudiants. En avril 2017, Burger King n’hésitait pas à lancer dans une publicité la commande qui active les assistants de Google pour démultiplier la promotion de ses burgers dans d’innombrables foyers… L’enjeu marketing est pour l’instant au coeur de ces interfaces, mais il semble pourtant essentiel de les imaginer au-delà des impasses du marketing et de l’imaginaire de l’assistance, qui de Jarvis à Zuckerberg lui-même, l’incarnent.

Enfin, pour Anthony Masure, il est également nécessaire d’interroger les complémentarités entre interface vocale et visuelle, trop souvent oubliées. À l’image de l’étonnant Adobe Sensei, un Photoshop piloté par la voix ou des polices de caractères variables qui permettraient de faire réagir une police de caractère au son, comme le propose Prototypo. Des perspectives qui posent également celles des intonations, des silences, des hésitations… et de tout ce que la voix dit de nous, au-delà du seul sens produit.

Pourquoi parlons-nous aux objets ?

Pour Julien Drochon, designer et enseignant à l’École supérieure d’art des Pyrénées et coresponsable de la journée de recherche Vox Machines, on parle depuis longtemps aux objets, notamment en les insultants quand ils dysfonctionnent. Mais tous n’ont pas, comme les assistants vocaux, à l’image du miroir magique de Blanche Neige, la capacité de nous répondre ou de prédire l’avenir. « Parler aux objets relève d’un côté magique », comme si le simple fait d’énoncer quelque chose nous faisait espérer une performativité de la parole. C’est bien le cas des assistants vocaux, où notre parole devient action et plus encore consommation. Ces interfaces gomment toute friction entre la parole et l’achat, tout contact, tout geste… « L’automatisation de la parole fait disparaître l’échange verbal, comme si en prenant la parole pour nous, les objets nous la confisquaient ». À l’image de Google Duplex (vidéo) qui téléphone et prend nos réservations pour nous, avec des hésitations, des intonations si humaines…

Julien Drochon évoque le travail de Loren McCarthy qui, dans son projet The Human intelligence Smart home de 2017, proposait d’être l’assistance vocale humaine de personnes dans leur demeure (vidéo). Après avoir installé caméras, micros et dispositifs électroniques chez des particuliers volontaires, Lauren, tel Siri ou Alexa, était disponible en continu pour offrir ses services. Une oeuvre qui interroge en profondeur les limites de l’intimité de ces dispositifs techniques.

« L’homme délègue des principes répétitifs de la machine. Les interfaces « naturelles » délèguent l’apprentissage de l’usage à la machine : on leur délègue la répétition qui nous permet d’apprendre. » C’est le principe même du machine learning, répéter inlassablement pour apprendre… C’est la manière même dont nous apprenons que nous déléguons désormais aux machines au risque de nous confisquer non plus notre parole, mais notre savoir lui-même et la manière même dont nous apprenons.

Le concept d’interface naturelle n’est pas sans ambiguïtés, relève à son tour Julien Drochon. Dans le domaine des interfaces homme-machine, il fait référence à une interface utilisateur invisible… comme magique ou enchantée. À une affordance, c’est-à-dire à la capacité d’un objet à suggérer sa propre utilisation, comme si celle-ci devait être intuitive ou transparente, même si tout ce qu’elle met en oeuvre est par nature opacifié. C’est le cas d’Anti AI AI, un projet créé par l’agence australienne DT, qui consiste en une oreillette capable de détecter les voix artificielles des voix humaines, et qui chauffe pour indiquer à son porteur la présence d’une voix non humaine. Un objet pour se prémunir des voix de synthèses cherchant à se faire passer pour des êtres humains, pour discerner la réalité de la fiction, pour mettre en évidence ce qui n’est pas naturel dans ce qu’on appelle les interfaces naturelles…

Pour Julien Drochon également, rendre visible la parole à l’heure où ces objets nous en privent est assurément un autre enjeu à convoquer. Il évoque rapidement plusieurs projets artistiques comme Murmur du studio Chevalvert qui traduit la parole en signaux lumineux… ou encore une police de caractère qui réagit aux sons.

Dans beaucoup d’éléments, le dialogue devient un élément majeur de l’interface. Les fictions conversationnelles deviennent des conversations fonctionnelles. C’est notamment le cas dans de nombreux jeux vidéos où l’information audio et la conversation sont parties intégrantes de celui-ci, comme dans Far Cry 5 ou l’information est en grande partie transmise par radio. La conversation devient une modalité d’interaction dans les jeux vidéos et le développement de capacités de reconnaissance vocale va certainement renforcer ces modalités d’interaction. Du cinéma aux récits interactifs (comme dans Burry me My Love), l’interface conversationnelle devient un fil qui réunit l’histoire et celui qui la regarde, la lit voire désormais l’écoute.

Derrière l’IA et la reconnaissance vocale, se cachent bien sûr des technologies, des langages qui ont pour nom synthèse vocale, traitement automatique du langage naturel, reconnaissance vocale… qu’il faut apprendre à détricoter pour ré-ouvrir les possibles de ces technologies.

Des technologies militaires dans nos salons ?

Nicolas Santolaria (@santo_nico) est journaliste. Il est notamment l’auteur de plusieurs ouvrages comme Dis Siri : enquête sur le génie à l’intérieur du smartphone (2016), du Syndrome de la chouquette (2018) et de Comment j’ai sous-traité ma vie (2017). Son livre sur Siri était une forme de biographie de l’assistant vocal d’Apple.

Les origines de Siri sont militaires, rappelle le journaliste. Ce qui a présidé à la naissance de Siri est un défi de la Darpa lancé en 2003 et arrêté en 2008 pour créer un assistant pour aider le commandement militaire dans les cas de surcharge cognitive : le programme CALO, relevé notamment par l’entreprise SRI international, dont Siri est une spin-off vendue à Apple en avril 2010.

« Les avancées de ces technologies militaires ont été implémentées dans des applications civiles, avec une dimension d’efficacité particulièrement finaliste et performative ». La technologie rachetée par Apple est intégrée à l’iPhone 4S en 2011. Au début, il avait pour fonction de permettre d’utiliser son smartphone par la voix. Mais très vite, il devient un assistant emphatique, « gentil », même si son but demeure essentiellement marchand. Cette figure de l’assistant est intéressante à analyser, remarque Nicolas Santolaria : « on nous présente toujours Siri comme un besoin », à l’image de ces vidéos promotionnelles où l’utilisateur cuisine toujours, toutes mains occupées, comme si nous avions en permanence les mains occupées. Siri maximalise l’individu : on lui délègue les tâches les moins rentables dans une vie qui ressemble toujours à un capital qu’on doit cultiver, faire fructifier.

Au début, quand Apple lance Siri en 2011, ça ne marche d’abord pas très bien… Mais pour la première fois les objets nous répondent expliquait déjà en 2005 le professeur en communication Clifford Nass dans son livre Wired for Speech. Le cerveau ne fait pas de différence entre ce que dit une machine et un être humain. « Avec l’interaction vocale, l’objet devient social ! ». Ces appareils n’en cristallisent pas moins les biais sociaux : on leur donne des prénoms féminins, on convoque l’imaginaire de la secrétaire et de la machine parfaitement obéissante. Comme pour renforcer ces biais, les constructeurs lui donnent de la personnalité, la font parler à la première personne, elle est polie, elle partage avec les utilisateurs un fond de pop culture comme un substrat culturel commun de référence, elle pratique l’humour, ce qui renforce encore sa subjectivité, elle a des préférences (des couleurs qu’elle préfère par exemple…), brefs des traits de caractère humains créés par des équipes d’auteurs pour nous faire croire finalement à l’intelligence de la machine… Mais Siri demeure une voix, une onde. Elle n’a pas de corps. Si Siri sait faire état de sensations corporelles, ou d’empathie, cela reste une émotion simulée qui a pour but de faciliter l’adhésion de l’utilisateur, comme l’explique le psychanalyste Serge Tisseron qui parle d’empathie artificielle. Une empathie qui n’est pas sans poser problème, estime Nicolas Santolaria, tant elles sont bordées, positives, sans frictions et rassurantes. Une empathie qu’il faut interroger, comme le fait Sherry Turkle dans Seuls Ensemble en se demandant si à l’avenir, du fait de leur bienveillance, nous ne préférerons pas interagir avec les machines qu’avec nos semblables ?

Si Siri est assimilé à un agent social, depuis le début, les utilisateurs ont questionné la question du cadre moral de la machine. L’anthropologue Denis Vidal parle de pacte et de piège anthropomorphique : le piège et le pacte étant, pour les assistants vocaux, d’être absorbé par les codes d’interactions sociaux normatifs introduits et valorisés par la machine, comme la politesse (programmable sur l’application de contrôle parental Freetime d’Amazon, afin d’exiger des enfants qu’ils soient polis avec leur assistant). Pire, cette connivence nous fait facilement oublier que les requêtes vocales sont conservées, qu’elles sont utilisées pour profiler l’utilisateur…

Reste que les assistants vocaux, globalement, ne fonctionnent pas très bien. « Peut-être que ça ajoute un petit côté sympa : les gens voient la machine comme une entité perfectible, en évolution, un peu comme eux » Mais on peut se demander ce qu’il en est de leur adoption réelle. On ne croise personne qui parle à son assistant dans la rue. Avant d’y être confronté, on pense souvent que nous sommes là face à des machines à qui l’on peut tout demander. Mais c’est assez faux, et la gamme d’usage se révèle vite limitée, précise, concrète… et toute requête qui s’en éloigne se révèle vite déceptive. Les chercheurs d’Orange, Julia Velkovska et Moustafa Zouinar ne disaient pas autre chose quand ils évoquaient le fossé entre les promesses marketing et les usages, sur le Linc de la Cnil.

Pour Nicolas Santolaria, Siri nous fait la promesse de nous débarrasser du superflu pour en revenir à l’essentiel… Mais c’est toujours ce fantasme de La vie intense dont parlait le philosophe Tristan Garcia. Dans Comment j’ai sous-traité ma vie, Nicolas Santolaria a prolongé le fantasme de déléguer sa vie que propose Siri, en faisant l’expérience des innombrables dispositifs de sous-traitance qui nous sont accessibles via les services en ligne. Que ce soit pour préparer un repas, un voyage ou draguer… force est de constater que déléguer est fastidieux ! « On est sans cesse en train de surveiller ses sous-traitants ! » Au final, pourquoi la vie devrait-elle devenir aussi performative ? Cette course à l’efficacité oublie et les relations et l’interaction. « Ces dispositifs, en fait, ne captent pas seulement notre attention, mais aussi l’énergie sociale, qu’ils aspirent de manière vampirique »… Comme si l’optimisation se faisait pour elle-même, en roue libre !