Santé : l’essor du diagnostic par la voix | Cerveau & Psycho

En mars 2020, alors qu’il devenait clair que la pandémie de coronavirus prenait une ampleur sans précédent, les responsables du monde entier ont commencé à demander à chacun de participer à la lutte. Les hôpitaux ont encouragé les entreprises locales à donner des masques de protection. Les chercheurs ont enjoint ceux qui s’étaient remis du Covid-19 à donner leur plasma sanguin. Et en Israël, le ministère de la Défense et une jeune entreprise appelée Vocalis Health, implantée dans ce pays et aux États-Unis, ont demandé aux habitants de donner... leur voix.

Spécialisée dans l’analyse des caractéristiques vocales, Vocalis avait déjà créé une application pour smartphone qui détecte les poussées de bronchopneumopathie chronique obstructive en analysant les signes d’essoufflement des utilisateurs lorsqu’ils parlent. La société voulait développer le même type de dispositif pour le Covid-19. Les personnes testées positives au coronavirus pouvaient participer à l’étude en téléchargeant une application mise à disposition par Vocalis pour ces recherches. Une fois par jour, elles lançaient l’application et parlaient dans leur téléphone, en décrivant une image à haute voix et en comptant de 50 à 70.

Diagnostiquer le Covid-19 grâce à la voix

Grâce à un système d’apprentissage automatique (machine learning), Vocalis a ensuite traité ces enregistrements, ainsi que les voix de personnes dont le test de dépistage était négatif, pour tenter d’identifier une empreinte vocale de la maladie. Au milieu de l’été, l’entreprise disposait de plus de 1 500 échantillons de voix et de la version pilote d’un outil numérique de dépistage du Covid-19. Cet outil, que la société teste actuellement dans le monde entier, n’est pas destiné à fournir un diagnostic définitif, mais à aider les cliniciens à trier les cas potentiels : il s’agit d’identifier ceux qui auraient le plus besoin d’être testés, mis en quarantaine ou soignés par le personnel médical. « Peut-être notre algorithme d’IA sera-t-il utile de ce point de vue ? » s’interroge Tal Wenderow, président et directeur général de Vocalis. « Cette méthode n’est pas invasive, elle n’est pas un médicament, nous ne modifions rien chez le patient. Tout ce que vous avez à faire, c’est de parler. »

Cette entreprise n’est pas la seule à s’être lancée dans la course aux biomarqueurs vocaux du Covid-19 – au moins trois autres groupes de recherche travaillent à des projets similaires. D’autres équipes exploitent des enregistrements audio de toux provoquée par le coronavirus ou développent des algorithmes qui détectent si une personne porte un masque facial à partir de l’analyse de sa voix.

Cela montre à quel point le jeune domaine du diagnostic vocal est impatient de se faire une place au soleil. Au cours de la dernière décennie, les scientifiques ont utilisé des systèmes d’intelligence artificielle (IA) et d’apprentissage automatique pour identifier des biomarqueurs vocaux potentiels pour une grande variété de pathologies, comme la démence, la dépression, les troubles du spectre autistique et même les maladies cardiaques. Les technologies qu’ils ont élaborées sont capables de déceler des différences subtiles dans la façon de parler des patients, et des entreprises du monde entier commencent à les commercialiser.

« Siri, est-ce que je suis malade ? »

Pour l’instant, la plupart des équipes adoptent une approche lente et progressive, en concevant des outils sur mesure destinés aux cabinets médicaux ou aux essais cliniques. Mais beaucoup rêvent de déployer cette technologie à plus grande échelle, en exploitant les microphones qui sont omniprésents dans les produits que nous achetons. Ces systèmes pourraient un jour permettre aux épidémiologistes d’utiliser les smartphones pour suivre la propagation des maladies, et transformer les haut-parleurs intelligents en dispositifs médicaux à domicile. « À l’avenir, votre robot, votre Siri, votre Alexa [des assistants vocaux respectivement développés par Apple et Amazon, ndlr] dira simplement : “Oh, vous avez un rhume” », explique Björn Schuller, spécialiste de la reconnaissance de la parole et des émotions, qui occupe un poste conjoint à l’université d’Augsbourg, en Allemagne, et à l’Imperial College de Londres, et qui dirige l’une des études sur le Covid-19.

Mais l’analyse vocale automatisée représente encore un domaine nouveau, qui se heurte à un certain nombre d’écueils potentiels, allant des diagnostics erronés aux intrusions dans la vie privée et dans les données médicales personnelles. De nombreuses études sont encore préliminaires, à petite échelle, et il ne sera pas facile d’aboutir à un produit fini. « Nous n’en sommes qu’au début », déclare Schuller.

Certaines affections provoquent des distorsions vocales évidentes – pensez par exemple à la diction d’une personne souffrant d’allergies et qui est soudain saisie d’une sensation d’étouffement. Mais de nombreux scientifiques pensent que l’analyse vocale pourrait aller bien au-delà et aider à identifier un très large éventail de troubles, grâce à la complexité de la parole humaine.

Parler nécessite la coordination de nombreuses structures et systèmes anatomiques. Au départ, les poumons envoient de l’air à travers les cordes vocales. Celles-ci produisent des sons, qui sont ensuite façonnés par la langue, les lèvres et les cavités nasales, entre autres structures. Le cerveau, avec d’autres parties du système nerveux, régule tous ces processus et détermine les mots prononcés. Une maladie touchant l’une ou l’autre de ces structures peut laisser des traces dans la parole, qui sont autant d’indices pour le diagnostic.

Des milliers d’échantillons de voix analysés

L’apprentissage automatique offre un moyen de détecter ces anomalies, rapidement et à grande échelle. Il est désormais possible d’introduire des centaines ou des milliers d’échantillons de voix dans un ordinateur, qui recherche les caractéristiques propres aux patients atteints de diverses pathologies.

La plupart des premiers travaux dans ce domaine ont porté sur la maladie de Parkinson, qui a des effets bien connus sur la parole et pour laquelle il n’existe pas de test livrant un diagnostic définitif. Cette maladie provoque divers symptômes moteurs, notamment des tremblements, une rigidité musculaire et des problèmes d’équilibre et de coordination. La perte de contrôle s’étend aux muscles impliqués dans la parole ; en conséquence, de nombreux patients parkinsoniens ont une voix faible et douce. « C’est un des éléments décelables par l’oreille humaine », explique Reza Hosseini Ghomi, neuropsychiatre à l’EvergreenHealth de Kirkland, dans l’État de Washington, qui a identifié des caractéristiques vocales associées à plusieurs maladies neurodégénératives. « Mais avec 10 000 échantillons et un ordinateur, vous serez beaucoup plus précis. »

Il y a plus de dix ans, Max Little, chercheur en apprentissage automatique et en traitement du signal, aujourd’hui à l’université de Birmingham, au Royaume-Uni, s’est penché sur la faisabilité d’applications d’analyse vocale pour l’aide aux diagnostics difficiles. Dans une étude, Little et ses collègues ont utilisé des enregistrements audio de 43 adultes, dont 33 patients parkinsoniens, prononçant la syllabe « A » de manière prolongée. Grâce à des algorithmes de traitement de la parole, ils ont analysé 132 caractéristiques acoustiques de chaque enregistrement, pour finalement en retenir 10 qui semblaient les plus prédictives de la maladie de Parkinson – comme l’essoufflement et les oscillations tremblantes de la hauteur et du timbre. En se fondant uniquement sur ces 10 caractéristiques, le système a identifié les échantillons de parole produits par des malades avec une précision de près de 99 %.

Santé : l’essor du diagnostic par la voix | Cerveau & Psycho

Avec d’autres chercheurs, Little a également démontré que certaines caractéristiques vocales sont liées à la gravité des symptômes de la maladie de Parkinson. Selon lui, les systèmes ne sont pas encore assez robustes pour être utilisés en routine dans la pratique clinique, mais les applications potentielles sont nombreuses. L’analyse vocale pourrait constituer un moyen rapide et peu coûteux de surveiller les personnes à risque, de dépister de grandes populations ou même de créer un service téléphonique pour diagnostiquer à distance ceux qui n’ont pas accès à un neurologue. Une version portable du dispositif – sous la forme d’une application pour smartphone, par exemple – permettrait aussi aux patients de suivre leurs propres symptômes et de surveiller leur réponse aux médicaments. « Ce type de technologie est capable de fournir des instantanés à haute vitesse, presque un suivi continu, de l’évolution des symptômes », explique Little.

De Parkinson à Alzheimer

Les chercheurs s’efforcent maintenant d’identifier des biomarqueurs basés sur la parole pour d’autres types de maladies neurodégénératives. En analysant des échantillons de voix et des transcriptions de parole fournis par plus de 250 personnes, un trio de scientifiques canadiens a par exemple repéré des dizaines de différences entre celles qui avaient reçu un diagnostic de maladie d’Alzheimer « possible ou probable » et les autres. Les participants touchés par la pathologie avaient ainsi tendance à employer des mots plus courts, un vocabulaire plus restreint et davantage de fragments de phrases. Ils se répétaient en outre plus souvent et utilisaient davantage de pronoms, comme « il » ou « ceci ». « Cela peut être un signe qu’ils ne se souviennent tout simplement pas du nom des choses et qu’ils doivent se servir de pronoms à la place », explique Frank Rudzicz, informaticien à l’université de Toronto, qui a dirigé l’étude.

En prenant en compte 35 de ces caractéristiques vocales, le système a réussi à identifier les personnes atteintes de la maladie d’Alzheimer avec une précision de 82 % (ce taux s’est depuis amélioré pour atteindre environ 92 %, précise Rudzicz, en notant que les erreurs se répartissent plus ou moins également entre faux négatifs et faux positifs). « Ces caractéristiques s’additionnent pour former une sorte d’empreinte digitale de la démence, explique le scientifique. Il s’agit d’un motif caché très complexe que nous avons du mal à identifier, mais que l’apprentissage automatique est à même de repérer, à condition de disposer de suffisamment de données. »

Prise de sang ou prise de son ?

Étant donné que certains de ces changements vocaux surviennent dès les premiers stades des maladies neurodégénératives, les chercheurs espèrent que les outils d’analyse de la voix aideront un jour les cliniciens à diagnostiquer ces pathologies plus tôt et à intervenir avant que d’autres symptômes n’apparaissent. Pour l’instant, cette idée reste toutefois largement théorique et son potentiel doit être confirmé par des essais dits « longitudinaux », qui portent sur un grand nombre de patients suivis sur le long terme. Certains médecins font en outre remarquer que l’analyse de la voix seule permettra rarement de poser des diagnostics définitifs. « J’apprends beaucoup en écoutant la voix de quelqu’un », déclare Norman Hogikyan, laryngologue à l’université du Michigan, à Ann Arbor. « C’est mon métier. Mais je le combine avec une analyse de l’histoire médicale du patient et ensuite un examen. Les trois parties de cette évaluation sont importantes. »

Les chercheurs actifs dans ce domaine soulignent que l’objectif n’est pas de remplacer les médecins ni de créer des dispositifs de diagnostic autonomes. Ils voient plutôt l’analyse de la voix comme un outil d’aide à la décision pour les soignants : ce serait un « signe vital » supplémentaire à surveiller ou un test qu’il est possible de demander. « Je pense que la collecte d’échantillons de parole deviendra aussi courante qu’une prise de sang », déclare Isabel Trancoso, spécialiste du langage parlé à l’université de Lisbonne.

Un certain nombre de jeunes entreprises spécialisées dans l’analyse vocale – dont Winterlight Labs, une société de Toronto cofondée par Frank Rudzicz, et Aural Analytics, à Scottsdale, dans l’Arizona – fournissent désormais leurs logiciels à des sociétés pharmaceutiques. Beaucoup de ces dernières s’en servent pour déterminer si leurs traitements expérimentaux agissent sur les personnes inscrites aux essais cliniques. « En utilisant la parole comme un indicateur plus subtil des changements dans la santé neurologique, on peut aider les médicaments à franchir la ligne d’arrivée ou, à tout le moins, identifier rapidement ceux qui ne sont pas prometteurs », explique Visar Berisha, directeur des recherches et cofondateur d’Aural Analytics.

Des signes vocaux d’autisme dès l’âge de dix mois ?

Les maladies neurodégénératives ne sont qu’un début. Les scientifiques ont aussi identifié des motifs langagiers spécifiques chez les enfants atteints de troubles neurodéveloppementaux. Dans une étude à petite échelle de 2017, Björn Schuller et ses collègues ont montré que l’analyse du babillage de nourrissons de 10 mois grâce à des algorithmes permettait de repérer avec une certaine précision ceux qui seraient plus tard diagnostiqués comme souffrant de troubles du spectre autistique. Le système a correctement classé environ 80 % des enfants autistes et 70 % des enfants « neurotypiques » [une appellation utilisée pour désigner les enfants ne souffrant pas de troubles du spectre autistique, ndlr].

Les chercheurs ont également constaté que de nombreux enfants souffrant de trouble déficitaire de l’attention avec hyperactivité parlent plus fort et plus vite que leurs camarades, et que leur voix présente davantage de signes de tension. La société PeakProfiling, à Berlin, développe actuellement un outil clinique d’analyse de la parole qui, espère-t-elle, aidera les médecins à diagnostiquer ce trouble.

Mais certains cliniciens sont sceptiques quant à la quantité d’informations utiles que ces systèmes sont réellement capables d’apporter. « Il y a une part d’exagération », déclare Rhea Paul, spécialiste des troubles de la communication à l’université Sacred Heart de Fairfield, dans le Connecticut. Les enfants atteints de troubles du développement neurologique présentent souvent de nombreux symptômes comportementaux facilement observables, note-t-elle.

Ne pas « étiqueter » les enfants trop tôt

En outre, on ne sait pas encore si les algorithmes identifient réellement des marqueurs spécifiques, par exemple pour les troubles du spectre autistique, ou s’ils détectent simplement des signes généraux de développement cérébral atypique – voire des anomalies passagères de la parole. « Le développement est un chemin sinueux et tous les enfants qui développent des signes d’autisme ne deviennent pas des adultes autistes », explique Rhea Paul. Même si les scientifiques parviennent à identifier un biomarqueur vocal spécifique et très fiable, ajoute-t-elle, celui-ci ne devrait être utilisé que pour repérer les cas où une évaluation plus approfondie serait profitable. « Il ne faudrait pas le considérer comme suffisant pour étiqueter un enfant, surtout aussi tôt dans sa vie. »

Les technologies d’analyse vocale sont également à l’étude dans le cadre des maladies mentales. De nombreuses équipes à travers le monde ont mis au point des systèmes capables de détecter le discours lent, monotone et ponctué de pauses qui caractérise souvent la dépression, et d’autres ont trouvé des biomarqueurs vocaux associés à la psychose, aux tendances suicidaires et aux troubles bipolaires. « La voix véhicule une multitude de signaux émotionnels », explique Charles Marmar, psychiatre à l’université de New York. « La vitesse, le rythme, le volume, la hauteur, la prosodie [l’accentuation et l’intonation, ndlr] – ces caractéristiques vous disent si un patient est déprimé et découragé, s’il est agité et anxieux, ou s’il est dysphorique [plongé dans un état d’abattement, d’insatisfaction, d’angoisse, ndlr] et maniaque. »

Dans ses propres travaux, menés auprès de 129 vétérans militaires – tous des hommes –, Marmar a utilisé l’apprentissage automatique pour établir 18 caractéristiques vocales associées au syndrome de stress post-traumatique (SSPT). Il s’agissait principalement d’indicateurs d’un discours lent, terne et monotone. En analysant ces caractéristiques, le système a détecté les vétérans qui souffraient de stress post-traumatique avec une précision de près de 90 %.

Un dépistage à haut débit du stress post-traumatique

Marmar et ses collègues tentent maintenant d’inclure les femmes et les civils, afin de généraliser leurs résultats. S’ils y parviennent, leur technologie permettrait selon eux d’identifier rapidement les personnes qui auraient besoin d’une évaluation psychiatrique plus approfondie. « La première application concrète serait le dépistage à haut débit du syndrome de stress post-traumatique, explique Marmar. Il est possible d’exécuter 4 000 dépistages vocaux en quelques heures. »

Des applications grand public similaires commencent déjà à émerger. L’une d’elles, destinée au ministère américain des Anciens Combattants, vise à suivre la santé mentale des employés, afin d’identifier ceux qui souffrent de détresse psychologique. Cette application pour smartphone, développée par une entreprise basée à Boston et nommée Cogito, collecte des métadonnées sur les habitudes des utilisateurs – comme la fréquence à laquelle ils appellent ou envoient des SMS à d’autres personnes – et analyse les mémos vocaux qu’ils laissent sur leur téléphone.

Peut-être trouvera-t-on même des biomarqueurs vocaux pour des pathologies qui semblent sans aucun lien avec la parole. En 2018, des scientifiques ont analysé des échantillons de parole de 101 personnes qui devaient subir un examen des artères et des vaisseaux sanguins qui alimentent le cœur. Ils ont alors découvert que certaines caractéristiques des fréquences vocales étaient associées à une maladie coronarienne plus grave.

On ne sait pas exactement ce qui explique ces différences. « Nous avons du mal à comprendre le lien de cause à effet parce qu’il n’est pas évident », explique Amir Lerman, cardiologue à la Mayo Clinic de Rochester, dans le Minnesota, qui a dirigé les recherches. La maladie coronarienne pourrait théoriquement modifier la voix en réduisant le flux sanguin, selon lui. Mais il est également possible que ce ne soit pas la pathologie elle-même qui provoque les changements vocaux, mais d’autres facteurs de risque associés, comme le stress ou la dépression.

Les limites du diagnostic vocal

Cette étude montre à la fois les promesses et les limites de cette technologie. C’est une chose de détecter des motifs vocaux par ordinateur, mais c’en est une autre, plus difficile, de comprendre ce qu’ils signifient et s’ils ont une importance clinique. Traduisent-ils des caractéristiques fondamentales de la maladie ? Ou découlent-ils d’une autre différence entre les groupes, comme l’âge, le sexe, la taille, l’éducation ou la fatigue ? « Nous essayons de ne pas nous contenter d’introduire des chiffres dans un algorithme, explique le neuropsychiatre Reza Hosseini Ghomi. Notre démarche est plutôt de nous plonger dans les jeux de données, d’élaborer d’abord un modèle de la maladie, puis de le tester avec l’apprentissage automatique. »

Jusqu’à présent, la plupart des études ont identifié des biomarqueurs potentiels dans une seule population de patients, de petite taille qui plus est. « La reproductibilité pose toujours question, déclare Lerman. Est-ce que ma voix sera la même aujourd’hui, demain et après-demain ? » Pour s’assurer que les résultats sont généralisables – et pour réduire le risque de biais, véritable plaie des algorithmes médicaux –, les chercheurs devront tester leurs systèmes de classification sur des échantillons plus grands, plus diversifiés et incluant des langues variées. « Nous ne voulons pas valider un modèle vocal avec seulement 300 patients », explique Jim Schwoebel, responsable des données et de la recherche chez Sonde Health, une société d’analyse vocale basée à Boston. « Nous pensons avoir besoin d’au moins 10 000 patients, voire plus. »

L’entreprise gère SurveyLex, une plateforme en ligne qui permet aux chercheurs de lancer facilement des enquêtes comportant des analyses vocales. Elle s’occupe aussi du projet Voiceome, qui vise à recueillir des échantillons de voix et des informations sur la santé de 100 000 personnes, en balayant une grande variété de tâches vocales, de lieux et d’accents. « Si vous êtes déprimé à New York, les modifications de votre voix qui s’ensuivent seront peut-être interprétées comme le signe d’une humeur différente à Houston, au Texas », explique Schwoebel.

La difficile sortie du laboratoire

Pour bon nombre des applications envisagées par les chercheurs, les systèmes d’analyse vocale devront faire la distinction non seulement entre les personnes malades et celles qui sont en bonne santé, mais aussi entre divers troubles. Et ce en dehors du laboratoire, dans les conditions plus ou moins aléatoires de la vie quotidienne, et en exploitant des enregistrements recueillis sur une grande variété d’appareils grand public. « Les smartphones disposent d’une gamme limitée de capteurs et les gens les utilisent partout, dans des environnements très peu contrôlés », explique Julien Epps, qui étudie le traitement des signaux vocaux à l’université de Nouvelle-Galles du Sud, à Sydney, en Australie.

Lorsque Epps et ses collègues, dont un chercheur de Sonde Health, ont analysé des échantillons de voix enregistrés en laboratoire avec des microphones de haute qualité, ils ont détecté les patients dépressifs avec une précision d’environ 94 % . En se fondant sur des échantillons vocaux que les participants avaient enregistrés sur leur propre smartphone, dans leur environnement de vie, la précision est tombée à moins de 75 %, ont indiqué les chercheurs dans un article publié en 2019.

Et ce n’est pas parce que cette technologie est non invasive qu’elle est sans risque. Elle pose ainsi de sérieux problèmes de confidentialité : le danger est notamment que les locuteurs soient identifiés à partir d’échantillons de parole anonymes, que des conversations privées soient enregistrées par inadvertance par les systèmes d’analyse et que des informations médicales sensibles soient piratées, vendues, partagées, ou utilisées à mauvais escient. Si la technologie n’est pas réglementée correctement, les assureurs et les employeurs risquent en outre d’exploiter ces systèmes pour analyser des échantillons de parole sans le consentement explicite de leur interlocuteur et pour obtenir des informations sur leur santé. Avec à la clé de potentielles discriminations à l’encontre de leurs clients ou de leurs employés.

Sans oublier le risque permanent de faux positifs et de surdiagnostic. « Il nous faut être réalistes et comprendre que tout cela est encore en grande partie du domaine de la recherche, déclare Rudzicz. Et nous devons commencer à penser à ce qui va se passer lorsque nous le mettrons en pratique. »

Articles Liés

  • Comment obtenir des masques N95 gratuits du gouvernement américain

    Comment obtenir des masques N95 gratuits du gouvernement américain

    GO

  • Codeco du 3 décembre 2021: les nouvelles mesures ciblent l’école, le masque, les événements, mais pas l’horeca

    Codeco du 3 décembre 2021: les nouvelles mesures ciblent l’école, le masque, les événements, mais pas l’horeca

    GO

  • Coup de soleil : comment rattraper les dégâts ? - Madmoizelle

    Coup de soleil : comment rattraper les dégâts ? - Madmoizelle

    GO

  • Coaching beauté : puis-je mettre de l’huile si j’ai une peau grasse ?

    Coaching beauté : puis-je mettre de l’huile si j’ai une peau grasse ?

    GO