Microsoft Intelligent Speaker : un appareil pour retranscrire vos réunions

Vous vous souvenez de l’époque où vous passiez des heures en réunion ? Je n’irais pas jusqu’à dire que j’en suis nostalgique mais c’était quand même pas mal de se retrouver dans une même pièce, sans masques, gel hydro alcoolique ni arrières pensées…

Si cette époque parait lointaine et insouciante, il restait tout de même un petit détail toujours désagréable à gérer lors de ces entrevues. Il y avait toujours une personne désignée pour retranscrire le contenu de la réunion, le mieux possible. Un rôle ingrat et pénible qui tombait, souvent pour de mauvaises bonnes raisons1 toujours sur la même personne.

Microsoft Intelligent Speaker

Le Microsoft Intelligent Speaker va remplacer cette fameuse personne dans ce travail. L’idée est de disposer d’un objet qui sera capable de retranscrire l’ensemble des dialogues des intervenants tout en étant capable d’identifier qui parle. Le résultat de ce travail permettant ensuite de récupérer un fichier texte immédiatement exploitable de cette réunion.

Microsoft Intelligent Speaker

Evidemment, le Microsoft Intelligent Speaker ne fonctionnerait qu’avec le système de réunions virtuelles Microsoft Teams. Un excellent moyen pour l’éditeur de proposer une solution concurrentielle à Zoom, le service de réunions virtuelles qui a connu un véritable Boom depuis le début de la pandémie de coronavirus.

Microsoft Intelligent Speaker

C’est une intelligence artificielle entrainée à cette tâche qui sera en charge des deux tâches. Authentifier chaque voix pour en différencier jusqu’à 10 et traduire en texte l’ensemble des discours échangés. Ainsi l’appareil pourra travailler dans une pièce avec de multiples intervenants et différencier leur discours mais également capter les paroles d’autres personnes connectées à distance via Microsoft Teams. Je n’ai aucune idée du moyen utilisé par Microsoft pour reconnaitre des personnes connectées via un autre support de visioconférence mais 7 microphones seront disposés autour de l’appareil pour lui permettre de saisir l’ensemble des intervenants.

Cette vidéo de 2018 montre un premier concept de cette solution. Dans cette démonstration, les intervenants peuvent parler librement pendant qu’un appareil identifie les voix de chacun et note leurs paroles à la volée.

Microsoft indique l’appareil pourra traduire à la volée certains langages pour retranscrire l’ensemble du texte dans la langue de charque participant. Aucune date ni aucun tarif n’a été annoncé pour cet Microsoft Intelligent Speaker. Je doute qu’il soit disponible pour le grand public et c’est peut être là l’astuce de Microsoft pour le rendre compatible avec Teams. En ne proposant l’appareil qu’à ses clients professionnels utilisant ses abonnements payants à son service de conférence, la marque devrait s’assurer qu’ils ne l’utilisent pas avec un autre système.

Que dire si ce n’est qu’un tel appareil devrait mettre fin à toute jovialité, toute tentative d’intégrer un peu d’humour ou de simple nonsense à des réunions déjà pénibles. Si votre blague ou votre remarque destinée à détendre un peu l’atmosphère se retrouve dûment archivée pour l’éternité sur les serveurs de votre entreprise, il y a fort à parier qu’un fort mouvement d’autocensure apparaisse dès que l’appareil sera mis en marche.

Notes :

  1. Par force d’habitude on va dire…

Soutenez Minimachines avec un don mensuel : C'est la solution la plus souple et la plus intéressante pour moi. Vous pouvez participer via un abonnement mensuel en cliquant sur un lien ci dessous.
2,5€ par mois 5€ par mois 10€ par mois Le montant de votre choix

Gérez votre abonnement

13 commentaires sur ce sujet.
  • JLE
    2 mars 2021 - 21 h 08 min

    Salut,

    habitué des réunions en ligne (je bosse pour une boite étrangère), on fait nos réunions sur une plateforme type webex (comme du MS Teams/Lync mais en encore moins bien ^^, même si ça évolue dans le bon sens).
    C’est très simple : on a toujours une personne pour prendre les notes importantes, donc pas plus de 5 lignes. Inutile de tout retranscrire. Et étant dans un process Agile, on a un Scrum Master qui s’occupe de la retranscription.
    On enregistre aussi toutes les sessions (pas besoin d’un boîtier pour ça, webex le fait, ou tout autre outil, même OBS Studio dans le pire des cas) pour que les absents puissent se tenir informés.
    Le sentiment de flicage ou d’autocensure, tu ne vas pas le sentir si l’entreprise est bienveillante (mon cas). Si c’est le contraire, c’est que déjà à la base tu vas faire attention à ce que tu dit, ne serait-ce que parce que le chef (ou n’importe quel n+1) est là. Au pire ça incite à être formel et ne pas trop faire le mariole en réunion, mais ça va, je pense que dans pas mal de boites on a déjà intégré l’idée d’enregistrer certaines réunions, que ce soit en audio ou audio+vidéo.

    Répondre
  • JLE
    2 mars 2021 - 21 h 15 min

    Du coup j’imagine que l’intérêt d’un tel boitier est limité aux équipes qui doivent absolument tout retranscrire. Et même là, tu as des solutions logicielles qui vont bien. Bizarre cette affaire :D Enfin bon, je ne suis pas marketeux, donc ça me dépasse ^^.

    Répondre
  • bob
    3 mars 2021 - 7 h 06 min

    En lisant les premières ligne je me suis posé la question de la confidentialité. Je vois mal ce produit chez Airbus par exemple.
    Peut être un outil pour un Président, genre Nicolas Sarkozy ?

    Répondre
  • 3 mars 2021 - 8 h 36 min

    Ca pourrait faire fureur
    – Dans les cabinets d’avocats de grands hommes politiques
    – à la chancellerie allemande
    – Chez airbus/Safran/thales/Dassault/Naval/Nexter
    – Partout ou on est en concurrence ou en embrouille avec les américains

    Hasard du calendrier, ça tombe au moment ou un ancien d’apple révèle que siri permet fortuitement d’entendre les conversation cochonnes des gens. Parce que Cortana -ndlr: nom de l’IA qui dans Halo finie psychotique-, elle (même si ça n’a plus ce nom), elle est muette comme une tombe je suppose…

    Nan mais sérieux, tu as quantité de choses qui peuvent faire de la speech reco en tournant en local, pas besoin d’un truc connecté qui va streamer tes strategic top level management meetings directement à la NSA.

    Et d’autre part, je trouve l’idée problématique: qu’est une réunion sans ses piques, ses petites vannes, et parfois même ses engueulades?

    Répondre
  • 3 mars 2021 - 9 h 44 min

    @Bastien B.:

    Pour info, Airbus a un projet en cours pour mettre ses mails… chez gmail. Même la branche défense est concernée…
    Microsoft a aussi profité à fond de l’encombrement des VPN depuis 1 an et permettaient de conserver un périmètre. Teams/Outlook ont aussi fait leur nid en pouvant passer en dehors sans connexion nécessaire au réseau interne de l’entreprise. Et donc sans contrôle possible.

    Pour cette retranscription, c’est clair qu’une petite pique/blague, surtout si c’est un peu borderline (surtout retranscrit textuellement sans l’intonation allant avec) vis à vis des politiques (dites) éthiques de plus en plus strictes… cela peut jouer de sales tours. Certes, les réunions peuvent déjà être enregistrées mais d’une part c’est loin d’être systématique (une retranscription le sera) et d’autre part le contexte complet reste alors perceptible.

    Répondre
  • bob
    3 mars 2021 - 10 h 24 min

    Et du coup si on a le nom des gens et leurs propos, il faut faire une déclaration à la CNIL avant chaque réunion ?

    Répondre
  • 3 mars 2021 - 10 h 25 min

    Ça fait un peu peur en effet. Mais n’est-ce pas le rêve ultime d’une entreprise dite « moderne » : avoir le meilleur rendement, même pour la parole ?

    Ce qui me surprend, c’est la partie hardware : je pensais que Microsoft avait largement les moyens d’intégrer cette option directement dans Teams (sachant qu’il y a déjà des micros dans les pc portables et que cela permet déjà d’identifier qui est en train de parler) moyennant un supplément pour ce service.

    Répondre
  • 3 mars 2021 - 12 h 41 min

    Ca peut être pas mal pour retranscrire les procès fleuve…

    Répondre
  • 3 mars 2021 - 13 h 53 min

    @yann:
    Pour la faire courte, j’ai effectivement des notions assez fiables de ce qui se fait dans ce milieu (Défense, Aéro, industries « clés »), et pour beaucoup d’entres elles, la logique est d’aller dans des directions qui sont l’exact contraire de tout ce que promeut l’ANSSI
    – Ces boîtes externalisent et contractualisent avec le moins disant financièrement, ce qui a pour conséquence
    – Une It majoritairement constituée de managers, de soit disant architectes, de cost controllers et de chefs de projets
    – des valses sporadiques de sous traitants
    – des couacs dans les reprises de dossier
    – les sociétés de sous traitance vont elle même agréger des services « clé an main » autant que possible, en étant regardant au strict minimum sur les garanties, et ainsi vous avez tel service mail sur des serveurs US en Irlande, et donc sujet à l’extraterritorialité du droit US, tel service de video conférence sur un domaine extérieur à l’entreprise, ou tel antivirus « cloud » en Israël (cf la propriété des données là bas …), et je passe sur les appli « cloud » théoriquement Françaises, mais reposant sur S3 & AWS d’Amazon

    L’argument est toujours: c’est ainsi que fonctionne l’IT… sauf que la tendance du fonctionnement de l’IT se décide aux US, et que jusqu’à preuve du contraire, ils n’ont pas de temps à perdre à s’espionner entre eux (au niveau étatique, le civil n’est pas le sujet)

    Et côté applicatif, même la loi sur l’interopérabilité n’y fait rien, et personne ne la fait appliquer au point que quelques astuces dans l’implémentation de certains formats théoriquement ouvert permettent, à coup d’erreur de rendu dans les applications tierces, d’assurer un monopole à l’entité qui promeut ce format (ex: les formats XML de microsoft, que Bizarrement, Libroffice rend, à chaque version d’office, de plus en plus mal, et du coup Microsoft à littéralement pris racine dans l’administration d’état, trop heureuse de ne pas traumatiser son personnel en devant dire « traitement de texte » et « tableur », au lieu de « word et « excel »)

    Entre le logiciel libre et quelques « poids moyens nationaux » comme OVH, qui avec les bons financements, pourraient croître à une vitesse exponentielle, il y a pourtant de quoi faire

    Quan d à l’argument des usages, des coutûmes et des états d’âme de la mère michu, je considère qu’ils ne pèsent pas bien lourds face aux coûts désastreux des secrets & des brevets éventés voir spoliés, des projets fuités, des déals commerciaux court-circuités etc …

    Répondre
  • 3 mars 2021 - 14 h 42 min

    @prog-amateur:
    Rho non pitié, j’en ai plus qu’assez des managers qui comptent le nombre de mots que tu utilise en réu au nom de l’efficience, sans parler des critiques concernant un lexique « pas lean, pas corporate ou pas inclusif ». Parfois, le seul moyen de faire comprendre que la sempiternelle idée « low cost/maxmial visibilty » du je-sais-tout-je gère-tout-qui-veut-monter ou du kéké sourire émail diamant du département commercial, est stratégiquement ou techniquement parlant, à court ou à long terme une dangereuse connerie, c’est de le dire (et de le prouver, ndlr).
    Avec un tel dispositif c’est un coup à se prendre un double blâme pour
    – usage d’une terminologie non lean et non standard générant un surcoût dans la génération du rapport
    – Propos trahissant une con-ophobie manifeste, interdite par les futures chartes d’inclusivité de nos grandes boites
    Quand au hard, ce dispositif semble d’après plutôt fait pour les réu en « présentiel » (ignoble barbarisme) pour ne pas contraindre tous les participants à ouvrir leur laptop et dessus une session Team, Non? Et vu que -j’imagine- le HArd doit être ni plus ni moins que la copie conforme d’un home ou d’un alexa, tout le traitement derrière sera soft, et à distance (vive la protection d es données)

    Répondre
  • 3 mars 2021 - 16 h 38 min

    Beaucoup de gens vivent de la transcription aujourd’hui, un travail facilement accessible depuis chez soi.

    Ce serait dommage que cet appareil vole aussi leur travail.
    Et au Bangladesh et en Afrique, ce qui se dit chez Airbus ou à la RATP, comment dire…

    Répondre
  • 3 mars 2021 - 17 h 03 min

    @Dliryc: Ah tien, et pourquoi dans le cadre d’une tentative d’espionnage en règle, un concurrent ou un état s’interdirait d’aller voir ce que voient passer tes traducteurs Bangladeshi ou africains?
    Vu la présence massive et croissante des chinois en Afrique, c’est un postulat un peu risqué.

    Répondre
  • 17 avril 2021 - 10 h 40 min

    @Bastien B.:
    Ca sent le vécu. Je souscris j’ai les mêmes à la maison.
    Dans mon service, je suis le dernier qui fait, le reste est peuplé de gens qui font savoir.
    Notre job c’est l’édition de logiciel. Je me suis amusé à regarder le ratio de lignes de codes produits / nb de salariés.
    Le ratio a été divisé par 2 en 10 ans. Dans le même temps par contre le nombre de préz (soulignez ce besoin de rendre compact la langue, comme les anglais aiment à le faire) a été multiplié par 3.
    J’ai 3 managers dans mon service mon N+1 répercute au chef de projet les choix des N+2/+3.
    Là dedans, tous, je dis biens tous, passent leur temps à me consulter pour éviter de dire une bêtise.
    Et en plus, je dois maintenant minuter chacune de mes actions pour chaque projet. C’est d’une débilité sans nom.
    C’est un enfer!
    Je hais de plus en plus ce monde.

    Répondre
  • LAISSER UN COMMENTAIRE

    *

    *