Speech-to-text : parler au lieu de taper, et pourquoi ça change tout

Cet article ne fait pas partie du parcours. C'est un outil complémentaire, utile quel que soit ton niveau.

Tu bosses avec Claude Code, ChatGPT, ou n'importe quel LLM. Tu sais que la qualité de la réponse dépend de ce que tu donnes. Plus tu donnes de contexte, meilleur est le résultat. Tout le monde le sait.

Le problème, c'est que donner du contexte au clavier, c'est long. Pas compliqué. Long. Expliquer qui tu es, ce que fait ta boîte, quel est l'objectif du projet, ce que tu as déjà essayé, ce que tu ne veux surtout pas. Tu connais tout ça par coeur. Mais le formuler proprement, phrase après phrase, ça prend du temps. Alors tu raccourcis. Tu coupes. Tu te dis "il comprendra". Et ton prompt arrive appauvri.

C'est exactement ce qui m'arrivait. Jusqu'à ce que j'arrête de taper.

C'est quoi le speech-to-text ?

Tu parles, ton ordi écrit. C'est tout. Tu appuies sur une touche, tu dis ce que tu veux, tu relâches, le texte apparaît là où était ton curseur. Dans n'importe quelle app. Un prompt, un email, une note, un message Slack.

La dictée existe depuis des années sur Mac et iPhone. Mais les outils classiques transcrivent mot pour mot. Tu te reprends, tu hésites, tu reformules au milieu d'une phrase, et tu te retrouves avec un texte plein de doublons et de faux départs. Inutilisable tel quel.

Ce qui a changé récemment, c'est une nouvelle génération d'outils qui ne se contentent pas de transcrire. Ils comprennent ce que tu veux dire et produisent un texte propre. C'est la différence entre un sténographe et quelqu'un qui écrit pour toi.

Mon setup : Wispr Flow

J'utilise Wispr Flow, sur Mac et sur iPhone. Deux raccourcis, c'est tout :

⌥ droite maintenue : tu parles, tu relâches, le texte apparaît
⌘ + ⌥ droite : mode mains libres, tu parles aussi longtemps que tu veux, tu retapes la combinaison pour valider

Ce qui le rend différent d'une dictée classique :

Reformulation automatique : tu te reprends, tu hésites, il ne garde que la version propre. Pas de doublons, pas de faux départs.
Adaptation au contexte : il ajuste le ton selon l'app. Plus formel dans un email, plus direct dans Slack.
Dictionnaire personnalisé : tu ajoutes tes termes métier, tes noms de produits, et il les reconnaît.
100+ langues avec détection automatique. Je passe du français à l'anglais sans toucher un réglage.

Pourquoi la dictée vocale change tout avec les LLM

Le gain évident, c'est la vitesse. Je tape à 75-80 mots par minute en moyenne. Je parle à 200-215. Quasiment 3x. Sur un bloc de contexte de 300 mots, c'est 4 minutes au clavier contre 1 minute 30 à l'oral.

Clavier

~80 mots/min

Voix

~215 mots/min

Mais le vrai changement, c'est pas la vitesse. C'est ce que tu dis quand la friction disparaît.

Quand tu tapes, tu filtres. Chaque mot a un coût, même minime. Alors tu fais court, tu vas à l'essentiel, et tu zappes la moitié du contexte qui aurait rendu ton prompt vraiment bon.

Quand tu parles, tu déroules. Tu expliques le contexte, tu donnes des exemples, tu précises ce que tu ne veux pas. Tu te trompes, tu te corriges, et cette correction est elle-même de l'information. Dire "non en fait pas comme ça, plutôt comme ça" donne au LLM deux choses : ce que tu veux et ce que tu refuses. Les deux comptent.

C'est un brain dump. Tu vides ta tête, et c'est le LLM qui structure derrière. Au lieu de passer du temps à organiser ta pensée avant de taper, tu parles, l'outil nettoie, et l'IA fait le tri.

Un exemple concret

La semaine dernière, je devais créer une landing page pour un nouveau produit de cybersécurité. Au clavier, j'aurais tapé un truc comme ça :

Crée une landing page pour notre offre de cybersécurité. Cible les PME. Ton pro, avec un CTA clair.

Deux lignes. Correct, mais générique.

En dictant, voilà ce que j'ai produit en 40 secondes :

Je dois créer une landing page pour notre nouvelle offre cyber, c'est du MDR managé pour les PME qui passent par nos partenaires telecom. Le problème c'est que les PME pensent que la cyber c'est que pour les grands comptes, et nos partenaires savent pas la vendre parce que c'est technique. La page doit parler aux deux : le partenaire qui va la montrer à son client, et le client final qui doit comprendre pourquoi il est exposé. On a des chiffres : 60% des PME attaquées ferment dans les 6 mois. Le CTA c'est une demande de démo, pas un achat direct. Et le ton c'est rassurant, pas anxiogène, on n'est pas CrowdStrike.

Même temps, 5x plus de contexte. Le résultat derrière est incomparable.

Ce que je dicte

Les prompts et le contexte pour Claude Code. Les notes Obsidian quand j'ai une idée ou que je veux faire un brain dump. Les emails, les messages : premier jet dicté, relu une fois. Et surtout les gros blocs de contexte, ceux où tu dois expliquer qui tu es, ce que fait ta boîte, l'objectif d'un projet. Ce genre de texte que tu connais par coeur mais que tu n'as jamais envie de taper.

Ce que je ne dicte pas : le code (Claude s'en charge) et les messages de 3 mots. Et oui, en open space, tu mets des écouteurs ou tu attends d'être seul. C'est une contrainte réelle, mais pas un deal breaker : la majorité du contexte lourd, tu l'écris justement quand tu es concentré, pas en réunion.

Les meilleurs outils de dictée vocale IA en 2026

Wispr Flow est mon choix, mais ce n'est pas le seul. Le marché du speech-to-text a explosé. Voici les options qui valent le coup, selon ce que tu cherches.

Wispr Flow Mon choix

Reformulation IA Adaptation au ton Mode mains libres Dictionnaire perso

Le plus abouti. Ne transcrit pas ce que tu dis, écrit ce que tu veux dire. Le Command Mode permet aussi d'éditer du texte à la voix.

Gratuit (2 000 mots/sem) · Pro 12 $/mois (annuel) · 15 $/mois (mensuel)

Mac Windows iPhone Android

Spokenly Gratuit illimité en local

Reformulation IA BYOK (GPT, Claude) MCP pour devs

Le meilleur gratuit. Modèles locaux illimités, et tu branches ta propre clé API pour le cloud. L'intégration MCP est un bonus pour les devs.

Gratuit (local illimité) · Pro 9,99 $/mois (cloud)

Mac iPhone

Voibe

100 % offline Reformulation locale

Rien ne sort de ta machine. Le meilleur rapport qualité/prix si la confidentialité est ta priorité.

Gratuit (300 mots/jour) · 4,90 $/mois · 99 $ lifetime

Mac

VoiceInk Open source

Whisper local Config par app BYOK (reformulation)

Basé sur Whisper, tourne en local, pas d'abonnement. Transcription brute par défaut, avec option de reformulation via ta propre clé API (OpenAI ou autre LLM).

25 $ (achat unique)

Mac

Typeless

Reformulation IA 4 plateformes

Le seul à couvrir Mac, Windows, iPhone et Android avec reformulation. Une bonne alternative si tu es dans un écosystème mixte.

Gratuit (4 000 mots/sem) · Pro 12 $/mois

Mac Windows iPhone Android

Dictée Apple

Zéro config On-device

Gratuite, intégrée, on-device sur Apple Silicon. Pas de reformulation, mais la ponctuation automatique marche bien. Pour des messages courts, ça suffit.

Gratuit

Mac iPhone iPad

Le fond du sujet

On parle beaucoup de prompt engineering. De frameworks, de templates, de techniques. Mais le meilleur prompt, c'est celui qui contient le plus de contexte pertinent. Et le moyen le plus naturel d'y mettre du contexte, c'est de parler.

Tu parles plus vite que tu tapes. Tu donnes plus de détails quand tu parles. Tu te censures moins. Et l'outil nettoie ce que ta voix produit de brut.

Le clavier reste pour les raccourcis. Et le contexte, c'est ce qui fait la différence entre un résultat générique et un résultat qui te ressemble.

Cédric Rittié