Cédric Rittié

← Retour au blog
9 min//

Le mur du quota : pourquoi ton forfait craque en milieu de semaine

Gestion du contexte Claude Code : les 4 gestes pour ne plus te faire bloquer en milieu de semaine et garder des réponses précises du lundi au vendredi.

claude codeproductivitécontextetokensquota
Phase 3 · Automatiser · Article 2 sur 4

Le moment où Claude te dit stop

Mardi 17h. Tu es en plein dans une session qui avance. Tu envoies le prochain message.

Reprends la section sur le pricing et ajuste-moi le CTA.
Quota limit reached
Tu as atteint la limite de ton forfait Claude Max.
Reset à 22h00.

Coupé net. Au milieu d'un truc que tu ne peux pas reprendre demain matin. Et tu ne comprends pas. Tu n'as fait que cette session de la semaine.

La raison n'est pas ton volume de messages. C'est le poids de chaque message. À chaque question que tu envoies, Claude relit tout ce qui s'est dit avant. Une conversation qui traîne depuis 3 heures et a accumulé 150K tokens, c'est 150K tokens facturés à ton quota à chaque nouveau tour. Le compteur s'est vidé en silence pendant que tu travaillais.

Le poids qui s'accumule à chaque tour
Graphique en barres empilées : à chaque tour de conversation, Claude relit tous les messages précédents. Tour 1 traite 5K tokens, Tour 5 en traite 100K.
Nouveau message Messages relus à chaque tour
5 tours, ~200K tokens traités au total. Une conversation propre en aurait consommé 25K.

Même sujet, symptôme différent : Claude se met à se tromper sur une convention que tu as définie 2h plus tôt. Il re-propose un truc que tu as déjà corrigé. Il devient bizarrement plus générique. Ce n'est pas un hasard. Tous les LLM perdent en précision à mesure que leur contexte grossit (étude Chroma 2025 sur 18 modèles, aucun n'y échappe).

Le paradoxe : l'outil te laisse tout charger. Ton instinct te pousse à le faire. Tu paies deux fois. En quota grillé, et en qualité qui dérive.

Cet article fait suite à CLAUDE.md et Les serveurs MCP. Le cadre est posé. Ici, on apprend à le tenir dans le temps sans se faire bloquer.

La double peine : le quota qui crame, la qualité qui dérive

Les deux problèmes ont la même cause : un contexte qui enfle sans contrôle. Mais ils ne se ressentent pas au même moment.

Le même forfait, deux usages
Deux jauges verticales : à gauche, la jauge 'sans discipline' est remplie à 95% et touche la ligne 'limite quota' (bloqué mardi 17h). À droite, la jauge 'avec discipline' est remplie à 30% (tu tiens jusqu'à vendredi).
Sans discipline, tu tapes le plafond en milieu de semaine. Avec, tu gardes de la marge jusqu'à vendredi soir.

Problème n°1 : le quota qui saute.

Forfait Claude Pro, Max, ChatGPT Plus, Cursor Pro : ils ont tous une limite d'usage, pas juste un prix. Messages par 5 heures, sessions par semaine, "fast requests" mensuels, chacun sa métrique. Une conversation qui a accumulé 150K tokens se paie 5 à 10 fois plus cher qu'une conversation propre de 20K. Toi, tu as l'impression d'avoir fait une matinée normale. Ton compteur, lui, sait que tu viens de brûler trois jours de marge.

Problème n°2 : la qualité qui glisse.

Plus la conversation s'allonge, plus le modèle décroche. Il oublie une convention posée à 9h. Il te ressort un truc que tu as corrigé à 11h. Les réponses deviennent plus lisses, plus génériques, plus prudentes. La dégradation commence bien avant la limite technique : on la sent dès 60 à 70% de remplissage.

Une réunion à 4, ça décide. Une réunion à 20, ça discute. Le contexte d'une IA, c'est pareil : plus il y a de monde dans la pièce, moins chaque voix compte.

Si tu es à l'API en usage-based, c'est la même histoire en cash : chaque token relu est facturé plein pot. Le principe ne change pas, seul le compteur change.

Les 4 gestes pour gérer ton contexte

La discipline du contexte tient en quatre verbes. Les ingénieurs IA les utilisent tous les jours, mais ils parlent à tous ceux qui ont déjà géré un dossier chargé.

Les 4 piliers de la gestion du contexte : 1. Écrire - externaliser ta mémoire, 2. Sélectionner - choisir ce qui entre, 3. Compresser - résumer avant de continuer, 4. Isoler - déléguer à un sub-agent.

1. Écrire : externaliser ta mémoire

Les règles permanentes, les décisions de fond, les briefs récurrents ne doivent pas vivre dans la conversation. Ils doivent vivre dans des fichiers que Claude relit à la demande. Trois couches se superposent. La troisième, celle que la plupart n'activent pas, change vraiment la donne.

Projet CLAUDE.md ./CLAUDE.md
Le brief permanent. Chargé automatiquement à chaque session. Ton positionnement, tes conventions, tes interdits. Article dédié.
+
Workflow Skills ~/.claude/skills/
Workflows récurrents encapsulés. Un Skill pour rédiger un post X, un autre pour auditer un site, un autre pour préparer un meeting. Chacun a ses propres instructions et permissions.
+
Levier clé Second cerveau Obsidian · Notion · Drive
Le vrai différenciateur. Tu relies ton Obsidian, ta Notion ou ton Drive à Claude via un MCP dédié ou en @-référençant tes fichiers markdown. Claude exploite alors des années de notes, décisions produit, fiches clients, conventions éditoriales. Une mémoire bien plus vaste que ce qu'un CLAUDE.md peut porter, et qui te suit d'un projet à l'autre.

Écrit une fois, lu à la demande. Le pivot, c'est la troisième couche : la plupart des utilisateurs s'arrêtent à CLAUDE.md. Ceux qui connectent leur second cerveau parlent à un Claude qui connaît leur historique.

2. Sélectionner : choisir ce qui entre dans le contexte

Chaque token que tu colles dans le prompt sera relu à chaque tour. Donc tu choisis ce qui entre, tu ne balances pas de la matière en espérant que Claude trie. Trois leviers, un exemple concret pour chacun.

@notes/strategie-q2.md analyse les gaps stratégiques
Lecture ciblée via @ · 2K tokens au lieu de 25K en copier-coller
/mktg:cro-audit https://mon-site.com/pricing
Skill ciblé chargé · les 30 autres restent dormants
Récupère les pageviews de la semaine via MCP PostHog
Donnée chargée à la demande · aucune pollution du contexte en amont

Aller plus loin : un Skill qui identifie les 2-3 fichiers utiles avant de démarrer une tâche. Tu le fais tourner en premier, tu pars avec le bon matériel, tu évites le réflexe "je balance tout, on verra bien".

3. Compresser : les commandes à connaître

La compression permet de tenir la distance sur une longue session sans tout perdre ni tout payer. Trois commandes à maîtriser dans Claude Code.

/compact
Résumé automatique · 150K → 22K tokens
Conversation compactée. On peut repartir.
/compact garde les conventions éditoriales et le brief, résume le reste
Compact piloté · le détail important reste intégral
/clear
Contexte effacé · CLAUDE.md rechargé · compteur remis à zéro

L'auto-compact se déclenche à 80%. C'est le mode "je n'ai rien fait" : tu as déjà brûlé 80% de ton quota, et tu n'as aucun contrôle sur ce qu'il choisit de résumer.

4. Isoler : déléguer à un sub-agent

Les tâches bruyantes (lire un long fichier, recherche web large, exploration de codebase) n'ont rien à faire dans ta conversation principale. Elles font gonfler le contexte pour un résultat qui tient en trois lignes. Un sub-agent fait le travail dans son propre contexte et te rend seulement la conclusion.

Schéma : la conversation principale envoie une tâche au sub-agent (flèche orange). Le sub-agent traite 50K tokens de bruit (lectures, cross-references, synthèse) dans son propre contexte isolé. Seul le résultat (3 lignes, ~800 tokens) revient dans la conversation principale.

Le bruit reste dans le sub-agent. Seul le résultat traverse la frontière vers la conversation principale. Ton quota ne voit que les 800 tokens qui comptent.

Sujet traité en profondeur dans un prochain article dédié du parcours.

Les quatre gestes travaillent ensemble. Dans une bonne session, tu les utilises tous, à des moments différents.

Ta routine Claude Code au quotidien

Les 4 gestes, c'est la théorie. Voilà ce que ça donne concrètement quand tu termines une phase et que tu passes à la suivante.

On a fini le brief client, passons à la landing page.
Tu veux que je garde le contexte du brief ou que je reparte propre ?
/clear
Contexte effacé. CLAUDE.md rechargé.
Prêt. Sur quoi on travaille pour la landing ?

Trois caractères, deux secondes, un quota préservé. À répéter dès que le sujet bouge. C'est ce geste-là qui fait la différence entre une semaine qui tient et un mardi 17h bloqué.

3 erreurs qui font exploser ton quota

Trois pièges qui font perdre du quota sans rien apporter.

!
Laisser auto-compact faire le boulot
Passif · 80%

Tu attends que Claude te dise "contexte plein". L'auto-compact se déclenche à 80% de remplissage. À ce stade, tu as déjà brûlé 80% de ton quota, et il résume selon sa logique, pas la tienne.

Piloté · 50-60%

/compact garde les conventions éditoriales et le brief, résume le reste

Lancé manuellement, avec instructions explicites sur ce qui doit rester en détail.

!
Empiler deux sujets dans la même conversation
Tout dans un

Tu finis un brief client. Tu enchaînes direct sur un audit de site. Même session, même conversation. Le brief ne sert plus à rien pour l'audit, mais il est relu à chaque tour quand même.

Un sujet = une conv

/clear entre deux sujets non liés.

Ton CLAUDE.md se recharge, ton contexte repart propre, ton quota aussi.

!
Coller un gros fichier au lieu de le référencer
Copier-coller

Tu veux que Claude analyse un document de 30 pages. Tu le colles dans le prompt. À chaque tour suivant, les 30 pages sont relues, même quand tu parles déjà d'autre chose.

@ référence

@rapport-Q2.md dans Claude Code ou Cursor, ou accessible via un MCP.

Claude lit le fichier une fois, en extrait ce dont il a besoin, le laisse tranquille.

ChatGPT, Cursor, Claude Code : le même principe

Le cadre ne change pas quand on change d'outil. Ce qui change, c'est le niveau de contrôle.

OutilÉquivalent CLAUDE.mdÉquivalent /clearContrôle fin
Claude Code (Pro, Max)CLAUDE.md + Skills/clearCompact, sub-agents, caching
ChatGPT (Plus, Team, Pro)Projects + InstructionsNouvelle conversationPas de compact manuel
Cursor (Pro).cursorrules + @CodebaseNouvelle conversationLimité au select (@file)

ChatGPT : la limite d'usage GPT-5 saute en silence, souvent après 2-3 heures de session intense. Pas d'outil de compression. La discipline se joue sur "quand j'ouvre une nouvelle conv" et sur la densité des instructions dans les Projects.

Cursor : compteur de "fast requests" mensuel qui se vide vite si tu laisses @Codebase permanent. Utilise @file ciblé plutôt que @Codebase tout le temps.

Claude Code : le plus granulaire des trois. C'est aussi celui qui te laisse voir ton quota hebdomadaire en temps réel si tu es sur Max. S'entraîner à le regarder avant de lancer une session longue, c'est l'équivalent de regarder le niveau d'essence avant un long trajet.

Le réflexe à garder

Le contexte est une ressource, pas un dépotoir.

Avant d'empiler un fichier, un long extrait, un nouveau sujet dans ta conversation, la question à te poser est simple : ça doit vraiment être là ? Si la réponse est non, tu passes par le CLAUDE.md, un Skill, une référence @, ou un sub-agent. Tout sauf coller.

Ce soir, une action concrète

Ouvre ta dernière grosse conversation Claude Code. Si elle dépasse 50% du contexte, lance /compact avec des instructions explicites sur ce qui doit rester.

Demain matin, tu repars de 20K tokens au lieu de 150K. Et tu remarques tout de suite la différence sur la qualité des réponses.

Au bout d'une semaine, ça devient un réflexe. Tu n'y penses plus. Tu remarques juste que tu finis la semaine sans avoir vu le mur, et que Claude reste précis vendredi soir comme lundi matin.

Prochaine étape du parcours : les agents et sub-agents, qui formalisent le quatrième geste (isoler) et transforment la délégation en workflow reproductible.

Si cet article t'a fait gagner du temps,

il en fera gagner à quelqu'un dans ton réseau.

PartagerLinkedIn

L’AI.ssentiel, chaque vendredi

Les signaux IA qui comptent. Pour les pros qui utilisent déjà l'IA.