Le mur du quota : pourquoi ton forfait craque en milieu de semaine
Gestion du contexte Claude Code : les 4 gestes pour ne plus te faire bloquer en milieu de semaine et garder des réponses précises du lundi au vendredi.
Le moment où Claude te dit stop
Mardi 17h. Tu es en plein dans une session qui avance. Tu envoies le prochain message.
Tu as atteint la limite de ton forfait Claude Max.
Reset à 22h00.
Coupé net. Au milieu d'un truc que tu ne peux pas reprendre demain matin. Et tu ne comprends pas. Tu n'as fait que cette session de la semaine.
La raison n'est pas ton volume de messages. C'est le poids de chaque message. À chaque question que tu envoies, Claude relit tout ce qui s'est dit avant. Une conversation qui traîne depuis 3 heures et a accumulé 150K tokens, c'est 150K tokens facturés à ton quota à chaque nouveau tour. Le compteur s'est vidé en silence pendant que tu travaillais.
Même sujet, symptôme différent : Claude se met à se tromper sur une convention que tu as définie 2h plus tôt. Il re-propose un truc que tu as déjà corrigé. Il devient bizarrement plus générique. Ce n'est pas un hasard. Tous les LLM perdent en précision à mesure que leur contexte grossit (étude Chroma 2025 sur 18 modèles, aucun n'y échappe).
Le paradoxe : l'outil te laisse tout charger. Ton instinct te pousse à le faire. Tu paies deux fois. En quota grillé, et en qualité qui dérive.
La double peine : le quota qui crame, la qualité qui dérive
Les deux problèmes ont la même cause : un contexte qui enfle sans contrôle. Mais ils ne se ressentent pas au même moment.
Problème n°1 : le quota qui saute.
Forfait Claude Pro, Max, ChatGPT Plus, Cursor Pro : ils ont tous une limite d'usage, pas juste un prix. Messages par 5 heures, sessions par semaine, "fast requests" mensuels, chacun sa métrique. Une conversation qui a accumulé 150K tokens se paie 5 à 10 fois plus cher qu'une conversation propre de 20K. Toi, tu as l'impression d'avoir fait une matinée normale. Ton compteur, lui, sait que tu viens de brûler trois jours de marge.
Problème n°2 : la qualité qui glisse.
Plus la conversation s'allonge, plus le modèle décroche. Il oublie une convention posée à 9h. Il te ressort un truc que tu as corrigé à 11h. Les réponses deviennent plus lisses, plus génériques, plus prudentes. La dégradation commence bien avant la limite technique : on la sent dès 60 à 70% de remplissage.
Une réunion à 4, ça décide. Une réunion à 20, ça discute. Le contexte d'une IA, c'est pareil : plus il y a de monde dans la pièce, moins chaque voix compte.
Si tu es à l'API en usage-based, c'est la même histoire en cash : chaque token relu est facturé plein pot. Le principe ne change pas, seul le compteur change.
Les 4 gestes pour gérer ton contexte
La discipline du contexte tient en quatre verbes. Les ingénieurs IA les utilisent tous les jours, mais ils parlent à tous ceux qui ont déjà géré un dossier chargé.
1. Écrire : externaliser ta mémoire
Les règles permanentes, les décisions de fond, les briefs récurrents ne doivent pas vivre dans la conversation. Ils doivent vivre dans des fichiers que Claude relit à la demande. Trois couches se superposent. La troisième, celle que la plupart n'activent pas, change vraiment la donne.
@-référençant tes fichiers markdown. Claude exploite alors des années de notes, décisions produit, fiches clients, conventions éditoriales. Une mémoire bien plus vaste que ce qu'un CLAUDE.md peut porter, et qui te suit d'un projet à l'autre.Écrit une fois, lu à la demande. Le pivot, c'est la troisième couche : la plupart des utilisateurs s'arrêtent à CLAUDE.md. Ceux qui connectent leur second cerveau parlent à un Claude qui connaît leur historique.
2. Sélectionner : choisir ce qui entre dans le contexte
Chaque token que tu colles dans le prompt sera relu à chaque tour. Donc tu choisis ce qui entre, tu ne balances pas de la matière en espérant que Claude trie. Trois leviers, un exemple concret pour chacun.
Aller plus loin : un Skill qui identifie les 2-3 fichiers utiles avant de démarrer une tâche. Tu le fais tourner en premier, tu pars avec le bon matériel, tu évites le réflexe "je balance tout, on verra bien".
3. Compresser : les commandes à connaître
La compression permet de tenir la distance sur une longue session sans tout perdre ni tout payer. Trois commandes à maîtriser dans Claude Code.
L'auto-compact se déclenche à 80%. C'est le mode "je n'ai rien fait" : tu as déjà brûlé 80% de ton quota, et tu n'as aucun contrôle sur ce qu'il choisit de résumer.
4. Isoler : déléguer à un sub-agent
Les tâches bruyantes (lire un long fichier, recherche web large, exploration de codebase) n'ont rien à faire dans ta conversation principale. Elles font gonfler le contexte pour un résultat qui tient en trois lignes. Un sub-agent fait le travail dans son propre contexte et te rend seulement la conclusion.
Le bruit reste dans le sub-agent. Seul le résultat traverse la frontière vers la conversation principale. Ton quota ne voit que les 800 tokens qui comptent.
Sujet traité en profondeur dans un prochain article dédié du parcours.
Les quatre gestes travaillent ensemble. Dans une bonne session, tu les utilises tous, à des moments différents.
Ta routine Claude Code au quotidien
Les 4 gestes, c'est la théorie. Voilà ce que ça donne concrètement quand tu termines une phase et que tu passes à la suivante.
Trois caractères, deux secondes, un quota préservé. À répéter dès que le sujet bouge. C'est ce geste-là qui fait la différence entre une semaine qui tient et un mardi 17h bloqué.
3 erreurs qui font exploser ton quota
Trois pièges qui font perdre du quota sans rien apporter.
Tu attends que Claude te dise "contexte plein". L'auto-compact se déclenche à 80% de remplissage. À ce stade, tu as déjà brûlé 80% de ton quota, et il résume selon sa logique, pas la tienne.
/compact garde les conventions éditoriales et le brief, résume le reste
Lancé manuellement, avec instructions explicites sur ce qui doit rester en détail.
Tu finis un brief client. Tu enchaînes direct sur un audit de site. Même session, même conversation. Le brief ne sert plus à rien pour l'audit, mais il est relu à chaque tour quand même.
/clear entre deux sujets non liés.
Ton CLAUDE.md se recharge, ton contexte repart propre, ton quota aussi.
Tu veux que Claude analyse un document de 30 pages. Tu le colles dans le prompt. À chaque tour suivant, les 30 pages sont relues, même quand tu parles déjà d'autre chose.
@rapport-Q2.md dans Claude Code ou Cursor, ou accessible via un MCP.
Claude lit le fichier une fois, en extrait ce dont il a besoin, le laisse tranquille.
ChatGPT, Cursor, Claude Code : le même principe
Le cadre ne change pas quand on change d'outil. Ce qui change, c'est le niveau de contrôle.
| Outil | Équivalent CLAUDE.md | Équivalent /clear | Contrôle fin |
|---|---|---|---|
| Claude Code (Pro, Max) | CLAUDE.md + Skills | /clear | Compact, sub-agents, caching |
| ChatGPT (Plus, Team, Pro) | Projects + Instructions | Nouvelle conversation | Pas de compact manuel |
| Cursor (Pro) | .cursorrules + @Codebase | Nouvelle conversation | Limité au select (@file) |
ChatGPT : la limite d'usage GPT-5 saute en silence, souvent après 2-3 heures de session intense. Pas d'outil de compression. La discipline se joue sur "quand j'ouvre une nouvelle conv" et sur la densité des instructions dans les Projects.
Cursor : compteur de "fast requests" mensuel qui se vide vite si tu laisses @Codebase permanent. Utilise @file ciblé plutôt que @Codebase tout le temps.
Claude Code : le plus granulaire des trois. C'est aussi celui qui te laisse voir ton quota hebdomadaire en temps réel si tu es sur Max. S'entraîner à le regarder avant de lancer une session longue, c'est l'équivalent de regarder le niveau d'essence avant un long trajet.
Le réflexe à garder
Le contexte est une ressource, pas un dépotoir.
Avant d'empiler un fichier, un long extrait, un nouveau sujet dans ta conversation, la question à te poser est simple : ça doit vraiment être là ? Si la réponse est non, tu passes par le CLAUDE.md, un Skill, une référence @, ou un sub-agent. Tout sauf coller.
Ouvre ta dernière grosse conversation Claude Code. Si elle dépasse 50% du contexte, lance /compact avec des instructions explicites sur ce qui doit rester.
Demain matin, tu repars de 20K tokens au lieu de 150K. Et tu remarques tout de suite la différence sur la qualité des réponses.
Au bout d'une semaine, ça devient un réflexe. Tu n'y penses plus. Tu remarques juste que tu finis la semaine sans avoir vu le mur, et que Claude reste précis vendredi soir comme lundi matin.
Prochaine étape du parcours : les agents et sub-agents, qui formalisent le quatrième geste (isoler) et transforment la délégation en workflow reproductible.