state.stage = "production-ready"_Je conçois des systèmes d'IA
qui ne lâchent pas.
C'est le cadre STATE qui rend ça possible.
Votre système GenAI ne défaille pas à cause du modèle.
Il défaille à cause de l'infrastructure qui l'entoure.
Même entrée. Sorties différentes. Aucun bogue reproductible.
Les post-mortems se concluent par : « le modèle a fait un truc bizarre. » Aucune cause racine. Aucune trace de pile.
Aucune trace. Aucun état par utilisateur. Navigation à l'aveugle.
Les problèmes passent inaperçus jusqu'aux plaintes des utilisateurs. Logger des prompts en espérant, ce n'est pas de l'observabilité.
« Peut-on tracer pourquoi l'agent a fait ça ? » Vous ne pouvez pas répondre.
Les équipes risque et légal réclament de la documentation. La Loi 25 l'exige. Votre système ne peut pas répondre en 30 minutes.
« Notre truc GenAI, c'est essentiellement un prototype astucieux scotché en production — non-déterministe, on ne peut pas reproduire les pannes, et la gestion des risques nous surveille. J'ai besoin d'une architecture sérieuse pour des systèmes LLM avec état, observables et auditables — pour arrêter de parier mon poste sur des intuitions. »
— Responsable LLMOps, Services financiers, Québec
L'état prime l'intelligence.
Un modèle intermédiaire bien géré en termes d'état surpasse systématiquement un modèle frontier sans état.
Seuil de maturité production
8–10
sur 10 au score STATE
Structuré
Schémas d'état explicites, pas de contexte implicite
Chaque opération initialise un objet d'état typé. Le champ stage reflète toujours la position d'exécution courante. Si votre agent plantait maintenant, pourriez-vous regarder le dernier état sauvegardé et savoir exactement où il s'est arrêté ?
Traçable
Chaque étape observable, chaque décision consignée
Consignez chaque appel LLM, appel d'API externe et transition d'étape significative. Vous devez pouvoir reconstituer exactement ce que l'agent a fait, ce qu'il a reçu et ce qu'il a produit — pour toute exécution, après coup.
Auditable
Prêt pour la gouvernance, explicable sous la Loi 25
Pour toute décision automatisée affectant un individu, rédigez un enregistrement de décision. La Loi 25 du Québec l'exige. Tout comme l'OSFI. « Peut-on tracer pourquoi l'agent a fait ça ? » doit avoir une réponse en 30 minutes.
Tolérant
Tolérant aux pannes et reprise après défaillance
Quand le flux de travail échoue à l'étape 6, il reprend à l'étape 6 — pas à l'étape 1. Verrouillez avant les opérations coûteuses. Libérez le verrou en cas d'échec. Si ça ne fonctionne que dans le sens aller, c'est une démo.
Explicite
Frontières déterministes, pas de magie
Chaque sortie LLM passe par une porte de validation avant toute écriture ou action. Une sortie invalide prend le chemin d'erreur — elle ne continue jamais silencieusement. La couture entre raisonnement et action est toujours nommée.
On vous a confié une plateforme GenAI.
Maintenant, vous êtes responsable de sa fiabilité.
7 à 15 ans en backend, de la donnée ou SRE. Aspiré dans la responsabilité d'une plateforme GenAI il y a 1 à 2 ans, avec un mandat flou. Pas chercheur en ML. Formé par les systèmes, pas par les modèles.
Non-déterminisme en production
Même entrée, sorties différentes. Les bogues ne se reproduisent pas.
Aucune observabilité
Aucune trace. Aucun état par utilisateur. Navigation à l'aveugle jusqu'aux plaintes.
L'écart de conformité
Les risques demandent : peut-on tracer le pourquoi ? La Loi 25 exige la réponse.
Pression de la direction
100 % ressentent la pression de déployer de l'IA générative. 90 % jugent les attentes irréalistes.

Du terrain, pas un gourou.
J'ai grandi dans le backend et les systèmes, me suis retrouvé dans le travail de plateforme GenAI, et ai passé trop de temps à déboguer des pannes qui n'avaient rien à voir avec le modèle.
Le cadre STATE, c'est ce qui m'a permis d'arrêter de deviner et de commencer à livrer de manière fiable. Ce n'est pas un article de recherche — c'est ce que j'utilise sur de vrais systèmes en environnements réglementés.
Basé à Québec. Contexte en C#/.NET et systèmes distribués. Bilingue. J'enseigne ce que j'ai appris à la dure.
Commencez par le quiz.
Construisez à partir de là.
Trois points d'entrée, une destination : un système GenAI qui ne lâche pas en production.
Quiz STATE
Évaluez votre système GenAI contre 5 piliers de maturité production. 10 questions. Des lacunes concrètes, pas des conseils vagues. Sachez exactement où votre système va défaillir avant qu'il le fasse.
- Diagnostic sur 5 piliers
- Fiche de score instantanée par pilier
- Plan de corrections personnalisé par courriel
No Stack Trace
90 minutes. Déconstruction en direct d'une architecture RAG réelle notée selon le cadre STATE. Vous repartirez avec une méthodologie de débogage reproductible, pas seulement de la théorie.
- Déconstruction d'architecture en direct
- Exercice de notation STATE
- Méthodologie de reproductibilité
Cohorte LLMOps
4 semaines. Votre système. De vraies solutions.
Une petite cohorte (10 à 12 participants) travaillant le cadre STATE sur leurs vrais systèmes de production. Vous apportez le système ; on répare ce qui est cassé.
- 4 séances live hebdomadaires
- Travaillez sur votre vrai système
- Module de conformité Loi 25
Ce que les équipes demandent.
La plupart des équipes blâment le modèle. Le mode de défaillance réel est presque toujours architectural : aucun contrat d'état entre les étapes, donc l'agent perd son contexte en cours de flux ; aucune porte de validation, donc les sorties hallucinées circulent en aval sans contrôle ; aucun checkpoint, donc un plantage à l'étape 7 signifie repartir de l'étape 1. Le modèle n'est pas le maillon faible. La plomberie autour de lui l'est. Le cadre STATE existe précisément pour diagnostiquer ça.
Le LLMOps couvre la couche de déploiement et d'évaluation — hébergement de modèles, versionnement, suivi de prompts, évaluations. L'architecture de fiabilité IA est la couche en dessous : les contrats d'état, la traçabilité complète d'exécution, la tolérance aux pannes qui reprend là où elle a planté, et les portes de validation explicites qui interceptent les mauvaises sorties LLM avant qu'elles deviennent des actions réelles. Vous pouvez avoir d'excellents outils LLMOps au-dessus d'un système qui continue de défaillir silencieusement. C'est là l'écart.
L'observabilité n'est pas un tableau de bord. C'est la capacité à reconstituer intégralement ce que votre agent a fait lors d'une exécution passée précise — quel prompt a tourné, quelle version de modèle, quelle était la sortie à chaque étape, où était le flux quand il a planté ou réussi. La plupart des équipes journalisent les entrées et sorties. Ça vous dit ce qui est entré et ce qui est sorti. Ça ne vous dit pas pourquoi l'agent a pris la décision qu'il a prise à l'étape 4. Si vous ne pouvez pas répondre à cette question pour une exécution de mardi dernier, vous n'avez pas encore d'observabilité.
Lorsqu'une décision affectant un individu est prise exclusivement par traitement automatisé, les organisations doivent notifier cette personne. Sur demande, elles doivent divulguer les données personnelles utilisées, les facteurs principaux ayant influencé la décision, et le droit de la personne à une révision humaine. En pratique, cela signifie que votre système a besoin d'enregistrements de décisions structurés — pas des fichiers de log, mais des enregistrements explicites reliant chaque résultat aux données et à la version du modèle qui l'a produit. Les pénalités atteignent 10 M$ CAD ou 2 % du chiffre d'affaires mondial. Ce n'est pas une case de conformité à cocher. C'est une exigence architecturale que votre système satisfait ou ne satisfait pas.
Seul le pilier Auditable est directement lié aux exigences réglementaires comme la Loi 25 ou l'OSFI. Les quatre autres — Structuré, Traçable, Tolérant, Explicite — s'attaquent à des problèmes d'architecture qui affectent tout système d'IA en production. Non-déterminisme, dégradation du contexte, redémarrages complets après des échecs partiels, hallucinations circulant sans validation : ce ne sont pas des problèmes de conformité. Ce sont des problèmes de fiabilité en production. La réglementation est une raison de construire des systèmes avec état et observables. La raison la plus courante est que les systèmes sans ces propriétés sont coûteux à déboguer et dangereux à faire confiance.
Gratuit · 5 minutes
Votre pilote GenAI
est-il prêt pour la production ?
Évaluez-le selon le cadre STATE. Des lacunes concrètes, pas des conseils vagues. Sachez exactement où votre système défaillira avant vos utilisateurs.