L’angle mort de l’IA : comment les bugs du serveur MCP d’Anthropic ont ouvert la porte à l’exécution de code et aux fuites de données

Sous-titre : Des chercheurs révèlent des failles critiques dans le serveur MCP d’Anthropic, montrant comment des attaquants pourraient détourner des systèmes pilotés par l’IA avec une simple invite empoisonnée.

Tout a commencé par une question simple : à quel point la passerelle entre les données locales et l’intelligence artificielle est-elle sûre ? La réponse, révélée par les chercheurs en sécurité de Cyata, est plus inquiétante que rassurante. Trois vulnérabilités nouvellement divulguées dans le serveur Git MCP officiel d’Anthropic ont mis en lumière une faille béante dans la sécurité de l’automatisation alimentée par l’IA - une faille qui pourrait permettre à des attaquants d’exécuter du code, de voler des fichiers et d’effacer des données, simplement en manipulant ce qu’un assistant IA « lit ».

Les vulnérabilités, découvertes par Cyata, étaient dissimulées dans les mécanismes permettant aux serveurs Model Control Protocol (MCP) d’Anthropic de connecter les grands modèles de langage (LLM) à des sources de données locales. Le serveur Git MCP - un outil conçu pour permettre aux systèmes IA d’interagir avec des dépôts de code - est ainsi devenu la scène inattendue d’un drame de sécurité. Ici, les LLM pouvaient être trompés pour exécuter des commandes contrôlées par un attaquant, simplement en lisant une entrée conçue à dessein : un fichier README malveillant, la description d’un ticket empoisonné, ou même une page web compromise.

Au cœur du problème se trouvait l’incapacité du serveur à valider ou nettoyer correctement les arguments qui lui étaient fournis. « Les serveurs MCP exécutent des actions sur la base des décisions des LLM, et les LLM peuvent être manipulés via l’injection d’invite », explique Cyata. Cela signifie que si un attaquant peut façonner le contexte reçu par un assistant IA, il peut transformer ce contexte en arme - faisant de l’IA elle-même la complice involontaire d’une cyberattaque.

Contrairement aux intrusions informatiques traditionnelles, ces exploits ne nécessitaient aucun accès direct à l’infrastructure de la victime. Les attaquants devaient seulement influencer ce que l’IA « voit ». Résultat : exécution arbitraire de code, lecture non autorisée de fichiers, voire suppression de fichiers - potentiellement sur toute configuration utilisant le serveur vulnérable.

Les vulnérabilités - désormais cataloguées sous CVE-2025-68143, CVE-2025-68144 et CVE-2025-68145 - ont été signalées à Anthropic à la mi-2025. En décembre, l’entreprise a publié une version corrigée, comblant les failles avant leur divulgation publique. Pourtant, cet épisode sonne comme un avertissement pour l’écosystème IA en pleine évolution : à mesure que les organisations s’empressent de combiner les LLM à des données internes sensibles, la surface d’attaque s’élargit - et devient plus imprévisible.

La réaction rapide d’Anthropic a limité les conséquences, mais la recherche met en lumière une nouvelle réalité : la puissance de l’IA peut être détournée avec subtilité, et le maillon le plus faible peut être une simple entrée négligée. À mesure que l’automatisation pilotée par LLM s’intègre toujours plus profondément dans le développement logiciel et les opérations d’entreprise, développeurs et défenseurs doivent repenser ce que signifie sécuriser les « pensées » des machines.

Conclusion : L’incident du serveur MCP d’Anthropic n’est pas qu’une mise en garde sur la négligence d’un fournisseur - c’est un signe annonciateur de la prochaine frontière du risque cyber. À mesure que les systèmes IA deviennent plus autonomes, leur vulnérabilité aux attaques indirectes et contextuelles mettra à l’épreuve les limites de la sécurité traditionnelle. Le message est clair : à l’ère de l’IA, la frontière entre entrée et exploit n’a jamais été aussi mince.

WIKICROOK

Injection d’invite : L’injection d’invite consiste à fournir à une IA une entrée malveillante, la poussant à agir de manière inattendue ou dangereuse, souvent en contournant les protections habituelles.
Exécution de code à distance (RCE) : L’exécution de code à distance (RCE) permet à un attaquant d’exécuter son propre code sur le système d’une victime, menant souvent à la prise de contrôle ou à la compromission complète du système.
Grand modèle de langage (LLM) : Un grand modèle de langage (LLM) est une IA entraînée à comprendre et générer du texte de type humain, souvent utilisée dans les chatbots, assistants et outils de contenu.
Nettoyage des arguments : Le nettoyage des arguments filtre et valide les entrées utilisateur pour bloquer les données malveillantes, empêchant les attaques par injection et protégeant les applications contre les menaces de sécurité.
CVE (Common Vulnerabilities and Exposures) : Un CVE est un identifiant public unique pour une vulnérabilité de sécurité spécifique, permettant un suivi et une discussion cohérents dans l’industrie de la cybersécurité.