Anthropic confirmó el martes que el código interno de su popular asistente de codificación de inteligencia artificial (IA), Claude Code, se había publicado inadvertidamente debido a un error humano.
«No se involucraron ni se expusieron datos confidenciales o credenciales de clientes», dijo un portavoz de Anthropic en un comunicado compartido con CNBC News. «Este fue un problema del paquete de lanzamiento causado por un error humano, no una violación de seguridad. Estamos implementando medidas para evitar que esto vuelva a suceder».
El descubrimiento se produjo después de que AI lanzara la versión 2.1.88 del paquete npm de Claude Code, y los usuarios detectaran que contenía un archivo de mapa fuente que podría usarse para acceder al código fuente de Claude Code, que comprende casi 2000 archivos TypeScript y más de 512 000 líneas de código. La versión ya no está disponible para descargar desde npm.
El investigador de seguridad Chaofan Shou fue el primero en marcarlo públicamente en X, afirmando: «¡El código fuente del código Claude se ha filtrado a través de un archivo de mapa en su registro npm!». Desde entonces, la publicación X ha acumulado más de 28,8 millones de visitas. Se puede acceder al código base filtrado a través de un repositorio público de GitHub, donde ha superado las 84.000 estrellas y las 82.000 bifurcaciones.
Una filtración de código fuente de este tipo es importante, ya que brinda a los desarrolladores de software y a los competidores de Anthropic un modelo de cómo funciona la popular herramienta de codificación. Los usuarios que han profundizado en el código han publicado detalles de su arquitectura de memoria autorreparable para superar las limitaciones de la ventana de contexto fija del modelo, así como otros componentes internos.
Estos incluyen un sistema de herramientas para facilitar diversas capacidades como lectura de archivos o ejecución bash, un motor de consultas para manejar llamadas y orquestación de API LLM, orquestación de múltiples agentes para generar «subagentes» o enjambres para llevar a cabo tareas complejas y una capa de comunicación bidireccional que conecta extensiones IDE a Claude Code CLI.
La filtración también arrojó luz sobre una característica llamada KAIROS que permite a Claude Code operar como un agente persistente en segundo plano que puede corregir errores periódicamente o ejecutar tareas por sí solo sin esperar la intervención humana, e incluso enviar notificaciones automáticas a los usuarios. Complementando este modo proactivo hay un nuevo modo «sueño» que permitirá a Claude pensar constantemente en segundo plano para desarrollar ideas e iterar las existentes.

Quizás el detalle más intrigante es el modo encubierto de la herramienta para realizar contribuciones «silenciosas» a repositorios de código abierto. «Estás operando UNDERCOVER en un repositorio PÚBLICO/OPEN-SOURCE. Tus mensajes de confirmación, títulos de relaciones públicas y cuerpos de relaciones públicas NO DEBEN contener NINGUNA información interna de Anthropic. No desveles tu tapadera», se lee en el mensaje del sistema.
Otro hallazgo fascinante tiene que ver con los intentos de Anthropic de luchar encubiertamente contra los ataques de destilación de modelos. El sistema cuenta con controles que inyectan definiciones de herramientas falsas en las solicitudes de API para envenenar los datos de entrenamiento si los competidores intentan eliminar los resultados de Claude Code.
Paquetes Typosquat npm enviados al registro
Con los aspectos internos de Claude Code ahora al descubierto, los riesgos de desarrollo brindan a los malos actores municiones para sortear las barreras de seguridad y engañar al sistema para que realice acciones no deseadas, como ejecutar comandos maliciosos o filtrar datos.
«En lugar de jailbreaks de fuerza bruta e inyecciones rápidas, los atacantes ahora pueden estudiar y desdibujar exactamente cómo fluyen los datos a través del canal de gestión de contexto de cuatro etapas de Claude Code y crear cargas útiles diseñadas para sobrevivir a la compactación, persistiendo efectivamente una puerta trasera durante una sesión arbitrariamente larga», dijo la compañía de seguridad de IA Straiker.
La preocupación más apremiante son las consecuencias del ataque a la cadena de suministro de Axios, ya que los usuarios que instalaron o actualizaron Claude Code a través de npm el 31 de marzo de 2026, entre las 00:21 y las 03:29 UTC, pueden haber extraído consigo una versión troyanizada del cliente HTTP que contiene un troyano de acceso remoto multiplataforma. Se recomienda a los usuarios que bajen inmediatamente a una versión segura y roten todos los secretos.
Es más, los atacantes ya están aprovechando la filtración para escribir nombres de paquetes npm internos en un intento de apuntar a aquellos que pueden estar intentando compilar el código fuente filtrado de Claude Code y organizar ataques de confusión de dependencia. Los nombres de los paquetes, todos publicados por un usuario llamado «pacifier136», se enumeran a continuación:
- captura-de-audio-napi
- diferencia-de-color-napi
- procesador-de-imagen-napi
- modificadores-napi
- controlador de URL-napi
«En este momento son códigos auxiliares vacíos (`module.exports = {}`), pero así es como funcionan estos ataques: oculta el nombre, espera las descargas y luego envía una actualización maliciosa que afecta a todos los que la instalaron», dijo el investigador de seguridad Clément Dumas en una publicación en X.
El incidente es el segundo gran error de Anthropic en una semana. Los detalles sobre el próximo modelo de IA de la compañía, junto con otros datos internos, quedaron accesibles a través del sistema de gestión de contenido (CMS) de la compañía la semana pasada. Posteriormente, Anthropic reconoció que ha estado probando el modelo con clientes de acceso temprano, afirmando que es «el más capaz que hemos construido hasta la fecha», según Fortune.


