20 April 2026| Blog

Entre Mythos y GPT-5.4-Cyber: los LLM se adentran en el ámbito de la ciberseguridad automatizada

¡Cuando los gigantes de la IA, Anthropic y OpenAI, pasan a la defensiva!

Con Claude Mythos Preview, la empresa Anthropic parece dar un gran paso adelante en la detección de vulnerabilidades potenciada por la IA. OpenAI sigue sus pasos con el anuncio, justo después de su lanzamiento, de GPT-5.4-Cyber. Vivien Mura, director de tecnología (CTO) de Orange Cyberdefense, analiza el impacto positivo de la inteligencia artificial en las prácticas de ciberseguridad y el potencial que ofrece a los atacantes.

Anthropic o la IA responsable

Anthropic es una empresa especializada exclusivamente en inteligencia artificial generativa (IA generativa o Gen AI), fundada en 2021 por antiguos investigadores de OpenAI, entre los que se encuentran Dario Amodei y su hermana, Daniela Amodei. Con sede en San Francisco, la empresa ha logrado hacerse un hueco destacado entre los actores emergentes del sector de la inteligencia artificial. Con su familia de modelos de lenguaje (LLM o Large Language Models) Claude, Anthropic destaca por la importancia que concede a la seguridad y la ética (lo que se conoce como «Constitutional AI») en el desarrollo de sus plataformas de LLM.

Claude Mythos: ¿una herramienta de detección de doble filo?

El descubrimiento de la existencia de Claude Mythos Preview marca un punto de inflexión decisivo en la convergencia entre la inteligencia artificial y la ciberseguridad. Con Claude Mythos Preview, Anthropic da un gran paso adelante, ya que este modelo de IA no público, cuyo uso está actualmente restringido a los miembros⁽¹⁾de la iniciativa «project Glasswing», sería capaz de detectar y explotar vulnerabilidades críticas en el software.

Las capacidades de razonamiento avanzadas de Claude Mythos, que no están vinculadas a una formación específica en ciberseguridad, le permiten comprender y, en determinadas condiciones, romper la lógica de los programas informáticos y los sistemas informáticos, explica Vivien Mura, director de tecnología de Orange Cyberdefense.

En concreto, Claude Mythos Preview sería capaz de descubrir y explotar de forma autónoma vulnerabilidades de «día cero» —que aún no han sido detectadas— en entornos digitales ampliamente implantados e identificados, como OpenBSD y Firefox.

El problema es que estas vulnerabilidades nunca habían sido detectadas anteriormente por expertos humanos. Y así durante años. Si bien la herramienta se ha desarrollado para reforzar la ciberseguridad de los entornos digitales, en consonancia con el posicionamiento de Anthropic, ¿qué ocurre con su uso en manos de ciberdelincuentes y otros hacktivistas?

A pesar de que, por el momento, no disponemos de la perspectiva necesaria para evaluar el rendimiento real del modelo, los detalles que figuran en la ficha técnica⁽²⁾ de Mythos tienen consecuencias múltiples y profundas, explica Vivien Mura

Claude Mythos: ¿qué repercusiones tiene esto para los ciberdelincuentes?

En lo que respecta a los atacantes, Claude Mythos pone de manifiesto el resurgimiento de las vulnerabilidades de «día cero»⁽³⁾. El modelo sería capaz de identificar múltiples vulnerabilidades críticas en tan solo unos días, lo que sugiere una reducción del coste de la búsqueda de vulnerabilidades de día cero, tanto para los investigadores en ciberseguridad como para los atacantes.

Por otra parte, Claude Mythos Preview se queda estancado en lo que respecta a la automatización de la cadena de ataque. De manera impresionante, el modelo es capaz de explotar de forma totalmente autónoma vulnerabilidades de software y de configuración. En algunos casos documentados, ha logrado escapar de entornos aislados o «sandbox»⁽⁴⁾ y establecer comunicaciones externas, demostrando un razonamiento táctico que hasta ahora se reservaba a los pentesters humanos. No obstante, hay que tener en cuenta el contexto de ejecución, ya que se trata de un sistema informático diseñado con fines de investigación y que carece de los mecanismos clásicos de detección y protección.

Otra observación importante: Claude Mythos Preview es un modelo genérico que no se ha entrenado a partir de datos específicos sobre ciberseguridad y que carece de una arquitectura concreta (del tipo RAG o agéntica). Por lo tanto, el modelo se convierte de facto en un «plan de referencia», un modelo, para otras arquitecturas de referencia futuras en el ámbito de la ciberofensiva. En otras palabras: un uso malintencionado de estas herramientas no requeriría medios mucho más avanzados que el acceso al último «modelo Frontier», es decir, el modelo LLM público más reciente.

Una oportunidad fantástica para los actores del sector de la ciberseguridad

No obstante, Claude Mythos Preview representa una formidable oportunidad en el ámbito de la ciberseguridad, especialmente para la evolución de las profesiones relacionadas con la ciberdefensa.

Ante esta amenaza, el ecosistema digital en su conjunto da prioridad a la integridad de la cadena de suministro de software. De hecho, ese es el objetivo del CRA⁽⁵⁾. La IA podría constituir una herramienta fundamental para hacer frente al reto de la seguridad de la cadena de suministro y a los nuevos requisitos de cumplimiento normativo.

Aunque la ejecución de este tipo de modelos sigue requiriendo importantes recursos informáticos, el coste de los ciberataques se reducirá inevitablemente, lo que obligará a evolucionar a determinadas actividades y servicios de ciberseguridad, como las pruebas de penetración y los programas de «bug bounty» ⁽⁶⁾. Sin embargo, no es posible dejar que la máquina actúe con total autonomía. La intervención humana seguirá siendo necesaria para controlar los accesos y las ejecuciones con privilegios elevados y evitar errores de ejecución catastróficos, como la eliminación involuntaria de datos.

En cuanto a las promesas de automatización que Claude Mythos parece poner sobre la mesa, no se refieren únicamente a los atacantes. Mythos confirma que la ciberdefensa debe estar altamente automatizada, con control humano, para hacer frente a la avalancha de vulnerabilidades, actualizaciones e incidentes de seguridad. La corrección, la fase final de la defensa que requiere medidas de gran impacto en un sistema informático, también deberá automatizarse en mayor medida, integrando la supervisión humana en los puntos de control adecuados.

Claude Mythos Preview: ¿un modelo de LLM que tener en cuenta?

Como es sabido, desde el lanzamiento público de ChatGPT por parte de OpenAI en 2022, cada semana (o casi) se caracteriza por el lanzamiento de una nueva versión de un LLM destinada a sustituir a la anterior.

Claude Mythos Preview es un hito clave, pero no es un caso aislado. «Debemos prever que, en los próximos meses, aparecerán modelos de la competencia —posiblemente de código abierto— que igualen o superen las capacidades de Mythos», aclara Vivien Mura.

Tras la revelación de la existencia de Claude Mythos Preview, la respuesta de OpenAI no se ha hecho esperar⁽⁸⁾. Lanzado de forma limitada el 14 de abril y anunciado oficialmente por OpenAI el 15 de abril, GPT-5.4-Cyber se ha diseñado para abordar la ciberseguridad defensiva.

¿Cuáles son los próximos pasos que cabe prever en materia de detección de vulnerabilidades asistida por IA?

Si bien el modelo de acceso restringido de estas herramientas tiene por objeto reforzar la postura defensiva, crea un panorama de seguridad de dos velocidades. Los socios que actualmente utilizan Claude Mythos en el «Proyecto Glasswing»⁽⁸⁾ lo emplean para reforzar la seguridad de sus propios ecosistemas, lo que muy probablemente dará lugar a una oleada masiva de publicación de parches de seguridad.

Las organizaciones deben prepararse para una avalancha de parches destinados a sus sistemas operativos, aplicaciones, productos de seguridad y componentes de software de código abierto profundamente integrados⁽⁹⁾. Para las empresas que ya cuentan con programas de gestión de parches, el esfuerzo será considerable, pero no insuperable; para las demás, es muy probable que la avalancha de parches mantenga ocupados a los equipos durante mucho tiempo.

A largo plazo, la relación rendimiento-coste de los modelos de IA para aplicaciones cibernéticas podría mejorar, lo que ofrecería la posibilidad de integrar estos modelos en los ciclos de desarrollo de software (DevSecOps, CI/CD) y en los procesos de auditoría automática de los sistemas informáticos.

El riesgo para el futuro es que se eludan las medidas de seguridad que impiden el uso malintencionado de potentes modelos para automatizar ataques complejos a gran escala, lo que generaría una escalada sin precedentes en el panorama de las amenazas. Los atacantes podrían llevar a cabo procesos de piratería informática sofisticados sin esfuerzo y sin necesidad de conocimientos avanzados. La era de la coexistencia entre la ciberseguridad automatizada y la experiencia humana no ha hecho más que empezar.

A través de una colaboración con Qevlar AI, Orange Cyberdefense se ha comprometido a reforzar la ciberseguridad mediante la IA. Además, nuestros expertos pueden asesorarte en la sensibilización y la implantación de plataformas de IA supervisadas, conformes y responsables.

Para mantener el control sobre el futuro de tu negocio en la era de la inteligencia artificial, echa un vistazo a la segunda edición de nuestra revista trimestral «Ctrl» a continuación.

Inteligencia artificial: ¿Ángel y demonio?

Descubre la segunda edición de «Ctrl: 8 minutos para mantener el control».

(versión en inglés)

Descargar nuestra revista

Un visage d'ange sur la couverture de la revue IA

Fuentes y notas

⁽¹⁾ El proyecto Glasswing o «Project Glasswing» agrupa a Google, Microsoft, Apple, la Fundación Linux, AWS, Crowdstrike, Apple, Cisco, J.P. Morgan Chase, Microsoft, Nvidia, Palo Alto Networks y Broadcom;

⁽²⁾Una «System Card» es un documento técnico en el que se detallan el funcionamiento, las limitaciones y las medidas de seguridad de un modelo de inteligencia artificial;

⁽³⁾Una vulnerabilidad de «día cero» es una brecha de seguridad informática desconocida para los desarrolladores de un software para la que aún no se ha implantado ningún parche o corrección;

⁽⁴⁾Un «sandbox» —literalmente, «arenero»— es un entorno cerrado y seguro que permite probar programas o códigos sospechosos de forma aislada, sin riesgo de que se vea comprometida la seguridad informática;

⁽⁵⁾La «Cyber Resilience Act» (CRA), o Reglamento sobre resiliencia cibernética, es una normativa europea destinada a reforzar la resiliencia y la ciberseguridad de los productos y servicios digitales desde su fase de diseño, así como a garantizar una mayor transparencia por parte de los desarrolladores y fabricantes en lo que respecta a la presencia de vulnerabilidades en sus productos. El CRA entrará plenamente en vigor en 2027;

⁽⁶⁾ La «prueba de penetración» o «pentest» es una simulación controlada de un ataque llevada a cabo por expertos para identificar las vulnerabilidades de un sistema. A los expertos que ejercen esta profesión también se les conoce como «hackers éticos» o «Ethical Hackers»; el «bug bounty» anima a los investigadores en ciberseguridad a detectar e identificar fallos de seguridad en el entorno informático de una empresa a cambio de una recompensa;

⁽⁷⁾ «OpenAI anuncia un lanzamiento limitado de su nuevo modelo de IA dedicado a la ciberseguridad», Le Figaro con AFP, 15/04/2026: www.lefigaro.fr/secteur/high-tech/openai-annonce-une-sortie-limitee-pour-son-nouveau-modele-d-ia-dedie-a-la-cybersecurite-20260415;

⁽⁸⁾«Anthropic limita el lanzamiento de Mythos AI por temor a que los hackers puedan utilizar el modelo para llevar a cabo ciberataques», Ashley Capoot, cnbc.com, 7 de abril de 2026: www.cnbc.com/2026/04/07/anthropic-claude-mythos-ai-hackers-cyberattacks.html;

⁽⁹⁾«Los ministros de finanzas y los principales banqueros expresan su profunda preocupación por el modelo de IA de Mythos», Faisal Islam, bbc.com, 17 de abril de 2026: www.bbc.com/news/articles/c2ev24yx4rmo

Sobre el mismo asunto

Visage d'une femme avec un visage d'ange

2 February 2026 | Informe

Artificial intelligence: from innocence to governance - 8 minutes to stay in control

15 January 2026 | Blog