Ilustración que simula un escape de unas rejas

Proteger la IA contra «jailbreaks» y otros ataques por prompt

Conseguir que una herramienta de IA responda a las preguntas de atención al cliente puede ser una forma estupenda de ahorrar tiempo. Lo mismo ocurre con el uso de un asistente de IA para resumir los correos electrónicos. Pero las poderosas capacidades lingüísticas de esas herramientas también las hacen vulnerables a ataques por prompt o intentos maliciosos de engañar a los modelos de IA para que ignoren las reglas de su sistema y produzcan resultados no deseados.

Hay dos tipos de ataques por prompt. Uno es un ataque directo conocido como jailbreak, como si la herramienta de servicio al cliente generara contenido ofensivo a instancias de alguien, por ejemplo. El segundo es un ataque de prompt indirecto, por ejemplo, si el asistente de correo electrónico sigue un prompt oculto y malicioso para revelar datos confidenciales.

Microsoft se protege contra ambos tipos de ataques por prompt con herramientas y prácticas de IA que incluyen nuevas barreras de seguridad, herramientas de seguridad avanzadas y una profunda inversión en investigación y experiencia en ciberseguridad.

Esta publicación es parte de la serie Construir IA de manera responsable de Microsoft, que explora las principales preocupaciones con la implementación de la IA y cómo la empresa las aborda con sus prácticas y herramientas de IA responsable.

«Los ataques por prompt son una preocupación de seguridad creciente que Microsoft toma muy en serio», dice Ken Archer, un gerente principal de producto de IA responsable de la empresa. «La IA generativa ha comenzado a remodelar la forma en que las personas viven y trabajan, y trabajamos de manera activa para ayudar a los desarrolladores a crear aplicaciones de IA más seguras».

Los jailbreaks son cuando alguien ingresa prompts maliciosos de manera directa en un sistema de IA, como decirle que «olvide» sus reglas o finja que es un personaje deshonesto. El término se usaba para los teléfonos inteligentes antes de la IA: describía a alguien que intentaba personalizar su teléfono liberándolo de la «cárcel» de restricciones de un fabricante.

Los ataques de prompt indirecto se producen cuando alguien oculta instrucciones maliciosas en un correo electrónico, documento, sitio web u otros datos que procesa una herramienta de IA. Un atacante puede enviar un correo electrónico de aspecto inocuo que oculta un prompt dañino en fuente blanca, texto codificado o una imagen. Un sitio web de negocios o currículums puede insertar texto oculto para manipular las herramientas de selección de IA para omitir una auditoría de la empresa o empujar un currículum a la parte superior de una pila.

Las personas son más conscientes de los jailbreaks, pero los ataques indirectos conllevan un mayor riesgo porque pueden permitir el acceso externo y no autorizado a información privilegiada. Las organizaciones a menudo necesitan basar los sistemas de IA en documentos y conjuntos de datos para aprovechar el beneficio de la IA generativa. Pero hacerlo puede abrirlos a caminos para ataques indirectos que conducen a fugas de datos, malware y otras violaciones de seguridad cuando esos documentos y conjuntos de datos no son de confianza o se ven comprometidos.

«Esto crea una compensación fundamental», dice Archer.

Para ayudar a protegerse contra los jailbreaks y los ataques indirectos, Microsoft ha desarrollado un enfoque integral que ayuda a los desarrolladores de IA a detectar, medir y administrar el riesgo. Esto incluye: Prompt Shields, un modelo perfeccionado para detectar y bloquear prompts maliciosos en tiempo real, y evaluaciones de seguridad para simular prompts antagónicos y medir la susceptibilidad de una aplicación a ellos. Ambas herramientas están disponibles en Azure AI Foundry.

Microsoft Defender for Cloud ayuda a prevenir futuros ataques con herramientas para analizar y bloquear a los atacantes, mientras que Microsoft Purview proporciona una plataforma para administrar datos confidenciales utilizados en aplicaciones de IA. La compañía también publica las mejores prácticas para desarrollar una defensa multicapa que incluye mensajes del sistema, o reglas que guían un modelo de IA en materia de seguridad y rendimiento.

«Educamos a los clientes sobre la importancia de un enfoque de defensa en profundidad», dice Sarah Bird, directora de productos de IA responsable de Microsoft. «Incorporamos mitigaciones en el modelo, creamos un sistema de seguridad a su alrededor y diseñamos la experiencia del usuario para que pueda ser una parte activa del uso de la IA de forma más segura.»

La estrategia de defensa se deriva de la larga experiencia de la compañía en ciberseguridad, que va desde su Equipo Rojo de IA que ataca sus propios productos hasta el Centro de Respuesta de Seguridad de Microsoft que investiga y monitorea los ataques. El centro administra programas de Recompensas por errores para que investigadores externos informen sobre vulnerabilidades en los productos de Microsoft y de manera reciente lanzó una nueva oportunidad para informar sobre vulnerabilidades de alto impacto en los productos de IA y nube de la compañía.  

«Nos mantenemos al tanto de las amenazas emergentes al invitar a las personas a atacarnos», dice Archer. «Aprendemos de manera constante de una red de investigadores dedicados a comprender los nuevos ataques y mejorar nuestras medidas de seguridad».

Afirma que los ataques por prompt explotan la incapacidad de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) para distinguir las instrucciones de usuario de los datos de base. Se espera que la arquitectura de los modelos, que procesan las entradas en un único flujo continuo de texto, mejore con las nuevas iteraciones.

Los investigadores de Microsoft que estudian los ataques indirectos contribuyen a esas mejoras. Han descubierto que el «spotlighting«, un grupo de técnicas de ingeniería de prompts, puede reducir el riesgo de ataque al ayudar a los LLM a diferenciar las instrucciones válidas del sistema de las adversarias. Y estudian la «deriva de tareas» (desviaciones en la forma en que los modelos responden a las tareas con y sin documentos fundamentados) como una nueva forma de detectar ataques indirectos.  

«Dadas las primeras etapas de las arquitecturas de IA generativa, las empresas con activos de datos confidenciales deben centrarse en la seguridad», afirma Archer. «Pero también deben saber que pueden crear aplicaciones de IA generativa con confianza a través de cerrar estos vectores de ataque».

Esta publicación es parte de la serie Construir IA de manera responsable de Microsoft , que explora las principales preocupaciones con la implementación de la IA y cómo la compañía las aborda con sus prácticas y herramientas de IA responsable.

Obtengan más información sobre el trabajo de IA Responsable de Microsoft.

Ilustración principal de Makeshift Studios / Rocío Galarza. Artículo publicado el 3 de diciembre de 2024.