Por: Sarah Bird, directora de productos de IA responsable de Microsoft
En el panorama de rápida evolución de la IA generativa, los líderes empresariales tratan de lograr el equilibrio adecuado entre la innovación y la gestión de riesgos. Los ataques de inyección rápida se han convertido en un desafío importante, en el que los actores maliciosos intentan manipular un sistema de IA para que haga algo fuera de su propósito previsto, como producir contenido dañino o exfiltrar datos confidenciales. Además de mitigar estos riesgos de seguridad, las organizaciones también se preocupan por la calidad y la confiabilidad. Quieren asegurarse de que sus sistemas de IA no generen errores ni agreguen información que no esté respaldada en las fuentes de datos de la aplicación, lo que puede erosionar la confianza del usuario.
Para ayudar a los clientes a superar estos desafíos de calidad y seguridad de la IA, anunciamos nuevas herramientas que ya están disponibles o que llegarán pronto a Azure AI Studio para desarrolladores de aplicaciones de IA generativa:
- Escudos de aviso para detectar y bloquear ataques de inyección de aviso, incluido un nuevo modelo para identificar ataques de aviso indirectos antes de que afecten al modelo, que estará disponible más adelante y ya está disponible en versión preliminar en Azure AI Content Safety.
- Más adelante se lanzará la detección de conexión a tierra para detectar «alucinaciones» en los resultados de los modelos.
- Pronto sepublicarán mensajes del sistema de seguridad para orientar el comportamiento de su modelo hacia resultados seguros y responsables.
- Evaluaciones de seguridad para evaluar la vulnerabilidad de una aplicación a los ataques de jailbreak y a la generación de riesgos de contenido, ahora disponibles en versión preliminar.
- Supervisión de riesgos y seguridad para comprender qué entradas, salidas y usuarios finales del modelo desencadenan filtros de contenido para informar sobre las mitigaciones, pronto y ya disponible en versión preliminar en Azure OpenAI Service.
Con estas incorporaciones, Azure AI proporciona a nuestros clientes tecnologías innovadoras para proteger sus aplicaciones a lo largo del ciclo de vida de la IA generativa.
Protejan sus LLM contra ataques de inyección rápida con Prompt Shields
Los ataques de inyección rápida, tanto los ataques directos, conocidos como jailbreaks, como los ataques indirectos, han comenzado a surgir como amenazas significativas para la seguridad del modelo de base. Los ataques exitosos que eluden las mitigaciones de seguridad de un sistema de IA pueden tener graves consecuencias, como la filtración de información de identificación personal (PII, por sus siglas en inglés) y propiedad intelectual (IP, por sus siglas en inglés).
Para combatir estas amenazas, Microsoft ha introducido Prompt Shields para detectar entradas sospechosas en tiempo real y bloquearlas antes de que lleguen al modelo base. Este enfoque proactivo protege la integridad de los sistemas de modelos de lenguaje grandes (LLM, por sus siglas en inglés) y las interacciones de los usuarios.
Prompt Shields para ataques de jailbreak: Jailbreak, ataques de avisos directos o ataques de inyección de avisos de usuario, se refieren a los usuarios que manipulan avisos para inyectar entradas dañinas en los LLM para distorsionar las acciones y salidas. Un ejemplo de un comando de jailbreak es un ataque ‘DAN’ (Do Anything Now), que puede engañar al LLM para que genere contenido inapropiado o ignore las restricciones impuestas por el sistema. Nuestro Prompt Shield para ataques de jailbreak, lanzado el pasado mes de noviembre como «detección de riesgo de jailbreak», detecta estos ataques al analizar los avisos de instrucciones maliciosas y bloquea su ejecución.
Prompt Shield para ataques indirectos: Los ataques indirectos de inyección inmediata, aunque no son tan conocidos como los ataques de jailbreak, presentan un desafío y una amenaza únicos. En estos ataques encubiertos, los piratas informáticos pretenden manipular los sistemas de IA de manera indirecta, al alterar los datos de entrada, como sitios web, correos electrónicos o documentos cargados. Esto permite a los piratas informáticos engañar al modelo básico para que realice acciones no autorizadas sin manipular de manera directa el mensaje o el LLM. Cuyas consecuencias pueden dar lugar a la apropiación de cuentas, contenido difamatorio o acosador y otras acciones maliciosas. Para combatir esto, presentamos un Prompt Shield para ataques indirectos, diseñado para detectar y bloquear estos ataques ocultos para respaldar la seguridad e integridad de sus aplicaciones de IA generativa.
Identifiquen las alucinaciones de LLM con la detección de conexión a tierra
Las «alucinaciones» en la IA generativa se refieren a los casos en los que un modelo genera con confianza resultados que no se alinean con el sentido común o carecen de datos fundamentados. Este problema puede manifestarse de diferentes maneras, que van desde pequeñas imprecisiones hasta resultados marcadamente falsos. La identificación de las alucinaciones es crucial para mejorar la calidad y la fiabilidad de los sistemas de IA generativa. Hoy, Microsoft anuncia la detección de Groundedness, una nueva función diseñada para identificar alucinaciones basadas en texto. Esta función detecta «material sin conexión a tierra» en el texto para respaldar la calidad de las salidas LLM.
Dirijan su aplicación con un mensaje eficaz del sistema de seguridad
Además de agregar sistemas de seguridad como Azure AI Content Safety, la ingeniería rápida es una de las formas más eficaces y populares de mejorar la confiabilidad de un sistema de IA generativa. Hoy en día, Azure AI permite a los usuarios basar modelos de base en orígenes de datos de confianza y crear mensajes del sistema que guían el uso óptimo de esos datos de base y el comportamiento general (haz esto, no aquello). En Microsoft, hemos descubierto que incluso pequeños cambios en un mensaje del sistema pueden tener un impacto significativo en la calidad y seguridad de una aplicación. Para ayudar a los clientes a crear mensajes del sistema eficaces, pronto proporcionaremos plantillas de mensajes del sistema de seguridad directo en las áreas de juegos de Azure AI Studio y Azure OpenAI Service de forma predeterminada. Desarrolladas por Microsoft Research para mitigar la generación y el uso indebido de contenido dañino, estas plantillas pueden ayudar a los desarrolladores a empezar a crear aplicaciones de alta calidad en menos tiempo.
Evalúen los riesgos y la seguridad de su solicitud de LLM
¿Cómo saben si la aplicación y las mitigaciones funcionan según lo previsto? Hoy en día, muchas organizaciones carecen de los recursos para realizar pruebas de estrés en sus aplicaciones de IA generativa para poder avanzar con confianza desde el prototipo hasta la producción. En primer lugar, puede ser un reto crear un conjunto de datos de prueba de alta calidad que refleje una serie de riesgos nuevos y emergentes, como los ataques de jailbreak. Incluso con datos de calidad, las evaluaciones pueden ser un proceso complejo y manual, y los equipos de desarrollo pueden tener dificultades para interpretar los resultados para informar sobre mitigaciones efectivas.
Azure AI Studio proporciona evaluaciones sólidas y automatizadas para ayudar a las organizaciones a evaluar y mejorar de manera sistemática sus aplicaciones de IA generativa antes de implementarlas en producción. Si bien en la actualidad admitimos métricas de evaluación de calidad prediseñadas, como la fundamentación, la relevancia y la fluidez, hoy anunciamos evaluaciones automatizadas para nuevas métricas de riesgo y seguridad. Estas evaluaciones de seguridad miden la susceptibilidad de una aplicación a los intentos de jailbreak y a la producción de contenido violento, sexual, relacionado con la autolesión, odioso e injusto. También proporcionan explicaciones en lenguaje natural de los resultados de la evaluación para ayudar a informar las mitigaciones adecuadas. Los desarrolladores pueden evaluar una aplicación con su propio conjunto de datos de prueba o tan solo generar un conjunto de datos de prueba de alta calidad mediante plantillas de solicitud adversarial desarrolladas por Microsoft Research. Con esta funcionalidad, Azure AI Studio también puede ayudar a aumentar y acelerar los esfuerzos manuales de red-teaming al permitir que los equipos rojos generen y automaticen mensajes adversarios a escala.
Supervisión de las implementaciones de Azure OpenAI Service para conocer los riesgos y la seguridad en producción
La supervisión de los modelos de IA generativa en producción es una parte esencial del ciclo de vida de la IA. Hoy nos complace anunciar la supervisión de riesgos y seguridad en Azure OpenAI Service. Ahora, los desarrolladores pueden visualizar el volumen, la gravedad y la categoría de las entradas de usuario y las salidas del modelo que fueron bloqueadas por sus filtros de contenido y listas de bloqueo de Azure OpenAI Service a lo largo del tiempo. Además de la supervisión y la información a nivel de contenido, introducimos la denuncia de posibles abusos a nivel de usuario. Ahora, los clientes empresariales tienen una mayor visibilidad de las tendencias en las que los usuarios finales envían solicitudes peligrosas o dañinas a un modelo de Azure OpenAI Service de manera continua. Si el contenido de un usuario se marca como dañino por los filtros de contenido preconfigurados o las listas de bloqueo de un cliente, el servicio utilizará señales contextuales para determinar si el comportamiento del usuario califica como abuso del sistema de IA. Con estas nuevas capacidades de monitoreo, las organizaciones pueden comprender mejor las tendencias en las aplicaciones y el comportamiento de los usuarios y aplicar esos conocimientos para ajustar las configuraciones de filtros de contenido, las listas de bloqueo y el diseño general de las aplicaciones.
Escalen con confianza la próxima generación de aplicaciones de IA seguras y responsables
La IA generativa puede ser un multiplicador de fuerza para todos los departamentos, empresas e industrias. Los clientes de Azure AI usan esta tecnología para operar de forma más eficiente, mejorar la experiencia del cliente y crear nuevas vías para la innovación y el crecimiento. Al mismo tiempo, los modelos básicos introducen nuevos desafíos para la seguridad y la protección que requieren nuevas mitigaciones y aprendizaje continuo.
En Microsoft, ya sea que trabajemos en el aprendizaje automático tradicional o en tecnologías de IA de vanguardia, basamos nuestros esfuerzos de investigación, políticas e ingeniería en nuestros principios de IA. Hemos creado nuestra cartera de Azure AI para ayudar a los desarrolladores a integrar prácticas críticas de IA responsables directo en el ciclo de vida de desarrollo de IA. De este modo, Azure AI proporciona una plataforma coherente y escalable para la innovación responsable para nuestros copilotos propios y para los miles de clientes que crean sus propias soluciones revolucionarias con Azure AI. Estamos entusiasmados de continuar con la colaboración con clientes y socios en formas novedosas de mitigar, evaluar y monitorear los riesgos y ayudar a cada organización a alcanzar sus objetivos con IA generativa con confianza.
Más información sobre los anuncios de hoy
- Introducción a Azure AI Studio.
- Profundicen con blogs técnicos en Tech Community: