El equipo rojo de IA de Microsoft construye el futuro de una IA más segura

Expertos en ciberseguridad frente a varios monitores

Por: Ram Shankar Siva Kumar, Data Cowboy

Una parte esencial del envío seguro de software es el equipo rojo. En términos generales, se refiere a la práctica de emular adversarios del mundo real y sus herramientas, tácticas y procedimientos para identificar riesgos, descubrir puntos ciegos, validar suposiciones y mejorar la postura de seguridad general de los sistemas. Microsoft tiene una rica historia de tecnología emergente de equipos rojos con el objetivo de identificar de manera proactiva las fallas en la tecnología. A medida que los sistemas de IA se hicieron más frecuentes, en 2018, Microsoft estableció el Equipo Rojo de IA: un grupo de expertos interdisciplinarios dedicados a pensar como atacantes y probar los sistemas de IA en busca de fallas.

Compartimos las mejores prácticas de nuestro equipo para que otros puedan beneficiarse de los aprendizajes de Microsoft. Estas mejores prácticas pueden ayudar a los equipos de seguridad a buscar de manera proactiva fallas en los sistemas de IA, definir un enfoque de defensa en profundidad y crear un plan para evolucionar y hacer crecer su postura de seguridad a medida que evolucionan los sistemas de IA generativa.

La práctica de los equipos rojos de IA ha evolucionado para adquirir un significado más amplio: no solo cubre la detección de vulnerabilidades de seguridad, sino que también incluye la detección de otras fallas del sistema, como la generación de contenido que pudiera ser dañino. Los sistemas de IA vienen con nuevos riesgos, y el equipo rojo es fundamental para comprender esos riesgos novedosos, como la inyección rápida y la producción de contenido sin conexión a tierra. El equipo rojo de IA no solo es bueno tenerlo en Microsoft; es una piedra angular para la IA responsable por diseño: como anunció el presidente y vicepresidente de Microsoft, Brad Smith, Microsoft se comprometió de manera reciente a que todos los sistemas de IA de alto riesgo pasarán por un equipo rojo independiente antes de la implementación.

El objetivo de este blog es contextualizar a los profesionales de la seguridad de qué manera los equipos rojos de IA se cruzan con los equipos rojos tradicionales y en qué se diferencian. Esperamos que esto permita a más organizaciones crear equipos rojos con sus propios sistemas de IA, así como brindar información sobre cómo aprovechar mejor sus equipos rojos tradicionales y equipos de IA existentes.

El equipo rojo ayuda a que la implementación de IA sea más segura

En los últimos años, el equipo rojo de IA de Microsoft ha creado y compartido, de manera continua, contenido para capacitar a los profesionales de la seguridad para que piensen de manera integral y proactiva sobre cómo implementar la IA de forma segura. En octubre de 2020, Microsoft colaboró con MITRE, así como con socios académicos y de la industria, para desarrollar y lanzar Adversarial Machine Learning Threat Matrix, un marco para capacitar a los analistas de seguridad para detectar, responder y remediar amenazas. También en 2020, creamos y abrimos Microsoft Counterfit, una herramienta de automatización para pruebas de seguridad de sistemas de IA para ayudar a toda la industria a mejorar la seguridad de las soluciones de IA. Después de eso, lanzamos el marco de evaluación de riesgos de seguridad de IA en 2021 para ayudar a las organizaciones a madurar sus prácticas de seguridad en torno a la seguridad de los sistemas de IA, además de actualizar Counterfit. A principios de este año, anunciamos colaboraciones adicionales con socios clave para ayudar a las organizaciones a comprender los riesgos asociados con los sistemas de IA para que las organizaciones puedan usarlos de manera segura, incluida la integración de Counterfit en las herramientas MITRE y colaboraciones con Hugging Face en un escáner de seguridad específico de IA que está disponible en GitHub.

Diagrama que muestra la línea de tiempo de hitos importantes en el camino del Equipo Rojo de IA de Microsoft

El equipo rojo de IA, relacionado con la seguridad, es parte de un esfuerzo más grande de la creación del equipo rojo de IA responsable (RAI, por sus siglas en inglés) que se enfoca en los principios de justicia, confiabilidad y seguridad, privacidad y seguridad, inclusión, transparencia y responsabilidad de la IA de Microsoft. El trabajo colectivo ha tenido un impacto directo en la forma en que enviamos productos de IA a nuestros clientes. Por ejemplo, antes de que se lanzara la nueva experiencia de chat de Bing, un equipo de docenas de expertos en seguridad e inteligencia artificial responsable en toda la empresa pasó cientos de horas en buscar nuevos riesgos de seguridad e inteligencia artificial responsable. Esto se sumó a las prácticas regulares e intensivas de seguridad de software seguidas por el equipo, así como al equipo rojo del modelo básico GPT-4 por parte de los expertos de RAI antes de desarrollar Bing Chat. Nuestros hallazgos del equipo rojo informaron la medición sistemática de estos riesgos y construyeron mitigaciones de alcance antes de que se enviara el producto.

Orientación y recursos para la formación de equipos rojos

Por lo general, la formación de equipos rojos de IA se lleva a cabo en dos niveles: en el nivel del modelo base (p. ej., GPT-4) o en el nivel de la aplicación (p. ej., Security Copilot, que usa GPT-4 en el back-end). Ambos niveles brindan sus propias ventajas: por ejemplo, la formación de equipos rojos en el modelo ayuda a identificar al principio del proceso cómo se pueden usar de manera incorrecta los modelos, para evaluar las capacidades del modelo y para comprender las limitaciones del modelo. Estos conocimientos pueden incorporarse al proceso de desarrollo del modelo para mejorar las futuras versiones del modelo, pero también pueden dar un impulso inicial sobre las aplicaciones para las que es más adecuado. La formación de equipos rojos de IA a nivel de aplicación toma una vista del sistema, de la cual el modelo base es una parte. Por ejemplo, cuando se formó el equipo rojo de IA en Bing Chat, toda la experiencia de búsqueda impulsada por GPT-4 estaba dentro del alcance y se probaron las fallas. Esto ayuda a identificar fallas más allá de los mecanismos de seguridad a nivel de modelo, al incluir los activadores de seguridad generales específicos de la aplicación.

Diagrama que muestra cuatro aprendizajes clave del equipo rojo de IA

Juntos, el sondeo de los riesgos de seguridad y de IA responsable proporcionan una instantánea única de cómo las amenazas e incluso el uso benigno del sistema pueden comprometer la integridad, la confidencialidad, la disponibilidad y la responsabilidad de los sistemas de IA. Esta visión combinada de seguridad e IA responsable brinda información valiosa no solo para identificar problemas de manera proactiva, sino también para comprender su prevalencia en el sistema a través de estrategias de medición e información para la mitigación. A continuación, se presentan los aprendizajes clave que han ayudado a dar forma al programa AI Red Team de Microsoft.

  1. El equipo rojo de IA es más expansivo. El equipo rojo de IA ahora es un término general para probar los resultados de seguridad y RAI. El equipo rojo de IA se cruza con los objetivos tradicionales del equipo rojo en el sentido de que el componente de seguridad se enfoca en el modelo como un vector. Entonces, algunos de los objetivos pueden incluir, por ejemplo, robar el modelo subyacente. Pero los sistemas de IA también heredan nuevas vulnerabilidades de seguridad, como la inyección rápida y el envenenamiento, que requieren atención especial. Además de los objetivos de seguridad, el equipo rojo de AI también incluye investigar resultados tales como problemas de equidad (p. ej., estereotipos) y contenido dañino (p. ej., glorificación de la violencia). El equipo rojo de IA ayuda a identificar estos problemas de manera temprana para que podamos priorizar nuestras inversiones en defensa de manera adecuada.
  2. El equipo rojo de IA se enfoca en fallas de personas tanto maliciosas como benignas. Tomemos el caso del equipo rojo en el nuevo Bing. En el nuevo Bing, el equipo rojo de IA no solo se centró en cómo un adversario malicioso puede subvertir el sistema de IA a través de técnicas y exploits centrados en la seguridad, sino también en cómo el sistema puede generar contenido problemático y dañino cuando los usuarios regulares interactúan con el sistema. Entonces, a diferencia de los equipos rojos de seguridad tradicionales, que se enfocan en su mayoría en adversarios maliciosos, los equipos rojos de IA consideran un conjunto más amplio de personas y fallas.
  3. Los sistemas de IA están en constante evolución. Las aplicaciones de IA cambian de manera rutinaria. Por ejemplo, en el caso de una aplicación de modelo de lenguaje grande, los desarrolladores pueden cambiar el metaprompt (instrucciones subyacentes al modelo ML) en función de los comentarios. Si bien los sistemas de software tradicionales también cambian, según nuestra experiencia, los sistemas de IA cambian a un ritmo más rápido. Por lo tanto, es importante buscar múltiples rondas de equipos rojos de sistemas de IA y establecer sistemas de monitoreo y medición sistemáticos y automatizados a lo largo del tiempo.
  4. Los sistemas de IA generativos de equipos rojos requieren varios intentos. En un compromiso de equipo rojo tradicional, el uso de una herramienta o técnica en dos puntos de tiempo diferentes en la misma entrada, siempre produciría el mismo resultado. En otras palabras, por lo general, el equipo rojo tradicional es determinista. Los sistemas de IA generativa, por otro lado, son probabilísticos. Esto significa que ejecutar la misma entrada dos veces puede proporcionar diferentes resultados. Esto es por diseño, porque la naturaleza probabilística de la IA generativa permite una gama más amplia de resultados creativos. Esto también dificulta la creación de equipos rojos, ya que es posible que un aviso no conduzca al fracaso en el primer intento, pero tenga éxito (al revelar amenazas de seguridad o daños RAI) en el intento posterior. Una forma en que hemos explicado esto es, como lo mencionó Brad Smith en su blog, realizar múltiples rondas de formación de equipos rojos en la misma operación. Microsoft también ha invertido en la automatización que ayuda a escalar nuestras operaciones y en una estrategia de medición sistémica que cuantifica el alcance del riesgo.
  5. Mitigar las fallas de la IA requiere una defensa en profundidad. Al igual que en la seguridad tradicional, donde un problema como el phishing requiere una variedad de mitigaciones técnicas, como fortalecer el host para identificar URI maliciosos de manera inteligente, corregir las fallas encontradas a través de los equipos rojos de IA también requiere un enfoque de defensa en profundidad. Esto implica el uso de clasificadores para marcar contenido que pudiera ser dañino para usar metaprompt para guiar el comportamiento para limitar la deriva conversacional en escenarios conversacionales.

Desarrollar tecnología de manera responsable y segura está en el ADN de Microsoft. El año pasado, Microsoft celebró el vigésimo aniversario del memorando de Cómputo Confiable que pedía a Microsoft que ofreciera productos “tan disponibles, confiables y seguros como servicios estándar como electricidad, servicios de agua y telefonía”. La IA se perfila como la tecnología más transformadora del siglo XXI. Y como cualquier tecnología nueva, la IA está sujeta a nuevas amenazas. Ganarnos la confianza de los clientes al salvaguardar nuestros productos se mantiene como un principio rector a medida que ingresamos en esta nueva era, y el equipo rojo de AI está al frente y al centro de este esfuerzo. Esperamos que esta publicación de blog inspire a otros a integrar la IA de manera responsable y segura a través del equipo rojo.

Recursos

El equipo rojo de IA es parte de la estrategia más amplia de Microsoft para ofrecer sistemas de IA de forma segura y responsable. Aquí hay algunos otros recursos para proporcionar información sobre este proceso:

Contribuciones de Steph Ballard, Forough Poursabzi, Amanda Minnich, Gary Lopez Muñoz y Chang Kawaguchi.