Los equipos rojos piensan como hackers para ayudar a mantener la IA segura

Al igual que las herramientas de IA como ChatGPT y Copilot han transformado la forma en que las personas trabajan en todo tipo de roles en todo el mundo, también han remodelado los llamados equipos rojos (red teams), grupos de expertos en ciberseguridad cuyo trabajo es pensar como piratas informáticos para ayudar a mantener la tecnología segura y protegida.

Las capacidades de la IA generativa para comunicarse de manera conversacional en varios idiomas, escribir historias e incluso crear imágenes fotorrealistas conllevan nuevos peligros potenciales, desde proporcionar resultados sesgados o inexactos hasta brindar a las personas con malas intenciones nuevas formas de provocar discordia. Estos riesgos impulsaron un enfoque novedoso y amplio sobre cómo el equipo rojo de IA de Microsoft trabaja para identificar y reducir el daño potencial.

«Creemos que la seguridad, la IA responsable y la noción más amplia de seguridad de la IA son diferentes facetas de la misma moneda», dice Ram Shankar Siva Kumar, quien lidera el equipo rojo de IA de Microsoft. «Es importante obtener una visión universal y única de todos los riesgos de un sistema de IA antes de que llegue a las manos de un cliente. Porque esta es un área que va a tener implicaciones sociotécnicas masivas».

Esta publicación es parte de la serie Building AI Responsibly de Microsoft, que explora las principales preocupaciones con la implementación de la IA y cómo la compañía las aborda con sus prácticas y herramientas de IA responsable.

El término «equipo rojo» se acuñó durante la Guerra Fría, cuando el Departamento de Defensa de EE. UU. realizó ejercicios de simulación con equipos rojos que actuaban como soviéticos y equipos azules que actuaban como EE. UU. y sus aliados. La comunidad de ciberseguridad adoptó el lenguaje hace unas décadas, donde creó equipos rojos para actuar como adversarios que intentan romper, corromper o hacer un mal uso de la tecnología, con el objetivo de encontrar y reparar daños potenciales antes de que surjan problemas.

Cuando Siva Kumar formó el equipo rojo de IA de Microsoft en 2018, siguió el modelo tradicional de reunir a expertos en ciberseguridad para investigar de manera proactiva las debilidades, tal como lo hace la empresa con todos sus productos y servicios.

Al mismo tiempo, Forough Poursabzi dirigía a investigadores de toda la empresa en estudios con un ángulo nuevo y diferente desde el punto de vista de la IA responsable, para analizar si la tecnología generativa podría ser perjudicial, ya sea de manera intencional o debido a problemas sistémicos en modelos que se pasaron por alto durante el entrenamiento y la evaluación. Ese no es un elemento con el que los equipos rojos hayan tenido que lidiar antes.

Los diferentes grupos se dieron cuenta muy rápido de que serían más fuertes juntos y unieron fuerzas para crear un equipo rojo más amplio que evalúa los riesgos de seguridad y de daño social entre sí, agregaron un neurocientífico, un lingüista, un especialista en seguridad nacional y muchos otros expertos con diversos antecedentes.

«Necesitamos una amplia gama de perspectivas para que el equipo rojo responsable de IA se haga bien», dice Poursabzi, gerente senior de programas en el equipo de ética y efectos de IA en ingeniería e investigación (Aether) de Microsoft, que aprovecha todo un ecosistema de IA responsable en Microsoft y analiza los riesgos emergentes y las consideraciones a largo plazo con las tecnologías de IA generativa.

El equipo rojo de IA dedicado está separado de aquellos que construyen la tecnología, y su alcance ampliado incluye adversarios que pueden intentar obligar a un sistema a generar alucinaciones, así como resultados dañinos, ofensivos o sesgados debido a datos inadecuados o inexactos.

Los miembros del equipo asumen varias personalidades, desde un adolescente creativo que hace una broma hasta un adversario conocido que intenta robar datos, para revelar puntos ciegos y descubrir riesgos. Los miembros del equipo viven en todo el mundo y hablan a nivel colectivo 17 idiomas, desde el flamenco hasta el mongol y el telugu, para ayudar con los contextos culturales matizados y las amenazas específicas de la región.

Y no solo intentan comprometer los sistemas; también utilizan modelos de lenguaje grandes (LLM, por sus siglas en inglés) para ataques automatizados a otros LLM.

El grupo también añadió amplitud a la profundidad de su experiencia mediante el lanzamiento de marcos de código abierto como Counterfit y el kit de herramientas de identificación de riesgos de Python para la IA generativa, o PyRIT (en inglés), a principios de este año para ayudar a los profesionales de la seguridad y a los ingenieros de aprendizaje automático fuera de la empresa a mapear también los riesgos potenciales. Las herramientas ayudan a los expertos del equipo rojo, un recurso limitado, a ser más eficientes y productivos. El equipo también publicó Prácticas recomendadas de sus experiencias para ayudar a otros a comenzar.

Una vez que el equipo rojo de IA de Microsoft encuentra un problema, lo envía al equipo de medición de IA Responsable, que evalúa qué tan amenazante podría ser el asunto. A continuación, otros expertos y grupos internos abordan el asunto para completar el enfoque de tres pasos para una IA segura: mapeo, medición y gestión de riesgos.

«Nuestra actividad abarca una amplia variedad de daños que tratamos de probar», dice Siva Kumar. «Nos adaptamos y reformulamos con rapidez, y esa ha sido la receta de nuestro éxito: no esperar a que las fuerzas del cambio aumenten, sino anticiparnos».

Obtengan más información sobre el trabajo de IA responsable de Microsoft.

Ilustración principal de Makeshift Studios / Rocío Galarza. Artículo publicado el 24 de julio.