Hacer que nuestros productos de IA generativa sean más seguros para los consumidores

Por: Sumit Chauhan, vicepresidente corporativo del grupo de productos de oficina de Microsoft

Durante el último año, la IA generativa ha experimentado un enorme crecimiento en popularidad y es adoptada cada vez más por personas y organizaciones. En el mejor de los casos, la IA puede ofrecer una inspiración increíble y ayudar a desbloquear nuevos niveles de creatividad y productividad. Sin embargo, al igual que con todas las nuevas tecnologías, un pequeño subconjunto de personas puede intentar hacer un mal uso de estas poderosas herramientas. En Microsoft, estamos enfocados a fondo en minimizar los riesgos del uso dañino de estas tecnologías y nos comprometemos a mantener estas herramientas aún más confiables y seguras.

El objetivo de este blog es describir los pasos que tomamos para garantizar una experiencia segura para los clientes que usan nuestros servicios para consumidores, como el sitio web de Copilot y Microsoft Designer.

Proceso responsable de IA y mitigación

Desde 2017, hemos creado un programa de IA responsable que nos ayuda a mapear, medir y gestionar problemas antes y después de la implementación. La gobernanza, incluidas las políticas que implementan nuestros principios de IA, las prácticas que ayudan a nuestros equipos a incorporar medidas de seguridad en nuestros productos y los procesos para permitir la supervisión, es fundamental en todas las etapas del marco de mapeo, medición y gestión, como se ilustra a continuación. Este enfoque general refleja las funciones básicas del Marco de Gestión de Riesgos de IA del NIST.

Diagrama del marco de trabajo de IA Responsable

El marco de trabajo Mapear, Medir, Gestionar

Mapear: La mejor manera de desarrollar sistemas de IA de manera responsable es identificar problemas y asignarlos a escenarios de usuario y a nuestros sistemas técnicos antes de que ocurran. Con cualquier nueva tecnología, esto es un desafío porque es difícil anticipar todos los usos potenciales. Por esa razón, contamos con varios tipos de controles para ayudar a identificar los riesgos potenciales y los escenarios de uso indebido antes de la implementación. Utilizamos técnicas como las evaluaciones de impacto de la IA responsable para identificar posibles resultados positivos y negativos de nuestros sistemas de IA en una variedad de escenarios y en la medida en que pueden afectar a una variedad de partes interesadas. Las evaluaciones de impacto son necesarias para todos los productos de IA y ayudan a informar nuestras decisiones de diseño e implementación.

También llevamos a cabo un proceso llamado red teaming (equipo rojo), que simula escenarios de ataques y uso indebido, junto con escenarios de uso general que podrían dar lugar a resultados perjudiciales, en nuestros sistemas de IA para probar su solidez y resiliencia frente a entradas y salidas maliciosas o no intencionadas. Estos hallazgos se utilizan para mejorar nuestras medidas de seguridad y protección.

Medir: Si bien los procesos de mapeo, como las evaluaciones de impacto y el red teaming, ayudan a identificar los riesgos, nos basamos en enfoques de medición más sistemáticos para desarrollar métricas que nos ayuden a probar, a escala, esos riesgos en nuestros sistemas de IA antes y después de la implementación. Estos incluyen el monitoreo continuo a través de un conjunto de datos diverso y multifacético que representa varios escenarios en los que pueden surgir amenazas. También establecemos pautas para anotar conjuntos de datos de medición que nos ayudan a desarrollar métricas, así como a crear clasificadores que detectan contenido potencialmente dañino, como contenido para adultos, contenido violento e incitación al odio.

Trabajamos para automatizar nuestros sistemas de medición para ayudar con la escala y la cobertura, y escaneamos y analizamos las operaciones de IA para detectar anomalías o desviaciones del comportamiento esperado. Cuando corresponde, también establecemos mecanismos para aprender de las señales de retroalimentación de los usuarios y las amenazas detectadas con el fin de fortalecer nuestras herramientas de mitigación y estrategias de respuesta a lo largo del tiempo.

Gestionar: Incluso con los mejores sistemas implementados, los problemas ocurrirán, y hemos creado procesos y mitigaciones para gestionar los problemas y ayudar a evitar que vuelvan a ocurrir. Contamos con mecanismos en cada uno de nuestros productos para que los usuarios informen de problemas o inquietudes para que cualquiera pueda marcar con facilidad los elementos que podrían ser problemáticos, y supervisamos cómo interactúan los usuarios con el sistema de IA para identificar patrones que puedan indicar un uso indebido o posibles amenazas.

Además, nos esforzamos por ser transparentes no solo sobre los riesgos y limitaciones para fomentar la agencia del usuario, sino también sobre el contenido en sí mismo que puede ser generado por IA. Por ejemplo, tomamos medidas para revelar al usuario el papel de la IA generativa y etiquetamos el contenido de audio y visual generado por las herramientas de IA. Para contenido como imágenes generadas por IA, implementamos métodos criptográficos para marcar y firmar contenido generado por IA con metadatos sobre su fuente e historial, y nos hemos asociado con otros líderes de la industria para crear el organismo de estándares de la Coalición para la Procedencia y Autenticidad del Contenido (C2PA, por sus siglas en inglés) para ayudar a desarrollar y aplicar estándares de procedencia de contenido en toda la industria.

Por último, a medida que evoluciona la tecnología de IA generativa, actualizamos de manera activa las mitigaciones de nuestro sistema para asegurarnos de que abordamos los riesgos de forma eficaz. Por ejemplo, cuando actualizamos el metaprompt de un producto de IA generativa, se somete a rigurosas pruebas para garantizar que avanza en nuestros esfuerzos por ofrecer respuestas seguras y eficaces. Existen varios tipos de filtros de contenido que están diseñados para detectar y prevenir en automático la difusión de contenido inapropiado o dañino. Empleamos una serie de herramientas para abordar problemas únicos que pueden ocurrir en las tecnologías de IA de texto, imágenes, vídeo y audio, y nos basamos en protocolos de respuesta a incidentes que activan acciones de protección cuando se identifica una posible amenaza.

Mejoras continuas

Somos conscientes de que algunos usuarios pueden intentar eludir nuestras medidas de seguridad de IA y utilizar nuestros sistemas con fines maliciosos. Nos tomamos muy en serio esta amenaza y monitoreamos y mejoramos de manera constante nuestras herramientas para detectar y prevenir el uso indebido.

Creemos que es nuestra responsabilidad adelantarnos a los malos actores y proteger la integridad y la confiabilidad de nuestros productos de IA. En los raros casos en los que nos encontramos con un problema, nuestro objetivo es abordarlo de manera rápida y ajustar nuestros controles para ayudar a evitar que se repita. También agradecemos los comentarios de nuestros usuarios y partes interesadas sobre cómo podemos mejorar nuestra arquitectura y políticas de seguridad de IA, y cada uno de nuestros productos incluye un formulario de comentarios para comentarios y sugerencias.

Nos comprometemos a garantizar que nuestros sistemas de IA se utilicen de forma segura, responsable y ética.