Desde Hot Wheels hasta el manejo de contenido: cómo las marcas usan la IA de Microsoft para ser más productivas e imaginativas
Cuando a los diseñadores de la empresa de juguetes Mattel se les pidió hace poco que crearan un nuevo modelo de automóvil Hot Wheels, buscaron inspiración en DALL∙E 2, un sistema de IA desarrollado por OpenAI que crea imágenes y arte personalizados basados en lo que la gente describe en un lenguaje sencillo.
Con la herramienta, los diseñadores pueden escribir un mensaje como «Un modelo a escala de un automóvil clásico» y DALL∙E 2 generará una imagen de un automóvil antiguo de juguete, quizás de color plateado y con llantas de banda blanca.
Como siguiente paso, el diseñador podría borrar la parte superior del automóvil y luego escribir «Hazlo convertible» y DALL∙E 2 actualizará la imagen del automóvil como convertible. El diseñador puede seguir con ajustes en el diseño, pidiéndole a DALL∙E 2 que lo pruebe en rosa o azul, con la capota puesta, y más y más.
DALL∙E 2 llegará al servicio Azure OpenAI de Microsoft, por invitación, lo que permitirá a clientes selectos de Azure AI generar imágenes personalizadas a través de texto o imágenes, anunció la compañía hoy en Microsoft Ignite, una conferencia para desarrolladores y profesionales de TI.
La disponibilidad de DALL∙E 2 a través del servicio Azure OpenAI proporciona a los clientes, como Mattel, una infraestructura de IA en la nube que combina la innovación de vanguardia de la generación de texto a imagen con las protecciones y certificaciones de IA responsable y de cumplimiento que ofrece Azure, dice Microsoft.
Los diseñadores de Mattel pudieron generar docenas de imágenes, cada iteración despertó y refinó ideas que podrían ayudar a diseñar una representación final completa de un nuevo modelo de automóvil Hot Wheels.
«Se trata de decir, ‘¡Oh, no pensé en eso!'», dijo Carrie Buse, directora de diseño de productos en Mattel Future Lab en El Segundo, California. Ella ve la tecnología de IA como una herramienta para ayudar a los diseñadores a generar más ideas. “En última instancia, la calidad es lo más importante”, señaló. “Pero a veces la cantidad puede ayudarte a encontrar la calidad”.
Microsoft también integra DALL∙E 2 en sus aplicaciones y servicios para el consumidor y comienza con la aplicación Microsoft Designer, anunciada de manera reciente, y pronto se integrará en Image Creator en Microsoft Bing.
El lanzamiento de DALL∙E 2 en los productos y servicios de Microsoft refleja cómo la inversión de la empresa en investigación de IA infunde IA en todo lo que construye, produce y entrega para ayudar a todos a impulsar la productividad y la innovación.
La tendencia es el resultado de los avances no lineales en las capacidades de IA logrados al llevar más cómputo a más datos para entrenar modelos más ricos y poderosos, según Eric Boyd, vicepresidente corporativo de Microsoft, AI Platform.
“El poder de los modelos ha cruzado este umbral de calidad y ahora son útiles en más aplicaciones”, dijo. “La otra tendencia que vemos es que todos los desarrolladores de productos piensan y entienden las formas en que pueden usar la IA en sus productos tanto para facilitar su uso como para decir: ‘Oh, puedo hacer que mi producto funcione mejor si Yo uso IA’”.
DALL∙E 2 se entrenó en una supercomputadora alojada en Azure que Microsoft construyó en exclusiva para OpenAI. La misma supercomputadora Azure también se usó para entrenar los modelos de lenguaje natural GPT-3 de OpenAI y Codex, el modelo que impulsa a GitHub Copilot y ciertas funciones en Microsoft Power Apps que se ejecutan en Azure OpenAI Service. Azure también hace posible que estas herramientas de IA generen sugerencias de imágenes, texto o código con rapidez para que una persona las revise y considere usarlas.
La incorporación de DALL∙E 2 se basa en la asociación continua de Microsoft y OpenAI y amplía la variedad de casos de uso dentro de Azure OpenAI Service, el más nuevo de la familia Azure Cognitive Services en la actualidad en versión preliminar, que ofrece seguridad, confiabilidad, cumplimiento, privacidad de datos y otras capacidades de nivel empresarial integradas en Microsoft Azure.
Otras tecnologías de IA desarrolladas por Microsoft y disponibles a través de Azure Cognitive Services, como la traducción de idiomas, la transcripción de voz, el reconocimiento óptico de caracteres y el resumen de documentos, han comenzado a aparecer en productos y servicios como Microsoft Teams, Microsoft Power Platform y Microsoft 365.
“Durante los últimos 18 meses, hemos visto esta transición en la tecnología de demostrar que se puede hacer cosas con IA a mapearlo en escenarios y procesos reales donde es útil para el usuario final”, dijo Charles Lamanna, vicepresidente corporativo de Microsoft de aplicaciones y plataforma de negocios. “Es la producción de estos modelos de lenguaje muy grandes”.
«Cada vez que reciba un correo electrónico de mi jefe, envía un mensaje de texto a mi teléfono».
Estas capacidades de IA tienen como objetivo eliminar el trabajo tedioso y permitir que los empleados se concentren en tareas de mayor valor, como liberar a los asociados de ventas para entablar conversaciones con los clientes sin tener que tomar notas, dijo Lamanna. Estas nuevas herramientas también pueden automatizar procesos que en la actualidad consumen horas de la jornada laboral de las personas, como escribir resúmenes de llamadas de ventas y agregarlos a una base de datos de clientes.
«Ahora podemos inyectar IA que escuche nuestra conversación y ayude a las personas a ser más productivas al crear transcripciones, capturar elementos de acción, resumir la reunión, identificar frases comunes o hacer análisis sobre ‘¿Soy un buen oyente?'», dijo Lamanna. “Eso requería el avance de la IA de última generación y el avance de estas herramientas de colaboración digital”.
Lamanna se centra en la creación de herramientas que permitan a cualquier persona con un dispositivo informático crear sus propias aplicaciones impulsadas por IA a través de Microsoft Power Platform. Por ejemplo, su equipo implementa una función en Power Automate con capacidades de copiloto impulsadas por IA que permiten a las personas usar lenguaje natural para crear procesos de flujo de trabajo que conectan varios servicios que se ejecutan en la nube de Microsoft.
«Los usuarios pueden decir en un lenguaje normal: ‘Oye, cada vez que reciba un correo electrónico de mi jefe, envía un mensaje de texto a mi teléfono y pon una tarea en mi Outlook'», explicó Lamanna. “Pueden tan solo decir eso, y se genera en automático”.
Esta capacidad de convertir una oración en un flujo de trabajo amplía de manera drástica la cantidad de personas que pueden crear soluciones de software impulsadas por IA, dijo. Las personas con un poco más de conocimientos técnicos pueden personalizar y refinar aún más sus aplicaciones con herramientas de código bajo e interfaces gráficas disponibles en Power Platform, como la tecnología de procesamiento inteligente de documentos en AI Builder, agregó.
Un abogado podría usar esta tecnología para crear una aplicación personalizada que se activa cada vez que se carga un nuevo contrato en el sitio de SharePoint de la empresa. Esta aplicación podría extraer información clave como quién redactó el contrato, las partes involucradas y el sector de la industria y luego enviar por correo electrónico un resumen del contrato con estos detalles a los abogados de la firma que cubren el sector o los clientes.
“Eso es un poco como magia”, dijo Lamanna, que contrasta este tipo de flujo de trabajo automatizado de IA con la forma en que tales tareas se realizan por lo general en la actualidad. “Revisas el sitio de SharePoint, abres un archivo nuevo, lo hojeas y tratas de resumirlo para ver si tienes que hacer algo con él. La AI saca a la gente de esta monotonía y hace que las computadoras hagan lo que es mejor para ellos de todos modos”.
IA de contenido
La transformación digital de los últimos años se ha sumado a la avalancha de contenido que produce la gente de todo el mundo. Los clientes de Microsoft, por ejemplo, ahora agregan alrededor de 1,600 millones de piezas de contenido todos los días a Microsoft 365. Piensen en presentaciones de marketing, contratos, facturas y órdenes de trabajo junto con grabaciones de video y transcripciones de reuniones de Teams.
“Crean documentos, colaboran en ellos desde Teams y los almacenan en experiencias basadas en SharePoint”, dijo Jeff Teper, presidente de aplicaciones y plataformas colaborativas de Microsoft. “Lo que queremos hacer es integrar tecnologías de IA con este contenido para que los clientes puedan realizar actividades más estructuradas como aprobaciones de contratos, gestión de facturas y presentaciones regulatorias”.
Es por eso que Microsoft creó Microsoft Syntex, una nueva oferta de IA de contenido para Microsoft 365 que aprovecha Azure Cognitive Services y otras tecnologías de IA para transformar la forma en que se crea, procesa y descubre el contenido. Lee, etiqueta e indexa el contenido, ya sea digital o en papel, lo que lo hace buscable y disponible dentro de aplicaciones específicas o como conocimiento reutilizable. También puede administrar el ciclo de vida del contenido con configuraciones de seguridad y retención.
Por ejemplo, TaylorMade Golf Company recurrió a Microsoft Syntex para obtener un sistema integral de administración de documentos para organizar y asegurar correos electrónicos, archivos adjuntos y otros documentos para propiedad intelectual y presentación de patentes. En ese momento, los abogados de la empresa administraban este contenido de manera manual y dedicaban horas a archivar y mover documentos para compartirlos y procesarlos más tarde.
Con Microsoft Syntex, estos documentos se clasifican, etiquetan y filtran en automático, de una manera que es más segura y facilita encontrarlos a través de la búsqueda en lugar de tener que buscar en un sistema tradicional de archivos y carpetas. TaylorMade también explora formas de usar Microsoft Syntex para procesar pedidos, recibos y otros documentos transaccionales de manera automática para los equipos de cuentas por pagar y finanzas.
Otros clientes utilizan Microsoft Syntex para la gestión y el montaje de contratos, señaló Teper. Si bien cada contrato puede tener elementos únicos, se construyen con cláusulas comunes sobre términos financieros, control de cambios, cronograma, etc. En lugar de escribir esas cláusulas comunes desde cero cada vez, las personas pueden usar Syntex para ensamblarlas a partir de varios documentos y luego introducir cambios.
“Necesitan IA y aprendizaje automático para detectar, ‘Oye, este párrafo es muy diferente de nuestros términos estándar. Esto podría necesitar un poco de supervisión adicional’”, dijo.
“Si tratas de leer un contrato de 100 páginas y buscar lo que ha cambiado de manera significativa, eso es mucho trabajo en comparación con la IA que ayuda con eso”, agregó. “Y luego está el flujo de trabajo en torno a esos contratos: ¿Quién los aprueba? ¿Dónde se almacenan? ¿Cómo los encuentras más adelante? Hay una gran parte de esto que son metadatos”.
Cuando DALL∙E 2 se vuelve personal
La disponibilidad de DALL∙E 2 en Azure OpenAI Service ha provocado una serie de exploraciones en RTL Deutschland, la empresa privada de medios cruzados más grande de Alemania, sobre cómo generar imágenes personalizadas en función de los intereses de los clientes. Por ejemplo, en el centro de competencia de inteligencia artificial, investigación y datos de RTL, los científicos de datos prueban varias estrategias para mejorar la experiencia del usuario mediante imágenes generativas.
El servicio de transmisión RTL+ de RTL Deutschland se ha comenzado a expandir para ofrecer acceso a pedido a millones de videos, álbumes de música, podcasts, audiolibros y revistas electrónicas. La plataforma depende en gran medida de las imágenes para captar la atención de las personas, dijo Marc Egger, vicepresidente senior de productos y tecnología de datos del equipo de datos de RTL.
«Incluso si tienes la recomendación perfecta, aún no sabes si el usuario hará clic en ella porque el usuario usa señales visuales para decidir si está interesado en consumir algo. Por lo tanto, las ilustraciones son en verdad importantes y debes de tener la ilustración adecuada para la persona adecuada», dijo.
Imaginen una película de comedia romántica sobre un jugador de fútbol profesional que es transferido a París y se enamora de una periodista deportiva francesa. Un aficionado a los deportes podría estar más inclinado a ver la película si hay una imagen de un partido de fútbol. Alguien que ame las novelas románticas o los viajes podría estar más interesado en una imagen de la pareja besándose bajo la Torre Eiffel.
La combinación del poder de DALL∙E 2 y los metadatos sobre el tipo de contenido con el que ha interactuado un usuario en el pasado ofrece el potencial de ofrecer imágenes personalizadas en una escala antes inconcebible, dijo Egger.
«Si tienes millones de usuarios y millones de activos, tienes el problema de que no puedes escalarlos: la fuerza laboral no existe», dijo. «Nunca tendrías suficientes diseñadores gráficos para crear todas las imágenes personalizadas que deseas. Por lo tanto, esta es una tecnología que permite hacer cosas que de otro modo no podría hacer».
El equipo de Egger también ha comenzado a considerar cómo usar DALL∙E 2 en Azure Open AI Service para crear imágenes para contenido que en la actualidad carece de imágenes, como episodios de podcasts y escenas en audiolibros. Por ejemplo, los metadatos de un episodio de podcast podrían usarse para generar una imagen única que lo acompañe, en lugar de repetir la misma imagen de podcast genérica una y otra vez.
De manera similar, una persona que escucha un audiolibro en su teléfono por lo general miraría la misma portada de libro para cada capítulo. DALL∙E 2 podría usarse para generar una imagen única para acompañar cada escena en cada capítulo.
El uso de DALL∙E 2 a través de Azure OpenAI Service, agregó Egger, brinda acceso a otros servicios y herramientas de Azure en un solo lugar, lo que permite que su equipo trabaje de manera eficiente y sin problemas. “Al igual que con todos los demás productos de software como servicio, podemos estar seguros de que si necesitamos cantidades masivas de imágenes creadas por DALL∙E, no nos preocupamos por tenerlas en línea”.
El uso adecuado y responsable de DALL∙E 2
Ninguna tecnología de IA ha suscitado tanto entusiasmo como sistemas como DALL∙E 2 que pueden generar imágenes a partir de descripciones en lenguaje natural, según Sarah Bird, directora de proyectos de grupo principal de Microsoft para Azure AI.
“A la gente le encantan las imágenes, y para alguien como yo, que no soy visual a nivel artístico en absoluto, puedo hacer algo mucho más hermoso de lo que jamás sería capaz de hacer con otras herramientas visuales”, dijo sobre DALL∙E 2. “ Les da a los seres humanos una nueva herramienta para expresarse de manera creativa y comunicarse de manera convincente, divertida y atractiva”.
Su equipo se enfoca en el desarrollo de herramientas y técnicas que guían a las personas hacia el uso apropiado y responsable de herramientas de IA como DALL∙E 2 en Azure AI y que limitan su uso de formas que podrían causar daño.
Para ayudar a evitar que DALL∙E 2 entregue resultados inapropiados en Azure OpenAI Service, OpenAI eliminó el contenido sexual y violento más explícito del conjunto de datos utilizado para entrenar el modelo, y Azure AI implementó filtros para rechazar mensajes que violan la política de contenido.
Además, el equipo ha integrado técnicas que evitan que DALL∙E 2 cree imágenes de celebridades, así como objetos que se usan de manera común para tratar de engañar al sistema para que genere contenido sexual o violento. Por el lado del resultado, el equipo ha agregado modelos que eliminan imágenes generadas por IA que parecen contener contenido adulto, gore y otros tipos de contenido inapropiado.
DALL∙E 2 todavía está sujeto a un desafío que enfrentan muchos sistemas de IA: el sistema es tan bueno como los datos utilizados para entrenarlo. Sin el beneficio del contexto que brinda información sobre la intención del usuario, las indicaciones menos descriptivas de DALL-E 2 pueden revelar sesgos incrustados en los datos de capacitación: texto e imágenes de Internet.
Es por eso que Bird trabaja con los equipos de productos de Microsoft para enseñar a las personas cómo usar DALL∙E 2 de manera que les ayude a lograr sus objetivos, como usar indicaciones más descriptivas que ayuden al sistema de IA a comprender mejor qué resultados buscan.
“Estamos en el proceso de diseñar las interfaces para ayudar a los usuarios a tener más éxito en lo que generan y compartir las limitaciones hoy, para que los usuarios puedan usar esta herramienta para obtener la representación que desean, no la representación promedio que existe en Internet. » ella dijo.
‘¿Cómo se predice el futuro?’
Buse se unió de manera reciente a Mattel Future Lab, que explora ideas como el metaverso y los NFT, o tokens no fungibles, para expandir el alcance del negocio de los juguetes. Ella usa DALL∙E 2 como una herramienta para ayudarla a imaginar cómo podrían ser estas experiencias virtuales.
“Es divertido hurgar aquí para pensar en lo que surgiría en un mundo virtual basado en, elige un descriptor, un bosque, sirenas, lo que sea”, dijo, al explicar que DALL∙E 2 ayuda a su equipo a predecir este futuro. “¿Cómo se predice el futuro? Sigues alimentándote con más información, más imágenes y pensamientos para tratar de imaginar cómo se uniría esto”.
Boyd, vicepresidente corporativo de Microsoft AI Platform, dijo que DALL∙E 2 y la familia de grandes modelos de lenguaje que lo respaldan desbloquean esta fuerza creativa entre los clientes. El sistema AI es combustible para la imaginación, lo que permite a los usuarios pensar en ideas nuevas e interesantes y darles vida en sus presentaciones y documentos.
“Creo que lo más emocionante es que solo hemos comenzado a arañar la superficie del poder de estos grandes modelos de lenguaje”, dijo.
Contenido relacionado:
Lean: Cómo la IA facilita la vida de los desarrolladores y ayuda a todos a aprender a desarrollar software
Imagen principal: Los diseñadores de juguetes de Mattel investigan cómo usar imágenes generadas por DALL∙E 2 en Azure OpenAI Service para ayudar a inspirar nuevos diseños de Hot Wheels. Al escribir indicaciones en lenguaje sencillo como «Un auto de carreras DTM como un hot rod» o «Un corredor de salinas de Bonneville como un auto de carreras DTM», pueden generar múltiples imágenes para ayudar a despertar la creatividad e informar los diseños finales.
John Roach escribe sobre investigación e innovación en Microsoft. Síganlo en Twitter.