InstaFact, ganador del Hackathon 2016 de Microsoft, utiliza el esquema de conocimiento de Bing para ayudar a la gente a hacer más
Supongamos que escriben un reporte sobre el estado de Washington que incluye fechas históricas y una hoja de cálculo con ciudades y población. Para hacer esto, ustedes necesitan buscar la información en línea y luego copiar y pegar, que es algo tedioso y lento, mientras cambian entre web, reportes y columnas de datos.
Pero algún día, es probable que puedan utilizar InstaFact, una nueva solución construida por un equipo de empleados de Microsoft para ayudar a escritores, investigadores y a casi cualquier persona que necesite datos de manera rápida. El plug-in de Office infiere los datos que el usuario quiere, realiza minería de un repositorio masivo de información para obtenerlos, completa en automático sus datos en Word y llena las celdas de datos en Excel de manera automático, todo con unos cuantos clics.
Hace unos días, Microsoft coronó al equipo de InstaFact como el ganador del gran premio en //oneweek Hackathon 2016, la celebración anual de la empresa de innovación de los empleados. El equipo de Bellevue, Washington, venció a más de 1,560 equipos que compitieron en el evento, que vio más de 3,800 proyectos de todo el mundo.
La prueba de concepto de InstaFact integra el esquema de conocimiento de Bing en Word y Excel para ayudar a la gente a ahorrar tiempo, trabajar más fácil y ser más productivos. El esquema de conocimiento, llamado Satori, es un enorme repositorio de datos reunidos a diario de la web, con más de dos mil millones de entidades (gente, lugares y cosas) y miles de millones de datos relacionados y relaciones entre esas entidades.
“Es bastante inspirador ver todos los datos que hemos almacenado en nuestro repositorio y ver lo rico que es”, comenta Silviu Cucerzan, miembro del equipo InstaFact e investigador en Microsoft.
“El reto es: ¿Cómo ponemos toda esa información en las manos de los usuarios de manera agradable y simple, para que no tengan que cambiar entre herramientas y confiar en resultados de motores web de búsqueda?”
Aunque la interfaz de usuario es simple, un solo clic activa la herramienta, construir el sistema fue complicado. La herramienta tiene que inferir de manera correcta lo que el usuario quiere, buscar en terabytes de datos, extraer datos precisos, auto-completar documentos y hacer todo esto rápido.
“En un principio tuvimos muchos retos”, comenta Srivatsava Daruru, ingeniero de software. El esquema de conocimiento fue construido para el motor de búsqueda de Bing, y para trasladarlo a los usuarios de Office, el equipo tuvo que combinar muchas tecnologías para el procesamiento natural de lenguaje y el esquema transversal.
“Al final, fue hermoso cuando conseguimos que todo trabajara en conjunto”, comenta Daruru.
El equipo también luchó con la velocidad. Para ser útil, la herramienta debe ser rápida, pero una hoja de cálculo grande con muchas entidades y elementos para ser llenados en automático, presentó un gran reto.
“Podemos tener las entidades rápido con nuestra tecnología de ligado de entidad, pero si hay cientos de ellas, tenemos que hacer transversal el esquema en paralelo con cientos de cosas y los resultados deben estar de regreso en un segundo para que esto sea atractivo”, menciona Cucerzan.
“Tiene que ser InstaFact. Un dato de media hora (Half-Hour-Fact) no es interesante para nadie”, agrega, mientras ríe con el resto del equipo.
Todos los miembros del equipo trabajan en el grupo de Satori, de Bing, pero nunca habían trabajado juntos hasta antes del Hackathon. Ninguno tenía experiencia con un //oneweek Hackathon. Pero durante el frenético evento de tres días, el equipo pasó largos días y noches en una sala de conferencias para crear una herramienta que tan sólo seis semanas antes era sólo la semilla de una idea.
Ellos construyeron y probaron diferentes modelos de aprendizaje automático para ver cuáles daban los resultados más precisos. Si escriben “Rehnquist, Thomas y Kennedy” sin un contexto, la herramienta sabe que se refieren a los tres jueces de la Suprema Corte y que “Thomas”, un nombre y apellido bastante común, es Clarence Thomas. Pero debido a que los algoritmos y datos pueden estar mal, la herramienta mitiga la ambigüedad al dar a los usuarios en ocasiones, una lista de datos para que ellos puedan elegir.
El día de entrega, con sólo unas horas restantes, el equipo corrió para depurar la herramienta, pulir la experiencia en Office y grabar un video demo que se requería para la competencia, una tarea que ninguno de ellos había hecho antes.
“Para la media noche, estábamos en modo pánico”, comenta Cucerzan, que trabajó en Microsoft Research antes de unirse al grupo de Satori. “Fue uno de esos locos y hermosos días”.
Ahora, el equipo visualiza a InstaFact como un impulsor para muchas personas y organizaciones, desde estudiantes a periodistas a negocios que necesitan estadísticas precisas e investigación. La tecnología podría volverse más inteligente con el tiempo conforme más gente la utilice. Y puede incluir un botón de actualización que refresque los datos en automático en temas como precios de acciones y datos de población. El equipo espera entregar la tecnología en un futuro cercano.
Deepak Zambre, ingeniero de software, comenta que la tecnología crea un ambiente “sin distracciones” que ayuda a la gente a enfocarse en su trabajo, una capacidad bastante valorada por la juez del Hackathon Mary Czerwinski.
“De manera ‘automágica’, InstaFact trae el poder del esquema de conocimiento de Bing a las aplicaciones de productividad de Microsoft como Word y Excel, lo que ahorra tiempo valioso y carga cognitiva al usuario, ya que no tienen que cambiar de aplicaciones para obtener la respuesta o la información que necesitan”, comenta.
Para el equipo InstaFact, el software podría ser la experiencia, pero la labor de mejorar y hacer más es lo que los inspiró.
Rohit Paravastu, ingeniero de software, recordó un proyecto de la universidad en el que trabajó, que era un programa para periodistas para comprobar datos de reportes en automático durante la elección presidencial de 2012.
“Acababa de mudarme a Estados Unidos y no sabía nada de política americana, así que buscaba datos y los escribía en mi reporte”, menciona Paravastu. “Este tipo de herramienta me hubiera sido bastante útil en esos días”.
Para Rajeev Kumar, ingeniero de software, que tampoco creció en Estados Unidos, batallar para escribir en inglés lo hizo más comprensivo y quiere ayudar a otros a escribir mejor y conseguir sus metas.
“Podemos ayudar a la gente no solo en corregir su escritura, también en ofrecerles datos y nuevos tipos de conocimiento y hacer sus vidas más fáciles”, menciona.
Imagen principal: El equipo InstaFact está integrado por (de izquierda a derecha) Srivatsava Daruru, Rohit Paravastu, Silviu Cucerzan, Rajeev Kumar y Deepak Zambre. (Foto: Scott Eklund/Red Box Pictures).