Big Data controlado con la nube



Por: Kenji Takeda, Arquitecto de Soluciones y Gerente Técnico en Microsoft Research

Big Data: es el tema de moda estos días, promete descubrimientos en casi cualquier campo, desde medicina a mercadotecnia a aprendizaje de máquina y más. Pero para muchos de nosotros, los problemas de administrar Big Data aparecen cuando nos enfrentamos a esa gran oleada de fotos digitales y videos que hemos grabado con nuestros smartphone y cámaras. Multipliquen esto por el número de gente que hace esto alrededor del mundo y es un gran problema. En la superficie, no parece un intento por tratar de curar el cáncer (hablaremos sobre esto más adelante), pero es un dolor de cabeza colosal organizar, clasificar, buscar y recuperar nuestro contenido multimedia – y diseñar sistemas para hacer esto a escala de manera efectiva es un reto enorme.


Por fortuna, el profesor Heiko Schuldt e Ivan Giangreco del Grupo de Bases de Datos y Sistemas de Información (DBIS) en la Universidad de Basel trabajan en un proyecto para hacer justo eso, y muchas cosas más. Su sistema integrado aprovecha el poder de la nube, a través de Microsoft Azure, para entender y clasificar terabytes de datos conformados por contenido multimedia para encontrar y regresar objetos parecidos.

El sistema del equipo de Basel combina el poder de las bases de datos relacionales, con la adaptabilidad de los sistemas de recuperación de información. El sistema Basel puede manejar y almacenar cualquier tipo de dato multimedia, incluyendo sus características. Cuando un algoritmo para extracción de características es definido, el sistema ejecuta de manera automática la extracción, almacenamiento, e indexación tanto de los datos de las características como del objeto por sí mismo. Este enfoque lleva de manera eficiente consultas Booleanas así como búsquedas basadas en imágenes de calificación basadas en sus calificaciones de similitud de características. Además, provee nuevos paradigmas de consulta e interfaces; por ejemplo, pueden bocetar una imagen o partes de eso y encontrar imágenes que son similares a su boceto.

Es emocionante ver cómo este trabajo ha progresado desde que los investigadores de Basel tomaron nuestro primer taller de entrenamiento de Microsoft Azure para la Investigación en Europa en ETH Zúrich el pasado noviembre del 2013. Ellos aplicaron de manera exitosa para un Premio Azure, que los puso en camino hacia la nube en tan solo unas semanas. Esto permitió al equipo desarrollar e implementar de manera rápida su sistema de manera escalable. Microsoft Azure es tan ideal como un rápido almacenamiento distribuido y fábrica de cómputo por correr el proyecto del equipo de Basel, cuyo programa estilo MapaReducido puede crecer conforme millones de imágenes son agregadas al sistema. Al moverse a la nube, los investigadores de Basel han sido capaces de desarrollar, implementar y demostrar el sistema, probando sus ideas a escala en los 14 millones de imágenes que comprenden la base de datos de ImageNet. Ellos presentaron su trabajo en el Congreso Internacional de Big Data IEEE (BigData 2014).

El profesor Schuldt explica cómo le ayudó Azure con su investigación. “En recuperación de imágenes a gran escala, tanto la efectividad como la eficiencia son requerimientos esenciales. Gracias al soporte de Microsoft y el uso de la nube de Azure, hemos sido capaces de conseguir eficiencia en la recuperación para poder concentrarnos más en la efectividad de la recuperación, en especial al desarrollar nuevos paradigmas de búsqueda e interfaces de usuario basadas, por ejemplo, en gestos o bocetos”.

Los investigadores de Basel buscan atacar el aún más grande conjunto de datos de Bing Clickture, que contiene 40 millones de imágenes. También planean probar el sistema en contenido de video, en lo que ellos llaman el proyecto IMOTION, que “multiplicará los retos en términos de eficiencia en la recuperación”, comenta el profesor Schuldt. Su siguiente trabajo fue presentado en la 37 Conferencia sobre Investigación y Desarrollo en Recuperación de Información Internacional ACM-SIGIR, y esperamos ver cómo el equipo continúa empujando los límites de Big Data a través de Microsoft Azure.

Retomando el comentario del tratamiento del cáncer. Enfoques similares a aquellos utilizados por el proyecto del equipo Basel podrían de hecho, ayudarnos un día a entender y tratar mejor el cáncer. La ciencia de la computación subyacente y las tecnologías de nube podrían ser utilizadas por ejemplo, para administrar y analizar escaneos MRI de tumores.

El proyecto del equipo Basel es sólo un ejemplo de qué tan fácil es alistarse y comenzar en la nube y acelerar su investigación – en especial cuando al aprovechar la iniciativa de Microsoft Azure para Investigación, que ofrece no sólo entrenamiento sino también recompensas sustanciales de almacenamiento Azure y recursos de cómputo para proyectos calificados. Lean sobre la iniciativa y nuestras solicitudes de propuestas. ¿Quién sabe? Tal vez su proyecto sea la siguiente gran idea en Big Data.

Tags: , ,

Publicaciones Relacionadas