Ciencia de los datos… con Mario Garzia

P
or
Mario Garzia, Partner Data Sciences Architect, Technology and Research

C
iencia de los
D
atos (

Data Science

) y Big Data se han convertido en conceptos de moda en el sector tecnológico del siglo XXI. Sin embargo, las implicaciones del término Big Data son relativas a nuestra capacidad de recolectar, almacenar y procesar datos y, de hecho, los retos que plantea no son nuevos: históricamente ha habido bastantes encuentros notables con Big Data. Un ejemplo interesante es el censo de los Estados Unidos. El censo de 1880 tardó ocho años en contabilizarse; en aquel tiempo se calculaba que el de 1890 tardaría más de diez años, considerando el crecimiento de la población. Esto era un problema de Big Data de la época, hasta que un hombre de nombre Herman Hollerith vino al rescate con un invento que contabilizó el censo de 1890 en sólo un año y gracias a esto su compañía se convirtió a la postre en IBM. Hollerith logró esto mediante el desarrollo de una forma nueva y eficaz para recoger y almacenar los crecientes volúmenes de datos (tarjetas perforadas) y una máquina de tabulación eléctrica que podía leer las tarjetas perforadas y calcular los resultados necesarios. Como este, hay muchos otros ejemplos interesantes de retos de Big Data antes y después de Hollerith. Entonces, ¿De verdad los desafíos actuales son diferentes a los de antes?

Los volúmenes de datos crecen a un ritmo que sigue desafiando nuestra capacidad de recolectar, almacenar y procesar datos, lo que nos lleva a desarrollar nuevas tecnologías. Pero ahora la variedad de datos y la velocidad a la que recogemos los datos también se ha acelerado. No parece que estas tendencias de crecimiento se detengan pronto. En un informe de 2011, Ericsson estimó que habría 50 mil millones de dispositivos conectados en el mundo para 2020, y que cada uno de ellos generaría sus propios datos, aparte de los extraídos de los sistemas que gestionarán la recogida y tratamiento de los datos del dispositivo. Otra gran diferencia que representa una oportunidad mayúscula hoy es la capacidad de recolectar datos de manera directa de cada uno de nuestros clientes finales para aprender acerca de su experiencia con un dispositivo o servicio a un grado nunca antes posible. Esto nos permite imaginar nuevas formas de ayudar y asombrar a los clientes con nuevos productos y servicios que antes eran impensables, que entienden mejor lo que necesitan ahora y pueden predecir futuras necesidades. Hasta la fecha las empresas de alta tecnología han sido los líderes en el mundo de los datos, donde en algunos casos los datos en sí son el producto, como Bing Search o las redes sociales, pero un gran aspecto del mundo de hoy es que la tecnología facilita la democratización de datos y su análisis, para obtener ideas a través de todo el espectro de la actividad humana. Así que no sólo los líderes de grandes datos, sino también las empresas más tradicionales y otras instituciones, pueden aprovechar Big Data para mejorar sus servicios y deleitar a sus clientes. Vivimos un momento fascinante en la historia donde lo que alguna vez era inimaginable ahora es posible gracias a los datos y su análisis.

Microsoft cuenta con una rica tradición en el uso de datos para obtener información y tomar decisiones sobre sus productos desde hace muchos años, mucho antes de que la Ciencia de los Datos y Big Data se convirtieran en conceptos de rigueur. Me integré a Microsoft en 1997 y he visto muy de cerca cómo hemos evolucionado y crecido en el ámbito de los datos. Una de las cosas que más me ha gustado de trabajar aquí es la capacidad de rodearme y aprender de personas muy talentosas y apasionadas. Tenemos una cultura donde el aprendizaje, adquirir nuevos conocimientos y esforzarnos por ser los mejores está muy arraigado. Debido a esto, los datos siempre han jugado un papel importante en Microsoft, pero este papel ha evolucionado y se ha ampliado a lo largo de la última década. Hemos pasado de centrarnos en tener un profundo conocimiento del producto que lanzamos, a también desarrollar una profunda comprensión de las experiencias del cliente con nuestros productos y servicios.

En el año 2000, llegué al equipo de Windows para formar el grupo de Confiabilidad. Desde el inicio, este proyecto fue impulsado por datos. Por ejemplo, para el momento en que lanzamos Windows Server 2000, ya contábamos con aproximadamente 100 años de confiabilidad en los servidores de producción internos de Microsoft. Después de este lanzamiento, ampliamos la recopilación de datos a otras empresas mediante el desarrollo de un servicio de Confiabilidad para el cual podrían inscribirse de forma gratuita y usarlo para recopilar datos fiables de sus matrices y cargarlos a Microsoft. Luego, estos datos se analizarían de manera automática y los resultados estarían a disposición de cada empresa, de manera individual, en una página web con la disponibilidad y confiabilidad en los resultados y tendencias, segmentadas por tipo de servidor y de entorno informático. En muchos casos, esta fue la primera vez que algunas de estas empresas tenían acceso a datos detallados sobre la fiabilidad de sus datacenters. Por otro lado, estos datos también podrían ser aprovechados por Windows para obtener información sobre el Sistema Operativo (SO) en sus modos de confiabilidad y a prueba de fallas, liberar y ajustar criterios para nuevas versiones, así como priorizar arreglos del producto basados en la frecuencia y gravedad de dichas fallas. También utilizamos el conocimiento adquirido a partir de estos datos para desarrollar nuevas características en el SO, como servicios de diagnóstico. Este enfoque, basado en datos, nos permitió tomar decisiones acerca de cuándo estaría listo el producto para ser lanzado, considerando el tiempo real de ejecución del sistema de producción. Si bien estos datos son profundos e integrales, también se enfocan en la calidad de los productos y la disponibilidad de su lanzamiento. Hoy en día, el sistema operativo Windows, y de hecho todos nuestros productos y servicios se centran no sólo en atributos de calidad, sino también en comprender mejor las necesidades del cliente. Existe un énfasis renovado y extendido en la construcción de una cultura basada en los datos de la empresa, donde el servicio y la calidad del producto siguen siendo críticos, pero igual de importante es la comprensión profunda de la satisfacción del cliente, su compromiso y necesidades. Las perspectivas derivadas de los datos se utilizan en todos los productos y servicios de Microsoft para ofrecer nuevas y poderosas características y capacidades de gran alcance.

Ser una cultura basada en los datos significa que la comprensión de los datos del producto y del cliente no es sólo para los Científicos de Datos, sino para todo Microsoft. Big Data se utiliza para experimentar en productos y servicios, para mejoras, y también para ofrecer servicios perfeccionados y personalizados, aprovechando técnicas como el Aprendizaje de Máquinas. Bing y Bing Ads son herramientas completamente basadas en datos. Además, la Máquina de Aprendizaje de Microsoft ha dejado un patrimonio muy profundo, desde sus inicios con Redes Bayesianas y la investigación de reconocimiento de voz, hasta productos como SQL Server Data Mining. Ahora brindamos a las empresas la capacidad de construir modelos de aprendizaje automático y de implementarlos fácilmente en la nube con Microsoft Azure ML.

Un aspecto
interesante de ser un C
ientífico de
D
atos en Microsoft es la amplitud sin precedentes de los puntos de contacto con el cliente que tenemos mediante computadoras y tabletas, teléfonos, dispositivos de juegos, búsquedas y un sinfín de servicios, que nos permiten comprender mejor las necesidades y experiencias para utilizarlas en impactar la vida cotidiana de formas nuevas y significativas. Las disciplinas de las Ciencias de Datos están en el núcleo de los datos que impulsan la estrategia corporativa. En Microsoft, reconocemos esto y tenemos una carrera de ingeniería completa para Científicos de Datos, para los Científicos de Aprendizaje Automático y Applied Scientists que pueden alcanzar los niveles más altos en la empresa. Contamos con varios grupos de científicos de datos en toda la empresa, lo que da como resultado una comunidad vibrante y muy creciente. Yo creo que no hay mejor lugar que Microsoft para que un científico de datos aprenda, crezca, se divierta y cree un impacto.

Un acontecimiento importante al que muchos Científicos de Datos de Microsoft asisten cada año es la conferencia Knowledge Discovery and Data Mining, que tiene lugar en agosto; este año, en la ciudad de Nueva York. Se trata de una conferencia premier para las Ciencias de Datos. Estoy muy emocionado por asistir este año, como desde que empecé a ir, hace mucho tiempo. Es un lugar ideal para compartir energía y emoción, intercambiar ideas con colegas y conocer gente nueva. Yo siempre salgo totalmente recargado por las nuevas ideas y las personas que conozco. Microsoft es Patrocinador de Oro en la KDD de este año y estamos muy contentos por ello. Por favor, no olviden pasar por nuestro stand expositor para ver demos de nuestros Científicos de Datos en los equipos de Azure Machine Learning, de Bing, de MSR y de muchos otros. ¡Espero encontrarme con algunos de ustedes en la conferencia!

Publicaciones Relacionadas