Perspectivas de la Ciencia de los Datos: Preguntas y respuestas con Val Fontama y Wee Hyong Tok, Científicos de Datos de Microsoft



No se puede leer la prensa especializada en tecnología sin ver noticias sobre increíbles avances y oportunidades en ciencia de los datos y analítica avanzada. Tuvimos la oportunidad de platicar con dos de nuestros Microsoft Data Scientists para aprender más sobre su papel en el campo, algunos de los éxitos en el mundo real que han presenciado y tener su perspectiva en las oportunidades actuales en estas áreas de la analítica de datos que cada día evolucionan más.

Si quieren saber más sobre analítica predictiva en la nube o escuchar más de Val y Wee Hyong, lean su más reciente libro: Predictive Analytics with Microsoft Azure Machine Learning: Build and Deploy Actionable Solutions in Minutes.

Primero que nada, platíquenos sobre sus roles en Microsoft…



¿Cómo llegaron ahí? ¿Cuál es su formación en ciencia de los datos?

Comencé en ciencia de los datos hace más de 20 años cuando hice un doctorado en Inteligencia Artificial. Utilicé Redes Neurales Artificiales para resolver problemas importantes de ingeniería, como la medición de velocidad de fluidos y transferencia de calor. Después de mi doctorado, apliqué minería de datos en la industria de la ciencia del medio ambiente y crédito: Hice una fundación universitaria post-doctorado de un año antes de unirme a Equifax como Consultor de Nuevas Tecnologías en su oficina de Londres. Ahí, fui pionero en la aplicación de minería de datos para evaluación de riesgos y mercadotecnia en la industria de crédito de consumo. Codifiqué a mano más de 10 algoritmos de aprendizaje de máquina, entre los que se incluyen redes neurales, algoritmos genéticos, y redes de creencia Bayesiana en C++ y los apliqué a detección de fraude, predicción de riesgo por defecto y segmentación de clientes.

Trabajé en sistemas de bases de datos por más de 10 años, desde dar clases sobre el tema hasta la industria. Me uní a Microsoft después de que completé mi doctorado en Sistemas de Transmisión de Datos. Cuando comencé, trabajé en dar forma al servidor SSIS desde su concepción hasta su lanzamiento en forma de SQL Server 2012. He sido una persona muy apasionada sobre la ciencia de los datos desde antes de unirme a Microsoft, escribía código para integrar minería de regla de asociación en un sistema de administración relacional de base de datos, lo que permite a los usuarios combinar solicitudes de minería de regla de asociación con solicitudes SQL. Fui un Profesional Más Valioso (MVP) de SQL Server, donde realizaba campamentos de minería de datos para profesionales de TI en el sureste de Asia, y mostraba cómo transformar datos crudos en información de valor a través de la utilización de capacidades de minería en Servicios de Análisis.

¿Cuáles son los retos comunes que ven con la gente, empresas u otras organizaciones que están en el proceso de construcción de sus habilidades y prácticas de ciencia de los datos?

El primer reto es encontrar el talento adecuado. Muchos de los ejecutivos con los que hablamos están ansiosos de formar sus propios equipos de ciencias de los datos pero tal vez no saben por dónde empezar. Primero, no tienen claro qué habilidades necesitan contratar – ¿Deben contratar a gente con doctorado en matemáticas, estadística, ciencias de la computación u otros? ¿Qué conocimiento de dominio se requiere? Hemos aprendido que la ciencia de los datos es un deporte de equipo, porque abarca disciplinas entre las cuales se encuentran matemáticas, estadística, ciencias de la computación, etc. Así que es difícil encontrar todas las habilidades requeridas en una sola persona, por lo que se necesita contratar gente con habilidades complementarias a esas disciplinas para construir un equipo completo.

El siguiente reto se presenta una vez que el equipo de ciencia de los datos toma forma – ¿Cuál es la mejor manera de organizar este equipo? ¿El equipo debe ser centralizado o descentralizado? ¿Dónde debe estar colocado con relación al equipo de BI? ¿Los científicos de datos deben ser parte del equipo de BI o deben estar por separado? En nuestra experiencia en Microsoft, recomendamos tener un modelo híbrido con un equipo centralizado de científicos de datos, además de científicos de datos adicionales integrados en las unidades de negocio. A través de los científicos de datos integrados, el equipo puede construir buen conocimiento de dominio en líneas específicas de negocio. Además, el equipo central les permite compartir conocimiento y mejores prácticas de manera sencilla. Nuestra experiencia también muestra que es mejor tener al equipo de ciencia de los datos separado del equipo de BI, el cual, se puede enfocar en análisis descriptivo y diagnóstico, mientras que el equipo de ciencia de los datos se enfoca en análisis predictivo y prescriptivo. Juntos, pueden abarcar todo el continuo de la analítica.

El último gran reto que siempre escucho es la práctica actual de implementar modelos en producción. Una vez que un modelo es construido, toma tiempo y esfuerzo implementarlo en producción. Hoy en día, muchas organizaciones reescriben los modelos para que corran en sus ambientes de producción. Hemos tenido éxito con la utilización de Azure Machine Learning, ya que simplifica el proceso de manera significativa y permite implementar modelos para correr como servicios web que pueden ser invocados desde cualquier dispositivo.

También he escuchado sobre retos en la identificación de herramientas y recursos para ayudar a construir estas habilidades en ciencia de los datos. Hay un número significativo de recursos en línea e impresos que proveen un amplio espectro de tópicos en ciencia de los datos – desde las bases teóricas para aprendizaje de máquinas, hasta aplicaciones prácticas de aprendizaje de máquinas. Uno de los retos es tratar de navegar a través de un mar de recursos y seleccionar los adecuados que puedan ser utilizados para ayudarles a comenzar.

Otro reto que he visto muy seguido es identificar y descubrir el conjunto correcto de herramientas que puedan ser utilizadas para modelar el escenario de analítica predictiva. Una vez que lo han descubierto, es igual de importante para la gente/empresas ser capaces de poner en práctica las soluciones de analítica predictiva que han construido para crear nuevo valor para su organización.

¿Cuál es su historia de éxito favorita de ciencia de los datos?

Mis dos proyectos favoritos son los de analítica predictiva para ThyssenKrupp y Pier 1 Imports. Voy a comentar sobre el proyecto de Pier 1. El año pasado mi equipo trabajó con Pier 1 Imports y su socio, MAX451, para mejorar las ventas cruzadas y las ventas adicionales con analítica predictiva. Construimos modelos que predicen la siguiente categoría lógica de producto una vez que un cliente hace una compra. Basada en Azure Machine Learning, esta solución llevará a una mucho mejor experiencia a los clientes de Pier 1.

Una de mis historias de éxito favoritas en ciencia de los datos es cómo OSIsoft colaboró con el Centro para la Construcción de Desempeño y Diagnósticos de la Universidad Carnegie Mellon (CMU) para crear una solución end to end que abarca diferentes escenarios de analítica predictiva. Con la analítica predictiva, fueron capaces de resolver muchos de sus retos de negocios que van desde predecir el consumo de energía en diferentes edificios hasta detección de fallas. El equipo fue capaz de poner en marcha de manera efectiva los modelos de aprendizaje de máquina que están construidos utilizando Azure Machine Learning, que llevó a una mejor utilización de energía en los edificios de CMU.

¿Qué consejo darían a los desarrolladores que buscan aumentar sus habilidades en ciencia de los datos?

Recomiendo ampliamente aprender diferentes materias: estadística, aprendizaje de máquina, y visualización de datos. La estadística es una habilidad clave para los científicos de datos pues ofrece unas buenas bases para un correcto análisis e interpretación de datos. Con buenas habilidades estadísticas aprendemos mejores prácticas que nos ayudan a evitar obstáculos e interpretaciones de datos equivocadas. Esto es crítico porque es muy fácil sacar conclusiones equivocadas de los datos sin querer. La estadística brinda las herramientas para evitarlo. El aprendizaje de máquina es una habilidad crítica en la ciencia de los datos que ofrece grandes técnicas y algoritmos para pre-procesamiento y modelado de datos. Y por último, la visualización de datos es una muy importante manera de compartir los resultados del análisis. Una buena imagen vale más que mil palabras – la gráfica correcta puede ayudar a traducir los resultados de un modelado complejo en el lenguaje de tu audiencia, por eso es una habilidad importante para un científico de datos en ciernes.

Sean obsesivos con los datos y adquieran un buen entendimiento de los problemas que pueden ser resueltos por diferentes algoritmos dentro de la caja de herramientas de la ciencia de los datos. Es un buen ejercicio para arrancar al modelar un problema de negocios en su organización donde la analítica predictiva les puede ayudar a crear valor. Tal vez no lo logren al primer intento, pero está bien. No dejen de repetirlo y descubriendo cómo pueden mejorar la calidad del modelo. Con el tiempo, verán que esas primeras experiencias les pueden ayudar a construir sus habilidades en ciencia de los datos.

Además de su propio libro, ¿Qué más leen en la actualidad para que les ayude a afinar sus habilidades en ciencia de los datos?

Yo estoy leyendo:


Data Mining and Business Analytics with R
de
Johannes Ledolter


Data Mining: Practical Machine Learning Tools and Techniques,
Tercera Edición
(The Morgan Kaufmann Series in Data Management Systems)
por
Ian H. Witten, Eibe Frank,
y
Mark A. Hall


Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie or Die
por
Eric Siegel

Yo estoy leyendo:


Super Crunchers: Why Thinking-By-Numbers Is the New Way to Be Smart
por
Ian Ayres


Competing on Analytics: The New Science of Winning
por
Thomas H. Davenport and Jeanne G. Harris.

¿Algún pensamiento final?

Una de las cosas que compartimos en el libro es que, a pesar del furor actual, la ciencia de los datos no es nueva. De hecho, el término ha existido desde la década de los sesenta. Dicho esto, creo que tenemos muchas lecciones y mejores prácticas para aprender de otras profesiones de analítica cuantitativa, como la ciencia actuarial, que incluye el valor de las revisiones de pares, el rol del conocimiento de dominio, etc. Más de esto en un futuro.

Una de las razones que nos motivó a escribir el libro es que queríamos dar algo de regreso a la comunidad de la ciencia de los datos, y tener un buen y conciso recurso de ciencia de los datos que pueda ayudar a nuestros colegas científicos de los datos a comenzar con Azure Machine Learning. Esperamos que les sea de ayuda.

Tags: , ,

Publicaciones Relacionadas