Una bola de cristal alimentada por datos



“Independencia de Escocia: encuestas muestran que está muy cerrado para establecer una opinión”.

“Es probable que la votación de Escocia nos haga comernos las uñas”.

“El voto por la Independencia de Escocia pende de un hilo, las encuestas ponen al frente tanto el Sí como el No”.

Si hubo algún consenso en los días que precedieron al importante 18 de septiembre de 2014 con la votación en Escocia, fue que nadie podía predecir el resultado. Los encabezados desde Edimburgo, Londres y alrededor del mundo estaban de acuerdo: Era imposible decir con certeza lo que pasaría.

Pero ahí estaba David Rothschild, investigador de Microsoft y líder experto en una nueva forma de metodología predictiva impulsada por datos. Tres días antes de la votación en Escocia, él estableció la posibilidad de un resultado negativo en 77.4 por ciento. Dos días después, lo subió a 79.5. En la mañana de la votación, antes de cualquier resultado fuera anunciado, fue a escribir a su blog que habría un 84 por ciento de posibilidades de que fuera negativa la independencia de Escocia.

Este no es un simple juego para Rothschild, quien, junto con sus colegas en Microsoft y en otros sitios, predijo de manera correcta a los ganadores de todos los 15 juegos de eliminación directa del torneo de selecciones realizado en Brasil este año y acertó a los resultados de Obama vs. Romney en 50 de 51 jurisdicciones (los estados junto con el Distrito de Columbia) en la elección presidencial de Estados Unidos en 2012. Parece que ninguna competencia está fuera del alcance de los poderes predictivos de Rothschild, ya sean campañas en el congreso, el Super Bowl, los Oscar, o el Concurso de Canto de Eurovisión.

En una era en la que las tradicionales encuestas políticas han recibido un gran golpe a su reputación – pregunten a Eric Cantor, ex líder de la mayoría en la Cámara de Representantes en Estados Unidos, que perdió su elección primaria republicana en Virginia por 11 puntos porcentuales a pesar de que su propia encuesta lo colocaba 34 puntos arriba – la tasa de éxito de Rothschild ha ganado notoriedad.

Ese impulso culmina estos días con el lanzamiento de una nueva plataforma interactiva, Microsoft Prediction Lab, que funciona como una presentación basada en un sitio web y como un laboratorio para sus siguientes proyectos.

“Las encuestas rastrean el sentimiento de la gente que las responde en ese momento”, dijo Rothschild mientras esperaba los resultados en Escocia. “Mi pronóstico dice lo que pasará el día de la elección y es claro que el sentimiento de la gente al momento de las encuestas es un componente crítico de cualquier predicción en un día de elecciones, pero no lo es todo”.

“Podría ser razonablemente convincente”, comentó sobre la victoria del No. Y en verdad fue convincente: 55 a 45 por ciento.

El problema con las encuestas representativas

Consideren las encuestas políticas convencionales, que tienen un sólido registro de seguimiento pero son caras y consumen mucho tiempo. En las décadas recientes, las empresas encuestadoras se han basado en llamadas a líneas telefónicas fijas aleatorias para determinar el sentimiento del voto. La exactitud de esos resultados depende de manera significativa en alcanzar una muestra representativa de gente que sí asistirá a las votaciones. En la era de los teléfonos móviles y los identificadores de llamadas, los obstáculos se apilan.

Junto con la información de valor que Rothschild ha documentado y a la cual le da un uso considerable en su metodología es que las expectativas de los votantes – a quién consideran ganador – son bases más exactas para realizar predicciones que encuestas en las que se le pregunta a la gente por quién votarán.

“Esto se debe a que encuestamos desde un conjunto de información más amplio, y los votantes responden como si hubieran encuestado a 20 de sus amigos”, escribió en un documento de 2013 que realizó en coautoría con Justin Wolfers de la Universidad de Michigan. No es de sorprender que por lo tanto, Rothschild incluye de manera regular datos de mercados de apuestas para generar sus predicciones, entre las que se incluye la votación por la independencia de Escocia.

Otra gran contribución de Rothschild, que cuenta con un doctorado en economía aplicada de la Escuela de Negocios Wharton de la Universidad de Pennsylvania, es que al aplicar los ajustes estadísticos apropiados, las altas muestras no representativas pueden ser utilizadas para generar predicciones con una notable precisión.

Él y algunos colegas demostraron esto en un nuevo experimento en el que se encuestó a usuarios de Xbox antes de la elección presidencial de Estados Unidos en 2012. Realizaron una encuesta de participación opcional (opt-in) durante los 45 anteriores a la elección y permitían a la gente participar una vez al día. Además de preguntar, “Si la elección se realizara hoy, ¿Por quién votarías?”, ellos recolectaron información demográfica básica: sexo, raza, edad, educación, estado de residencia, partido político, inclinación política, y cuál fue el voto del encuestado en la elección presidencial de 2008.

Como podrían esperar, la vasta mayoría de los usuarios de Xbox – y aquellos que respondieron la encuesta – eran hombres relativamente jóvenes. Era una muestra terrible para una encuesta estándar. Pero funcionaron para los propósitos de los investigadores.

“Las encuestas estándar buscan a un encuestado que sea, por ejemplo, hombre de Nueva York”, dice Rothschild. “La manera en que nosotros lo vemos es: un hombre y una persona de Nueva York. Espero encontrar otros encuestados potenciales que sean hombres y otros encuestados potenciales que sean de Nueva York. Y a partir de ahí, al segmentar a la gente de manera demográfica, somos capaces de permitir a todos los usuarios de informarles la probable respuesta de todos los demás usuarios”.


Así que, aunque estaban cortos de mujeres mayores de 65 años por ejemplo, tenían un número de mujeres encuestadas y algunas mayores de 65, junto con otras que compartían algunas otras características con mujeres mayores. Al final, los datos de más de 750 mil encuestas de Xbox tomadas por casi 350 mil encuestados únicos, ofrecieron 176 mil diferentes “celdas” demográficas, cada una con una distinta combinación de características.

A partir de ahí, los investigadores “post- estratificaron” las respuestas de Xbox para imitar una muestra representativa de posibles votantes, al calcular el peso de las celdas al hacer una tabulación cruzada con encuestas de salida de la elección presidencial de 2008. Conforme se acercaba el Día de la Elección, utilizaron los datos acumulados para actualizar sus predicciones de manera diaria para cada estado.

“No sólo emparejamos la exactitud de las principales empresas encuestadoras”, dice Rothschild, “también ofrecimos una gran cantidad de información de valor que no eran capaces de obtener”.

Cada ejercicio predictivo que realiza Rothschild viene de una diferente fuente de datos, que por lo general es una combinación de datos de encuestas, resultados históricos, datos de apuestas en Internet, estadísticas recolectadas de manera rutinaria, y datos generados por el usuario. Para la postemporada de las Grandes Ligas por ejemplo, grandes cantidades de datos están disponibles por parte de la temporada regular. La copa de futbol de Brasil no tiene ese tipo de acumulación de datos, por lo que hace sentido motivar a la gente para recolectar nuevos datos para aumentar los datos históricos sobre jugadores y equipos y los resultados de las rondas clasificatorias.

“Siempre hay algo que falta – datos que siempre quisiéramos tener y que en ocasiones ni siquiera existe”, dice Rothschild. “Así que hemos realizado algunos divertidos experimentos”. Estos incluyen los juegos de predicción de los Oscar y predicción de juegos de la NFL, que fueron diseñados para atraer a la gente con un alto nivel de experiencia en esas áreas.

“La manera en que siempre lo he visto”, dice Rothschild, “es que cualquier individuo – tú, yo, el hombre en la calle – tiene una cierta cantidad de información sobre las cosas que le importan, pero nadie las ha desbloqueado aún”.

Los encuestadores convencionales “no piensan sobre alguien que se ha auto-elegido”, explica. “Ellos acuden a gente aleatoria. Ellos también utilizan métodos simples de agregación, en lugar de modelar los resultados que tienen. Para eso son las computadoras. Para eso es nuestro conocimiento.”

Rothschild y sus colegas aplican su amplia experiencia en aprendizaje de máquinas para probar y calibrar sus modelos contra datos históricos, y utilizan algoritmos avanzados para dar valor a un grupo de variables como las ventajas de la incumbencia y la tendencia de los apostadores para exagerar improbables ganadores.

La reinvención de la investigación de encuestas

La plataforma interactiva que Rothschild y otros investigadores han lanzado alberga todo el trabajo predictivo en curso que Rothschild ha mostrado en su blog y en periódicos académicos y presentaciones. Microsoft Prediction Lab muestra sus predicciones generadas por datos – algunas actualizadas en tiempo real – en un amplio rango de campos, desde deportes y entretenimientos a política y economía.

“Construimos una infraestructura”, dice, “que es muy escalable, para que seamos capaces de responder preguntas al mismo Tiempo que se da un continuo masivo”.

Rothschild ve la nueva plataforma como “un gran laboratorio para investigadores”, así como “una experiencia bastante socializada”, para usuarios interesados. Junto a otros eventos, él planea predecir los resultados de cada elección para Cámaras, Senado y gubernaturas en Estados Unidos. Los usuarios podrán personalizar la vista del sitio basándose en ubicación geográfica y en sus intereses. La idea es recolectar datos de manera rápida y actualizar el sitio tan seguido como sea posible.



“También es importante ser agnóstico y no casarse con un solo tipo de datos”, dice Rothschild. Él toma en cuenta cualquier dato que pueda contribuir al modelo predictivo, ya sea que se trate de datos del mercado de valores, vistas de páginas de Internet, o tendencias y co-ocurrencia de palabras en redes sociales. Recolectar “sabiduría de las masas” será un gran componente de este esfuerzo.

“Al reinventar en verdad la investigación de encuestas, sentimos que podemos abrirla hacia un nuevo campo de preguntas que, de manera previa, la gente utilizó para decir que sólo se podían usar para ese modelo”, dice Rothschild. “Desde a quién encuestas a las preguntas que haces, al método de agregación que utilizas para la estructura del incentivo, vemos lugares en los que se puede innovar. Tratamos de ser disruptivos en extremo”.

Esa disrupción tiene ramificaciones para la industria encuestadora – y más allá.

“Hay dos razones para experimentar con encuestas no probabilísticas”, comenta. “Primero, creo firmemente que la encuesta estándar llegará a un punto donde la tasa de respuesta y la cobertura sean tan bajas que algo malo sucederá. Luego, la tecnología estándar para encuestar será destruida por completo, por lo que es prudente invertir en métodos alternativos.

“Segundo, incluso si nunca pasara nada a las encuestas estándar, los datos de encuesta no probabilísticos abrirán la inteligencia de mercado para nosotros de una manera que ninguna encuesta estándar podría proveer. Por último, seremos capaces de reunir datos de manera tan rápida que la idea de un tomador de decisión esperando algunas semanas para recibir los resultados de una encuesta parecerá una locura”.

La disponibilidad inmediata de ese tipo de datos permitirá a los negocios tomar decisiones estratégicas de inversión, como dónde ubicar un centro de datos o cómo invertir recursos de mercadotecnia para conseguir un interés óptimo.

“Seremos capaces”, menciona Rothschild, “de reunir tanto detalle de usuarios repetidos – y la cantidad de usuarios que podemos alcanzar – que los tomadores de decisión estimarán el casi infinito número de puntos de datos que pueden ser generados de manera eficiente para responder las preguntas exactas que el encuestador tiene, en lugar de la pregunta de expediente o la norma histórica”.

Sólo una pequeña advertencia: la inteligencia de mercado derivada de los datos de encuesta no probabilísticos, debe probar exactitud.

“De eso se trata esta investigación”, agrega, “llegar a ese punto donde la inteligencia de mercado rápida, relevante, y rentable sea tan exacta como lo que suplanta. En ese punto, el deceso de las encuestas estándar se vuelve irrelevante, porque se verá dominado de manera estricta por la recolección de datos no probabilísticos y técnicas analíticas”.

El nuevo sitio web de Microsoft Prediction Lab muestra la experiencia de los investigadores de Microsoft en los laboratorios de la ciudad de Nueva York, Redmond e India. Los principales colaboradores incluyen a los notorios científicos de la computación Miro Dudík y David Pennock, así como al equipo de investigación liderado por Harry Shum, vicepresidente ejecutivo de Tecnología e Investigación en Microsoft, y la oficina del jefe economista de Microsoft, Preston McAfee.

“Ha sido un esfuerzo bastante colaborativo”, afirma Rothschild.

“La mayoría de los investigadores tienen la oportunidad de explorar un conjunto de preguntas y un conjunto de datos mucho más estrechos”, comenta. “Pero a través de la colaboración con un increíble conjunto de investigadores, esto en verdad me permite explorar cosas que estaban enterradas. Y eso es en verdad lo más emocionante de esto. No se trata de cualquier resultado individual – es la gran cantidad de preguntas que seremos capaces de responder en el futuro cercano”.

Tags:

Publicaciones Relacionadas