Privacidad y precisión: Cómo Cynthia Dwork hace mejor el análisis de datos

Cynthia Dwork
Cynthia Dwork

Cynthia Dwork ha pasado mucho tiempo de su carrera trabajando en la búsqueda de maneras de asegurar que sus datos personales se mantienen privados incluso cuando son utilizados para investigación científica.

Ahora, ella también aplica esos métodos matemáticos para tener certeza de que las conclusiones a las que llegan los investigadores a partir del análisis de grandes conjuntos de datos, son tan precisas como sea posible.

Dwork, criptógrafa y científica distinguida en Microsoft Research y algunos colegas, publicaron hace unos días un documento en la revista Science que muestra como su innovador trabajo en privacidad diferencial también puede ayudar a los investigadores a garantizar la precisión de sus resultados.

Platicamos con ella sobre su trabajo y qué lo ha inspirado.

ALLISON LINN: Quiero comenzar con platicar sobre privacidad diferencial. ¿Cómo lo explicarías a una persona que no es experta en este campo?

CYNTHIA DWORK: La privacidad diferencial es la definición de privacidad que está hecha a la medida de los análisis de datos que preservan la privacidad.

Por ejemplo, asume que tienes un gran conjunto de datos que está lleno de información útil pero también sensible. Tal vez te gustaría poder lanzar estadísticas sobre ese conjunto de datos a la vez que de manera simultánea preservas la privacidad de cada persona que se encuentra en ese conjunto de datos.

Lo que dice la privacidad diferencial es que, en esencia, las mismas cosas son aprendidas ya sea que un individuo se dé de alta o se dé de baja del conjunto de datos. Entonces, lo que significa es que no seré dañado por cosas que tú aprendes de ese conjunto de datos. No aprenderás nada sobre mí que no aprenderías si yo no lo incluyo.

ALLISON LINN: ¿Podrías darme un ejemplo real de cuándo un investigador podría querer utilizar una de estas técnicas?

CYNTHIA DWORK: Imagina que alguien pregunta, “¿Cuántos miembros de la Cámara de Representantes tienen rasgos de célula falciforme?” Nuestra intuición dice que obtener una respuesta exacta a eso no debería comprometer la privacidad de cualquier persona dentro de la Cámara de Representantes porque se trata de un gran número de personas y tú sólo recibes de regreso un número.

Pero ahora supón que tienes, además de la respuesta a esa pregunta, la respuesta exacta a la pregunta, “¿Cuántos miembros de la Cámara de Representantes, además del Vocero de la Cámara, tienen rasgos de célula falciforme?”

Ahora, aunque también por sí misma, parece una pregunta inofensiva y tener una respuesta no parece causar ningún problema porque todavía se trata de un gran conjunto de personas por las que se pregunta.

Pero si tomas estas dos respuestas y las juntas y luego sustraes una de la otra, entonces aprenderás el estado de células falciformes del Vocero de la Cámara.

ALLISON LINN: ¿Qué te llevó a esta área de la investigación?

CYNTHIA DWORK: Las conversaciones con la filósofa Helen Nissenbaum. Nissenbaum es una filósofa que estudia problemas que se presentan en el contexto de nuevas tecnologías, y hacía algo de trabajo sobre privacidad en público. ¿Qué es la privacidad en público cuando hay cámaras en todos lados?

Eso me puso a pensar sobre la privacidad en general, y me di cuenta que la privacidad es como esa frase que abarca a todos que significa muchas cosas diferentes en diferentes contextos. Quería tener una pieza del acertijo de la privacidad a la que pudiera echar mano, por lo que pensé en análisis de datos para preservar la privacidad.

Science magazine
Foto: © Roger Ressmeyer/CORBIS

ALLISON LINN: Tienes un nuevo documento que saldrá en los próximos días en Science, que se basa en algunas de las ideas alrededor de la privacidad diferencial para enfocarse en precisión de los datos. ¿Me puedes hablar más sobre este proyecto?

CYNTHIA DWORK: Hay una técnica de parte de la comunidad de aprendizaje de máquina en la que tú tomas todo tu conjunto de datos y lo divides en dos partes: un conjunto de entrenamiento y uno de resistencia. Luego, haces lo que quieras en el conjunto de entrenamiento para tratar de llegar a alguna hipótesis sobre la población general. Para revisar la validez de tu conclusión, pruebas la hipótesis en el grupo de resistencia.

Hasta ahí, todo va bien. Pero ahora supón que quisieras realizar más estudios de tu conjunto de entrenamiento. Ahora, de pronto, las preguntas que te haces de tu conjunto de entrenamiento dependen del conjunto de resistencia, y por esta razón el conjunto de resistencia ya no puede ser visto como datos frescos que son independientes por completo de todo lo que has hecho hasta ahora.

Lo que mostramos es que si sólo tienes acceso al conjunto de resistencia a través de un mecanismo privado de diferenciación, está bien utilizarlo una y otra vez.

ALLISON LINN: ¿Cómo garantiza esto que la gente no va a llegar a conclusiones falsas a partir de los datos?

CYNTHIA DWORK: Digamos que se trata de un muy grande conjunto de datos. Tu publicas tus conclusiones y ahora alguien más llega y dice, “Oh, eso es interesante, quiero estudiar algunas otras cosas en ese conjunto de datos”. Lo pueden hacer y luego pueden revisar sus conclusiones sobre ese mismo conjunto de datos y estas se pueden repetir.

Tratamos de capturar el hecho de que la ciencia está en un proceso de adaptación. La segunda pregunta que hiciste podría depender de la respuesta de la primera pregunta. El segundo estudio o el quinto podrían depender de lo que fue publicado en los primeros cuatro estudios.

ALLISON LINN: ¿Me puedes dar un ejemplo de cómo tu nuevo método podría ser aplicado para ayudar a la gente a asegurar que sus datos son precisos?

CYNTHIA DWORK: Llegamos a una época en la que los conjuntos de datos pueden ser muy, muy grandes y mucha gente estudiará los mismos conjuntos de datos. Creo que esto sucederá con los datos médicos por ejemplo, y los datos del genoma.

No creo que llegue a ser viable siempre ir y reclutar muestras frescas por completo y empezar de nuevo, así que creo que esta pregunta de permanecer válido de manera estadística en el escenario de la adaptación donde nuevas preguntas y estudios dependen de los resultados de estudios previos se volverá más y más importante. Nosotros proponemos una herramienta que ayudará con este proceso.

Tags: , , , , , , ,

Publicaciones Relacionadas