El aprendizaje de máquina recibe un gran impulso con un acelerador de red neural convulocional ultra eficiente

Por: Doug Burger, investigador en Microsoft.

 

Doug Burger - investigador en Microsoft
Doug Burger, investigador en Microsoft

Estoy emocionado por resaltar un avance en aprendizaje de máquina de alto desempeño de parte de los investigadores de Microsoft.

Después de describir nuestros resultados, algo de fondo puede ser de ayuda. La arquitectura de alto nivel de los servidores de centros de datos ha sido estable por muchos años a nivel general, basada en alguna combinación de CPU, DRAM, Ethernet y discos (con unidades de estado sólido como la más reciente adición). Mientras que las capacidades y velocidades de los componentes – y la escala del centro de datos – han crecido, la arquitectura básica del servidor ha evolucionado de manera lenta. Sin embargo, es probable que esta lenta evolución cambie, mientas las ganancias desaceleradas de parte del escalamiento del silicio abren la puerta a más cambios radicales en la arquitectura de los centros de datos.

Las oportunidades para cambios emocionantes sólo crecerán cuando la Ley Moore termine y la industria experimente grandes olas de disrupción de manera sucesiva. Mi punto de vista personal es que el final de la Ley Moore está a menos de un ciclo de diseño de producto, tal vez tres años. En 2011, comenzamos un proyecto (Catapult) para comenzar a migrar porciones clave de nuestro software de servicios en la nube en hardware programable (por ejemplo, FPGA [Arreglo de Puerta de Campo Programable]), con la esperanza de que tal plataforma pueda permitir que el desempeño del servicio en la nube mantenga su mejora, una vez que el escalamiento del silicio tope con pared, al migrar porciones más grandes de software en hardware programable de manera sucesiva. Nos tomó tres iteraciones de realización de prototipos de nuestra arquitectura (con la construcción de tableros personalizados cada vez) para encontrar una que funcionara en nuestra nube.

Como muchos de ustedes saben, en junio de 2014 revelamos nuestra plataforma Catapult en ISCA 2014, para mostrar que aceleramos de manera exitosa los algoritmos de clasificación de búsqueda web de Bing con una nueva fabricación de FPGA que corre en más de mil quinientos servidores en uno de nuestros centros de datos. Este diseño colocó un tablero FPGA diseñado por Microsoft en cada servidor, y acopló de manera estrecha los FPGA dentro de un rack a través de una red especializada de baja latencia dentro de un torus 2D 6×8. La plataforma permitió a Bing correr la clasificación web con casi la mitad del número de servidores que antes. Como resultado, Bing anunció de manera subsecuente que irán a producción con la aceleración Catapult más adelante en el año.

Desde entonces, además de nuestros esfuerzos de producción de Bing, nuestro equipo en Microsoft Research ha trabajado en acelerar una cantidad de otras cargas de trabajo estratégicas clave para la compañía a través de una lógica reconfigurable. Los esfuerzos de Microsoft en aprendizaje de máquina han creado increíbles nuevas capacidades para nuestros productos y clientes, entre las que se encuentran Bing, Cortana, OneDrive, Skype Translator y Microsoft Band, por mencionar algunas. Por ejemplo, las técnicas basadas en red neural convulocional (CNN, por sus siglas en inglés) han sido utilizadas de manera amplia por nuestros colegas para empujar las fronteras del procesamiento de visión de cómputo, como el reconocimiento de imagen. En esta ocasión, estoy encantado de resaltar un documento que hemos lanzado. Este texto describe el trabajo de Eric Chung y sus colegas en MSR sobre un acelerador de red neural convulocional (CNN).

Eric y el equipo (entre los que se encuentran Kalin Ovtcharov, Olatunji Ruwase, Joo-Young Kim, Jeremy Fowers, y Karin Strauss) crearon a mano un diseño CNN en lógica reconfigurable con FPGA Stratix-V. En pruebas de clasificación de imagen conocidas como ImageNet 1K e ImageNet 22K, sobrepasamos el desempeño de diseños FPGA previos en cerca de tres veces (clasificando en tasas de 134 y 91 imágenes por segundo, respectivamente). Adicional a esto, brindamos un impulso significativo en términos de imágenes/julo sobre GPU medios y high-end optimizados para el mismo problema. Este resultado permite a nuestros servidores en centros de datos ofrecer clasificación de imagen a un costo más bajo y con mayor eficiencia energética que puede ser ofrecida por GPU medios y high-end.

En la actualidad realizamos el mapeo de nuestro motor al nuevo FPGA Arria 10 de Altera. El Arria10 es significativo porque ha endurecido el soporte para operaciones de punto flotante y es capaz de correr a más de un Teraflop con alta eficiencia energética; Altera estima que el rendimiento del punto flotante alcanzará 3 veces más la eficiencia energética de un GPU similar. Esperamos grandes ganancias en eficiencia y desempeño con el escalamiento de nuestro motor CNN en Arria 10, con un estimado conservador de crecimiento en rendimiento de 70% con energía comparable utilizada. Por esta razón, anticipamos que las nuevas partes Arria 10 permitirán un aún mayor nivel de eficiencia y desempeño para la clasificación de imagen dentro de nuestra infraestructura de centro de datos en Microsoft.

Tags: , , , , , ,

Publicaciones Relacionadas