sábado, 30 de agosto de 2008

Actualidad: Se confirma nuestro récord tras nuevo intento turco

Lo que no podemos asegurar nunca de un reto de esta magnitud es que otro equipo de investigación logre idénticos o mejores resultados en la misma época. De hecho todos guardamos nuestras cartas hasta que lo hemos conseguido. Siempre hemos manifestado nuestra intención de superar los 100 millones de incógnitas en el verano de 2008, pero la idea era superar los 150 millones. El Professor Levent Gurel (foto) tenía otro as en la manga... 

Pues bien, hoy, el grupo del Professor Levent Gürel ha publicado la superación del récord de 85 millones de incógnitas a final de julio de 2008. Su nuevo intento ha logrado superar los 135 millones de incógnitas. Podemos confirmar entonces que estamos en posesión de récord del mundo ya que nuestros directos competidores han confirmado que están por debajo de los 150 millones de incógnitas.

El equipo que batió el récord


Luis Landesa (Universidad de Vigo) y Fernando Obelleiro (Universidad de Vigo) en las instalaciones del Finis Terrae.

Universidad de Extremadura
Luis Landesa







José Manuel Taboada









Universidad de Vigo
Fernando Obelleiro








José Luis Rodríguez








Centro de Supercomputación de Galicia (CESGA)
Andrés Gómez Tato






José Carlos Mouriño

jueves, 21 de agosto de 2008

El éxito: crónica de los diferentes fracasos.

Conseguir acabar de manera exitosa el reto de superar el récord del mundo no fue sencillo. Al igual que la primera vez que se quiso probar HEMCUVE++ sobre Finis Terrae, la semana del reto fue una locura. Hasta el cuarto día no se pudieron solucionar diferentes aspectos que inducían a pensar en el completo fracaso del reto. Todas las llamadas telefónicas del día 7 de agosto trataban sobre cómo justificar el fracaso...

En primer lugar nos encontramos con problemas de portabilidad. Este tipo de problemas yo ya me los esperaba. Es una utopía: aunque se trabaje con sistemas muy parecidos, con el mismo compilador, las mismas librerías, el mismo sistema operativo, la realidad es que las primeras ejecuciones de pruebas en el Finis Terrae fracasaban.

Primero, no escalaban al igual que en nuestro cluster Empire. A pesar de que nuestro cluster es muy modesto, el código escalaba mejor que en Finis Terrae. Los técnicos acabaron averiguando que era un problema de pining con la solución MPI/OpenMP. Costó averiguarlo porque parecía a todas luces que el pining era correcto.

Segundo y que nos costó averiguar: la FFT de la MKL en nuestras máquinas y en Finis Terrae nos daban diferentes resultados... Bien es verdad que hacíamos un truco extraño para declarar los descriptores de la FFT. Este truco en nuestras máquinas nos funcionaba y comprobamos que en Finis Terrae no. Debo dedicar un post especial a la FFT de intel, no como crítica, pues es tan completo que se deben aclarar ciertas cosas desde la experiencia. Conseguimos resolver el problema, sin necesidad de declarar los descriptores cada vez que se necesitaba una FFT.

Tercero, cuarto y consecutivos... Aparecieron varios bugs que empeoraban la escalabilidad cuando se aplicaba a ejemplos grandes o a un número de procesadores importantes. Uno de ellos, la lectura de disco de las excitaciones de entrada, hizo fracasar el reto en el primer intento serio. Este tipo de bugs eran esperados pues hay ciertas cosas que cuesta probar en un cluster pequeño, pero la experiencia nos hace que casi no existan.

Todo esto, era la crónica de un fracaso, pero el jueves noche despues del n-ésimo cambio se dejó la ejecución que finalmente vimos concluida a la mañana siguiente.

Este lucha sobre un posible fracaso es más agobiante de lo que pueda parecer. El acceso a una estructura de supercomputación como Finis Terrae está muy controlada. El fracasar suponía que al menos hasta dentro de 6 meses, en los que se pudiera tener acceso a un número importante de nodos en paralelo, no sería posible el intento del récord. In extremis, al igual que nuestro intento anterior, se consiguió analizar el reto científico propuesto.

Esta crónica, que coincide en parte con el anterior reto (igualar el record que estaba vigente a principios de 2007) en lo que respecta a fracasos, será la misma crónica que habrá en este invierno cuando intentemos 250 millones de incógnitas... Y parecerá más importante cuando esta cifra la traduzcamos al inglés: A quarter of billion of unknowns. Si es que lo conseguimos.

miércoles, 20 de agosto de 2008

Récord del mundo para la UEX

El 8 de agosto de 2008 concluimos el reto científico de superar el récord del mundo del objeto más grande jamás analizado en electromagnetismo.

Dicho objeto se modeló y analizó con más de 150 millones de incógnitas. Superamos por amplio margen el anterior récord de 85 millones de incógnitas obtenido por el grupo de investigación BILCEM de la Bilkent University dirigido por el Professor Gürel.

En dicho reto hemos participado científicos del equipo de electromagnetismo computacional de la Universidad de Extremadura, del grupo de antenas de la Universidad de Vigo y de dirigentes y técnicos del Centro de Supercomputación de Galicia (CESGA).

Para obtener el récord se ha utilizado el supercomputador Finis Terrae situado en las instalaciones del CESGA. Se han utilizado 64 nodos (1024 procesadores) y un total de 5,4 Terabytes de memoria RAM y un total de 6 horas de computación.

El código propio denominado HEMCUVE++ (versión mejorada de HEMCUVE) resuelve el problema electromagnético utilizando conceptos del Fast Multipole Method con diferentes estrategias a las utilizadas anteriormente por otros grupos. Este código ha presentado una escalabilidad excelente, lo cual ha permitido lograr dicho récord.

El récord no termina aquí. Una vez superada la cifra de 150 millones de incógnitas nos hemos planteado el reto de superar los 250 millones de incógnitas en diciembre de 2008. 

Además de a las otras instituciones implicadas en el récord mundial deseamos agradecer la financiación o los apoyos obtenidos desde el Ministerio de Ciencia y Tecnología, la Junta de Extremadura, los fondos FEDER, el Departamento de Tecnología de los Computadores y de las Comunicaciones, la Escuela Politécnica y la Universidad de Extremadura.

En este blog iré destacando todos los aspectos interesantes que han concluido en el récord mundial. ¿Cuál es la utilidad? ¿Tiene objetivos científicos dicho récord o únicamente sirve para satisfacer los egos personales de los científicos implicados? ¿Cuál ha sido la nueva estrategia para abordar el problema? ¿Qué aplicaciones puede abordar un código que permita analizar problemas electromagnéticos tan grandes?