La investigación científica de la vida ha sido por mucho tiempo intensiva en cuanto al uso de cómputo pero los requerimientos han sido ampliamente satisfechos con estaciones de trabajo tradicionales y clúster simples. Eso está cambiando: “Aproximadamente el 25 por ciento de los científicos de la vida, y este incluye a investigadores de laboratorio, requerirán capacidades de HPC, algunos de ellos nunca han usado una línea de comando,” dijo Ari Berman, General Manager de la firma de consultoría de Servicios de Gobierno, BioTeam.
Como se esperaba, el flujo de datos de la secuencia de ADN es un importante motor. NIH genera actualmente 1.5PB de data al mes, y eso es solo de trabajo interno y no incluye investigación externa financiada por NIH. “[Este podría ser] el primer caso real en las ciencias de la vida donde 100 Gb de trabajo de red podría ser realmente necesario,” dijo Berman.
Sin embargo, hay muchos contribuyentes al creciente flujo de data y a la complejidad computacional en LS, incluyendo, por ejemplo, data proteómica, data de estructura proteínica, data de imágenes de células y orgánulos, data de modelamiento de pathway, y esfuerzos por integrar todos ellos para el análisis.
“Hay una revolución en la velocidad en cual las plataformas de los laboratorios están siendo rediseñadas, mejoradas y refrescadas. La instrumentación y los protocolos están cambiando mucho más rápido de lo que podemos refrescar nuestra investigación IT e infraestructuras computacionales científicas,” dijo Berman, hablando a una distinguida audiencia en el Foro de Usuarios de HPC de primavera.
“La investigación en laboratorio está cambiando mes a mes mientras que la infraestructura IT es refrescada cada 2-7 años. Ahora mismo las IT no son parte de la conversación [con los científicos de la vida] por lo cual están corriendo a ponerse al día,” dijo.
Dada la diversidad de tipos de data (texto masivo y archivos binarios), el tamaño de los archivos (abarcando archivos grandes de más de 600GB hasta algunos de 30 kb o más pequeños), y cargas de trabajo de aplicaciones, el mejor enfoque para construir capacidades de HPC es focalizarse en casos de uso específicos más que simplemente perseguir el rendimiento general, dijo Berman, quien presentó un perfil muy detallado de los requerimientos emergentes LS en HPC.
Berman mencionó, algunas características comunes de aplicaciones en LS hoy:
- Mayoría del rendimiento de las apps SMP/threaded atados por IO y o RAM
- Cientos de apps, códigos, y kits de herramientas
- Aplicaciones de “Alta Memoria” 1TB-2TB RAM (gráficas grandes, montaje de genómica)
- Gran cantidad de Perl/Python/R
- MPI no es común (bien escrito es incluso más raro)
- Unos cuantos apps MPI se benefician de costosas interconexiones de baja latencia ( química, modelamiento y trabajo de estructuras son la excepción)
Los nuevos y refrescados sistemas de HPC, dijo Berman, son raramente homogéneos: muchos tipos de «sabores» están siendo ahora entregados en pilas de HPC simple. Los nuevos clústers están siendo manejados por un enfoque de “mezcla y relaciona” dirigiéndose a casos de uso conocidos: Nodos ‘Gruesos’ con muchos cores de CPU ; nodos ‘Delgados’ con CPU ultra rápida; Nodos de gran memoria (1TB-3TB); nodos de GPU para nodos de Co- procesadores para cómputo y visualización (Xeon Phi, FPGA) nodos Analíticos con SSD, FusionIO, flash o disco local grande para tareas de ‘gran data’.
En el presente, el manejo de almacenamiento y redes son los grandes dolores de cabeza, de acuerdo a Berman, quien además ofreció observaciones acerca de direcciones de pilas de software. En términos de administradores de recursos distribuidos, SGE/OGS permanecen siendo ampliamente utilizados mientras que Univea y sus ricas cualidades está ganando piso rápidamente.
Entre lo más buscado para el 2015 están: mapeo de recursos (cgroups); mapeo de GPU a CPU; programación basada en cores; gestión de recursos: hilos, memoria, aceleradores, entornos mixtos; meta planificación (entornos híbridos); y programación consciente de aplicaciones.
La lista de hits para el marco analítico para el Big Data de Berman fue también intrigante:
De cara al futuro , Berman destacó la creciente importancia de la llamada Ciencia DMZ – » La Ciencia DMZ es una parte de la red , construida en o cerca del perímetro de la red local del laboratorio o campus que está diseñado de tal forma que los equipos, las políticas de configuración y la reglas de seguridad son optimizadas para aplicaciones científicas de alto rendimiento en lugar de para los sistemas de negocio de propósito general o “informática empresarial » . «- desarrollado por ESnet del DOE .
El video completo de la presentación de Berman se puede ver aquí:
http://www.hpcwire.com/2015/05/18/25-of-life-scientists-will-require-hpc-in-2015/
Fuente: HPC Wire.