Página 1 Arquitecturas con varios procesadores (Gp:) Arquitectura (Gp:) Tecnología (Gp:) Mercado (Gp:) Aplicaciones (Gp:) Posibilidades (Gp:) Restricciones Económicas (Gp:) Selección (Gp:) Demanda (Gp:) Nuevas Restricciones (Gp:) Posibilidades (Gp:) Posibilidades (Gp:) Capacidades Prestaciones (Gp:) Promueve (Gp:) Generación (Gp:) Fundamental Fuerte Visible (Gp:) Adaptado de Vajapeyam/Valero (Computer, Abril 2001)
Página 2 Tecnología Procesadores de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos.
Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores)
Página 3 Aplicaciones y Mercados Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador.
Demanda elevada de disponibilidad: Procesamiento de transacciones. Sistemas de control con restricciones de alta seguridad (medicina, transportes, …). Aplicaciones sobre internet (mercados financieros contínuos, acceso a información, computación móvil) ? necesidad de disponibilidad 24×7.
Página 4 La falsa ley de Moore El rendimiento se multiplica por dos cada dos años. El progreso en rendimiento de los dos próximos años igualará el progreso de todo el pasado.
No tiene en cuenta que: La latencia de la memoria no progresa al mismo ritmo.
Página 5 CPU / Memoria
Página 6 La verdadera ley de Moore El número de transistores en un chip se dobla cada 18-24 meses.
Pero con las latencias de memoria incrementándose, esto no tiene efecto sobre aplicaciones en un único hilo.
Página 7 Ritmo de mejora SI PROSIGUE
Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible
Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado)
SI NO PROSIGUE
Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones.
Página 8 Mejoras en la tecnología Mejoras: Reducción del tamaño de los transistores. Aumento de la superficie.
Efectos: Más transistores por circuito integrado. Microarquitecturas más complejas en un solo circuito integrado. Paralelismo entre instrucciones ? Procesadores superescalares. Reducción de la longitudo de puerta y tiempo de conmutación. Mayores frecuencias de funcionamiento.
Página 9 Reducción de ciclos por instrucción IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB Inst. 1 Inst. 2 Inst. 1 Inst. 2 Inst. 3 Inst. 4 IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB Inst. 1 Inst. 2 Inst. 3 Inst. 4 5T No segmentado Segmentado Superescalar o VLIW CPI=5 T CPI=1 T CPI=0.5
Página 10 Procesadores superescalares Procesador más complejo.
Más recursos para ejecutar más instrucciones por ciclo.
Página 11 Límites de la mejora La mejora prevista para procesadores superescalares es del 12% anual hasta 2014 ? Factor de incremento de prestaciones de 7.4.
Factor de mejora anual anterior = 55% ? Factor acumularo de 1700.
Alternativas: Procesamiento de un único hilo: VLIW Procesamiento praralelo de varios hilos ? SMT y CMP
Página 12 VLIW: Itanium 2 (IA-64)
Paralelismo responsabilidad del compilador
Página 13 SMT: Pentium 4 HT Procesador ejecuta dos hilos simultaneamente. Hilos pueden pertenecer al mismo proceso o a procesos diferentes.
Página 14 CMP: IBM Power 4 Dos procesadores superescalares en un único chip.
Página 15 Otra arquitectura novedosa: Cell Originalmente concebido por Sony para la PlayStation 3.
Trabajo conjunto de Sony, IBM y Toshiba.
Página 16 Razones Sony y Toshiba desan ahorrar costes produciendo sus propios componentes.
La siguiente generación de electrónica de consumo requiere alta potencia de cómputo (un decodificador de televisión digital que procese todos los canales simultáneamente).
IBM ha anunciado servidores basados en Cell.
Página 17 Especificaciones Formado por: 1 procesador principal (PPE). 8 procesadores auxiliares (SPEs). Bus de interconexión (EIB). Controlador DMA (DMAC). 2 controladores de memoria Rambus XDR. Interfaz de entrada salida Rambus.
Página 18
Página 19 PPE Núcleo de procesador convencional. Ejecuta el SO y parte de las aplicaciones, descargando partes a los SPEs. Es un procesador de 64 bits con arquitectura Power. Caché ? 512 KB.
IMPORTANTE: Juego de instrucciones compatible con PowerPC, pero arquitectura totalmente rediseñada. Los ciclos por instrucción no son comparables a igualdad de frecuencia de reloj.
Página 20 PPE Es un procesador de dos hilos (SMT).
Diseño muy simple al no implementar ejecución de instrucciones fuera de orden ahorro de mucho silicio. ahorro de consumo.
Contrapartida: Más trabajo para el compilador ? Necesidad de buenos compiladores.
Página 21 SPEs Procesador vectorial. Cada SPE contiene: 128 registros de 128 bits. 4 unidades de coma flotante. 4 unidades artiméticas enteras. Memoria local de 256 KB. No tienen cachés.
Página 22 Cell como procesador de flujo
Página 23 Algunos retos Integración en la planificación del consumo de los hilos.
Sistemas de memoria: Nuevas jerarquías de memoria.
Compiladores que generen código que evite necesidades hardware.
Paralelización automática de aplicaciones secuenciales.
Optimización dinámica del código.