Nuevas tendencias en procesadores

edu.red

Página – 1 – Arquitecturas con varios procesadores (Gp:) Arquitectura (Gp:) Tecnología (Gp:) Mercado (Gp:) Aplicaciones (Gp:) Posibilidades (Gp:) Restricciones Económicas (Gp:) Selección (Gp:) Demanda (Gp:) Nuevas Restricciones (Gp:) Posibilidades (Gp:) Posibilidades (Gp:) Capacidades Prestaciones (Gp:) Promueve (Gp:) Generación (Gp:) Fundamental Fuerte Visible (Gp:) Adaptado de Vajapeyam/Valero (Computer, Abril 2001)

edu.red

Página – 2 – Tecnología Procesadores de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos.

Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores)

edu.red

Página – 3 – Aplicaciones y Mercados Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador.

Demanda elevada de disponibilidad: Procesamiento de transacciones. Sistemas de control con restricciones de alta seguridad (medicina, transportes, …). Aplicaciones sobre internet (mercados financieros contínuos, acceso a información, computación móvil) ? necesidad de disponibilidad 24×7.

edu.red

Página – 4 – La falsa ley de Moore El rendimiento se multiplica por dos cada dos años. El progreso en rendimiento de los dos próximos años igualará el progreso de todo el pasado.

No tiene en cuenta que: La latencia de la memoria no progresa al mismo ritmo.

edu.red

Página – 5 – CPU / Memoria

edu.red

Página – 6 – La verdadera ley de Moore El número de transistores en un chip se dobla cada 18-24 meses.

Pero con las latencias de memoria incrementándose, esto no tiene efecto sobre aplicaciones en un único hilo.

edu.red

Página – 7 – Ritmo de mejora SI PROSIGUE

Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible

Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado)

SI NO PROSIGUE

Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones.

edu.red

Página – 8 – Mejoras en la tecnología Mejoras: Reducción del tamaño de los transistores. Aumento de la superficie.

Efectos: Más transistores por circuito integrado. Microarquitecturas más complejas en un solo circuito integrado. Paralelismo entre instrucciones ? Procesadores superescalares. Reducción de la longitudo de puerta y tiempo de conmutación. Mayores frecuencias de funcionamiento.

edu.red

Página – 9 – Reducción de ciclos por instrucción IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB Inst. 1 Inst. 2 Inst. 1 Inst. 2 Inst. 3 Inst. 4 IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB Inst. 1 Inst. 2 Inst. 3 Inst. 4 5T No segmentado Segmentado Superescalar o VLIW CPI=5 T CPI=1 T CPI=0.5

edu.red

Página – 10 – Procesadores superescalares Procesador más complejo.

Más recursos para ejecutar más instrucciones por ciclo.

edu.red

Página – 11 – Límites de la mejora La mejora prevista para procesadores superescalares es del 12% anual hasta 2014 ? Factor de incremento de prestaciones de 7.4.

Factor de mejora anual anterior = 55% ? Factor acumularo de 1700.

Alternativas: Procesamiento de un único hilo: VLIW Procesamiento praralelo de varios hilos ? SMT y CMP

edu.red

Página – 12 – VLIW: Itanium 2 (IA-64)

Paralelismo responsabilidad del compilador

edu.red

Página – 13 – SMT: Pentium 4 HT Procesador ejecuta dos hilos simultaneamente. Hilos pueden pertenecer al mismo proceso o a procesos diferentes.

edu.red

Página – 14 – CMP: IBM Power 4 Dos procesadores superescalares en un único chip.

edu.red

Página – 15 – Otra arquitectura novedosa: Cell Originalmente concebido por Sony para la PlayStation 3.

Trabajo conjunto de Sony, IBM y Toshiba.

edu.red

Página – 16 – Razones Sony y Toshiba desan ahorrar costes produciendo sus propios componentes.

La siguiente generación de electrónica de consumo requiere alta potencia de cómputo (un decodificador de televisión digital que procese todos los canales simultáneamente).

IBM ha anunciado servidores basados en Cell.

edu.red

Página – 17 – Especificaciones Formado por: 1 procesador principal (PPE). 8 procesadores auxiliares (SPE’s). Bus de interconexión (EIB). Controlador DMA (DMAC). 2 controladores de memoria Rambus XDR. Interfaz de entrada salida Rambus.

edu.red

Página – 18 –

edu.red

Página – 19 – PPE Núcleo de procesador convencional. Ejecuta el SO y parte de las aplicaciones, descargando partes a los SPE’s. Es un procesador de 64 bits con arquitectura “Power”. Caché ? 512 KB.

IMPORTANTE: Juego de instrucciones compatible con PowerPC, pero arquitectura totalmente rediseñada. Los ciclos por instrucción no son comparables a igualdad de frecuencia de reloj.

edu.red

Página – 20 – PPE Es un procesador de dos hilos (SMT).

Diseño muy simple al no implementar ejecución de instrucciones fuera de orden ahorro de mucho silicio. ahorro de consumo.

Contrapartida: Más trabajo para el compilador ? Necesidad de buenos compiladores.

edu.red

Página – 21 – SPE’s Procesador vectorial. Cada SPE contiene: 128 registros de 128 bits. 4 unidades de coma flotante. 4 unidades artiméticas enteras. Memoria local de 256 KB. No tienen cachés.

edu.red

Página – 22 – Cell como procesador de flujo

edu.red

Página – 23 – Algunos retos Integración en la planificación del consumo de los hilos.

Sistemas de memoria: Nuevas jerarquías de memoria.

Compiladores que generen código que evite necesidades hardware.

Paralelización automática de aplicaciones secuenciales.

Optimización dinámica del código.