Concepto
InfiniBand es una tecnología de interconexión entre sistemas, con una especificación estándar que define una arquitectura de entrada / salida que se utiliza para interconectar servidores, equipos de infraestructura de comunicaciones serie de alta velocidad. Es usado en computadoras de alto rendimiento, y fue diseñado para ser ampliable.
Remplaza gradualmente a los PCI en servidores y PCs. En vez de enviar datos en paralelo (que es lo que hace PCI), Infinidad envía datos en forma serial y puede llevar múltiples canales de datos al mismo tiempo con un multiplexamiento de señal.
Sus especificaciones son desarrolladas y mantenidas por la Inifiniband Trade Association (IBTA).
El InfiniBand Trade Association ® (IBTA) fue fundada en 1999 y ha sido constituido con el mantenimiento y el fomento de la InfiniBand especificación. La IBTA es dirigida por un comité de dirección completo que incluye HP, IBM, Intel, Mellanox, Oracle, QLogic y Obras del Sistema de tela. Otros miembros de la IBTA representan empresa líder en proveedores de TI que contribuyen activamente a la promoción de la especificación de InfiniBand.
Arquitectura
InfiniBand define una red de área de sistema (System Area Network, SAN), para conectar ordenadores, sistemas de E/S y dispositivos de E/S. InfiniBand proporciona la infraestructura adecuada para comunicación y gestión, tanto para transacciones de E/S como para comunicación entre ordenadores. Un sistema InfiniBand puede variar desde un pequeño servidor formado por un procesador y unos cuantos dispositivos de E/S conectados, hasta un supercomputador masivamente paralelo con miles de procesadores y dispositivos de E/S que está conectado vía Internet a otras plataformas de procesamiento y/o sistemas de E/S.
InfiniBand define una interconexión conmutada que permite a muchos dispositivos intercambiar datos de forma simultánea, con gran ancho de banda y baja latencia. Al ser un sistema conmutado, se pueden conseguir características como protección, fiabilidad, escalabilidad, seguridad, etc., hasta ahora impensables en sistemas de E/S, e incluso en la mayoría de las redes habituales para conexión de computadores.
Un nodo final en una SAN InfiniBand puede comunicarse por medio de múltiples puertos del conmutador al que está conectado, pudiéndose habilitar de esta manera caminos alternativos. Así, se podría aprovechar la disponibilidad de caminos alternativos tanto para incrementar el ancho de banda real, como para permitir tolerancia a fallos.
InfiniBand permite a las unidades de E/S comunicarse entre ellas y con cualquier sistema de procesamiento existente en el sistema. De esta manera, una unidad de E/S tiene la misma capacidad de comunicación que cualquier otro nodo de procesamiento.
Red de área de sistema con InfiniBand.
Topología
InfiniBand tiene una topología conmutada con conexiones punto a punto, lo que permite tanto topologías regulares como irregulares. El sistema de administración será capaz de identificar cualquier topología formada, y construir las tablas de encaminamiento adecuadas para permitir el intercambio de información entre dos elementos cualesquiera conectados a través de la red.
Desde un punto de vista de alto nivel, InfiniBand solo es un medio para interconectar nodos entre sí, donde un nodo puede ser un sistema de procesamiento, una unidad de E/S o un en encaminador hacia otra red.
Una red InfiniBand esta dividida en subredes interconectadas entre sí mediante routers o encaminadores . Los nodos finales estarán conectados a una única subred o a múltiples subredes por medio de distintas interfaces, como se puede apreciar en la siguiente imagen.
Características
Este sistema está diseñado para conectar los nodos del procesador y la entrada salida formando una red de área de sistema (SAN, System Área Network).
Deja atrás el modelo de entrada/salida basada en transacciones locales a través de buses para implementar un nuevo modelo basado en el paso remoto de mensajes a través de canales.
Soporta doble e incluso cuádruples tasas de transferencia de datos, llegando a ofrecer 5 gbps y 10 gbps respectivamente.
Se usa una codificación 8B/10B, con lo que, de cada 10 bits enviados solamente 8 son de datos, de tal manera que la tasa de transmisión útil es 4/5 de la media. Teniendo esto en cuenta, los anchos de banda ofrecidos por los modos simples, doble y cuádruple son de 2, 4 y 8 gbps respectivamente.
Los enlaces pueden añadirse en grupos de 4 o 12, llamados 4X o 12X.
Un enlace 12X a cuádruple ritmo tiene un caudal bruto de 120 gpbs, y 96 gbps de caudal eficaz. Actualmente, la mayoría de los sistemas usan una configuración 4X con ritmo simple, aunque los primeros productos soportando doble ritmo ya están penetrando en el mercado.
Los sistemas más grandes, con enlaces 12X se usan típicamente en lugares con gran exigencia de ancho de banda, como clústeres de computadores, interconexión en superordenadores y para interconexión de redes.
Usa una topología conmutada de forma que varios dispositivos pueden compartir la red al mismo tiempo (en oposición a la topología en bus). Los datos se transmiten en paquetes de hasta 4 KB que se agrupan para formar mensajes. Un mensaje puede ser una operación de acceso directo a memoria de lectura o escritura sobre un nodo remoto (RDMA), un envío o recepción por el canal, una operación de transacción reversible o una transmisión multicast.
Está diseñado para funcionar en ambientes distintos a los del protocolo Internet, y complementa protocolos TCP / IP. De hecho, InfiniBand utiliza IPv6 en la capa de red.
Características destacadas
La arquitectura de InfiniBand proporciona una excelente latencia de aplicaciones con demoras medidas de 1 &µs total
Incluye QoS (calidad de servicio) integral y control de congestión
Admite virtualización de E/S basada en hardware y descarga TCP/UDP/IP sin estado
Hardware InfiniBand:
Tarjetas
Además de la conectividad del BUS (PCI-X, PCI-E y PCI-E Gen2, Gen3) existen diferentes chipset que nos indican su generación, potencia y funcionalidad. Los Chipset de última generación permiten comunicación InfiniBand FDR 56Gb/s y redes 40GE en una misma tarjeta. Mellanox, el proveedor líder de soluciones con tecnología InfiniBand ofrece diversas HCAs dependiendo del slot de conexión, la memoria de la tarjeta y las prestaciones puesto que existe versión SDR, DDR, QDR y FDR de hasta 56GB/s.
InfiniHost III:
Ex tarjetas de puerto dual 4X InfiniBand adaptadores se conectan al sistema host a través de una interfaz PCI Express x8. Single Data Rate (SDR) tarjetas Ex soportan dobles de 10Gb / s InfiniBand, mientras que las conexiones de doble velocidad de datos (DDR) versiones soportan dobles 20Gb / s InfiniBand de conexiones. Ex tarjetas HCA ofrecen la mejor relación costo efectiva 10 o una solución de 20Gb / s disponible y función de acceso remoto directo a memoria (RDMA), el transporte de hardware, y avanzado por par de colas (QP) calidad de servicio.
Beneficios:
Computación unificada, el almacenamiento y la gestión
De alto ancho de banda, baja latencia
Rendimiento hoja de ruta para 120Gb / s
Altamente eficiente en la agrupación
La máxima fiabilidad y escalabilidad
Multi-plataforma de apoyo
Gestión de la congestión y calidad de servicio
Virtualizada de E / S de tela
ConnectX ® -2 Single:
Caracteristicas:
Interconexión Protocolo Virtual
Arquitectura de chip único
Integrados SerDes
No hay memoria local necesario
1us MPI mesa de ping de latencia
Selección de 10, 20 o 40Gb / s InfiniBand o 10GigE por puerto
IBTA Compatible Diseño v1.2.1
PCI Express 2.0 (hasta 5 GT / s)
Descarga de CPU de las operaciones de transporte
End-to-end QoS y control de congestión
Basada en hardware de E / S de virtualización
TCP / UDP / IP sin estado de descarga
Encapsulación de Fibre Channel (FCoIB o FCoE)
Switches:Hay Switches InfiniBand desde 36 Puertos en tan solo 1U hasta 648 puertos en switches de chasis, todos ellos Non Blocking. También existe la posibilidad de montar redes CBB (Constant Bi-Sectional Bandwidth) ó topología Fat Tree con el fin de buscar una reducción de costo. Los switches más avanzados incluso disponen de puertos 10Gb adicionales para la convergencia de la red fuera del cluster HPC.
Switches edge (borde):
Estos trabajan sobre la capa 2 del modelo osi.
Características:
2.88Tb / s de capacidad de conmutación
Señal de la optimización de la longitud del cable ya
La calidad de la ejecución de servicios
Los sensores de temperatura y los monitores de tensión
El flujo de aire reversible
Fuentes de alimentación redundantes
Sustituibles en cajones de fans
La velocidad del ventilador controlado por el software de gestión
InfiniBand
Especificación 1.2.1 compatible con IBTA
Subred integrada agente encargado
Encaminamiento adaptativo, Control de congestión
256 a 4KByte MTU
9 pistas virtuales: 8 de datos + 1 de gestión
48K de entrada de datos de reenvío lineal de la base
Port Mirroring
GESTIÓN (IS5030/IS5035 SOLAMENTE)
Tela de rápido y eficiente poner en marcha
Tejido en todo el ancho de banda de la verificación
Gestión integral del chasis
Mellanox API para la integración de 3 ª parte
CLI GUI intuitivo y de fácil acceso
Switch Director (core):
Estos trabajan sobre la capa 3 del modelo osi.
Características:
8.64Tb / s de capacidad de conmutación
100ns 300ns a cambio de latencia
Basada en hardware de enrutamiento
Control de congestión
La calidad de la ejecución de servicios
Los sensores de temperatura y los monitores de tensión
InfiniBand
Especificación 1.2.1 compatible con IBTA
Encaminamiento adaptativo
256 a 4KByte MTU
9 pistas virtuales: 8 de datos + 1 de gestión
48K de entrada de datos de reenvío lineal de la base
Multidifusión 4K de entrada de datos de reenvío de base
Port Mirroring
GESTIÓN
Tela de rápido y eficiente poner en marcha
Tejido en todo el ancho de banda de la verificación
Gestión integral del chasis
Mellanox API para la integración de 3 ª parte
CLI GUI intuitivo y de fácil acceso
Torre de discos:
Soporta discos SAS y SATA con velocidad de transferencia de hasta 3 Gbps.
Fabricada en aluminio plateado con frontal embellecedor de metracrilato negro.
Dispone de 4 ventiladores internos de 60x60x15 mm.
Bahías removibles con llaves independientes de seguridad.
LEDs indicadores de alimentación y actividad para cada HDD removible.
Controles de entorno para alimentación, ventiladores y temperatura con LEDs indicadores de estado.
Dispone de dos conectores 4X Infiniband (multi-línea) en la parte trasera (2 x 4 HDD cada uno).
Velocidad de transferencia SAS de 3.0 Gbps y SATA de 1.5/3.0 Gbps.
Hot-Swap o cambio en caliente de discos duros.
Tamaño: 23.2 x 15.7 x 31.0 cm.
Fuente de alimentación interna de 300W.
Servidores:
Marca ACER
Modelos AB 7000 F1
El chasis AB7000 presenta la más rápida solución InfiniBand™ de la industria de blades con hasta 2 módulos de conmutación InfiniBand™ de transferencia cuádruple de datos (QDR) de 40GB y conexión directa además de 2 conmutadores Ethernet Gigabit L2/L3 de conexión directa con puertos de conexión ascendente para permitir un rápido funcionamiento en red y flexibilidad de conexión.
Almacenamiento:Estos sistemas suelen tener un sistema de almacenamiento compartido. Además de los sistemas de almacenamiento RAID tradicionales como los sistemas SAN o NAS, NAS Infiniband,SAN IP (iSCSI), existen soluciones de almacenamiento paralelizado orientado a objetos, orientado a clusters de Superconmutación orientado a objetos del fabricante Panasas.Este almacenamiento se caracteriza por tener múltiples controladoras trabajando en paralelo para conseguir hasta 600MB/s de tasa de transferencia en sostenido por puertos Infiniband.
Hay que destacar que con las redes de baja latencia y un sistema de almacenamiento cluster de Panasas se pueden conseguir mejoras del rendimiento hasta en 37 veces trabajando en aplicaciones como Fluent.
Cables:
Amphenol 4X DDR InfiniBand Cable w/ Fujitsu InfiniBand Connectors (SFF-8470 Latch)
Características del producto:
8 m (26 pies) de cable con DDR InfiniBand SFF-8470 Style conectores LATCH
VENTA de alta velocidad: 10% de descuento al pagar con descuento 10GSALE
Drop-In de reemplazo garantizado para todos los cables InfiniBand en competencia
24 AWG Amphenol Spectra-Strip ™ SKEWCLEAR InfiniBand nominal del cable
Diecast cuerpo de metal Micro GigaCN conectores para la integridad mecánica
Alambres 8-diferencial apareados para aplicaciones de alta velocidad de señales diferenciales
4X InfiniBand DDR nominal de hasta 20 Gigabits por segundo velocidades de datos
Interferencias de baja
Baja en par y par a par sesgo
Baja pérdida de inserción
Latch diseño para un fácil acceso para separar producto de sistema
Los componentes están listados por UL
Compatible con RoHS
Mini-SAS 36p a InfiniBand 4X (SFF-8087 a SFF-8470)
Cable SAS basado en conector Mini-SAS de 36-pin macho en un extremo (SFF-8087) y conector InfiniBand 4X en el otro extremo (SFF-8470). Cable multi-línea que tiene la función de conectar sistemas de almacenamiento SAS.
Cable SAS 4X InfiniBand a SAS 32p (SFF-8470 a 4xS8482+Molex)
Cable SATA2 multi-canal con conector 4X InifiniBand Macho con tornillos de fijación tipo "T" en un extremo (SFF-8470). El otro extremo se multiplica por 4 cables terminados en conectores de datos (receptáculo de 29-pin SFF-8482) y alimentación (Molex 4Pin) que se conectan a 4 discos duros SAS. Este cable tiene la función de interconectar sistemas de almacenamiento SATA2 y permite la transmisión de hasta 4 canales de datos a una velocidad de 3Gb/s por canal. Los conectors 4X InfiniBand son de 39 pin y metálicos de gran resistencia y calidad.
Ventajas/Desventajas:
Ventajas:
Mejora del rendimiento
Permite la aplicación y la aceleración de almacenamiento a través de RDMA.
InfiniBand se basa en RDMA, un paradigma de transmisión de mensajes. El servicio RDMA transmite los mensajes por la red, entre procesadores. Los mensajes se transmiten directamente entre ubicaciones de memoria registradas, sin copiado de datos o intervención del sistema operativo.
Proporciona una máxima utilización de los enlaces en la red WAN con un reparto justo de los recursos entre aplicaciones
Amplía la capacidad existente del enlace WAN y descarga a la CPU para el procesamiento de la solicitud (el ahorro en hardware de procesamiento y ancho de banda de la red)
InfiniBand ofrece baja sobrecarga de la CPU y una latencia extremadamente baja. Puede suministrar un rendimiento de hasta 20 Gbit. Puede ser más económico que el Canal de fibra.
Interoperabilidad de la aplicación transparente con las aplicaciones existentes y nuevas y soluciones de almacenamiento.
Almacenamiento acelerado:
Un clúster unificado InfiniBand para procesos informáticos y de almacenamiento logra ventajas significativas de costo y rendimiento en comparación con redes de varias estructuras. Los protocolos estándar y de bloqueo de acceso a los archivos que utilizan RDMA, InfiniBand dan lugar a un acceso de almacenamiento de alto rendimiento. El encapsulamiento de la trama del canal de fibra sobre las descargas de hardware de InfiniBand (FCoIB) permite una conectividad simple a las redes de área de almacenamiento (SAN) del canal de fibra.
Desventajas:
Solamente cubre distancias cortas (15 metros) a menos que invierta en extensores IB de largo alcance y disponga de conectividad de fibra o de WAN de alto nivel.
También podría encontrar soporte limitado para ciertas aplicaciones o hardware.
InfiniBand vs Ethernet :
Los sistemas de Supercomputación no escalan linealmente en función del número de servidores, por lo que en ciertas situaciones es más importante mejorar la red que aumentar el número de nodos en vistas a aumentar el rendimiento como se puede apreciar en esta gráfica.
Es entonces cuando el uso de redes InfiniBand es de vital importancia para la escalabilidad de Cluster HPC
En la actualidad InfiniBand se ha impuesto como la red de baja latencia por excelencia.
Utilizando equipamiento de 4ª generación InfiniBand de Mellanox podemos conseguir la red más eficiente que hay a día de hoy para cluster HPC, destacando por una latencia de 1,2us y un ancho de banda de 56Gb/s con soporte para RDMA. Comparativa entre redes de baja latencia InfiniBand y 10GE.
Anexos
http://www.intel.la
http://www.mellanox.com/
http://www.acer.com
www.hp.com/
http://www.dell.com/
http://www.appro.com/
http://www.ibm.com/us/en/
Autor:
Emiliano Martínez
May 28, 2012