Tecnología de procesamiento en memoria de Samsung en Hot Chips 2023

Blog

HogarHogar / Blog / Tecnología de procesamiento en memoria de Samsung en Hot Chips 2023

Jun 07, 2023

Tecnología de procesamiento en memoria de Samsung en Hot Chips 2023

En Hot Chips 2023 (35), Samsung vuelve a hablar de su procesamiento en memoria (PIM) con nuevas investigaciones y un nuevo giro. Hemos cubierto esto anteriormente, por ejemplo en nuestro Hot Chips 33 Samsung

En Hot Chips 2023 (35), Samsung vuelve a hablar de su procesamiento en memoria (PIM) con nuevas investigaciones y un nuevo giro. Hemos cubierto esto anteriormente, por ejemplo en nuestros Hot Chips 33 Samsung HBM2-PIM y Aquabolt-XL. Ahora, Samsung está demostrando esto en el contexto de la IA.

Dado que esto se realizará en vivo desde el auditorio, disculpe los errores tipográficos. Hot Chips tiene un ritmo loco.

Uno de los mayores costos en informática es mover datos desde diferentes ubicaciones de almacenamiento y memoria a los motores informáticos reales.

Actualmente, las empresas intentan agregar más carriles o canales para diferentes tipos de memoria. Eso tiene sus límites.

Samsung está discutiendo CXL. CXL ayuda porque permite cosas como reutilizar cables para PCIe para proporcionar más ancho de banda de memoria. Hablaremos más sobre los dispositivos CXL Type-3 en el futuro sobre STH y los hemos cubierto varias veces.

Samsung está discutiendo los cuellos de botella de GPT.

Samsung ha perfilado las cargas de trabajo vinculadas a la memoria y a la computación de GPT.

Aquí hay un poco más sobre el trabajo de creación de perfiles en términos de utilización y tiempo de ejecución.

Samsung muestra cómo se pueden descargar partes del proceso de cómputo a módulos de procesamiento en memoria (PIM).

Realizar el procesamiento en el módulo de memoria, en lugar del acelerador, ahorra movimiento de datos, lo que reduce el consumo de energía y los costos de interconexión.

Mientras SK hynix hablaba de GDDR6 para su solución, Samsung muestra su memoria de gran ancho de banda HBM-PIM. Vamos a mostrar HBM en CPU Intel Xeon MAX durante la próxima semana en STH, pero eso no utiliza este nuevo tipo de memoria.

Aparentemente, Samsung y AMD tenían MI100 con HBM-PIM en lugar de solo PIM estándar para poder construir un clúster que pudiera tener lo que suena como un clúster de 12 nodos y 8 aceleradores para probar la nueva memoria.

Así es como el modelo T5-MoE utiliza HBM-PIM en el clúster.

Aquí están las ganancias de rendimiento y eficiencia energética.

Una gran parte de esto también es cómo hacer que los módulos PIM realicen un trabajo útil. Eso requiere trabajo de software para programar y utilizar los módulos PIM.

Samsung espera incorporar estos módulos de programación estándar.

Aquí está el OneMCC para el futuro estado de computación acoplada a memoria, pero esto suena como un estado futuro, más que actual.

Parece que Samsung está mostrando no sólo el HBM-PIM, sino también un LPDDR-PIM. Como ocurre con todo hoy en día, necesita una etiqueta de IA generativa.

Este parece ser más un concepto que el HBM-PIM que se utiliza en los AMD MI100 en un clúster.

Este LPDDR-PIM tiene solo 102,4 GB/s de ancho de banda interno, pero la idea es que mantener la computación en el módulo de memoria significa menos energía al no tener que transmitir los datos a la CPU o xPU.

Aquí está la arquitectura con los bancos PIM y DRAM en el módulo.

Así es como se ve el análisis de rendimiento y potencia en los posibles módulos LP5-PIM.

Si HBM-PIM y LPDDR-PIM no fueran suficientes, Samsung está considerando incluir computación en módulos CXL en el PNM-CXL.

La idea aquí es no sólo poner memoria en los módulos CXL Tipo-3. En cambio, Samsung propone poner computación en el módulo CXL. Esto se puede hacer agregando un elemento de cómputo al módulo CXL y usando memoria estándar o usando PIM en los módulos y un controlador CXL más estándar.

Por supuesto, tenemos nuestra demostración de cómo esto ayuda a la IA generativa con el lado GPT.

Samsung tiene un concepto de tarjeta CXL-PNM de 512 GB con hasta 1,1 TB/s de ancho de banda.

Aquí está la pila de software CXL-PNM propuesta por Samsung.

Estos son los ahorros de energía y el rendimiento esperados para cargas de trabajo de LLM a gran escala. CXL suele pasar por cables que también se utilizan para PCIe, por lo que los costes de energía para la transmisión de datos son muy elevados. Como resultado, se obtienen grandes beneficios al poder evitar esa transferencia de datos.

Samsung también se centra en la reducción de emisiones como resultado de lo anterior.

Google dio hoy una gran charla sobre las emisiones de CO2 en la informática de IA. Planeamos cubrir eso más adelante esta semana en STH.

Samsung ha estado impulsando PIM durante años, pero PIM/PNM parece estar pasando de ser un concepto puramente de investigación a una empresa que realmente busca convertirlo en un producto. Con suerte, podremos ver más de esto en el futuro. El CXL-PNM podría terminar siendo un área propicia para este tipo de computación.