Saltar al contenido

El futuro de las computadoras: los científicos han aprendido cómo incorporar RAM en el procesador

El futuro de las computadoras: los científicos han aprendido cómo incorporar RAM en el procesador

Uno de los mayores problemas en el procesamiento actual es el «muro de memoria», que también es el retraso en la transferencia de datos al procesador desde los chips de memoria DRAM. La creciente popularidad de las aplicaciones de inteligencia artificial solo ha exacerbado este problema, porque las redes neuronales avanzadas que pueden encontrar caras en multitudes, comprender discursos o recomendar productos, rara vez se ajustan a varios megabytes de la memoria caché incorporada del procesador.

En el IEEE International Electron Device Meeting (IEDM) en diciembre, grupos de investigación seleccionados de los Estados Unidos y Bélgica informaron que habían encontrado una salida. La nueva RAM, construida a partir de semiconductores de óxido e incrustada en capas por encima del procesador, es capaz de almacenar bits cientos o miles de veces más que los módulos DRAM comerciales actuales y podría proporcionar un gran ahorro de espacio y energía tanto para PC convencionales como para servidores potentes con redes neuronales avanzadas.

Las celdas DRAM de nuestras computadoras constan de un transistor y un capacitor cada una; este es el llamado diseño 1T1C. Para escribir un bit en una celda, el transistor se enciende y se produce una carga (1) o una descarga (0) del condensador. Para la lectura, la carga se quita y se mide (si corresponde).

Este método es rápido, económico y de bajo consumo, pero tiene algunos inconvenientes. Primero, leer un poco descarga el capacitor, luego leer implica y luego reescribir el bit en la memoria. Además, incluso si no está accediendo a la celda, el condensador aún se descargará a través del transistor. Por lo tanto, todas las celdas deben actualizarse periódicamente para retener datos. En los chips DRAM modernos, esto ocurre cada 64 milisegundos.

Cómo funciona la DRAM.

La incorporación de DRAM en un chip de procesador no es una idea nueva y también tiene sus limitaciones. “El problema con el diseño monolítico del 1T1C siempre ha sido la dificultad de crear transistores y capacitores de dispersión ultrabaja utilizando un proceso diseñado para transistores lógicos. [процессора]»Dice Arijit Raichoudhury, profesor de ingeniería eléctrica e informática en el Instituto de Tecnología de Georgia, que está trabajando en una nueva DRAM integrada.» Es difícil hacer buenos condensadores con los delicados procesos de fabricación utilizados para los circuitos lógicos «.

En cambio, la nueva DRAM integrada consta de solo dos transistores, sin condensadores (2T0C). Este circuito también funciona porque la puerta de un transistor es un condensador natural, aunque pequeño. Por lo tanto, la carga que representa el bit se puede almacenar allí. Este diseño tiene algunos beneficios clave, especialmente para las tareas de IA.

Primero, se utilizan diferentes dispositivos para escribir y leer, explica Raichoudhuri. De esta manera, puede leer los datos de la celda DRAM 2T0C sin destruirlos ni sobrescribirlos. Todo lo que necesita hacer es ver si la corriente fluye a través del transistor cuya puerta contiene la carga. Si hay una carga, el transistor se encenderá y la corriente fluirá. Si no hay carga, no fluirá corriente.

La lectura fácil es especialmente importante para la IA porque las redes neuronales tienden a leer datos al menos tres veces por registro, dijo a los asistentes al IEDM Jorge Gómez, un estudiante graduado de la Universidad de Notre Dame que también estudia el nuevo tipo.


Cómo funciona 2T0C DRAM. El bit se almacena en la capacitancia del transistor derecho y se coloca allí junto al transistor izquierdo. La carga en la puerta del transistor derecho significa que la corriente puede fluir a través de él, lo que permite que los transistores individuales controlen la lectura y la escritura.

Pero el circuito 2T0C no funciona bien con transistores lógicos de silicio, dice Raichoudhury. Cualquier bit se filtrará inmediatamente porque la capacitancia de la puerta del transistor es demasiado pequeña y la pérdida a través de los transistores es demasiado grande. Por lo tanto, los investigadores están recurriendo a dispositivos semiconductores hechos de óxidos amorfos; estos se utilizan, por ejemplo, para impulsar píxeles en algunas pantallas.

Tienen varias cualidades notables. Por ejemplo, pueden pasar una gran corriente, lo que acelera la escritura, y cuando se apagan, la pérdida de carga es muy baja, lo que aumenta la vida útil de los bits. El equipo estadounidense utilizó óxido de indio dopado con tungsteno al 1% como semiconductor.

Según Raichoudhury, la corriente de encendido de dicho semiconductor es «una de las mejores para transistores de óxido». “Esto le brinda suficientes velocidades de lectura y escritura para realizar operaciones lógicas. Al mismo tiempo, las corrientes de enfriamiento son realmente pequeñas … de dos a tres órdenes de magnitud más pequeñas que las del silicio «. De hecho, el equipo tuvo que crear una versión ultra ancha del chip para medir de alguna manera la dispersión de la corriente. .

Igualmente importante, tales óxidos pueden procesarse a temperaturas relativamente bajas. Esto significa que la DRAM producida por ellos puede incorporarse en las capas de interconexión en la parte superior del silicio del procesador, sin dañar los circuitos de procesamiento subyacentes. Esta disposición de las celdas de memoria proporciona un acceso directo rápido a la CPU con un gran ancho de banda, lo que destruye efectivamente la pared de la memoria.


Por supuesto, la mayoría de las CPU modernas tienen memoria incorporada (caché), pero sus volúmenes rara vez superan las decenas de megabytes. Y los gigabytes de RAM suelen estar muy lejos.

Al simular tres redes neuronales comunes, el equipo comparó versiones de una, cuatro y ocho capas de su tecnología con la DRAM 1T1C de 22 nm integrada en los procesadores IBM Power8. Debido a que la gestión de la DRAM 2T0C integrada requiere una fracción de la potencia de procesamiento del procesador, el uso de una sola capa de memoria nueva no ofrece una ventaja en términos del área de chip requerida para almacenar todos los datos en la red neuronal. Pero la DRAM 2T0C de 4 capas redujo el área de chip requerida para la memoria incorporada en aproximadamente 3,5 veces y la memoria de 8 capas en 7,3 veces.

Del mismo modo, la DRAM 2T0C incorporada mostró una ventaja de rendimiento sobre la DRAM 1T1C incorporada cuando se utilizó más de una capa. Por ejemplo, con un milímetro cuadrado de cuatro u ocho capas de la nueva DRAM integrada, la red neuronal ResNet-110 nunca tuvo que ir más allá del chip para almacenar datos. Este es un enorme potencial de ahorro de tiempo y energía en comparación con el diseño 1T1C, porque incluso en el caso del Power8 de gama alta con 96 MB de caché L3, la misma red neuronal almacena datos del chip (en la RAM «lenta» normal) aproximadamente 70 % del tiempo.

Investigadores de la empresa belga Imec presentaron una memoria integrada 2T0C similar en un IEDM que utiliza óxidos de indio, galio y zinc como semiconductor (el llamado semiconductor IGZO, que a menudo se encuentra en matrices LCD y OLED). Esto reduce potencialmente los costos de fabricación, pero el investigador principal de Imec, Attilio Belmonte, señaló que IGZO debe recocerse en presencia de oxígeno para «curar» los defectos del material causados ​​por las vacantes de oxígeno («huecos»). Esto conduce a una disminución en la cantidad de electrones libres en los semiconductores IGZO, que contribuyen al flujo de corriente, pero sin esto, los dispositivos creados no funcionan como interruptores.

La necesidad de esta «pasivación de oxígeno» tiene varias consecuencias negativas para el diseño de los dispositivos IGZO DRAM, incluida la elección y ubicación de los dieléctricos involucrados. En un dispositivo optimizado desarrollado por Imec, la capa de memoria IGZO se coloca encima de la capa de dióxido de silicio y se recubre con óxido de aluminio. Esta combinación funciona particularmente bien para controlar las fugas que agotan la celda.


Principio de funcionamiento IGZO DRAM.

Como resultado, las nuevas celdas de memoria 2T0C creadas por Imec almacenaron datos durante 200 segundos en promedio, y el 25% de las celdas mantuvieron sus bits durante más de 400 segundos, lo que es miles de veces más que el tiempo de almacenamiento de la información en las Células DRAM. En una investigación posterior, el equipo de Imec espera utilizar una fase IGZO diferente para aumentar el tiempo de retención de bits a 100 horas.

Este tiempo de almacenamiento coloca a IGZO en el ámbito de la memoria no volátil, como la RAM resistiva y magnética (PRAM y MRAM). Muchos grupos de investigación se están centrando en el uso de estos tipos de memoria integrada para acelerar las actividades de IA. Sin embargo, Raichoudhuri dice que la DRAM integrada 2T0C tiene una ventaja sobre ellos.

Según él, PRAM y MRAM requieren mucha corriente para escribir, y por el momento esta corriente debe provenir de los transistores en el propio procesador, lo que complica el circuito y aumenta su tamaño. Para empeorar las cosas, es probable que estos tipos de memoria cambien más lentamente que la DRAM. «Cualquier cosa basada en el cargo será normalmente más rápida, al menos para el proceso de registro», dice. La precisión con la que la DRAM 2T0C será más rápida la sabremos solo con el lanzamiento de procesadores con dicha memoria. Y ese momento se acerca, dice Raichoudhuri.