Medición de Microprocesadores y Desafíos de la Confiabilidad

Editor Invitado • Cecilia Metra, University of Bologna • Diciembre 2013

International readers, read this article
in English • in Chinese
Translated by Osvaldo Perez and Tiejun Huang

abstract microprocessorEl escalado en la miniaturización de la tecnología de microelectrónica según la Ley de Moore nos permite continuar incrementando la complejidad y el desempeño, abriendo el camino para aplicaciones novedosas que fueran inimaginables solo algunos años antes. Sin embargo, esta misma característica de achicamiento impone nuevos desafíos para las mediciones y la confiabilidad de los microprocesadores de alto desempeño. El tema del mes de Diciembre de Computing Now examina algunos de estos desafíos, así como algunos encuadres para poder resolverlos.

Desafíos en una Nueva Era.

La característica de achicamiento de tamaño incrementa la probabilidad de defectos y de variaciones paramétricas en el proceso de fabricación, lo cual impone nuevos desafíos para las pruebas. Las técnicas de pruebas tradicionales tales como las de burn-in se están convirtiendo en extremadamente difíciles debido a las limitaciones de potencia y tensión, y pronto se transformarán en ineficaces e inconfiables. La efectividad limitada del burn-in en la activación de fallos que son probables que ocurran durante el primer año de la operación del circuito, junto con el escalado en la aislación de las compuertas de transistores, están haciendo que el problema del envejecimiento sea más probable de afectar a la operación del circuito, comprometiendo posiblemente la operación correcta y consecuentemente, aumentando los riesgos de confiabilidad. La inestabilidad por polarización de temperatura negativa, (NBTI), en particular, se transforma en un problema mayor . La NBTI está caracterizada por un desplazamiento positivo en el valor absoluto del voltaje de retención del transistor pMOS (Semiconductor con canal p de óxido metálico), mayormente debido a la creación de una zona de interface de carga positiva cuando el transistor se polariza fuertemente en inversa. Como resultado, el desempeño del circuito se degrada, con la posible consecuencia de una operación incorrecta del circuito en funcionamiento.

Además la característica de reducción de tamaño junto con la alimentación reducida de tensiones de potencia y márgenes de ruidos, hacen que los circuitos integrados sean más vulnerables a fallos inducidos por el medio ambiente, tales como transitorios, fallos debidos al efecto de partículas, (por ejemplo partículas Alfa y neutrones). Cuando los fallos debidos a los transitorios afectan a los elementos de muestra o se propagan hasta la entrada de los elementos de muestra y quedan como referencia se puede generar una salida lógica errónea, la cual generalmente se refiere como uno error blando.

Adicionalmente, la complejidad creciente del sistema junto con la barrera de conducción decreciente del transistor hace que el consumo de potencia, y consecuentemente la gestión de potencia en operación se transforme en un aspecto crítico. El ruido de la fuente de potencia se transforma en altamente probable, y se transforma en un desafío para identificar el valor mínimo de tensión de potencia de alimentación que le permitirá al sistema operar correctamente, (sin riesgos de confiabilidad), con un consumo de potencia limitado. Aunque se han desarrollado algunos enfoques en los últimos 50 años para garantizar una medición exitosa y una operación confiable de los circuitos integrados para aplicaciones de misión crítica en áreas como la espacial, militar, automovilística, médica y bancaria, con la problemática de que una aplicación directa de ales enfoques resulta no confiable para tales tipos de aplicaciones en las cuales el costo es un factor importante. Enfoques innovadores con bajo costo en análisis, modelado, medición y diseño son consecuentemente necesarios para encarar los desafíos actuales de mediciones y confiabilidad de los microprocesadores de alto desempeño.

Los Artículos

Los seis artículos del tema de este mes proporcionan una referencia completa de los aspectos teóricos y prácticos de los enfoques innovadores para las mediciones, análisis de confiabilidad y técnicas de mejora para los procesadores de alto desempeño.

Este tema se abre con "Nuevo Enfoque para el Diseño de la capacidad de Medición para la Medición de Fallos de Reloj", un artículo del cual soy coautora con Martin Omaña, T M Mak y Simon Tam. Presenta un enfoque para identificar fallos que pueden ocurrir durante la fabricación afectando la red de distribución de las señales de reloj en los procesadores de alto desempeño y potencialmente comprometiendo la operación confiable en el uso cotidiano. Otros investigadores han mostrado que estrategias de medición convencionales no pueden garantizar la detección de tales fallos, pero hemos encontrado que modificaciones simples en el buffer del reloj convencional en los procesadores de alto desempeño pueden conducir a que los fallos del reloj generen un 'atascamiento del reloj en falla', (haciendo que la señal del reloj quede constantemente en Vdd o en masa), lo cual es simple de identificar con cualquier estrategia de medición convencional. Una propuesta de modificación adicional del buffer del reloj puede habilitar también la calibración después de la fabricación para compensar por variaciones de los parámetros generadas durante la manufactura. El enfoque propuesto es ajustable tanto para buffers de reloj locales o globales, e implica que solo se requiere un incremento pequeño del área y del consumo de potencia, para los buffers de reloj, sin un costo adicional para las mediciones en los microprocesadores de alto desempeño o durante la operación del circuito.

En "Generación Automatizada de marcas de fatiga para la medición de Fluctuaciones de Tensión en Procesadores", Youngtaek Kim y sus colegas analizan el problema de la gestión de potencia durante la operación. El artículo trata el problema de analizar las fluctuaciones de tensión que ocurren durante la operación normal del microprocesador debidas a las variaciones en la corriente que diferentes parte del código consumen. El autor propone un enfoque para generar automáticamente benchmarks adecuados para evaluar a los recientes procesadores multi núcleo x86-64, susceptibles a tales fluctuaciones de tensión.

El siguiente artículo de Charles R Lefurgy y sus colegas propone una solución al problema de la gestión de potencia durante la operación. "Gestión de la Banda de Guarda Activa en Power 7+ para ahorrar energía y mantener la Confiabilidad" presenta un enfoque para ajustar los márgenes de tensiones del procesador para ahorrar energía en los momentos de baja temperatura y períodos de baja actividad, lo cual reduce el consumo de energía mientras garantiza una operación confiable, (sin restringir el desempeño), durante los períodos de alta actividad. Para seguir las necesidades de cargas de trabajo, ajusta los márgenes de tensión, que usualmente se adoptan para compensar primariamente por los cambios de temperatura y tensión resultantes por las diferentes cargas de trabajo así como las variables tales como las inexactitudes de medición y el envejecimiento. El autor ha verificado su enfoque propuesto n un sistema prototipo con los chips Power 7 y Power 7+, (las referencias apropiadas se encuentran en la Ponencia), mostrando la adopción exitosa para una operación eficiente de la energía.

El artículo "Estimación Estadística de la Confiabilidad en Sistemas basados en Microprocesador" de Alessandro Savino y sus colegas, analiza el problema de la estimación de la confiabilidad en los sistemas basados en microprocesador contra los errores blandos. El artículo propone un enfoque probabilístico para evaluar la confiabilidad de los microprocesadores en tanto están corriendo una determinada carga de trabajo. El autor inicia por la caracterización del microprocesador en función de su probabilidad de éxito al ejecutar cada instrucción según la arquitectura del juego de instrucciones y luego completa un rápido análisis para evaluar la probabilidad de éxito de una ejecución exitosa en el caso de errores bandos. Han evaluado este enfoque en los microprocesadores Intel 8088 y en el OpenRISC1200.

En "Análisis de Errores enmascarados y Recuperación de Propiedades en Circuitos Secuenciales", Jinghang Liang, Jie Han y Fabrizio Lombardi tratan el problema de posibles errores enmascarados en circuitos secuenciales complejos, lo cual hace referencia al efecto de enmascaramiento lógico impuesto en las señales de realimentación por combinaciones específicas de las entradas primarias podría potencialmente eliminar los efectos acumulativos de tales errores. El autor utiliza matrices de transición de estado y diagramas de decisiones binarias en un modelo de máquina de estados finito para analizar en forma extensiva los errores de enmascaramiento. Han validado el enfoque propuesto por medio de simulación desarrollada en circuitos secuenciales de referencia, lo cual muestra características atractivas que aunque están más allá del alcance de este artículo, pueden ser desarrolladas para mejorar una operación confiable de los circuitos secuenciales.

Finalmente Martin Omaña y sus colegas tratan el problema del monitoreo NBTI y lo resguardan de cualquier compromiso con la correcta operación del sistema en "Detección de Bajo Costo de la Degradación del NBTI y Enfoques de Enmascaramiento" El articulo propone dos enfoques de monitoreo para detectar transiciones tardías (debidas al NBTI) de señales que temporizan caminos de datos críticos, así como dos técnicas para evitar que tales transiciones tardías resulten en muestra de datos erróneas en los multivibradores al final de tales caminos de datos. El mensaje de alarma activa una fase de adaptación de la frecuencia del reloj para evitar la generación de datos incorrectos en las salidas temporizadas de tales caminos de datos. Este enfoque requiere un área pequeña y consumo de potencia pequeño, (o comparable), al de los enfoques alternativos previos y manteniendo el mismo impacto en el desempeño. El otro enfoque propuesto denominado como de Alta Prestación (HP), consta de un circuito de monitoreo que puede sobre escribir los datos incorrectos producidos en las salidas temporizadas de los caminos críticos. Este enfoque HP reduce el impacto sobre el desempeño del sistema comparado con las alternativas previas, con el costo de incrementar un poco el área y el consumo de potencia.

Perspectiva Futura

El tema de esta mes también incluye los videos siguientes, los cuales proveen una visión técnica profunda de los aspectos tratados generados por tres expertos de la Industria, (en orden alfabético).

  • Rob Aitken, de ARM;
  • Erik Altman, de IBM; and
  • Bill Eklow, de Cisco.

Confiamos que esta edición de Computing Now sirva como un recurso para remarcar los desafíos principales en la medición y confiabilidad de los microprocesadores y estimule una investigación más profunda de este campo.

Citation

C. Metra, "Microprocessor Test and Reliability Challenges," Computing Now, vol. 6, no. 12, Dec. 2013, IEEE Computer Society [online]; http://www.computer.org/portal/web/computingnow/archive/december2013.

Cecilia MetraCecilia Metra Es la Editora en Jefe de Computing Now. Es Profesora de tiempo completo de Electrónica en la Universidad de Bologna, Italia, donde trabaja desde 1991, y donde ha recibido su Doctorado en Electrónica y Ciencias de la Computación. Es miembro de la Junta de Gobierno de la IEEE Computer Society para el período 2013-2015 y Vicepresidente del Comité de Actividades Técnicas y Conferencias de la IEEE Computer Society para 2014. Fue Editora en Jefe asociada del IEEE Transactions on Computers. Participa de los comités editoriales de varios journals profesionales y ha estado involucrada en numerosas Conferencias, Simposios y Workshops patrocinados por el IEEE, participando como Directora General o de Programa y como Sub Directora, en 14 oportunidades, y como Directora de Tema en 28 oportunidades, y como Miembro del Comité Técnico en 74 oportunidades. En 2002 fue consultora visitante para Intel en EEUU. Sus intereses de investigación están en el campo del diseño y prueba de sistemas digitales, diseño de sistemas confiables y resilentes a los errores, tolerancia a fallos, pruebas en línea, modelado de fallos, diagnósticos y depuración, tecnologías emergentes y nanocomputación, sistemas seguros, sistemas de cosecha de energía y sistemas fotovoltaicos. Es mimbro senior de la IEEE y Miembro Golden Core de la IEEE Computer Society, de la cual ha recibido dos premios por Servicio Meritorio y dos Certificados de Aprecio. Se la puede contactar por email en: (cecilia.metra@unibo.it) para posibles comentarios sobre el tema de este mes.

Average (0 Votes)