sábado, 13 de agosto de 2011

CPU - Más de un núcleo

Un sistema tradicional de doble procesador contiene dos procesadores físicamente separados en una misma mother, es decir que cada uno reside en su propio socket. Un sistema de procesador dual puede considerarse como un subconjunto de un gran sistema de multiprocesador simétrico (SMP). Un sistema operativo multiprocesador puede administrar dos procesos separados o dos hilos1 dentro de un mismo proceso para que se ejecuten simultáneamente en esos procesadores separados.

Hyper Threading

HyperThreading Technology (HT Technology) es una marca registrada de la empresa Intel para nombrar su implementación de la tecnología Multithreading Simultáneo también conocido como SMT. Permite a los programas preparados para ejecutar múltiples hilos (multi-threaded) procesarlos en paralelo dentro de un único procesador, incrementando el uso de las unidades de ejecución del procesador. Esta tecnología consiste en simular dos procesadores lógicos dentro de un único procesador físico.

El resultado es una mejoría en el rendimiento del procesador, puesto que al simular dos procesadores se pueden aprovechar mejor las unidades de cálculo manteniéndolas ocupadas durante un porcentaje mayor de tiempo. Esto conlleva una mejora en la velocid ad de las aplicaciones que según Intel es aproximadamente de un 30%.

Esta tecnología es invisible para el sistema operativo y los programas. Todo lo que se requiere para aprovechar Hyper-Threading es multiprocesamiento simétrico (SMP) con apoyo del sistema operativo. Al simular procesadores lógicos diferentes aparecen en el sistema como dos procesadores separados. Cada proceso mantiene su estado separado del otro, pero las cache, registros y unidades de ejecución se comparten. El microprocesador Pentium 4 fue el primero en incorporar en su arquitectura esta tecnología.

 Es posible tener un sistema de doble procesador donde cada uno incorpore HT, con lo cual se podrían ejecutar 4 procesos o hilos simultáneamente. Esta capacidad hoy día es moneda corriente en los procesadores Intel.

viernes, 12 de agosto de 2011

CPU - Direct Media Interface

Respecto al bus DMI (Direct Media Interface) podemos decir que se utiliza desde el 2004 como medio de comunicación entre los chipset NB y SB, es una conexión similar al PCIe (punto a puto y de 4 canales). El diagrama de bloques de más abajo ilustra la ubicación de este bus.


AMD ha ido más allá con esta tecnología y la ha utilizado para la comunicación entre procesadores desde la versión de su Opteron 2xx para hacer uso del multiprocesamiento con dos procesadores.


En la siguiente imagen se puede observar un AMD Opteron 8xx, con 8 procesadores. El enfoque del multiprocesamiento de AMD es bastante interesante, aquí cada procesador tiene su propio controlador de memoria. Por ejemplo en un Quad-Opteron con 4GB de memoria principal, cada micro tiene una memoria de ¡GB para él solo. En un sistema Xeon, los 4GB se comparten entre todos los micros.

Pero la cantidad de micros a colocar dependerá del número de sockets que haya en la mother. Las conexiones entre los procesadores pueden ser variadas y su número también, pues pueden existir 8 procesadores si se quiere.


jueves, 11 de agosto de 2011

CPU - Buses del procesador (segunda parte)

Intel por su parte ha desarrollado para su nuevo Core i7 la tecnología QPI (QuickPath Interconnect) que es una conexión punto a punto que viene a competir con el HyperTransport de AMD.

Tal como el HyperTransport, esta arquitectura asume que el procesador tiene un controlador de memoria integrado, obligando así a los multiprocesadores a usar una arquitectura NUMA (Non-Uniform Memory Architecture) – es un diseño de memoria utilizado en multiprocesadores donde la memoria se accede en posiciones relativas de otro procesador o memoria compartida entre procesadores.

Bajo NUMA, un procesador puede acceder a su propia memoria local de forma más rápida que a la memoria no local (memoria local de otro procesador o memoria compartida entre procesadores). Cada QPI comprime 2 conexiones (una envía y la otra recibe) punto a punto de 20-bit, una para cada dirección, para un total de 42 señales. Cada señal es un par diferencial, formando así un número de 84.

El QuickPath reporta velocidades de 4,8 a 6,4 GT/s (Giga Transferencias por segundo) por segundo por dirección. El ancho de banda va de 12,0 a 16,0 GB/s por dirección, o 24,0 a 32,0 GB/s por conexión. En la siguiente imagen puede verse la ubicación de los buses FSB y QPI y la ubicación del controlador de memoria.

La imagen siguiente muestra la arquitectura Intel con FSB


La imagen siguiente muestra la arquitectura intel con QuickPath Interconnect



miércoles, 10 de agosto de 2011

CPU - Buses del procesador (primera parte)

Todos los procesadores poseen un bus principal o de sistema por el cual se envían y reciben todos los datos, instrucciones y direcciones desde los integrados del chipset o desde el resto de los dispositivos. Como puente de conexión entre el procesador y el resto del sistema, este bus define mucho del rendimiento del sistema, su velocidad se mide en bytes por segundo.

Este bus puede implementarse de distintas maneras, con el uso de buses seriales o paralelos y con distintos tipos de señales eléctricas. La forma más antigua es el bus paralelo en el cual se definen líneas especializadas en datos, direcciones y para control. En la arquitectura tradicional de Intel (usada hasta modelos recientes), ese bus se llama el FSB (Front Side Bus) y es de tipo paralelo con 64 líneas de datos, 32 de direcciones además de múltiples líneas de control que permiten la transmisión de datos entre el procesador y el resto del sistema. Este esquema se ha utilizado desde el primer procesador de la historia, con mejoras en la señalización que le permite funcionar con relojes de 333 Mhz haciendo 4 transferencias por ciclo (1333 MHz como frecuencia nominal).

En algunos procesadores de AMD y en el reciente Intel Core i7 (Nehalem) se han usado distintos tipos de buses pero más bien seriales como bus principal. Entre estos se encuentra el bus HyperTransport que maneja los datos en forma de paquetes usando una cantidad menor de líneas de comunicación, permitiendo frecuencias de funcionamiento más altas, para los micros de AMD. Estas tecnologías seriales surgen por la necesidad de resolver el cuello de botella que genera el sistema FSB para los micros modernos, pues éstos deben esperar uno o más ciclos de reloj hasta que los datos se traigan de la memoria, el FSB siempre fue criticado por AMD. HyperTransport en su versión más reciente 3.1 logra frecuencias de 3,2GHz, con un canal máximo de 32 bits logra tasas de transferencias en cada dirección de 25,6 GB/s.

Los microprocesadores de última generación de Intel y muchos de AMD poseen además un controlador de memoria DDR en el interior del encapsulado lo que hace necesario la implementación de buses de memoria del procesador hacia los módulos. Ese bus esta de acuerdo a los estándares DDR de JEDEC y consisten en líneas de bus paralelo, para datos, direcciones y control. Dependiendo de la cantidad de canales pueden existir de 1 a 3 buses de memoria.


La desventaja de estos modelos es que el rendimiento de la placa de video si se trata de una placa on-board dependerá en gran medida del controlador de video de la mother para acceder a la memoria principal, pues en este modelo debe pasar por el micro y competir con sus transferencias.

Además, puede observarse el diseño utilizado ya por AMD desde sus micros AMD64 donde algunos modelos no utilizan el par de chipset NB y SB. AMD implementa desde el AMD64 el HyperTransport como medio de comunicación entre el chipset NB, que simplemente actúa como un puente entre la placa de video y el micro y el puente sur.

martes, 9 de agosto de 2011

CPU - Reloj Externo

Debido a que la mother estaba limitada en las frecuencias de reloj a utilizar, los fabricantes comenzaron a utilizar los denominados “multiplicadores” de reloj, que comenzaron con el procesador 486DX2.

Bajo este esquema, elcual se utiliza hoy día para todos los micros, el micro tiene un reloj externo, que se utiliza cuando se transfieren datos hacia y desde la memoria principal (usando el chip puente norte), y un reloj interno más alto. Para ver un ejemplo real, los 3,4 GHz de un Pentium 4 se refieren al reloj interno del micro, el cual se obtiene por multiplicar por 17 sus 200 MHz de reloj externo. La siguiente imagen ilustra esta relación:


La gran diferencia entre el reloj interno y el externo en los micros modernos es un gran obstáculo de superar a medida que esta diferencia aumenta. Siguiendo con el ejemplo, este Pentium 4 debe reducir su velocidad 17 veces cuando lee dados desde la memoria principal.

Durante este proceso, él trabaja como si fuese un micro de 200 MHz. Se utilizan diferentes técnicas para minimizar el impacto de esta diferencia de reloj. Una de ellas es el uso de memorias cache dentro del micro. Otra es transferir más de un grupo de datos por ciclo de reloj. Ambos tipos de procesadores, AMD e Intel usan estas características, pero mientras los micros de AMD transfieren dos datos por ciclo, los micros de Intel transfieren cuatro datos por ciclo.


Debido a esto, los micros de AMD se listan como si tuvieran el doble de su reloj externo real. Por ejemplo, un micro AMD de 200 MHz de reloj externo se mostrará como de 400 MHz. Lo mismo sucede con los micros de Intel, uno con 200 MHz de reloj real, se dirá que tiene 800 MHz de reloj externo. Los 200 MHz es la frecuencia del reloj real, pero los 800 MHz para Intel y los 400 MHz para AMD se considera como la frecuencia nominal.

La técnica de transferir dos datos por ciclo se denomina DDR (Double Data Rate), mientras que la técnica de transferir cuatro datos por ciclo se llama QDR (Quad Data Rate).

lunes, 8 de agosto de 2011

CPU - Ciclos de Reloj

El microprocesador se conecta a un circuito, normalmente basado en un cristal de cuarzo, capaz de generar pulsos a un ritmo constante, de modo que genera varios ciclos (o pulsos) en un segundo. Este reloj, en la actualidad, genera miles de MHz. El reloj es la señal utilizada para sincronizar las cosas dentro de una computadora. Todos los tiempos se miden en términos de ciclos. Por ejemplo, una memoria con una latencia de 5, significa que ésta tardará cinco ciclos completos para comenzar a entregar los datos.

Dentro de un micro. Todas las instrucciones demoran un cierto número de ciclos para ejecutarse. Por ejemplo, dada una instrucción puede demorarse siete ciclos para ejecutarse. Sin importar el micro, lo interesante es que el procesador sabe cuántos ciclos tomará cada instrucción (ROM con microcódigo). Así, si éste tiene dos instrucciones a ejecutar y sabe que la primera demorará siete ciclos, éste automáticamente comenzará la ejecución de la próxima instrucción en el octavo ciclo.

Obviamente, esta es una explicación genérica, para un micro con solo una unidad de ejecución, pero hoy día los micros son superescalares. ¿Qué tiene que ver el reloj con la performance? Pensar que el reloj y la performance son la misma cosa es el error conceptual más común sobre procesadores. Si se comparan dos procesadores idénticos, pero uno corriendo a una frecuencia de reloj mayor. En este caso, el de la frecuencia más alta, tendrá u tiempo de ciclo más corto, las instrucciones se ejecutarás en menor tiempo (misma cantidad de ciclos, pero esto llevan menos tiempo), por lo tanto la performance será más alta.

Pero qué hay si los procesadores a comparar son diferentes, no necesariamente el de mayor frecuencia tendrá una performance mejor. Si se toman dos procesadores con diferentes arquitecturas – por ejemplo, dos fabricantes distintos, como Intel y AMD – las cosas dentro del micro son completamente diferentes. Como se mencionó, cada instrucción toma un cierto número de ciclos de reloj para ejecutarse. Se puede decir que el procesador “A” se toma siete ciclos reloj para ejecutar una instrucción dada, y que el procesador “B” toma cinco ciclos en ejecutar la misma instrucción.

Si ambos corren a la misma frecuencia de reloj, el procesador “B” será más rápido, debido a que éste puede procesar la instrucción en menos tiempo. Para los micros modernos hay más cosas en juego para mejorar la performance, como procesadores con diferentes unidades de ejecución, diferentes tamaños de cache, diferentes formas de transferir datos dentro del micro, diferentes maneras de procesar las instrucciones dentro de las unidades de ejecución, diferentes frecuencias de reloj para el mundo exterior, etc… A medida que la frecuencia del reloj se tornan más altas, surge un problema.

La mother donde se aloja el micro no podría trabajar utilizando la misma frecuencia de trabajo que el micro. Si se mira una mother, se podrán observar varias pistas o caminos. Esas pistas son cables que conectan varios circuitos de la computadora. El problema es que con frecuencias muy altas, esos cables comienzan a comportarse como “antenas”, así las señales, en lugar de llegar al otro extremo del cable podrían simplemente desvanecerse, ya que se transmitirían como señales de radio.

domingo, 7 de agosto de 2011

CPU - Computación Superescalar Pipeline

En micros modernos pueden encontrase más de una unidad de ejecución trabajando en paralelo. Esto incrementa la performance del micro. Por ejemplo, un procesador con 6 unidades de ejecución podría ejecutar seis instrucciones al mismo tiempo, es decir, en paralelo. Esto, en teoría, daría una performance similar a seis procesadores con una unidad de ejecución. Este tipo de arquitectura se denomina arquitectura superescalar.

Normalmente los procesadores no cuentan con varias unidades de ejecución idénticas; éstos tienen unidades especializadas en un tipo de instrucción. El mejor ejemplo es la unidad de punto flotante FU, la cual se encarga de ejecutar instrucciones matemáticas complejas. Normalmente entre la unidad de decode y de execution hay una unidad denominada Dispatch o Schedule (Planificador) encargada de enviar la instrucción a la unida de ejecución correcta, es decir, si la instrucción es del tipo matemática la enviará a la FPU y sino a una unidad de ejecución “genérica”. Normalmente, con “genérica” se entiende a las unidades denominadas ALU, Arithmetic and Logic Unit.

Otra característica interesante que los procesadores tienen desde hace mucho tiempo es la denominada pipeline, que es la capacidad de tener varias instrucciones diferentes en diferentes etapas del micro al mismo tiempo.

Luego de que la unidad de fetch envía la instrucción al decode, quedará libre, ¿cierto? Entonces, ¿por qué en lugar de no hacer nada, poner la unidad de fetch a cargar la próxima instrucción a ejecutar? Cuando la primer instrucción va a la unidad de ejecución, el fetch puede enviar la segunda al decode y cargar la tercera, y así sucesivamente.

En un micro con un pipeline de 11 etapas (etapa es otro nombre para cada unidad del micro), éste tendrá probablemente 11 instrucciones dentro al mismo tiempo casoi todo el tiempo. De hecho, siendo que todos los micros modernos tienen una arquitectura superescalar, el número de instrucciones simultáneamente dentro del micro será aún más alto. Por ejemplo una instrucción puede ir a la ALU y la próxima a la FPU por lo tanto el decode no debe esperar a que la unidad de ejecución se libere, pues se trata de dos unidades de ejecución diferentes.

A modo de ejemplo se ilustra cómo sería la ejecución de dos instrucciones sin pipeline (arriba) y con pipeline (abajo) de 4 etapas.



Además, para un micro con un pipeline de 11 etapas, una instrucción será ejecutada por completo una vez halla pasado por sus 11 unidades. A mayor número de etapas, mayor tiempo demorará una instrucción a ser ejecutada. Por otro lado, se debe tener presente que debido a este concepto varias instrucciones pueden correr dentro del micro al mismo tiempo. La primera instrucción raída por el fetch puede demorar 1 etapas en salir, per una vez que ésta sale, la segunda instrucción saldrá inmediatamente después (y no 11 etapas más tarde).