CPU-Architektur erklärt
Technologie der Intel-Core-Prozessoren Sandy- und Ivy-Bridge
Moderne x86-Prozessoren bieten eine hohe Leistung bei minimaler Leistungsaufnahme. Wir erklären, mit welchen Tricks Intel diesen Spagat bei den Core-Prozessoren der Sandy- und Ivy-Bridge-Generation schafft.

Bei der Entwicklung neuer Prozessoren folgt Intel seit 2007 der Tick-Tock-Strategie: Ein neuer Fertigungsprozess mit kleineren Strukturen (Tick) und eine neue Prozessorarchitektur (Tock) wechseln sich ab. Der 2008 eingeführte 45-Nanometer-Core-i7 (Nehalem) war die letzte neue Architektur, gefolgt von einem Wechsel auf 32 Nanometer mit Westmere im vergangenen Jahr.
Mit der 32-Nanometer-CPU Sandy Bridge war 2011 wieder eine neue Architektur an der Reihe. In einigen Teilen ist die Sandy-Bridge-Architektur eine Weiterentwicklung von Nehalem, andere Elemente erinnern an den Pentium 4, wieder andere sind komplett neu.
Die wichtigste Neuerung war die integrierte Grafikeinheit. Der Vorgänger Westmere bestand noch aus zwei über QPI verbundenen Chips auf einem gemeinsamen Prozessorgehäuse: dem eigentlichen 32-nm-Core und einem 45-nm-Chip, der den Speichercontroller und die Grafikeinheit enthält.
Sandy Bridge: CPU mit Kreisverkehr

Bei Sandy Bridge bilden die Prozessorkerne und die GPU eine Einheit. Der Speichercontroller und der Displaycontroller sind bei Sandy Bridge Bestandteile des so genannten System Agents. Die Verbindung zwischen den bis zu vier Kernen, dem segmentierten Last-Level-Cache und dem System Agent stellt ein Bus her, der aus vier Ringen (Request, Snoop, Acknowledge und Data) besteht und mit Core-Taktfrequenz operiert.
Der Ring-Bus erlaubt nicht nur einen schnelleren Datenaustausch zwischen den Kernen und der GPU, sondern ein leichteres Redesign als die bisher übliche Crossbar-Verbindung, etwa für das Hinzufügen zusätzlicher Kerne. Einen ähnlichen ringförmigen Bus hat Intel bereits bei den Server-Prozessoren Nehalem-EX und Westmere-EX sowie beim Grafikchip Larrabee eingesetzt, der allerdings nie Serienreife erlangte. Auch beim in der Sony PS3 eingesetzten Cell-Prozessor kommunizieren die einzelnen Kerne über ein Ring-Interface.
Der Last-Level-Cache, aus Sicht der CPU-Kerne ein Level-3-Cache, ist bei Sandy Bridge je nach Modell bis zu 8 MByte groß. Im Gegensatz zu Nehalem oder Westmere arbeitet er mit der vollen Taktfrequenz der Prozessorkerne. Die einzelnen Segmente des LLC sind den einzelnen Kernen zugeordnet, können aber von allen CPU-Cores und der GPU adressiert werden.
Cleverer Cache und Advanced Vector Extensions

Der Ring-Bus bringt mehr Flexibilität für Intel, er allein macht den Prozessor aber nicht schneller. Dafür sind andere Architekturmerkmale bei Sandy Bridge verantwortlich. Eine Neuheit ist der Uop-Cache. Alle Intel-P6-Prozessoren seit dem Pentium Pro verarbeiten intern keine komplexen IA-32-Instruktionen, sondern einfache dekodierte Micro-Operations (Uops), die auf die verschiedenen Ausführungseinheiten verteilt werden und dort auch außer der Reihe verarbeitet werden können (out-of-order-execution).
Das Problem dabei ist, das Dekodieren so schnell zu erledigen, dass die Pipeline des Prozessors immer gefüllt bleibt, auch für moderne Prozessoren keine leichte Aufgabe. Daher hat Intel bei Sandy Bridge einen eigenen Cache für Uops implementiert. Intel geht dabei von einer Trefferrate von 80 Prozent aus, da bei Sandy Bridge zusätzlich auch noch die Sprungvorhersage verbessert wurde. Das Frontend mit den leistungshungrigen Decoder-Einheiten kann also die längste Zeit in Schlaf versetzt werden.
Der Uop-Cache erinnert auf den ersten Blick an den Trace-Cache des Pentium 4, der ebenfalls als Zwischenspeicher für decodierte Uops gedient hat. Allerdings hat der Trace-Cache bei der Netburst-Architektur den herkömmlichen L1-Instruktions-Cache komplett ersetzt. Bei einem Cache-Miss musste ein unterdimensioniertes Frontend die IA32-Instruktionen decodieren.

Das brachte den Pentium 4 mit seiner langen Pipeline gehörig aus dem Tritt. Sandy Bridge verfügt dagegen über ein leistungsfähiges Frontend und zusätzlich über den extrem schnellen Uop-Cache, kombiniert also die Vorteile von P6- undNetburst-Architektur.
Eine weitere wichtige Neuerung für eine höhere Performance sind die Advanced Vector Extensions des SSE-Befehlssatzes. Sie sind vor allem für fließkommaintensive Applikationen wie Multimedia-Programme bestimmt und erweitern die Vektor-Register von 128 auf 256 Bit.
Dabei bleiben die AVX-fähigen Prozessoren kompatibel zu den bisherigen Befehlssätzen wie SSE4, die älteren SSE-Befehle werden einfach in den unteren 128 Bit der neuen Register ausgeführt. Sandy Bridge kann fast alle 256-Bit-AVX-Befehle in eine Uop dekodieren und ausführen. Das bringt bei angepassten Programmen fast eine Verdoppelung der Performance.
Um die Ausführungseinheiten auch mit genug Futter zu versorgen, mussten die Ingenieure bei Intel das Speicher-Subsystem verbessern. Sandy Bridge verfügt ebenso wie Nehalem und Westmere über drei Load-Store-Ports. Allerdings sind nun zwei davon symmetrisch ausgeführt. Damit kann die Speichereinheit nun drei statt nur zwei Datenzugriffe pro Takt bewältigen und so die Speicherbandbreite deutlich erhöhen. Den Zugriff auf den Hauptspeicher übernimmt ein DDR3-Controller mit zwei Speicherkanälen.
Intel Ivy Bridge: Viel Tick und etwas Tock

Mit Ivy Bridge stand wieder ein Die-Shrink, also ein Tick an. Der Prozessor wird nun in einem 22-Nanometer-Prozess gefertigt und besteht zudem aus so genannten Tri-Gate-Transistoren. Bei diesen Tri-Gate-Transistoren werden die Gates über dreidimensionale Finnen aus Siliziumsubstrat gelegt, die Elektronen fließen über alle drei Seiten dieser Finnen statt wie bisher plan durch das Gate (Planar-Transistor).
Das erleichtert erst einmal den Bau kleinerer Transistoren, bringt aber auch Vorteile bei Performance und Leistungsaufnahme. Zudem können auf einem Transistor mehrere Finnen nebeneinander angeordnet werden, um die Performance zu verbessern.
Dabei ist es möglich, je nach Anwendungszweck Transistoren mit unterschiedlich vielen Finnen einzusetzen. Im Gegensatz zu AMD kommt Intel auch beim 22-Nanometer-Prozess noch ohne den kostspieligen Silicon-on-Insulator-Prozess aus, bei dem die Transistoren durch eine extrem dünne Isolationsschicht vom Silizium-Wafer getrennt sind, um Leckströme zu vermeiden.
Bei den 22-Nanometer-Tri-Gate-Transistoren sind diese trotz der herkömmlichen CMOS-Technologie gegenüber den 32-Nanometer-Planar-Transistoren um 50 Prozent reduziert, was die Leistungsaufnahme der aus diesen Transistoren aufgebauten Prozessoren drastisch verringert.
Tri-Gate erhöht durch höhere Ströme die Schaltgeschwindigkeit bei niedriger Spannung um 37 Prozent gegenüber den bisherigem 32-Nanometer-Transistoren, was gerade bei Low-Voltage-CPUs eine dramatische Leistungsverbesserung bringen kann. Allerdings ist die bei Ivy Bridge noch nicht im erwarteten Umfang spürbar, da dafür auch Architekturänderungen notwendig sind, die erst 2013 mit Haswell kommen, dem Core-Prozessor der vierten Generation.
Schnellere Grafik bei Ivy Bridge

Die Core-Prozessoren der Ivy-Bridge-Generation sind Sockel-kompatibel zu Sandy Bridge und laufen prinzipiell auch mit den Intel-Chipsätzen der Serie 6. Mit dem Ivy-Bridge-Nachfolger Haswell führt Intel wieder neue Sockel-Formate für Desktop- und Notebook-Prozessoren ein.
Da Intel durch die feineren Strukturen nun 1,4 statt 1,16 Milliarden Transistoren auf dem Die unterbringen kann, haben die Entwickler nicht nur den Level-3-Cache auf bis zu 12 MByte vergrößert, sondern auch noch einige Verbesserungen an der Architektur vorgenommen. Zu diesen zählen neue AVX-Befehle, vor allem aber Erweiterungen bei der integrierten Grafikeinheit.
Die in Ivy Bridge integrierte GPU verfügt über mehr Fixed-Function-Units als die im Sandy Bridge. Sie sind nötig geworden, da die GPU nun DirectX 11 sowie OpenGL 3.1 unterstützt und damit auch Funktionen wie Tesselation, also das Glätten eines Polygonmodells, und Displacement-Mapping, bei dem eine Textur mit Höheninformation versehen wird. Durch die Kombination beider Techniken können in 3D-Games in Echtzeit lebensecht erscheinende 3D-Modelle erzeugt werden.
Wie schon beim Vorgänger gibt es auch bei der Ivy-Bridge-Familie zwei unterschiedliche GPUs. In den Core-i3- undCore-i5-Desktop-CPUs steckt die HD 2500 mit wie bisher sechs Ausführungseinheiten, in den Core-5-K- und den Core-i7-CPUs sowie in allen Mobilprozessoren ist die HD4000 mit nun 16 statt 12 Ausführungseinheiten integriert.
Neu bei Ivy Bridge ist, dass nun die GPU einen eigenen 265 KByte großen Level-3-Cache bekommen hat, um so den Verkehr auf dem Ring-Bus zu begrenzen und so die 3D-Performance der neuen GPU weiter zu erhöhen. Die Caches in der GPU sind notwendig, da der direkte Zugriff auf den Arbeitsspeicher bei einer im Prozessor integrierten Grafik deutlich langsamer vonstatten geht, als bei einer diskreten Grafikkarte mit eigenem Speichercontroller und GDDR5 als Grafikspeicher.
Hier ist eine Speicherbandbreite von etwa 250 GByte/s möglich, beim DDR3-Arbeitsspeicher nur etwa 34 GByte/s. Die neuen GPUs unterstützen nun auch OpenCL-1.1. Bei Sandy Bridge müssen OpenCL-Befehle noch durch die für diese Aufgabe langsameren CPU-Kerne abgearbeitet werden.
Weiteres Feintuning haben die Intel-Entwickler bei Quick-Sync-Video investiert, die in der GPU integrierte Video-Encoding und Decoding-Funktion für H.264/MPEG-4 AVC, VC-1 und MPEG-2. Daher kann ein Ivy-Bridge-Prozessor mit entsprechender Software wie etwa Cyberlinks MediaEspresso Videos noch schneller umwandeln als eine Sandy-Bridge-CPU.
Turbo mit Nachbrenner

Intel hat bei Sandy Bridge und Ivy Bridge die Turbo-Boost-Technik zur dynamischen Übertaktung aller einzelnen Prozessorkerne jeweils noch weiter verfeinert.
So ist die GPU nun voll mit in das Jonglieren mit den Taktraten einbezogen. Beim Übertakten einzelner Kerne geht Sandy Bridge aggressiver vor als seine Vorgänger. Turbo Boost verbesserte bisher primär die Performance von Single-Threaded-Applikationen, bei Sandy Bridge beschleunigt diese Technik nun auch Programme die mehrere Threads nutzen.
Dabei wird die Thermal Design Power (TDP) bis zu 25 Sekunden überschritten, um in diesem Zeitraum alle Kerne mit höherer Taktrate zu fahren. Das erfolgt aber nur, wenn die CPU vorher in einem Sleep- oder Low-Power-Modus war und so eine Art thermales Guthaben aufgebaut wurde. Bei steigender Prozessortemperatur wird die Taktrate wieder gesenkt. Dieses kurzfristige Übertakten kann etwa das Starten von Programmen beschleunigen.
Haswell: Die Prozessor-Plattform für 2013

Bei Haswell führt Intel wieder eine neue Prozessorarchitektur ein, als Fertigungsprozess wird die 22-Nanometer-Technologie von Ivy Bridge fortgeführt.
Intel hält bei Haswell am Ringbus fest, spendiert dem Prozessor aber eine zusätzliche vierte Integer-Einheit und vor allem eine verbesserte Sprungvorhersage und eine verdoppelte Bandbreite bei Zugriffen auf den Level-2-Cache. Zudem haben die Intel-Ingenieure Leistung und Funktionsumfang der integrierten Grafikeinheit noch einmal erhöht: Sie unterstützt nun DirectX 11.1, OpenGL 4.0 und vor allem auch OpenCL 1.2.
Bei Haswell gibt es nun drei verschiedene GPUs, die in verschiedenen Prozessormodellen eingesetzt werden: GT1, GT2 und GT3. Dabei sind GT1 und GT2 die Nachfolger der in Ivy Bridge integrierten HD 2500 und HD4000 mit etwas gesteigerter Leistung. Bei der GT3-Grafik wurde ein Großteil der Funktionseinheiten der GT2-Grafik verdoppelt. Damit werden DX11-Games auch in Full-HD flüssig spielbar sein. Werden die zusätzlichen Shader nicht benötigt, dann schaltet sie der Prozessor einfach ab.
Ein weiterer Bereich der Architekturverbesserungen bei Haswell betrifft die Leistungsaufnahme: Die CPU hat einen zusätzlichen Powermanagement-Modus namens Active Idle (S0ix), der die Leistungsaufnahme beim Nichtstun fast auf das Niveau von S3 absenkt, die CPU aber trotzdem ohne lange Aufwachzeit sofort bereit ist. Allerdings klappt das nur, wenn gleichzeitig Displays mit Auto-Refresh eingesetzt werden, die das Bild auch ohne ein Signal des Videoprozessors stabil halten.
Gutscheine
-
HelloFresh
Bis zu 120€ + GRATIS Versand der 1. Box mit den HelloFresh Rabattcodes Zum Gutschein
bis 31.01.2024+ bis zu 4,00€ Cashback -
FARFETCH
30% FARFETCH Rabattcode Zum Gutschein
bis 25.09.2023 -
Parfümerie Pieper
10% Parfümerie Pieper Gutschein zum Herbstanfang Zum Gutschein
bis 24.09.2023+ bis zu 3,0% Cashback -
Cyberport
25€ EXTRA Cyberport Gutschein im Technik-Sale Zum Gutschein
bis 27.09.2023+ bis zu 0,5% Cashback -
XXXLutz
XXXLutz Red Shopping Week 30% Rabatt + 25% Gutschein Zum Gutschein
bis 24.09.2023+ bis zu 3,0% Cashback -
C&A Gutscheine und Angebote
C&A Gutschein: 10% extra Rabatt auf alle Oberteile Zum Gutschein
bis 27.09.2023+ bis zu 3,5% Cashback