CPU vs. GPU vs. DSP - Der große technische Vergleich

In der Welt der Prozessoren gibt es viele verschiedene Spezialisten. Drei der wichtigsten Kategorien sind die CPU (Central Processing Unit), die GPU (Graphics Processing Unit) und der DSP (Digital Signal Processor). Jede dieser Einheiten hat eine eigene Architektur, Pipeline-Struktur und Kernanzahl, die sie für bestimmte Aufgaben besonders geeignet macht.


Direkter technischer Vergleich

BereichCPUGPUDSP
KernanzahlWenige (typisch 4-16 bei Consumer-CPUs, Server bis 128)Hunderte bis TausendeMeist wenige, aber hochoptimierte Recheneinheiten (oft 1-8 spezialisierte Kerne)
Befehlssatz (ISA)Universell (x86, ARM, RISC-V)SIMD/VLIW für ParallelismusSehr spezialisiert (oft proprietäre DSP-ISAs, wie TI C6000, SHARC, etc.)
RechenmodellSingle Instruction Multiple Data (SIMD) & Out-of-OrderMassive SIMD (oft SIMT = Single Instruction Multiple Threads)Stream Processing mit extrem schneller Multiply-Accumulate (MAC) Pipeline
Pipeline-TiefeMittel bis tief (10-30 Stufen typisch bei CPUs)Oft flachere Pipelines (für hohe Parallelität optimiert)Sehr flach (für extrem niedrige Latenzen)
Cache-HierarchieL1, L2, L3 Cache (mehrstufig)Sehr kleiner L1 pro Kern, Shared L2Oft nur einfacher, sehr schneller SRAM
SpeicheranbindungFokus auf niedrige LatenzFokus auf hohe BandbreiteExtrem geringe Latenz bei festen Datenströmen
Befehlssatz-ErweiterungenSSE, AVX, NEONCUDA, OpenCL, Vulkan ComputeFFT, FIR, IIR, MAC-Optimierungen
Task-TypViele verschiedene, dynamische TasksGroße Datenblöcke mit identischen OperationenKontinuierliche Signalströme mit festem Pattern
SteuerlogikKomplex (Sprünge, Verzweigungen, Branch Prediction)Sehr einfach (meist keine komplexe Branch Prediction)Kaum Sprünge – fast immer lineare Verarbeitung
Zugriff auf SpeicherCache-optimiert für zufällige ZugriffeStream-optimiert (koaleszierter Zugriff auf große Datenblöcke)Meist fester Zugriffsrhythmus (z. B. FIFO-Streams)
InstruktionsformateVariable Länge, viele ModiMeist festes Format, optimiert für ParallelitätFixe DSP-spezifische Instruktionen (oft MAC + Adressupdate in 1 Zyklus)
FlexibilitätHöchst flexibelFlexibel für SIMD/Matrix, schlecht für allgemeinere AufgabenExtrem spezialisiert (fast nur Signalverarbeitung)
Typische RecheneinheitALU, FPU, SIMD-UnitTausende SIMD-Kerne (oft Vec4 oder Vec8)Spezial-MAC mit extrem kurzer Latenz
Parallele VerarbeitungBis zu 16 Kerne (Consumer)Tausende Threads gleichzeitig1-4 parallele Datenströme
Thread-ManagementHardware & Software gemischt (Scheduler)Fast vollständig in HardwareMeist keine echte Threadverwaltung, da Stream-orientiert

Zusammenfassung

  • Die CPU ist der Alleskönner, der für Flexibilität und Vielseitigkeit gebaut ist.
  • Die GPU ist der Parallel-Profi, perfekt für große Datenmengen und gleiche Rechenmuster.
  • Der DSP ist der Stream-Meister, wenn es auf konstante Verarbeitung und minimale Latenz ankommt.

Moderne Systeme kombinieren diese Prozessoren oft, um die Stärken jeder Einheit optimal auszunutzen.