Im Inneren der NPU: Warum jeder große Chip jetzt einen Neural Engine hat – und was er tatsächlich tut

Eine leise Hardware-Transition ist seit drei Jahren im Gange, und 2026 ist sie im Wesentlichen abgeschlossen: Nahezu jeder von Apple, Qualcomm, Intel, AMD und MediaTek ausgelieferte Consumer-Prozessor enthält jetzt eine dedizierte neuronale Verarbeitungseinheit. Die NPU ist keine Enthusiasten-Spezifikation mehr. Sie ist die neue Basislinie.

Die Verschiebung ist bedeutend genug, dass das Copilot+-Zertifizierungsprogramm von Windows 11 eine Mindestanforderung von 40 TOPS für die NPU als harte Hürde für die Zertifizierung festgelegt hat. Was machen diese Chips in der Praxis – und warum konnte die bestehende GPU- und CPU-Hardware dieselben Workloads nicht bewältigen?

Warum ein separater Chip für KI

Die GPU ist nicht aus dem KI-Stack verschwunden – sie bleibt das dominierende Rechensubstrat für Training und groß angelegte Inferenz in Rechenzentren. Aber GPUs sind energiehungrig und für Parallelität im großen Maßstab optimiert. Ein Telefon oder Laptop, das eine mobile GPU für kontinuierliche KI-Inferenz nutzt – Hintergrundgeräuschunterdrückung, Echtzeitübersetzung, Videoverbesserung – würde den Akku in wenigen Stunden entleeren.

NPUs lösen dies durch Spezialisierung. Anders als eine GPU (die allgemeine parallele Workloads ausführt) oder eine CPU (die bei sequenzieller, verzweigter Logik glänzt) ist eine NPU zweckgebaut für die Matrixmultiplikationen und Aktivierungsfunktionen, die die Inferenz neuronaler Netze dominieren. Das Ergebnis ist eine um Größenordnungen bessere Energieeffizienz für eine begrenzte, aber wachsende Klasse von Aufgaben.

Apple liefert NPUs seit dem A11 Bionic im Jahr 2017 aus, der zunächst als "Neural Engine" für Face ID vermarktet wurde. Der Neural Engine des A11 führte 600 Milliarden Operationen pro Sekunde aus. Der A18 Pro im iPhone 16 Pro erreicht 35 TOPS – eine fast 60-fache Verbesserung in neun Jahren, auf einem Chip, der immer noch in ein Telefon passt.

Die aktuelle Landschaft nach Plattform

Qualcomms Snapdragon X Elite, der Chip, der die meisten der 2024–2025 veröffentlichten Copilot+-Windows-Laptops antreibt, liefert 45 TOPS über seine Hexagon-NPU. Qualcomm behauptet eine 4,5-fach bessere Effizienz pro Watt als vergleichbare GPU-Inferenz bei denselben Aufgaben – ein Wert, der sich in unabhängigen Tests recht gut hält.

Apples M4 Pro liefert 38 TOPS von seinem Neural Engine, wobei Apple von erheblichen Zuwächsen bei Core ML-Benchmarks gegenüber der M3-Generation berichtet. Die M-Serie-Chips profitieren von einer Unified-Memory-Architektur – der Neural Engine teilt sich denselben High-Bandwidth-Speicherpool mit CPU und GPU, wodurch der Kopier-Overhead vermieden wird, der die diskrete GPU-Inferenz bei kleinen Modellen behindert.

Intels Core Ultra 200-Serie (Lunar Lake) markiert Intels bisher wettbewerbsfähigste NPU mit 48 TOPS – speziell entwickelt, um die Copilot+-Schwelle mit einem Spielraum zu überschreiten, der zukünftige Windows-KI-Anforderungen ermöglicht. AMDs Ryzen AI 300-Serie erreicht 50 TOPS. MediaTeks Dimensity 9400, der die Samsung Galaxy S25-Serie antreibt, erzielt 50 TOPS mit signifikanten Effizienzgewinnen gegenüber der Vorgängergeneration.

Was NPUs tatsächlich ausführen

Die Anwendungsfälle fallen in konsistente Kategorien:

Kontinuierliche, latenzempfindliche Aufgaben. Echtzeittranskription (Apples Live Text, Windows Studio-Sprachklarheit), Hintergrundunschärfe in Videoanrufen und aktive Geräuschunterdrückung sind Aufgaben, bei denen die GPU-Latenz zu hoch ist und Cloud-Roundtrips eine inakzeptable Verzögerung verursachen. NPUs erledigen diese Aufgaben kontinuierlich mit minimalem Stromverbrauch.

On-Device-LLM-Inferenz. Modelle im Bereich von 1B bis 8B Parametern – Phi-3 Mini, Gemma 3 4B, Llama 3.2 3B – können bei 4-Bit-Quantisierung vollständig auf dem Gerät über die NPU ausgeführt werden. Apples Private-Cloud-Compute-Architektur lagert nur Aufgaben aus, die für den Neural Engine zu groß sind. Unter Windows läuft Microsofts Phi-3 Mini nativ über DirectML auf der Hexagon-NPU für On-Device-Copilot-Antworten.

Computational Photography. Echtzeit-HDR-Fusion, semantische Segmentierung für Hintergrundersetzung, Gesichtsnetz-Tracking für AR – dies sind NPU-Workloads auf allen aktuellen Flaggschiff-Telefonen. Die Kameraverarbeitungspipeline ist in den letzten drei Jahren weitgehend vom ISP zur NPU migriert.

Such- und Retrieval-Indexierung. Windows Recall nutzt die NPU, um kontinuierlich Screenshots zu verarbeiten und einen durchsuchbaren semantischen Index zu erstellen. Apples On-Device-Fotosuche nutzt den Neural Engine für Image Embedding und Ähnlichkeitsabgleich.

Das Benchmark-Problem

TOPS ist eine trügerische Metrik. Sie misst den Spitzendurchsatz unter idealen Bedingungen – anhaltende Matrixmultiplikation mit allen Ausführungseinheiten in Betrieb. Reale KI-Workloads sind spitzer und unregelmäßiger. Eine 50-TOPS-NPU, die ein schlecht optimiertes Modell ausführt, kann schlechter abschneiden als ein 35-TOPS-Chip mit besserer Compiler-Unterstützung und Speicherarchitektur.

Der aufkommende Standard für praktisches NPU-Benchmarking ist MLPerf Mobile, das die End-to-End-Leistung auf standardisierten Modellen und nicht auf rohen TOPS misst. Die Lücke zwischen Papierspezifikationen und MLPerf-Ergebnissen kann groß sein. Einige Chips mit hohen TOPS schneiden bei Aufgaben, die für ihr Design nicht zentral waren, deutlich schlechter ab.

Was das für Entwickler bedeutet

Die Existenz weit verbreiteter NPUs schafft eine neue Ebene im KI-Bereitstellungs-Stack. Die aktuelle Aufteilung: Cloud-Inferenz für große Modelle (GPT-4, Claude 3.7+, Gemini 2.5), On-Device-NPU-Inferenz für Modelle bis zu ~8B Parametern bei 4-Bit-Quantisierung und eine wachsende mittlere Ebene der Serverklassen-Edge-Inferenz für 13B-70B-Modelle.

Für Entwickler, die KI-gestützte Funktionen entwickeln, stellt sich nun die praktische Frage, welche Inferenzebene zum Anwendungsfall passt – nicht nur, ob Cloud-Inferenz verfügbar ist. Aufgaben mit strengen Datenschutzanforderungen, niedrigen Latenzanforderungen oder Offline-Anforderungen sollten über Core ML, Windows ML oder Android NNAPI auf die On-Device-Inferenz abzielen. Die Frameworks reifen. Die Hardware ist da.

Das NPU-Rennen verlangsamt sich nicht. Qualcomms nächste Snapdragon-Plattform wird voraussichtlich die 70-TOPS-Marke überschreiten. Apples A19 Pro-Familie zielt auf 45+ TOPS. Die Frage ist nicht mehr, ob Ihr Gerät einen KI-Chip hat – sondern welche Teile Ihres Workloads Sie darauf verlagert haben.