DeepSeek hat dieses Mal kein neues Modell veröffentlicht. Stattdessen wurde das bestehende schneller gemacht. DSpark ist ein semi‑paralleles spekulatives Decodierungs-Framework und bedient bereits Live‑Traffic auf DeepSeek-V4 Flash und Pro. HackerNews hat es mit über 600 Punkten auf die Titelseite gesetzt.
Was es tatsächlich tut
Spekulative Decodierung entwirft mehrere Tokens kostengünstig und verifiziert sie anschließend in einem Durchlauf. Das Problem: Die Akzeptanzraten sinken innerhalb eines Blocks. DSpark fügt dem parallelen Draft‑Head ein leichtgewichtiges sequentielles Modul hinzu, um Token‑Abhängigkeiten innerhalb jedes Blocks zu modellieren, plus einen Confidence‑Head, der bewertet, wie wahrscheinlich jedes Token die Verifizierung übersteht. Ergebnis: Durchsatzsteigerung von 51 %–400 %, geringere Latenz und eine Akzeptanzlänge, die 16,3 %–30,9 % höher ist als bei Eagle3 und DFlash. Insgesamt springt die Inferenzgeschwindigkeit um bis zu 80 %.
Warum es wichtig ist
Kein Retraining, keine neuen Gewichte — DSpark wird als Modul ausgeliefert, das an bestehenden Checkpoints angehängt wird. DeepSeek hat zudem DeepSpec als Open-Source-Projekt veröffentlicht, den vollständigen Code‑Base für das Training und die Bewertung von Draft‑Modellen, und es funktioniert auch mit Qwen und Gemma. So werden die Modelle aller Nutzer günstiger zu betreiben, kostenlos.