Die meisten KI-Video-Modelle erreichen nur 5–10 Sekunden und fälschen längere Clips, indem sie Segmente zusammenkleben — und die Nähte sind sichtbar. ByteDance’s Seedance 2.5, das auf der Volcano Engine FORCE‑Konferenz vorgestellt wurde, erzeugt in einem Durchlauf einen einzigen nativen 30‑Sekunden‑Clip. Gesichter der Charaktere, Beleuchtung und Bewegung bleiben durchgehend stabil, weil Audio und Video gemeinsam im selben latenten Raum erzeugt werden, anstatt nachträglich synchronisiert zu werden.
Was es tatsächlich tut
Es ist ein Text-/Bild‑zu‑Video‑Modell mit zwei echten Verbesserungen. Erstens die native 30‑Sekunden‑Dauer, die die Obergrenze der meisten geschlossenen kommerziellen Konkurrenten etwa verdoppelt. Zweitens unterstützt es bis zu 50 multimodale Referenzeingaben — Bilder, Audio, 3D-White-Modelle, Stil-Refs — gegenüber 12 in der vorherigen Version. Besonders bemerkenswert ist das lokale Neuzeichnen: ein einzelnes Element innerhalb eines Frames ändern, ohne den Rest zu berühren. Das ist Bearbeitung, nicht nur Prompten.
API und Rollout
Seedance 2.5 befindet sich derzeit in der globalen Enterprise‑Beta, bereitgestellt über die API von Volcano Engine, und der öffentliche Zugang startet Anfang Juli. Typische Anwendungsfälle: Werbung, Produkt‑Demos, Kurzform‑Content, bei dem ein sauberer Take nötig ist, nicht ein Montage. Wenn Sie mehr über das KI-Video-Rennen erfahren möchten, besuchen Sie unsere Video‑Berichterstattung auf topaiproduct.com.