video-use (by Browser Use) bearbeitet Ihr Filmmaterial — und die KI sieht das Video nie.

29. Juni 2026, 12:08

Browser Use hat gerade video-use Open Source gestellt, und der Trick ist kontraintuitiv: Das Modell, das dein Video schneidet, schaut es nie wirklich an.

Was es ist

Es ist eine Skill, keine App. Lege Rohaufnahmen in einen Ordner, chatte mit deinem Coding‑Agent und erhalte final.mp4 zurück. Anstatt Frames zu betrachten, liest das LLM den Clip über ElevenLabs Scribe – ein Aufruf liefert Wort‑Zeitstempel, Sprecher‑Diarisation und Audio‑Ereignisse wie (laughter) oder (sigh). Dieses Wort‑Raster ermöglicht das Schneiden an exakten Wortgrenzen: jedes „umm“ und „uh“ entfernen, tote Pausen kürzen und die Übergänge sauber zusammensetzen. Es führt außerdem automatische Farbkorrekturen durch, fügt bei jedem Schnitt 30 ms Audio‑Fades hinzu, brennt Untertitel ein und erzeugt Animations‑Overlays über HyperFrames, Remotion, Manim oder PIL.

Wie man es tatsächlich verwendet

Klone das Repository, erstelle einen Symlink in das Skills‑Verzeichnis deines Agents und führe uv sync aus. Du benötigst FFmpeg und einen ElevenLabs‑API‑Schlüssel; yt-dlp ist optional, um Online‑Quellen zu holen. Es funktioniert mit Claude Code, Codex, Hermes und Openclaw.

Warum das wichtig ist: Bearbeitung war das eine Ding, das Coding‑Agents nicht anpacken konnten, weil Video schwer und undurchsichtig ist. Das Schneiden in ein Text‑Problem zu verwandeln, macht es billig, skriptfähig und wiederholbar – und das bestehende Publikum von Browser Use treibt es schnell in die GitHub‑Trends.