Advanced Tutorial für Whisper – AG: Generative KI

english version below

Fortgeschrittenes Tutorial:

Parameter und Einstellungen:

Whisper-WebUI bietet auch viele erweiterte Optionen. Im Folgenden erläutern wir alle wichtigen Einstellungen, einschließlich der „Erweiterten Parameter“ und der Details zu den einzelnen Registerkarten der Benutzeroberfläche.

Dateiformate: Standardmäßig gibt Whisper-WebUI SRT-Untertitel aus, aber Sie können im Dropdown-Menü „Dateiformat“ auch die Formate WebVTT (für Web-Untertitel), TXT (einfaches Transkript) oder LRC (Lyric) auswählen. SRT ist der Standard für Videos; TXT lässt Zeitstempel weg.

Dateiname mit Zeitstempel: Das Kontrollkästchen „Zeitstempel an das Ende des Dateinamens anhängen“ fügt das aktuelle Datum/die aktuelle Uhrzeit an den Namen der Ausgabedatei an. Dies hilft, das Überschreiben von Dateien zu vermeiden, wenn Sie mehrere Transkriptionen ausführen.

Eingabequellen: Auf der Registerkarte „Datei“ können Sie auch einen Eingabeordnerpfad angeben (für die Stapelverarbeitung lokaler Dateien). Fügen Sie auf der Registerkarte „YouTube“ einen YouTube-Link ein – die Benutzeroberfläche ruft die Miniaturansicht, den Titel und die Beschreibung des Videos ab und transkribiert dann dessen Audio. Auf der Registerkarte „Mikrofon“ können Sie Live-Audio aufnehmen und dann sofort transkribieren. Verwenden Sie in allen Fällen nach dem Hochladen oder Aufnehmen dieselben Modell-/Sprachoptionen und die Schaltfläche „Generieren“, um Untertitel zu erstellen.

Erweiterte Parameter (aus der Tool-Dokumentation https://github.com/jhj0517/Whisper-WebUI/wiki/Whisper-Advanced-Parameters):

Dieser erweiterbare Abschnitt enthält die internen Einstellungen von Whisper. Zu den wichtigsten gehören:

Beam Size: Steuert die Suchbreite des Beams. Eine höhere beam_size untersucht mehr Transkriptionskandidaten, was die Genauigkeit verbessert, aber die Transkription verlangsamt. Wenn Sie beispielsweise die Beamgröße von 5 auf 10 erhöhen, werden seltenere Wörter (wie Namen) erfasst, aber die Verarbeitungszeit verdoppelt sich in etwa.

Schwellenwerte für „No-Speech“/„Log-Prob“: Diese beiden Werte arbeiten zusammen, um Stille zu erkennen. „log_prob_threshold“ legt einen Grenzwert für die Konfidenz des Modells fest, und „no_speech_threshold“ ist die zulässige Wahrscheinlichkeit für Stille. Durch Senken dieser Schwellenwerte wird Whisper „empfindlicher” für leise oder kurze Sprache. Wenn beispielsweise einige Wörter übersprungen werden, versuchen Sie, no_speech_threshold leicht zu senken (z. B. von 0,6 auf 0,5). Dadurch wird Whisper angewiesen, leisere Töne zu transkribieren, anstatt sie als Stille zu behandeln.

Bedingung für vorherigen Text: Wenn „True“ (Standard), verwendet Whisper das Ende des vorherigen Segments als Kontext für das nächste, was die Kohärenz verbessert. Durch Deaktivieren dieser Option können „Looping“-Fehler (sich wiederholender Text) vermieden werden. Wenn sich beispielsweise Zeilen in der Transkription wiederholen, kann die Deaktivierung dieser Option helfen, indem jedes Segment unabhängig transkribiert wird.

Initial Prompt: Sie können einen initial_prompt-Text eingeben, der das Modell beeinflusst. Wenn Ihre Audioaufnahme beispielsweise ungewöhnliche Vokabeln (Fachbegriffe oder Namen) enthält, erhöht die Eingabe hier die Wahrscheinlichkeit, dass Whisper diese korrekt transkribiert. Es ist, als würde man Whisper einen „Hinweis” auf erwartete Wörter geben.

„temperature“ und Sampling: Das Temperatur-Setting steuert die Zufälligkeit. Eine höhere „temperature“ (z. B. 0,2–0,3) ermöglicht vielfältigere Ergebnisse, während 0 eine „greedy“ Dekodierung erzwingt. Diese sind für die Standardtranskription selten erforderlich, können jedoch angepasst werden, wenn Sie seltsame Wiederholungen feststellen oder Vielfalt wünschen.

Compute Type: Standardmäßig wählt die Benutzeroberfläche float16, wenn Sie über eine CUDA-GPU verfügen, andernfalls float32github.com. Wenn Sie CUDA-Fehler erhalten oder eine ältere GPU haben, können Sie zu float32 wechseln (auf Kosten einer etwa doppelt so langsamen Inferenz).

Best-of / Patience: Diese beziehen sich auf die Dekodierung bei einer „non-zero-temperature“. best_of gibt an, wie viele Kandidaten ausgewählt „sampled“ werden sollen; patience beendet die „beam-search“ vorzeitig. In der Regel können sie auf der dfault-Einstellung belassen werden.

Zusätzliche Interface-Details

Voice Detection Filter (Spracherkennungs-Filter): Im ausklappbaren Bereich des Voice Detection Filters lassen sich die Funktionsweisen der Spracherkennung (VAD) über folgende Parameter anpassen:

Speech Threshold (Standardwert ca. 0,5): Legt fest, wie „laut“ ein Geräusch sein muss, um als Sprache erkannt zu werden.

Minimum Silence Duration (Standardwert 1000 ms): Gibt an, wie lange eine Pause dauern muss, damit ein Sprachsegment beendet wird.

Wenn der Speech Threshold abgesenkt wird (z. B. auf 0,4), erkennt VAD auch leisere Stimmen. Wird die Silence Duration reduziert (z. B. auf 800 ms), werden Segmente häufiger und früher getrennt.

Background Music Filter (Hintergrundmusik-Filter): Im Abschnitt Background Music Remover Filter kann das UVR-Modell für die Entfernung von Hintergrundmusik ausgewählt werden. Größere UVR-Modelle oder eine größere Segmentgröße verbessern die Trennqualität, benötigen jedoch mehr Speicher. Standardmäßig läuft der Filter vor der Transkription und versucht, Musikanteile zu unterdrücken.

Diarization Settings (Sprechertrennung): Im Bereich Diarization lässt sich das Modell zur Sprecher-Diarisierung sowie das verwendete Gerät auswählen (derzeit ist nur GPU über GUDA zugelassen). Es gibt hier keine weiteren Parameter; das Aktivieren der Funktion wendet das Modell auf die gesamte Audiodatei an und erzeugt Sprecherkennzeichnungen (Speaker Tags).

Text-to-Text Translation Tab (T2T-Übersetzung): Im Tab T2T Translation können bestehende Untertiteldokumente übersetzt werden. Dazu laden Sie zunächst Ihre SRT- oder WEBVTT-Datei hoch. Anschließend wählen Sie entweder den NLLB– oder den DeepL-Bereich:

NLLB: Wählen Sie eine Modellgröße (kleinere NLLB-Modelle benötigen weniger GPU-RAM. eine NLLB-VRAM-Tabelle wird angezeigt, um Ihnen bei der Modellauswahl zu helfen), die Quell- und Zielsprachen und legen Sie optional eine maximale Zeilenlänge fest. Anschließend klicken Sie auf „UNTERTITELDATEI ÜBERSETZEN“. Beide Übersetzer verfügen über die Option „Zeitstempel hinzufügen“, um Zeitstempel an den Namen der Ausgabedatei anzuhängen. Das Ergebnis ist eine übersetzte Untertiteldatei zum Download. Diese Funktionen ergänzen die Sprachübersetzung von Whisper.

DeepL: Geben Sie Ihren API-Schlüssel ein, wählen Sie Quell– und Zielsprache und optional an, ob Sie ein Pro-Konto haben. Mit TRANSLATE SUBTITLE FILE wird DeepL aufgerufen und eine übersetzte Untertiteldatei erzeugt.

BGM Separation Tab (Trennung von Hintergrundmusik): Diese spezielle Registerkarte führt UVR für vollständige Audiodateien aus. Laden Sie eine Audiodatei hoch, wählen Sie das Modell und die Segmentgröße aus und klicken Sie dann auf „HINTERGRUNDMUSIK TRENNEN“. Es werden zwei Audiodateien ausgegeben, die Sie direkt abspielen können: eine für Instrumentalstücke und eine für Vokalstücke. Sie können diese Ausgaben dann nach Bedarf herunterladen.

Advanced Tutorial:

Parameters and Settings:

Whisper-WebUI also provides many advanced options. Below we explain all key settings, including the “Advanced Parameters” and the details of each interface tab.

File Formats: By default Whisper-WebUI outputs SRT subtitles, but you can choose WebVTT (for web captions), TXT (plain transcript), or LRC (Lyric) format from the File Format dropdown. SRT is standard for videos; TXT omits timestamps.

Timestamp Naming: The Add a timestamp to the end of the filename checkbox appends the current date/time to the output file name. This helps avoid overwriting files if you run multiple transcriptions.

Input Sources: In the File tab you can also specify an Input Folder Path (for batch processing of local files). In the YouTube tab, paste a YouTube link – the UI will fetch the video’s thumbnail, title, and description, then transcribe its audio. The Mic tab lets you record live audio and then transcribe it on the fly. In all cases, after uploading or recording, use the same model/language options and Generate button to produce subtitles.

Advanced Parameters (from the tool documentaion https://github.com/jhj0517/Whisper-WebUI/wiki/Whisper-Advanced-Parameters):

This expandable section includes Whisper’s internal settings. Important ones include:

Beam Size: Controls the beam search width. A higher beam_size explores more candidate transcripts, improving accuracy but slowing down transcription. For example, increasing beam_size from 5 to 10 may catch rarer words (like names) but will roughly double processing time.

No-Speech / Log-Prob Thresholds: These two work together to detect silence. log_prob_threshold sets a cutoff on the model’s confidence, and no_speech_threshold is the allowed probability of silence. Lowering these thresholds makes Whisper more “sensitive” to soft or brief speech. For instance, if some words are being skipped, try lowering no_speech_threshold slightly (e.g. from 0.6 to 0.5). This tells Whisper to transcribe quieter sounds instead of treating them as silence.

Condition on Previous Text: When True (default), Whisper uses the end of the previous segment as context for the next, which helps coherence. Turning this off can avoid “looping” errors (repetitive text). For example, if the transcript is repeating lines, disabling this option may help by forcing each segment to transcribe independently.

Initial Prompt: You can supply initial_prompt text that biases the model. For instance, if your audio contains unusual vocabulary (a technical term or name), putting it here makes Whisper more likely to transcribe it correctly. It’s like giving Whisper a “hint” about expected words.

Temperature and Sampling: The temperature setting controls randomness. A higher temperature (e.g. 0.2–0.3) allows more varied outputs, whereas 0 forces greedy decoding. These are rarely needed for standard transcription, but can be adjusted if you see strange repetition or want diversity.

Compute Type: By default the UI chooses float16 if you have a CUDA GPU, else float32github.com. If you get CUDA errors or have an older GPU, you can switch to float32 (at the cost of ~2× slower inference).

Best-of / Patience: These relate to non-zero-temperature decoding. best_of is how many candidates to sample; patience stops beam search early. They usually can be left at defaults.

Additional Interface Details:

Voice Detection Filter: In the Voice Detection Filter expandable section, you can adjust how VAD works using the following parameters:

Speech Threshold (default ~0.5) sets how “loud” a sound must be to count as speech.

Minimum Silence Duration (default 1000 ms) sets how long a pause ends a segment.

Lowering the speech threshold (e.g. to 0.4) makes VAD catch softer voices; reducing the silence duration (e.g. to 800ms) makes it split segments more aggressively.

Background Music Filter: The Background Music Remover Filter section lets you choose the UVR model and device to use for BGM removal. Larger UVR models or larger segment size improve separation quality but need more memory. By default, the filter runs before transcription and tries to suppress music.

Diarization Settings: In the Diarization section, you can select which speaker-diarization model and device to use (at the moment only GPU through GUDA is allowed). There are no extra numeric parameters here; simply enabling this feature applies the model to the entire audio, producing speaker tags.

Text-to-Text Translation Tab: The T2T Translation tab is for translating existing subtitle files. First upload your SRT/WEBVTT file. Then choose either the NLLB or DeepL sub-tab:

NLLB: Pick a model size (smaller NLLB models require less GPU RAM. An NLLB VRAM table is shown to guide model choice.), source and target languages, and optionally set a max line length, then click TRANSLATE SUBTITLE FILE. Both translators have an “Add timestamp” option to append timestamps to the output filename. The tab outputs a translated subtitle file for download. These text-translation features supplement Whisper’s speech translation.

DeepL: Enter your API key, select source/target languages, and (optionally) indicate if you have a Pro account. Click TRANSLATE SUBTITLE FILE. The tool will call DeepL and produce a translated subtitle file.

BGM Separation Tab: This dedicated tab (separate from File) runs UVR on full audio. Upload an audio file, choose the model and segment size, then click SEPARATE BACKGROUND MUSIC. It outputs two audio files, which you can play directly: one for Instrumental and one for Vocals. You can then download these outputs as needed.