AI-ToolLab: KI-Transkription

Whisper-WebUI

Whisper-WebUI bietet eine benutzerfreundliche und attraktive Oberfläche zur automatisierten Transkription und Untertitelung von Audio- und Videodateien.

Die OpenSource-Anwendung ermöglicht es Nutzern, präzise und KI-gestützte Transkriptionen zu erstellen und bietet eine Vielzahl von Funktionen, die sie besonders vielseitig und nützlich macht. Zur Transkription wird das KI-Modell Whisper von OpenAI verwendet.

Das Tool wurde von studiumdigitale für die Mitglieder der Goethe Universität konfiguriert und wird zur Erprobung auf universitätseigenen Servern bereitgestellt.


Einsatzmöglichkeiten in der Lehre

  • Automatische Transkription und Untertitelung von Vorlesungsaufzeichnungen für barrierefreien Zugang.
  • Erstellung von Untertiteln für Lehrvideos zur besseren Verständlichkeit.
  • Unterstützung der Mehrsprachigkeit in internationalen Lehrveranstaltungen durch direkte Übersetzung ins Englische.
  • Präzise Dokumentation von Interviews und Gruppendiskussionen in Forschungsprojekten.
  • Erleichterung der Analyse von audiovisuellen Lernmaterialien durch klare und strukturierte Transkripte.

Features

  • Open Source: Als frei zugängliche Open-Source-Anwendung fördert Whisper-WebUI Innovation und ermöglicht eine kontinuierliche Weiterentwicklung durch die Community.
  • Flexibilität: Die Unterstützung zahlreicher Sprachen und Modelle macht Whisper-WebUI vielseitig und für verschiedenste Einsatzbereiche geeignet.
  • Anpassbarkeit: Flexible Modellauswahl und individuell einstellbare Funktionen erlauben eine optimale Anpassung an spezifische Anforderungen.
  • Benutzerfreundlichkeit: Die intuitive Oberfläche sorgt für eine einfache Bedienung, sowohl für technische als auch nicht-technische Nutzer*innen.
  • Datenschutz & Sicherheit: Durch den Betrieb auf eigenen Servern bleiben sensible Daten geschützt und unter der Kontrolle der Nutzenden.

Hauptfunktionen

🧠 Modell- & Sprachauswahl
  • Wählen Sie zwischen verschiedenen Whisper-Modellen (tiny, base, small, medium, large), je nach gewünschtem Verhältnis von Geschwindigkeit zu Genauigkeit.
  • Größere Modelle erzielen eine höhere Präzision, benötigen jedoch mehr GPU-RAM und verarbeiten langsamer.
  • Die Spracherkennung kann automatisch erfolgen oder gezielt eingestellt werden.
🎧 Voice Activity Detection (VAD)
  • Automatische Erkennung und Entfernung von Pausen und Hintergrundgeräuschen für klarere Transkripte.
  • Anpassbare Empfindlichkeit für optimale Ergebnisse.
🎙️ Sprecherdiarisierung (Sprechererkennung)
  • Aktivieren Sie die Diarisierung, um in Ihrer Transkription automatisch verschiedene Sprecher zu erkennen.
  • Ideal für Interviews, Gruppendiskussionen oder Podcasts.
🎯 Einfache Bedienung
  • Datei-Upload: Laden Sie Ihre Audio- oder Videodatei einfach hoch oder nutzen Sie die integrierte Aufnahmefunktion.
  • Ausgabeformate: Unterstützt SRT, WebVTT, TXT und weitere gängige Untertitel- und Textformate
🎶 Entfernung von Hintergrundmusik (BGMR)
  • KI-basierte Trennung von Sprache und Hintergrundmusik.
  • Besonders hilfreich für Aufnahmen mit starker musikalischer oder akustischer Untermalung.
🌐 Direkte Übersetzung ins Englische
  • Perfekt geeignet für mehrsprachige Inhalte und internationale Projekte.
  • Nutzen Sie die Option „Translate to English?“, um nicht-englischsprachige Audioinhalte direkt ins Englische transkribieren zu lassen.

Support

Bei Problemen oder Fragen schreiben Sie eine Email an das Team des AI-ToolLabs.

Credits

Whisper-WebUI ist ein von jhj0517 entwickeltes OpenSource-Projekt.
studiumdigitale betreibt eine vorkonfigurierte Instanz für die Nutzer*innen der Goethe-Universität.
Apache-Lizenz 2.0 | GitHub