Transcription Tools

A Docker tool for transcribing video files with spoken words. The intended use of transcriptions is as input to other text analysis tools, such as LLM summarization or indexing.

This is mostly a Docker wrapper around OpenAI's Whisper.

Features

Can handle multiple video files, concatenating videos in order
Extracts audio from video files
Transcribes audio using OpenAI's Whisper, output is Whisper transcript format.
Outputs transcription in JSON and plain text formats
Generates a manifest file with metadata and checksums
GPU acceleration

Requirements

Docker

Building the Docker Image

To build the Docker image, run:

docker build -t transcription-tools-gpu ./transcription

Usage

docker run --gpus all -ti -v "$PWD/transcription/data:/usr/data" transcription-tools-gpu --input /usr/data/video.mkv  --output-dir /usr/data --model large-v3

Will output:

data/video1.manifest.json
data/video1.transcript.json
data/video1.transcript.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Transcription Tools

Features

Requirements

Building the Docker Image

Usage

Files

README.md

Latest commit

History

README.md

File metadata and controls

Transcription Tools

Features

Requirements

Building the Docker Image

Usage