video2text Windows 安装部署教程找了下本地视频转文字的工具都是各种限制于是自己写了个自用的工具。如果你觉得有用欢迎在 GitHub 上给个 Star完全免费无时长限制可批量转写视频和音频基于 Whisper large-v3高准确率集成 Ollama / NVIDIA 大模型自动生成摘要图形界面 命令行Windows 绿色版已打包批量转写 总结输出 TXT/SRT/VTT/JSON完全开源video2text GitHub 仓库一、界面主界面GUI仅转写Whisper提取语音输出原文、字幕不生成AI总结仅总结读取已有文稿本地大模型生成摘要转写总结一键执行语音转写AI摘要整套流程左侧日志区实时打印加载、报错、显存、任务耗时等运行日志右上结果区文本内容原文编辑CtrlS保存、CtrlF查找右键重转文件摘要页AI产出文案支持手动修改右下提示词区自定义摘要提示词可保存/删除模板勾选Markdown自动格式化导出工作流程简介video2text 的处理流程分为两个阶段语音转写输入视频/音频 → Whisper large-v3 模型 → 输出 TXT/SRT/VTT/JSON 文本智能总结转写文本 → Ollama 本地模型 / NVIDIA 在线模型 → 输出 Markdown 格式摘要两个阶段可独立运行也可以一键完成。二、安装前的准备系统要求与组件在安装 video2text 这一本地视频转文字工具前请先确认你的电脑满足以下条件。2.1 最低配置与推荐配置项目最低要求推荐配置操作系统Windows 10 64位Windows 11 64位磁盘空间20 GB 可用空间30 GB 以上含模型文件内存RAM8 GB16 GB 及以上显卡无CPU模式可用但很慢NVIDIA 显卡6GB显存以上 CUDA注意AMD 显卡暂不支持 GPU 加速。CPU 模式可以运行会比较慢。显卡信息参考nvidia-smi 输出示例以下为 nvidia-smi 输出示例请以你电脑上的实际输出为准Driver Version: 572.83NVIDIA 显卡驱动版本video2text 依赖驱动提供的 CUDA 运行时。驱动版本过低可能导致 GPU 无法被识别。CUDA Version: 12.8此驱动支持的最高 CUDA 版本。Whisper 和各类深度学习模型在 CUDA 12.x 下均可正常工作。NVIDIA-SMI 572.83Driver Version: 572.83CUDA Version: 12.8GPU Name Driver-ModelBus-Id Disp.AVolatile Uncorr. ECCFan Temp Perf Pwr:Usage/CapMemory-UsageGPU-Util Compute M.MIG M.0 NVIDIA GeForce RTX 4060 WDDM00000000:01:00.0 OffN/AN/A 41C P5 5W / 140W365MiB / 8188MiB0% DefaultN/A如果驱动版本和 CUDA 版本太低也可能无法使用 GPU 加速。建议先在命令行执行nvidia-smi确认显卡状态。2.2 需要下载哪些文件video2text 本地视频转文字工具的安装包体积较大已上传至 123 云盘内含以下组件组件大小是否下载video2text 程序包~3 GB必须large-v3语音转文字模型~3 GB可选建议下载自己有其它模型也行Ollama 安装包和本地模型qwen2.5:7b~6 GB可选看总结用不用 Ollama请使用支持保留目录结构的解压工具如7-Zip或Bandizip解压压缩包确保文件夹结构完整。下载地址合并下载: [video2text] 包括video2text程序包,语音转文字模型,ollama安装包和本地模型qwen2.5:7b 链接https://1840674647.share.123pan.cn/123pan/7CfNTd-SE7j3?pwdviWa# 提取码viWa 分开下载: [video2text_portable_windows_*.zip] 程序包 链接https://1840674647.share.123pan.cn/123pan/7CfNTd-4Ovdh?pwd1234# 提取码1234 [large-v3.zip] 语音转文字模型 链接https://1840674647.share.123pan.cn/123pan/7CfNTd-nk8vh?pwd1234# 提取码1234 [ollama] 安装包和本地模型 链接https://1840674647.share.123pan.cn/123pan/7CfNTd-DR8dh?pwd1234# 提取码1234三、详细安装步骤以下按顺序介绍 video2text 本地视频转文字工具的完整安装流程。3.1 部署 video2text 本地视频转文字程序第一步解压程序包将video2text_portable_windows_*.zip解压到你希望存放程序的位置例如D:\video2text。该程序为绿色版无需安装不会写入注册表解压即用。解压后目录结构如下D:\video2text\ ├── video2text.exe ← 主程序 ├── video2text.bat ← 启动脚本自动设置工作目录 ├── config.ini ← 配置文件 ├── .env ← 环境变量配置存放 API Key需手动创建 ├── docs ← 文档 ├── assets\ ← 图标资源 ├── ffmpeg\ ← 内置 FFmpeg ├── models\ ← 模型目录需要放入模型文件 ├── output\ ← 输出目录可选 ├── logs\ ← 日志目录 └── README.md ← 说明文档第二步放入语音识别模型将下载的large-v3.zip解压到程序目录下的models文件夹中。确保解压后模型文件位于models\large-v3\子目录下且包含以下核心文件D:\video2text\models\ └── large-v3\ ├── config.json ├── model.bin ← 核心模型文件约 2.9 GB ├── preprocessor_config.json ├── tokenizer.json └── vocabulary.json放好模型后就可以使用视频转文本功能了。需要使用其它模型的可以到 Hugging Face 上找按照上面目录结构放好再到配置文件中设置。3.2 总结模型安装video2text 支持两种总结服务NVIDIA 在线模型和本地 Ollama 模型按需选择其一即可。选择可以到软件设置编辑配置总结单选框选择3.2.1 NVIDIA 在线使用在线 NVIDIA 模型总结需要先在 NVIDIA Build 注册账号并创建 API Key目前大部分模型免费使用。获取 Key 后在程序目录下新建一个名为.env的文本文件注意文件名以点开头无扩展名。用记事本打开按需添加以下内容# NVIDIA API Key使用在线 NVIDIA 模型总结时需要 NVIDIA_API_KEYnvapi-你的API密钥保存文件。程序启动时会自动读取该文件中的环境变量。API Key 也可以通过系统环境变量设置效果相同系统环境变量优先级高于.env文件。NVIDIA 提供有很多免费的模型如果网络访问有问题需要自行解决。3.2.2 安装 Ollama使用本地模型总结Ollama 是一个本地大语言模型运行框架video2text 使用它来生成文本摘要。本文以qwen2.5:7b-instruct-q4_K_M为例进行安装演示该模型实际总结效果一般推荐优先使用 NVIDIA 在线模型。第一步运行安装程序双击OllamaSetup.exe按提示完成安装。安装过程无需手动配置会自动完成。第二步解压预下载模型找到下载好的models.zip文件将其解压到C:\Users\你的用户名\.ollama目录下。确保解压后的目录结构如下C:\Users\你的用户名\.ollama\ └── models\ └── blobs\ ← 模型数据文件 └── manifests\ ← 模型清单文件第三步启动 Ollama 服务方式一在开始菜单找到 Ollama 图标并启动。方式二按Win R打开运行窗口输入cmd执行ollama serve。启动后系统托盘会出现 Ollama 图标表示服务已就绪。如果需要使用 Ollama 在线云服务模型如 deepseek-v3.1:671b-cloud、gpt-oss:120b-cloud需注册账号并在.env文件中配置OLLAMA_API_KEY# Ollama API Key使用带认证的 Ollama 服务时可选配置 OLLAMA_API_KEY你的API密钥3.3 验证安装是否成功完成以上所有步骤后按顺序验证各组件是否正常工作启动 video2text双击video2text.exe或video2text.bat启动程序。程序主窗口应正常显示标题为「Video2Text - 视频转文本工具」。底部状态栏会显示当前使用的配置文件路径。快速测试可选选择一个短小的视频文件1-2 分钟即可。点击「仅转写」按钮观察日志面板是否有输出、进度条是否推进。转写完成后右侧面板应显示转写文本。点击「仅总结」按钮确认能正常生成摘要。四、使用教程本节演示如何使用 video2text 本地视频转文字工具完成第一次转写和总结。4.1 启动界面说明双击video2text.exe即可打开图形界面GUI。也可以双击video2text.bat启动它会自动将工作目录切换到程序所在位置。程序启动后显示主窗口默认 1200x800从上到下分为以下区域区域说明菜单栏设置编辑配置、收藏目录、帮助捐赠支持、关于输入行视频文件/文件夹选择、常用目录下拉框、全屏查看按钮输出行输出目录设置、浏览、加载历史、暂停按钮进度行进度条、进度标签、三个操作按钮仅转写/仅总结/转写总结左侧面板日志输出实时显示运行日志Consolas 等宽字体右侧面板上部结果查看文件列表 转写文本/摘要标签页 查找替换栏右侧面板下部提示词配置自定义总结提示词及模板管理状态栏显示配置路径、操作反馈信息4.2 选择一个视频点击转写总结选择视频文件选择文件点击「选择文件」按钮在弹出的对话框中选择一个或多个视频文件按住Ctrl或Shift多选。选中多个文件后输入框显示「已选择 N 个文件」。选择文件夹点击「选择文件夹」按钮选择一个文件夹后程序会自动递归扫描其中所有支持格式的视频并弹出选择对话框。对话框显示找到的所有视频文件每个文件前有复选框默认全部勾选。可通过「全选」/「取消全选」按钮批量操作勾选需要处理的文件后点击「确定」。支持的视频格式共 17 种.mp4.avi.mov.mkv.flv.wmv.webm.ts.mts.m4v.3gp.mpeg.mpg.vob.ogv.rm.rmvb常用目录收藏输入框和输出框均为可编辑下拉框会显示已收藏的常用目录。通过菜单「设置 → 收藏」可以收藏当前输入/输出文件夹为常用目录右键点击下拉列表中的目录条目可删除单个收藏通过菜单可批量移除所有输入或输出目录收藏设置输出目录点击「浏览」按钮选择转写结果的保存位置。默认输出目录为程序所在目录下的output文件夹。如果是通过「选择文件夹」导入视频程序会自动在output下创建以源文件夹命名的子目录。执行转写总结界面提供三种操作模式按钮功能说明仅转写语音 → 文字使用 faster-whisper 模型将视频中的语音转为文字结果保存到输出目录仅总结文字 → 摘要对当前「文本内容」标签页中的文字进行 AI 摘要需要 Ollama 或 NVIDIA API。也支持对直接粘贴到文本框中的独立文字进行总结转写总结语音 → 文字 → 摘要先转写完成后自动对每段转写文本进行摘要一步完成全流程操作过程中的说明进度条会实时更新显示「已完成数/总数」日志面板会实时输出处理信息包括每段视频的转写进度、耗时等转写过程中可点击「暂停」按钮暂停当前音频分段完成后再暂停暂停后按钮变为「继续」点击继续恢复处理任务完成或失败时日志面板会显示统计信息成功/失败数量处理期间按钮状态会自动切换转写/总结/文件选择按钮禁用暂停按钮启用4.3 查看结果编辑、查找替换、全屏查看器、书签文件列表操作完成后右侧面板的文件列表会显示所有已处理的视频文件名。点击文件名可切换查看对应的转写文本和摘要。转写文本「文本内容」标签页显示该视频的完整转写文本Consolas 等宽字体文本可编辑可以直接修改转写结果中的错别字或格式问题CtrlS 保存编辑后按CtrlS可将修改保存到文件CtrlF 查找替换按CtrlF打开查找替换栏支持关键词搜索当前匹配项高亮为橙色其余高亮为黄色和替换/全部替换操作编辑后的文本可通过右键菜单「重新总结」按钮重新生成摘要摘要「摘要」标签页显示 AI 生成的摘要内容文本可编辑摘要内容支持直接编辑修改CtrlS 保存编辑后按CtrlS可将修改保存到文件CtrlF 查找替换同样支持查找替换功能右键菜单在文件列表中右键点击某个文件可选择重新转写对选中的视频重新执行转写需要原始视频文件仍在原路径重新总结对选中的视频重新执行总结需要已存在转写文件。如果在「文本内容」标签页中编辑过文本会使用编辑后的文本进行总结全屏结果查看器点击主界面的「全屏查看」按钮可打开独立的结果查看窗口提供更舒适的浏览体验。窗口默认 1400x900支持独立的文件浏览、搜索、书签等功能。全屏查看器详细功能点击展开工具栏控件说明字体大小数值调节框也可用Ctrl/Ctrl-调节范围 8-32pt默认 14ptCtrl0重置为默认主题下拉框切换「浅色」/「深色」主题选择会自动保存搜索CtrlF打开/关闭搜索栏全屏按F11切换全屏Esc退出全屏添加书签CtrlB在当前位置添加书签书签面板CtrlShiftB显示/隐藏书签侧栏文件夹模式CtrlD切换文件夹模式树形视图文件过滤左侧面板顶部有文件过滤输入框输入关键词可实时过滤文件列表便于在大量结果中快速定位。搜索功能按CtrlF打开搜索栏输入关键词后自动搜索300ms 防抖避免大文件卡顿按F3或CtrlG跳转到下一个匹配项按ShiftF3或CtrlShiftG跳转到上一个匹配项按Enter跳转到下一个匹配项按Esc关闭搜索栏全屏状态下按两次Esc退出全屏搜索栏右侧显示匹配计数如「3/15」当前匹配项高亮为橙色其他匹配项高亮为黄色深色主题下自动适配配色书签系统在转写文本或摘要中定位到需要标记的位置按CtrlB添加书签书签自动记录文件名、内容类型转写/摘要、光标位置、上下文预览前后各 30-70 字符、时间戳重复位置检测同一文件同一位置不会重复添加书签按CtrlShiftB打开书签面板包含以下功能书签计数显示如「共 10 个书签」或「显示 3 / 共 10 个书签」关键词过滤输入框实时过滤书签搜索范围包括文件名、路径、类型、内容、备注日期过滤下拉框按添加日期筛选排序方式按添加时间 / 按文件名 / 按内容类型双击书签条目跳转到对应文件和位置右键菜单跳转到位置、复制书签信息、编辑备注、全选、反选、删除选中底部按钮删除、批量删除、清空失效检测自动检测已删除文件的书签提示清理跨目录导航如果书签对应的文件不在当前目录中会提示切换目录书签数据跨会话自动保存存储在bookmarks.jsonMarkdown 渲染摘要标签页使用 Markdown 渲染显示支持标题、表格、代码块带语法高亮、引用块、有序/无序列表含嵌套、链接、加粗/斜体等格式。自动过滤不安全的 HTML 标签script、style、iframe。文件夹模式按CtrlD切换到文件夹模式左侧文件列表变为树形结构按子目录分层展示目录节点加粗并显示子视频数量如subfolder (3)子文件夹默认折叠点击展开窗口状态持久化窗口大小、工具栏位置、分栏比例等状态会自动保存到result_viewer.ini下次打开时自动恢复。五、进阶技巧自定义提示词与命令行使用5.1 自定义提示词模板主界面底部的「提示词配置」区域用于自定义总结时使用的提示词。使用方法在文本框中输入自定义提示词如「请用中文总结以下内容的要点重点关注技术细节」。如果留空将使用默认提示词「你是一个专业的文本总结助手擅长提取关键信息并生成简洁准确的总结。」点击「仅总结」或「转写总结」时会将提示词与转写文本组合后发送给 AI 模型。模板管理保存模板输入提示词后点击「保存提示词」按钮在弹出的对话框中输入模板名称即可保存。加载模板从下拉框中选择已保存的模板名称提示词会自动填充到文本框。删除模板选择要删除的模板点击「删除提示词」并确认。程序会自动记住上次使用的模板下次启动时自动恢复。模板数据存储在prompts.json文件中支持原子写入防止数据损坏。提示词构建流程程序发送给 AI 模型的完整提示由三部分组成自定义提示词或默认系统提示 Markdown 格式指令 转写文本。Markdown 格式指令要求模型以「要点标题 内容」的结构输出确保摘要格式清晰统一。5.2 配置文件详解config.ini程序目录下的config.ini可直接用文本编辑器修改完整配置如下[app] log_level INFO # 日志级别: DEBUG/INFO/WARNING/ERROR [transcription] model_path large-v3 # 转写模型名称或路径 device cuda # 设备: auto/cpu/cuda/mps language zh # 语言: auto/zh/en/ja/... beam_size 5 # beam search 大小 best_of 5 # 候选数量 temperature 0.0 # 温度参数 compute_type float16 # 计算类型: float16/int8/float32/int8_float16 num_workers 1 # 工作线程数 vad_filter True # VAD 过滤 condition_on_previous_text True # 是否基于前文进行转写提高连贯性 word_timestamps False # 是否生成单词级时间戳 [summarization] provider nvidia # 服务商: ollama/nvidia/zhipu ollama_url http://127.0.0.1:11434 # Ollama 服务地址 model_name qwen2.5:7b-instruct-q4_K_M # 模型名称 max_length 10000 # 最大生成长度 temperature 0.7 # 温度参数 timeout 600 # 请求超时时间秒 custom_prompt # 自定义提示词 nvidia_api_url https://integrate.api.nvidia.com/v1/chat/completions nvidia_model openai/gpt-oss-120b nvidia_max_tokens 100000 nvidia_temperature 1.0 nvidia_top_p 1.0 nvidia_frequency_penalty 0.0 nvidia_presence_penalty 0.0 nvidia_mode multi # NVIDIA 模式: single(单线程)/multi(多线程并发) nvidia_thread_count 5 # 多线程模式下的并发线程数 nvidia_stream false # 是否启用流式输出仅单线程模式有效 zhipu_model glm-4.7 # 智谱模型名称 zhipu_max_tokens 65536 # 智谱最大生成长度 zhipu_temperature 1.0 # 智谱温度参数 zhipu_mode single # 智谱模式: single(单线程)/multi(多线程并发) zhipu_stream true # 智谱是否启用流式输出仅单线程模式有效 zhipu_thread_count 5 # 智谱多线程模式下的并发线程数 [preprocessing] audio_sample_rate 16000 # 音频采样率 audio_channels 1 # 音频声道数 max_chunk_duration 300 # 最大切片时长秒 supported_video_formats .mp4,.avi,.mov,.mkv,.flv,.wmv,.webm,.ts,.mts,.m4v,.3gp,.mpeg,.mpg,.vob,.ogv,.rm,.rmvb supported_audio_formats .mp3,.wav,.flac,.aac,.ogg,.m4a,.wma # 支持的音频格式 [output] output_dir output # 默认输出目录 transcript_format txt # 转写格式可逗号分隔: txt,srt,vtt,json summary_format md # 摘要格式: txt/md mirror_enabled False # 是否启用镜像输出同时保存到源文件目录 mirror_depth 1 # 镜像输出时保留的目录层级数 [network] proxy # 代理地址用于 HuggingFace 模型下载 [paths] models_dir models # 模型目录 logs_dir logs # 日志目录 video_dir video # 视频目录 [text_processing] max_gap 2.0 # 文本合并的最大间隔秒 min_length 50 # 最小文本长度 filler_words 嗯,啊,呃,嗯嗯,啊啊 # 需要过滤的填充词也可通过环境变量VIDEO2TEXT_CONFIG指定自定义配置文件路径。5.3 命令行使用CLI除图形界面外也可在命令行中直接使用。在程序所在目录打开终端使用video2text.exe加子命令。不带参数运行时自动启动图形界面。转写命令.\video2text.exe transcribe 视频文件路径[选项]选项缩写说明默认值--output-dir-o输出目录output--verbose-v启用 DEBUG 级别详细日志关闭示例.\video2text.exe transcribeD:\videos\lecture.mp4-o output总结命令.\video2text.exe summarize 转写文本文件路径[选项]选项缩写说明默认值--output-dir-o输出目录output--verbose-v启用 DEBUG 级别详细日志关闭示例.\video2text.exe summarize output\lecture.txt-o output完整流程命令.\video2text.exe run-pipeline 视频文件路径[选项]选项缩写说明默认值--output-dir-o输出目录output--verbose-v启用 DEBUG 级别详细日志关闭示例.\video2text.exe run-pipelineD:\videos\meeting.mp4-o output所有转写参数模型、语言、设备、温度等和总结参数模型、温度、最大长度等均通过程序目录下的config.ini配置文件设置详见 4.2 配置文件详解。命令行不再支持直接指定这些参数。其他命令# 查看版本.\video2text.exe version# 查看所有命令及用法.\video2text.exe--help.\video2text.exe help5.4 输出文件说明文件命名类型文件名格式示例转写文件{视频名}.{格式}video1.txt、video1.srt摘要文件{视频名}_summary.{格式}video1_summary.md转写格式格式说明txt可读文本每行[HH:MM:SS - HH:MM:SS] 文本时间戳格式为时:分:秒srtSRT 字幕格式标准序号时间轴文本块可用于视频播放器加载字幕vttWebVTT 字幕格式以WEBVTT头部开始适用于网页播放器jsonJSON 数组每项包含start秒、end秒、text、confidence置信度 0-100、language语言代码字段可在config.ini中设置transcript_format txt,srt,json同时输出多种格式用逗号分隔。摘要格式格式说明txt纯文本格式mdMarkdown 格式默认支持标题、列表、加粗、表格、代码块等输出校验所有输出文件在写入后会自动校验SRT 检查序号连续性和时间戳格式、VTT 检查头部和时间戳、JSON 检查必需字段、TXT 检查非空、所有格式检查 UTF-8 编码有效性。5.5 高级功能断点续传对于长视频超过 300 秒可通过config.ini的max_chunk_duration调整程序会自动将音频切片分段转写。每完成一个切片会保存检查点到输出目录/.checkpoint/目录如果任务中断如程序崩溃、手动关闭下次重新运行相同视频时会自动跳过已完成的切片从中断处继续。检查点文件使用原子写入临时文件 替换防止损坏任务全部完成后自动清理检查点。暂停/继续转写过程中可随时点击「暂停」按钮当前音频分段完成后再暂停暂停后按钮变为「继续」。暂停期间不会丢失已完成的进度。模型自动下载首次运行时如果models/large-v3/目录下没有模型文件或文件不完整程序会自动从 HuggingFace 下载约 3GB。下载支持代理设置在config.ini的[network] proxy中配置、失败自动重试最多 3 次指数退避、下载进度显示在日志面板。GPU 显存管理转写模型加载到 GPU 后会缓存复用按模型路径设备计算类型线程数作为缓存键避免重复加载。关闭程序时会自动卸载模型并释放 GPU 显存。如果 GPU 显存不足CUDA OOM程序会自动降级先在同一设备上尝试不同计算类型float16→int8→float32→int8_float16如果仍然失败则回退到 CPU 模式cpuint8→cpufloat32。每次降级前会清理 GPU 缓存。NVIDIA 多线程总结当nvidia_mode multi时程序使用线程池并发处理多个视频的总结请求线程数由nvidia_thread_count控制并内置速率限制器请求间隔最少 1.5 秒避免触发 API 限流。多线程模式下强制使用非流式输出。日志系统程序运行日志保存在logs/目录下日志文件级别说明app.logINFO常规运行日志5MB 轮转保留 7 份debug.logDEBUG详细调试日志10MB 轮转保留 3 份error.logERROR错误日志10MB 轮转保留 30 份失败的任务会额外记录到logs/fail_log.log包含时间戳、操作模式、视频名称和错误信息。程序崩溃时会写入logs/crash.log未捕获的线程异常会写入logs/thread_error.log。