小众AI

KrillinAI
KrillinAI - 基于 AI 的视频翻译配音工具
简约而强大的工具可以处理从翻译、配音到语音克隆、格式化的所有内容——在横向和纵向模式之间无缝转换视频,以便在所有内容平台(YouTube、TikTok、Bilibili、抖音、微信频道、RedNote、快手)上实现最佳显示。
  代码仓

简约而强大的工具可以处理从翻译、配音到语音克隆、格式化的所有内容——在横向和纵向模式之间无缝转换视频,以便在所有内容平台(YouTube、TikTok、Bilibili、抖音、微信频道、RedNote、快手)上实现最佳显示。凭借其端到端工作流程,Krillin AI 只需单击几下即可将原始素材转换为精美的平台就绪内容。

主要功能:

🎯 一键启动 - 立即启动您的工作流程,提供新的桌面版本 - 更易于使用!

📥 视频下载 - 支持 yt-dlp 和本地文件上传

📜 精确字幕 - Whisper 驱动的高精度识别

🧠 智能分割 - 基于LLM的字幕分块和对齐

🌍 专业翻译 - 段落级翻译,保持一致性

🔄 术语替换 - 一键式特定域词汇交换

🎙️ 配音和语音克隆 - CosyVoice 选定的语音或克隆语音

🎬 视频合成 - 水平/垂直布局的自动格式

🔍 语音识别支持

下表中的所有本地模型都支持可执行文件 + 模型文件的自动安装。只需做出选择,KrillinAI 就会为您处理其他一切。

服务 支持的平台 模型选项 本地/云 笔记
OpenAI 耳语 跨平台 - 快速,效果极佳
更快的耳语 Windows/Linux作系统 tiny/medium/large-v2(推荐培养基+) 当地 更快的速度,无云服务开销
WhisperKit macOS(仅限 Apple Silicon) large-v2 当地 Apple 芯片的原生优化
阿里云 ASR 跨平台 - 绕过中国大陆网络问题

🚀 大型语言模型支持

✅ 兼容所有与 OpenAI API 兼容的云/本地 LLM 服务,包括但不限于:

  • 开放人工智能
  • 深度seek
  • Qwen (同义千文)
  • 自托管开源模型
  • 其他 OpenAI 格式兼容的 API 服务

🌍 语言支持

输入语言支持:中文、英文、日文、德文、土耳其文、韩文、俄文、马来文(不断扩展)

翻译语言:支持 101 种语言,包括英语、中文、俄语、西班牙语、法语等。

🚀 快速开始

基本步骤

首先,下载与设备系统匹配的 Release 可执行文件。按照以下说明在桌面版或非桌面版之间进行选择,然后将软件放在空文件夹中。运行该程序会生成一些目录,因此将其保存在空文件夹中会更容易管理。

[对于桌面版本(名称中带有“desktop”的发布文件),请参阅此处] 桌面版是新发布的,旨在解决初学者在正确编辑配置文件时面临的困难。它仍然存在一些错误,并且正在不断更新。

双击该文件以开始使用它。(桌面版本还需要配置,这是在软件中完成的。

[对于非桌面版本(名称中没有“desktop”的发布文件),请参阅此处] 非桌面版本是原始版本,具有更复杂的配置但功能稳定。它还适用于服务器部署,因为它提供了基于 Web 的 UI。

在该目录中创建一个文件夹,然后在其中创建一个文件。将文件内容从源代码目录复制到您的目录中,并填写您的配置详细信息。configconfig.tomlconfig-example.tomlconfigconfig.toml

双击可执行文件或在终端中运行它以启动服务。

打开浏览器并输入 http://127.0.0.1:8888 以开始使用它。(将 8888 替换为您在配置文件中指定的端口号。

收件人:macOS 用户

[对于桌面版本,即名称中带有 “desktop” 的发布文件,请参阅此处] 由于签名问题,桌面版的当前打包方式不支持直接双击执行或 DMG 安装。需要手动配置信任,如下所示:

  1. 在终端中打开包含可执行文件的目录(假设文件名为 KrillinAI_1.0.0_desktop_macOS_arm64)
  2. 按顺序执行以下命令:
sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64  
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64  
./KrillinAI_1.0.0_desktop_macOS_arm64  

[对于非桌面版本,即名称中没有 “desktop” 的正式版文件,请参阅此处] 该软件未签名,因此在完成“基本步骤”中的文件配置后,您需要在 macOS 上手动信任该应用程序。请执行以下步骤:

  1. 打开终端并导航到可执行文件(假设文件名为 )所在的目录。KrillinAI_1.0.0_macOS_arm64
  2. 按顺序执行以下命令:
sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64
./KrillinAI_1.0.0_macOS_arm64

这将启动服务。

Docker 部署

此项目支持 Docker 部署。请参阅 Docker 部署说明

如果您遇到视频下载失败的情况,请参考 Cookie 配置说明来配置您的 Cookie 信息。

以下使用场景需要阿里云的配置:

  • 如果填写为 ,则表示将使用阿里云的大模型服务。因此,需要设置物料的配置。llm_provideraliyunaliyun.bailian
  • 如果填写了 ,或者在启动任务时开启了 “语音配音” 功能,则会使用阿里云的语音服务。因此,需要填写该项的配置。transcription_provideraliyunaliyun.speech
  • 如果开启了“语音配音”功能,同时上传了本地音频文件进行语音音色克隆,则还会使用阿里云的 OSS 云存储服务。因此,需要填写项目的配置。 配置指南:阿里云配置说明aliyun.oss

实战演习

场景1:大模型驱动的智能字幕处理

KrillinAI的一大技术亮点在于利用大语言模型(LLM)对转录文本进行智能分段和对齐。这不是简单的按时间切割,而是基于语义和上下文的智能处理,确保每个字幕片段都是完整且有意义的语句单元。

从项目提供的效果展示来看,即使是处理46分钟的长视频,KrillinAI也能够生成自然、无缺失、无重叠的字幕分段,这对于提升视频观看体验至关重要。

场景2:专业级翻译系统

KrillinAI支持56种语言的翻译,包括英语、中文、俄语、西班牙语、法语等。与传统翻译工具不同,KrillinAI采用段落级翻译策略,这意味着系统会考虑上下文语境,保证翻译结果的连贯性和专业性。

另一个实用功能是术语替换,允许用户一键替换特定领域的专业术语,确保翻译结果符合特定行业或领域的表达习惯,提升翻译的专业性和准确性。

场景3:多样化配音与语音克隆

完成翻译后,KrillinAI支持将文本转换为自然流畅的语音。系统提供了多种配音选项,默认集成了CosyVoice的语音合成技术,用户还可以上传自己的语音样本进行声音克隆,实现个性化的配音效果。

这一功能对于需要保持视频一致声音风格的创作者尤为重要,能够在不同语言版本之间保持统一的声音特征。

场景4:智能视频合成与格式转换

KrillinAI的视频处理能力不仅限于字幕和配音,还包括视频格式的智能转换。系统能够自动处理横屏和竖屏视频的转换,优化不同平台的显示效果。

这一功能特别适合需要将一个视频同时发布到多个平台(如横屏的YouTube和竖屏的抖音、TikTok等)的创作者,大大减少了手动调整不同平台视频格式的工作量。


更多...


wdoc
一个功能强大的 RAG(检索增强生成)系统,旨在汇总、搜索和查询各种文件类型的文档。
DevDocs
DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。
DeepSearcher
DeepSearcher 结合推理 LLM(OpenAI o1、o3-mini、DeepSeek、Grok 3、Claude 3.7 Sonnet 等)和向量数据库(Milvus、Zilliz Cloud 等),基于私有数据进行搜索、评估和推理,提供高度准确的答案和全面的报告。