Skip to content

Latest commit

 

History

History
186 lines (142 loc) · 9.4 KB

README.tw.md

File metadata and controls

186 lines (142 loc) · 9.4 KB

Voice-Pro: The best gradio web-ui for transcription, translation and text-to-speech 🔊

🌍 한국어English中文简体中文繁體日本語

GitHub License GitHub Release

**Voice-Pro是最佳的轉錄、翻譯和文字轉語音的gradio網頁界面。**它可以一鍵安裝。使用Miniconda創建虛擬環境,完全獨立於Windows系統運行(完全便攜)。支持實時轉錄和翻譯,以及批處理模式。

  • YouTube下載器:您可以下載YouTube視頻並提取音頻(mp3、wav、flac)。
  • 人聲分離:使用UVR5支持的MDX-Net和Meta開發的Demucs引擎進行語音分離。
  • STT:支持使用Whisper、Faster-Whisper和whisper-timestamped進行語音轉文字。
  • 翻譯器:Google翻譯。短文翻譯,字幕文件翻譯。
  • TTS:文字轉語音。Edge-TTS。zero-shot語音克隆的E2和F5-TTS。
  • 我們免費提供Celeb聲音。試著製作自己的播客。您可以在F5-TTS標籤中查看。

🚄 運行畫面

  • TTS tab : Podcast Production using F5-TTS

    f5-tts-demo-elon-zuckerberg-1115-3.mp4

  • Studio tab : Transcription, Translation & Text-to-Speech

    voice-pro-demo-v1.6.7-1080p.mp4

  • Live Translation tab : 即時語音辨識和翻譯

    voice-pro-demo-v1.5.7-h264-1080p-live.mp4

⭐ 主要功能

  • Studio標籤頁
    • 提供YouTube下載器、噪音去除、字幕、翻譯和TTS的集成環境
    • 支持所有ffmpeg支持的視頻/音頻格式
    • 可選擇輸出音頻格式(wav、flac、mp3)
    • 支持100種語言的語音識別和字幕創建
    • 選擇適合PC性能的字幕創建選項(Whisper模型和計算類型)
    • 翻譯成100多種語言並通過TTS生成語音
    • 原始視頻的背景音樂和音效在多語言視頻中保持不變
    • 支持TTS語音速度、音量和音調調整

  • Whisper Caption標籤頁

    • 專用於創建字幕的標籤頁。支持90多種語言
    • 顯示與視頻一起創建的字幕
    • 提供單詞級高亮功能
    • 提供降噪功能(1-Demucs、2-MDXNet)
  • Translate標籤頁

    • 專用於翻譯的標籤頁。支持100多種語言
    • 支持字幕文件(ass、ssa、srt、mpl2、tmp、vtt、microdvd、json)
    • 也可以直接輸入文本
    • 自動檢測上傳文件的語言
  • TTS標籤頁

    • 支持 Edge-TTS 和 F5-TTS。
    • Edge-TTS 支持超过 100 种语言和 400 种以上的声音。
    • 可以调整音高、音量和速度。
    • F5-TTS 支持零样本语音克隆。
    • 可以使用 Celeb Voice 制作播客。

  • Live Translation標籤頁

    • 支持實時語音識別和翻譯
    • 選擇麥克風、揚聲器等音頻輸入源
    • 提供保存捕獲的音頻、識別的字幕和翻譯的字幕的功能
  • Batch標籤頁

    • 大量文件的批處理
    • 字幕、翻譯、TTS

💻 執行環境

  • 操作系統:Windows 10/11(64位)※不支持Linux和Mac OS。
  • GPU:推薦支持CUDA 12.1的NVIDIA顯卡。
  • VRAM:4GB或以上。推薦8GB或以上。
  • RAM:4GB或以上
  • 硬碟:安裝時至少需要20GB的可用空間
  • 需要網絡連接(安裝和翻譯工作)

📀 安裝

Voice-Pro可以輕鬆地一鍵安裝。只需運行🚀configure.bat和🚀start.bat即可。

步驟1. 準備包

  • GitHub Release克隆或下載最新版本(Source code (zip))。
git clone https://github.com/abus-aikorea/voice-pro.git

步驟2. 安裝和運行程序

  1. 🚀 運行configure.bat
    • 在Windows上安裝git、ffmpeg和CUDA(如果使用NVIDIA GPU)。
    • 只需要在第一次運行時執行。
    • 需要網絡連接,根據系統情況可能需要一個多小時。
    • 安裝過程中切勿關閉Windows命令窗口。
  2. 🚀 運行start.bat
    • 啟動Voice-Pro。網頁界面將自動運行。
    • 首次運行時,會先安裝Voice-Pro。
    • 需要網絡連接,根據系統情況可能需要一個多小時。
    • 安裝過程中切勿關閉Windows命令窗口。
    • 如果安裝過程中出現問題,請刪除installer_files文件夾並再次運行start.bat。

步驟3. 卸載程序

  • 運行uninstall.bat
    • 刪除installer_files文件夾。
    • 刪除安裝在Windows上的ffmpeg、git和CUDA包(如果選擇)。
  • Voice-Pro默認為便攜式安裝。要卸載程序,只需刪除安裝文件夾即可。

❓ 提示和技巧

如果瀏覽器沒有自動運行

  • 關閉Windows命令窗口並再次運行start.bat。
  • 直接運行瀏覽器並在地址欄輸入Windows命令窗口中顯示的地址(例如**http://127.0.0.1:7892**)。

如果出現CUDA內存不足錯誤

  • 在Windows任務管理器的性能選項卡中檢查GPU內存狀態。
  • 將降噪級別設置為0或1。降噪級別2至少需要8GB的GPU內存。
  • 將計算類型設置為int類型。float類型質量更好,但需要更多GPU內存。

如何提高字幕質量?

  • 字幕質量通常隨著更大的Whisper模型而提高,但並非總是如此。large > medium > small > base > tiny
  • 在計算類型中,float類型性能較好。int類型是通過模型量化減少GPU使用並提高速度的模型。另一方面,性能會下降。
  • 如果增加降噪級別,將會去除更多背景聲音,只使用剩餘的聲音進行語音識別。這並不總是保證好的結果。

📢 注意

Windows Defender 可能會發出有關不受信任的應用程式的警告,並禁止進一步執行 Voice-Pro。 如果 SmartScreen 的安全級別設置為「警告」,只需點擊「更多資訊」,然後點擊「仍然要執行」。 如果 SmartScreen 設置為「阻止」級別,則不會有按鈕來運行安裝。在這種情況下,打開 start.bat 文件的屬性,檢查「解除封鎖」,應用更改後再次運行 start.bat。

當Windows Defender錯誤地將批處理文件識別為特洛伊木馬時,這通常被稱為"誤報"。要解決這個問題,您可以按照以下步驟操作:

  1. 文件例外處理:在Windows Defender中,您可以設置某些文件或進程跳過安全掃描。要做到這一點,請按照以下步驟:
    • 點擊"開始"按鈕並進入"設置"。
    • 點擊"更新與安全"。
    • 選擇"Windows安全中心"並進入"病毒和威脅防護"。
    • 點擊"管理病毒和威脅防護設置"。
    • 在"病毒和威脅防護設置"中選擇"添加或刪除排除項"。
    • 選擇"文件或文件夾",找到相關的批處理文件並將其添加為例外。
  2. 暫時禁用Windows Defender:這可能是一個臨時解決方案。但是,使用此方法時必須小心,因為它可能會使您的計算機暴露於其他威脅中。
  3. 向防病毒軟件報告問題:如果您確定該文件不是特洛伊木馬,可以將其作為誤報向Microsoft報告。Microsoft將審查此問題並採取必要的行動。

📬 聯繫我們

👍 YouTube

🙏 鳴謝

©️ 版權

by ABUS