語言：中文 | English

我叫做 Matt，是一名菜鳥工程師.

目前我是一名AI工程師，擅長 大語言模型(LLM) 與 語音AI。

經歷

National Pintung University, Hakka speech recognition Project (July 2022 - July 2023)

Reference GitHub Kaldi

Reference GitHub Espnet

Kaldi
Espnet
語音辨識

ASR workflow

Kaldi, TDNN-F 演算法

最初我嘗試使用現成語音訓練工具 ‘Kaldi’進行建模
並使用TDNN-F演算法作為訓練方法

TDNN-F算法的優點：在訓練時，模型會參考前後文進行學習，從而選擇出最有可能的答案。此舉使得模型在選字時，會更符合語者當下的語境、語意。

RPC workflow

Espnet, End-to-End and Contextual-Block-Conformer

後期改用語音訓練工具 ‘Espnet’進行建模

不同於‘Kaldi’的’GMM & HMM’架構，‘Espnet’使用’End to End’架構

優點: 利用神經網路，模型可以自行學習知識，而不需要對模型的每個步驟進行優化。

缺點: 在模型結果不如預期時，能調整的部分變少了；因此須確保訓練資料足夠充足，才可以考慮使用End to End架構。

ASR workflow

國立陽明交通大學, Speech AI Research Center(SARC) (July 2023 - March 2024)

SARC詳細資訊

大語言模型
資料預處理
伺服器主機維護
GitLab 維護

與 TAIDE 合作

TAIDE計畫，是由「中央大學蔡宗翰教授」與「臺灣大學李宏毅教授」等學界名師主導的國科會計畫。

TAIDE致力於打造一個台灣專用的ChatGPT。

SARC對TAIDE模型進行本土化調適，於2023/9開始正式合作，並於2023/11調適出「台語、客語」大語言模型，並於同一時間上架至TAIDE公測平台，提供給TAIDE團隊與其合作夥伴使用。

更多有關TAIDE

TAIDE
TAIDE

以下是建模大語言模型時的詳細步驟

選定基礎模型
對編碼器(Tokenizer)進行目標語言做擴增進行優化。
在這個階段讓模型閱讀大量目標語言的文章，以此培養模型對新語言的語感。
學會新語言怎麼說以後，就可以訓練模型如何回答用目標語言提出的問題，此處輸入大量問答題，訓練模型回答不同問題。
新的模型出爐

LLM arch
LLM demo

與群聯電子(PHISON) 合作 (aiDAPTIV+)

設備維護

管理Linux伺服器的所有使用者與其權限
維護Linux伺服器的軟體系統環境
維護Linux伺服器硬體
設定Linux伺服器網路環境與跨主機串接、NAS設定

DLink AI Engineer (6/11~now)

語音辨識
大語言模型
AI翻譯器

中文+台語 Whisper Fine-Tune (6/11~now, long tern job)

將大量從 YouTube 獲取的資料進行整理，儘管大多數資料還是有標註不準確的問題。

使用總共大約3000小時的語料(non proof data)進行 Full Fine-Tune.

最終正確辨識率大約為76%，後續擴增、清理資料後可以繼續提升辨識率.

ASR demo

嘗試使用模型進行清理所有non-proof-data

在模型辨識的結果中，cer + confidence*-100的分數超過閥值時，就暫時標記為危害資料

針對這批資料，在進行二次掃描與人工校對，完成資料的清洗

LLM 評估 (7/12~7/30)

搭建 Ollama 平台於工作站。

使用 IFEval 來評估模型對與指令順從度的測驗。

也可以參考文章，我有針對這篇論文做一些簡述。

IFEval

Retrieval-Augmented Generation, RAG檢索 (7/30~8/29)

利用 RAG & Prompt Engineering 技術，對LLM進行客製化，為現今成本最低的調整模型方法。

將未經過fine-tune的LLM，調整為行事曆查詢器，並對行程總結。

Memo demo

BLE Socket server (9/2~9/18)

利用簡單的socket server，與遠端裝置建立連線，傳送一段音檔(raw audio)

並在遠端裝置中，將接收到的音檔，投射至藍芽裝置進行播放

在此項專案中，於遠端裝置特別使用了pulseaudio對藍芽裝置建立虛擬音效卡，才得以順利播放音檔

Retrieval based Voice Conversion, AI Song Conver (10/24~now)

搜集一個使用者的聲音(至少3分鐘人聲)，讓模型進行聲音檢索(Retrieval)，在預訓練模型中找到與使用者最相似的聲音做為訓練目標

模型fine-tune完成後，將一段參考音檔給模型聽過後，模型會嘗試使用使用者的聲音，發出參考音檔的內容。

實際範例: 紫砂歐那
使用者

參考音檔

輸出