亚洲爱av在线电影,台湾妹子娱乐中文网,探花久久久久,日本久久无毛影院,伊人成人娱乐网,色情视频亚洲天堂,中文无码不卡视频,少妇高潮久久久,久久激情精品

登錄注冊(cè)
新聞 資訊 金融 知識(shí) 財(cái)經(jīng) 理財(cái) 科技 金融 經(jīng)濟(jì) 產(chǎn)品 系統(tǒng) 連接 科技 聚焦

Daniel Povey發(fā)布新一代框架Kaldi:兼容PyTorch,提高識(shí)別精度

2021-09-02 15:01:17來(lái)源:雷鋒網(wǎng)

8 月 31 日,Daniel Povey 以小米集團(tuán)首席語(yǔ)音科學(xué)家的身份,正式推出了新一代 Kaldi。

Daniel Povey 是語(yǔ)音識(shí)別領(lǐng)域的執(zhí)牛耳者,他主要開(kāi)發(fā)和維護(hù)的開(kāi)源工具 Kaldi,是業(yè)界公認(rèn)的語(yǔ)音識(shí)別框架的基石,他也被稱(chēng)為 Kaldi 之父。

2019 年 Daniel 離任約翰霍普金斯大學(xué)語(yǔ)言和語(yǔ)音處理中心教職,在 Facebook、美團(tuán)、滴滴、快手等一眾互聯(lián)網(wǎng)巨頭拋來(lái)的橄欖枝中選擇了小米,開(kāi)始帶領(lǐng)小米語(yǔ)音技術(shù)團(tuán)隊(duì)開(kāi)發(fā)新一代 Kaldi。

加入小米后,業(yè)界開(kāi)發(fā)者對(duì) Daniel 的研究動(dòng)向一直高度關(guān)注。

昨日 Daniel 亮相發(fā)布會(huì)現(xiàn)場(chǎng),宣布新一代 Kaldi 完成了所有子項(xiàng)目的布局。他表示,“新一代 Kaldi 的目標(biāo)不僅僅是趕上或者稍微領(lǐng)先現(xiàn)有語(yǔ)音識(shí)別庫(kù),而是要從根本上改變語(yǔ)音識(shí)別的實(shí)現(xiàn)方式。”

據(jù)悉,經(jīng)過(guò)近一年多的技術(shù)研發(fā),Daniel 團(tuán)隊(duì)完成了所有模塊的研發(fā)和更新,新一代 Kaldi 在 Librispeech 數(shù)據(jù)集上的詞錯(cuò)率降到了 2.57%;通過(guò)全新代碼庫(kù)解決了 Kaldi 靈活性不足、體量過(guò)大等問(wèn)題;作為核心部件的 k2,不僅可以用來(lái)做語(yǔ)音識(shí)別,也可以用來(lái)做手寫(xiě)文字識(shí)別等其他任務(wù)。

兼容 PyTorch,提高識(shí)別精度

Kaldi 集成了多種語(yǔ)音識(shí)別模型,包括隱馬爾可夫和最新的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),自 2011 年發(fā)布以來(lái)下載量超過(guò)了兩萬(wàn)多次。無(wú)論是工業(yè)界還是學(xué)術(shù)界,幾乎所有的語(yǔ)音團(tuán)隊(duì)都在使用 Kaldi 引擎來(lái)開(kāi)發(fā)智能解決方案,包括 MIT、哈佛、清華、微軟、谷歌、Facebook 等等。

作為語(yǔ)音識(shí)別領(lǐng)域的“老前輩”,Kaldi 也急需更新迭代。

Daniel 在媒體見(jiàn)面會(huì)上坦言,初版 Kaldi 的舊代碼庫(kù)已經(jīng)難以滿(mǎn)足機(jī)器學(xué)習(xí)發(fā)展的需求,用戶(hù)需要更輕便、更靈活的源代碼,也需要兼容 PyTorch 等主流框架的工具包。

新一代 Kaldi 的研發(fā)工作從 2019 開(kāi)始啟動(dòng),去年已經(jīng)完成了 k2 和 Lhotse 模塊的研發(fā)工作。Daniel 還在 2020 MIDC 大會(huì)上進(jìn)行了展示,不過(guò)當(dāng)時(shí) Icefall 模塊還只是一個(gè)初步概念。今年研發(fā)團(tuán)隊(duì)進(jìn)一步完善了 k2 和 Lhotse 模塊, 并基于二者正式發(fā)布 Icefall 項(xiàng)目。

Daniel 介紹說(shuō),與初代 Kaldi 相比,新一代 Kaldi 是一個(gè)全新的代碼庫(kù),主要是由 C++、CUDA 寫(xiě)就;支持 Python 調(diào)用;后端也由 PyTorch 取代了此前的自定義代碼。

發(fā)布會(huì)現(xiàn)場(chǎng),Daniel 團(tuán)隊(duì)不僅展示了如何使用 k2 和 Lhotse 來(lái)實(shí)現(xiàn)現(xiàn)有的各種不同的語(yǔ)音識(shí)別模型,如基于 Transformer/Conformer 的 CTC 和 LF-MMI 等,更著重展示了 k2 何以能從根本上改變?nèi)藗儗?shí)現(xiàn)語(yǔ)音識(shí)別的方式。

“我們實(shí)現(xiàn)了多輪解碼 (mutiple pass decoding) 的示例,以及我們稱(chēng)之為‘雙向建模’(bidirectional modeling) 的模型”。Daniel 興奮地表示,基于這種多層模型的優(yōu)勢(shì),新一代 Kaldi 可以大大提高語(yǔ)音識(shí)別模型的建模能力,從而降低詞錯(cuò)誤率。目前,新一代 Kaldi 在 LibriSpeech 數(shù)據(jù)集上的詞錯(cuò)誤率為 2.57%。

值得一提的是,Daniel 團(tuán)隊(duì)在 k2 中實(shí)現(xiàn)了所有的 FSA 操作的可導(dǎo)性,用戶(hù)僅使用幾十行代碼就可以完成復(fù)雜的多層模型結(jié)構(gòu)。同時(shí),他們還為用戶(hù)提供了極大的“自定義”空間,諸如在網(wǎng)絡(luò)中加入 phone 的 embedding 信息,支持帶置信度的識(shí)別等用戶(hù)自己的各種想法都能夠基于 k2 來(lái)實(shí)現(xiàn)。

Daniel 表示,希望通過(guò)新一代 Kaldi,能為語(yǔ)音識(shí)別領(lǐng)域打開(kāi)一扇嶄新的大門(mén)。

引入 Python,改善靈活性

新一代 Kaldi 分為 Lhotse、Icefall 和 k2 三個(gè)部分,Daniel Povey 博士在發(fā)布會(huì)上表示,新一代 Kaldi 的獨(dú)立設(shè)計(jì)是為了降低耦合性,方便用戶(hù)使用。更重要的是,這樣有助于擴(kuò)展了組件使用的靈活性。

例如,用作數(shù)據(jù)準(zhǔn)備的 Lhotse,既可以用在 Icefall 項(xiàng)目里,也可以用在任意其他語(yǔ)音識(shí)別庫(kù)里來(lái)處理音頻和文本數(shù)據(jù),

Daniel 團(tuán)隊(duì)在發(fā)布會(huì)上介紹了Lhotse、Icefall 和 k2 三個(gè)部分的更新細(xì)節(jié)。

Lhotse 拋棄了傳統(tǒng)的 shell 腳本,采用了更加方便易用的 Python 語(yǔ)言。通過(guò)通用且不失靈活性的接口設(shè)計(jì),滿(mǎn)足了包括語(yǔ)音識(shí)別,語(yǔ)音合成等多種語(yǔ)音任務(wù)的需求,方便用戶(hù)基于 Lhotse 可以方便地實(shí)現(xiàn)針對(duì)自己特定任務(wù)的接口,操縱各種不同的音頻元數(shù)據(jù)和文本。

Lhotse 引入了 Audio Cuts 的概念,將訓(xùn)練數(shù)據(jù)自動(dòng)地組織為一組組 Cuts,并基于這種表示,提供了 on-the-fly 的數(shù)據(jù)混合,裁剪,增強(qiáng)和特征提取等操作,從而在不影響數(shù)據(jù)處理效率的前提下,降低了數(shù)據(jù)存儲(chǔ)所需空間。

此外,Lhotse 還提供了很多公開(kāi)數(shù)據(jù)集的數(shù)據(jù)處理腳本,用戶(hù)可以直接使用這些腳本,來(lái)進(jìn)行相關(guān)語(yǔ)音任務(wù)的數(shù)據(jù)處理工作,大大降低了用戶(hù)在某個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的前期成本。

“相信在不久的將來(lái),隨著新一代 Kaldi 的推廣和普及,Lhotse 甚至有可能成為語(yǔ)音領(lǐng)域使用最為廣泛的數(shù)據(jù)準(zhǔn)備工具。”Daniel 期待地表示。

作為訓(xùn)練腳本的集合,同 Lhotse 一樣,Icefall 也是一個(gè)純 Python 項(xiàng)目。

用過(guò) Kaldi 的人都知道,Kaldi 里有大量的基于不同數(shù)據(jù)集的示例腳本,顯著降低了用戶(hù)的學(xué)習(xí)成本。

但這同時(shí)也帶來(lái)一個(gè)缺點(diǎn):示例腳本集合太過(guò)龐大,代碼耦合過(guò)于緊密,導(dǎo)致維護(hù)成本較高。

考慮到這一點(diǎn),Daniel 表示 Icefall 并不是對(duì)大量腳本的盲目集合,而是在提取公共組件的同時(shí)將不同數(shù)據(jù)集的示例腳本進(jìn)行獨(dú)立組織,以方便用戶(hù)的學(xué)習(xí)和使用。

此外,由于將數(shù)據(jù)準(zhǔn)備部分單獨(dú)放在 Lhotse 項(xiàng)目中,核心計(jì)算部分單獨(dú)放在 k2 中,Icefall 項(xiàng)目只需要關(guān)注語(yǔ)音識(shí)別模型的結(jié)構(gòu)定義部分,降低了整個(gè)語(yǔ)音識(shí)別過(guò)程的耦合性,方便了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)用。

k2 是新一代 Kaldi 的核心。它的貢獻(xiàn)在于,將加權(quán)有限狀態(tài)轉(zhuǎn)換器 (Weighted Finite State Transducers, WFST) 和相關(guān)算法無(wú)縫地集成到基于 Autograd 的機(jī)器學(xué)習(xí)工具包中,如 PyTorch(已完成支持)和 TensorFlow。

WFST 是語(yǔ)音識(shí)別領(lǐng)域最為核心的數(shù)據(jù)結(jié)構(gòu),可以用來(lái)構(gòu)建諸如“音標(biāo)-> 詞-> 句子”的狀態(tài)轉(zhuǎn)換概率圖。

支持 WFST 可導(dǎo)意味著我們可以做很多以前很難做到,甚至做不到的事情,如消除以往語(yǔ)音識(shí)別任務(wù)中訓(xùn)練跟解碼過(guò)程不匹配的問(wèn)題、多輪(可求導(dǎo))的語(yǔ)音識(shí)別過(guò)程、在聲學(xué)網(wǎng)絡(luò)中嵌入任意輔助信息等。

同時(shí),k2 也支持很多現(xiàn)有的語(yǔ)音識(shí)別模型,如 CTC、LF-MMI、RNN-T 等。

值得一提的是,去年 Facebook 發(fā)布了類(lèi)似于 k2 的圖網(wǎng)絡(luò)建模 GTN 框架。與之相比,k2 實(shí)現(xiàn)了更多的 WFST 相關(guān)算法,并且能夠高效地支持 GPU(GTN 目前只支持 CPU)。GPU 實(shí)現(xiàn),意味著語(yǔ)音識(shí)別模型的訓(xùn)練速度更快,解碼速度更高效。新一代 kaldi 的解碼速度已經(jīng)是實(shí)時(shí)的 300 倍左右。此外,k2 在語(yǔ)音識(shí)別的基礎(chǔ)上,還可以應(yīng)用于手寫(xiě)文字識(shí)別等其他 seq-to-seq 的任務(wù)。

新一代 Kaldi 依然開(kāi)源

“新一代 Kaldi 或?qū)⒃诿髂曛皩⑷繎?yīng)用到小米所有的智能語(yǔ)音產(chǎn)品中”,Daniel 向媒體表示。他說(shuō),新一代 Kaldi 能夠適用各種場(chǎng)景的不同語(yǔ)音模型,如遠(yuǎn)近場(chǎng)語(yǔ)音喚醒、離在線(xiàn)語(yǔ)音識(shí)別、說(shuō)話(huà)人識(shí)別等通用模型,以及口語(yǔ)評(píng)測(cè)、語(yǔ)種識(shí)別、語(yǔ)音情緒識(shí)別等。

以小米小愛(ài)為例,“通過(guò)它,用戶(hù)可以連接到各種各樣的 AIoT 設(shè)備并與它們產(chǎn)生互動(dòng): 智能音箱、手機(jī)、電視、智能手表、兒童故事機(jī)、車(chē)載后視鏡等。”

不僅是小米,所有企業(yè)、開(kāi)發(fā)者和普通用戶(hù)都可以繼續(xù)享受新一代 Kaldi 的核心技術(shù)。Daniel 表示,當(dāng)初之選擇加盟小米,也是因?yàn)樾∶壮兄Z Kaldi 可以繼續(xù)作為開(kāi)源項(xiàng)目。“小米是一家穩(wěn)定的公司,重視開(kāi)源開(kāi)放,而且允諾我一直做開(kāi)源項(xiàng)目,這對(duì)于我來(lái)說(shuō)是最好的選擇”

Kaldi 從誕生之日起,就是一款開(kāi)源語(yǔ)音識(shí)別工具包。Daniel 一直堅(jiān)持開(kāi)源工作,鼓勵(lì)更廣泛的用戶(hù)自由使用、復(fù)制以及修改源代碼,并推動(dòng)智能語(yǔ)音技術(shù)的發(fā)展。

新一代 Kaldi 依舊采用了高效的 C++ 代碼實(shí)現(xiàn)。由于將 k2 的 C++ 代碼都包裝到了 Python, 模型的訓(xùn)練迭代都可以使用純 Python 代碼完成。

Daniel 表示,基于 Icefall 中的示例腳本,開(kāi)發(fā)者們可以很容易地基于自己公司產(chǎn)品的數(shù)據(jù)集進(jìn)行修改,進(jìn)而快速地搭建線(xiàn)上數(shù)據(jù)反饋和模型自動(dòng)迭代更新的流程,這將大大縮短模型更新的周期。

隨著新一代 Kaldi 的發(fā)布和其在小米產(chǎn)品線(xiàn)的逐步落地,相信在不久的將來(lái),小米將和其他公司一起,為普通用戶(hù)帶來(lái)更加完善的 AIoT 產(chǎn)品體驗(yàn)。

關(guān)于 Daniel

Daniel 可以說(shuō)是語(yǔ)音識(shí)別領(lǐng)域的殿堂級(jí)人物。除了開(kāi)發(fā) kaldi 外,他還對(duì)語(yǔ)音識(shí)別做出了許多科學(xué)貢獻(xiàn),包括助力判別訓(xùn)練(現(xiàn)在稱(chēng)為序列訓(xùn)練)的早期發(fā)展等。從 1999 年發(fā)布語(yǔ)音識(shí)別研究成果以來(lái),其論文被引用次數(shù)超過(guò)了 30000 次。也因如此,Daniel 從約翰斯?霍普金斯大學(xué)離職后,引發(fā)了全球科技巨頭的一場(chǎng)人才爭(zhēng)奪戰(zhàn)。

Daniel 在 2012 年加入約翰斯?霍普金斯大學(xué),擔(dān)任語(yǔ)言和語(yǔ)音處理中心任副教授。在此之前,他在 IBM 研究院、微軟研究院從事計(jì)算機(jī)語(yǔ)音識(shí)別研究。

2019 年 10 月,Daniel 正式加入小米公司,擔(dān)任小米集團(tuán)首席語(yǔ)音科學(xué)家。

關(guān)鍵詞: 框架 Kaldi 新一代

推薦內(nèi)容

熱點(diǎn)
39熱文一周熱點(diǎn)
中阳县| 长泰县| 文登市| 福海县| 蒙自县| 台东县| 山西省| 临武县| 曲麻莱县| 周至县| 汉沽区| 开鲁县| 富蕴县| 济源市| 平远县| 从化市| 江达县| 囊谦县| 太保市| 新和县| 昌平区| 仙桃市| 海南省| 诸暨市| 竹北市| 常德市| 时尚| 潼南县| 呼和浩特市| 遂昌县| 中宁县| 灵璧县| 碌曲县| 克山县| 盐亭县| 鹿泉市| 临沂市| 株洲市| 左贡县| 景洪市| 奇台县|