智能語音加速落地,離線方案如何實現(xiàn)破局突圍?

IM2Maker 4年前 (2021-07-02)

TimesVoice的目標(biāo)是在成本可以接受的前提下,追求最好的用戶體驗,同時無需收集專門的語料,即可支持對自定義命令詞的快速定制。

方興未艾 -智能語音交互風(fēng)起云涌

人工智能技術(shù)發(fā)展到今天,智能語音已經(jīng)成為公認(rèn)的最重要的人機(jī)交互方式之一,是人工智能的核心技術(shù),也是最早在人們的日常生活中得到落地和應(yīng)用的技術(shù)之一。特別是近十年來隨著深度學(xué)習(xí)在語音識別領(lǐng)域的使用,機(jī)器語音識別的準(zhǔn)確率得到了長足的發(fā)展,已經(jīng)達(dá)到或者超過了人類水平。

2015年亞馬遜智能音箱Echo和2016年谷歌的GoogleHome相繼推出以來,各種以語音交互作為人機(jī)交互方式的終端設(shè)備得到了快速的落地和普及,這其中既有經(jīng)歷了2017年“百箱大戰(zhàn)“的智能音箱這樣的全新產(chǎn)品形態(tài),也有集成在手機(jī)、車載等設(shè)備的語音助手,同時也在逐步滲透到空調(diào)、洗衣機(jī)、油煙機(jī)等白電和各種各樣的小家電中。

智能語音加速落地,離線方案如何實現(xiàn)破局突圍?

縱觀國內(nèi)外人工智能企業(yè),以智能語音為主要方向的也占據(jù)了相當(dāng)?shù)谋壤?,與機(jī)器視覺、自然語言處理等賽道并駕齊驅(qū)。這其中既有BAT等互聯(lián)網(wǎng)巨頭,也包括科大訊飛、思必馳、云知聲等一眾國內(nèi)語音領(lǐng)域的領(lǐng)跑者和獨角獸。

相應(yīng)的,智能語音整體市場容量也水漲船高。根據(jù)ReportLinker預(yù)測,到2024年全球智能語音市場規(guī)模將得到215億美金,覆蓋了智能家電、智能家居、可穿戴設(shè)備、智能音箱、語音助手等生活類場景,以翻譯機(jī)、錄音筆、會議寶為代表的辦公場景,和車載語音等各類消費級應(yīng)用。

各有千秋離線在線方案百家爭鳴

在智能語音識別中,技術(shù)方案路線分為離線方案和在線方案兩個大的類別。所謂離線語音識別,它無需聯(lián)網(wǎng),完全在本地運行,因而可以不受網(wǎng)絡(luò)環(huán)境影響,不需要app,也不需要后臺服務(wù)器。設(shè)備可以根據(jù)用戶的語音指令做出快速的響應(yīng),相對而言具有更低的成本和功耗。另外不可忽視的是,在目前這樣一個數(shù)據(jù)爆炸的時代,不聯(lián)網(wǎng)意味著用戶數(shù)據(jù)可以完全可以在本地進(jìn)行處理和存儲,使得用戶的隱私安全可以得到更好保障。

智能語音加速落地,離線方案如何實現(xiàn)破局突圍?

當(dāng)然,由于終端設(shè)備功耗和成本的限制,計算和存儲資源有所局限,無法完成復(fù)雜的語義理解,基本上還是只能識別和處理預(yù)先設(shè)定的命令詞詞條或著短語,數(shù)量一般在200個以內(nèi),且每個命令詞長度一般在2-6個字。

相對應(yīng)的,在線方案由于對語音的處理和識別在云端進(jìn)行,對于命令詞的長度和條數(shù)沒有限制,也可以處理較為復(fù)雜的語義理解和交互對話。但是,在線方案需要依賴網(wǎng)絡(luò)環(huán)境,相應(yīng)延時較大,整體方案成本較高。用戶數(shù)據(jù)和隱私安全,也是一個不容忽視的隱患。

正是由于離線方案和在線方案有著鮮明的互補(bǔ)特點,離線語音和在線語音各自也有著明確的應(yīng)用場景。以智能音箱、語音助手為代表的終端中,由于其作為家庭智能控制中心的地位,以及與云端進(jìn)行內(nèi)容交互的天然需求,在線方案是不二的選擇。隨著2017年智能音箱市場的風(fēng)起云涌,各大廠商逐漸從作為入口的音箱硬件本身的比拼,進(jìn)入到背后的內(nèi)容、流量和生態(tài)的較量,也很快形成了以亞馬遜、谷歌、阿里、百度、小米等巨頭公司來主導(dǎo)的競爭格局。

當(dāng)然,即便是在這樣的場景中,也會有本地處理的需求。比如說,對麥克風(fēng)采集的語音數(shù)據(jù)進(jìn)行前端的處理和降噪,以及通過喚醒詞將設(shè)備喚醒進(jìn)入到工作模式,像亞馬遜的“Alexa”,以及“小度小度”、“天貓精靈”、“小愛同學(xué)“,對這些耳熟能詳?shù)膯拘言~的識別,就是在設(shè)備的本地來實時完成的。

與集中但品類有限的“入口”和“內(nèi)容交互”類設(shè)備相比,離線語音背后代表著更為廣大的潛在市場機(jī)會。各種品類的白電或者小家電,都可以通過語音代替?zhèn)鹘y(tǒng)的按鍵或者遙控器來進(jìn)行控制,而諸如兒童玩具、可穿戴設(shè)備也有越來越多的語音交互的需求。此外,也可以與圖像和視覺相結(jié)合,應(yīng)用在更多的多模態(tài)交互場景中。因為這只是一種更加貼近于人類自然的方式進(jìn)行人機(jī)交互,只涉及人機(jī)交互方式的智能化變革和升級,而不是創(chuàng)造新的產(chǎn)品形態(tài),因此幾乎可以跟所有品類的產(chǎn)品應(yīng)用相疊加發(fā)生化學(xué)反應(yīng),這其中的想象空間是非常之巨大的。

霧里看花離線語音面臨推廣困局

任何一個新技術(shù)或者新產(chǎn)品的推廣和普及,市場的培育和用戶習(xí)慣的養(yǎng)成,肯定是需要一個時間過程的,更何況人機(jī)接口這種最基本的使用方式,更加不可能是一朝一夕就可以改變的。這個過程的發(fā)展,必須要在合適的場景中,以足夠好的用戶體驗作為基礎(chǔ),而可以接受的成本和可復(fù)制的商業(yè)模式,則是真正能夠推廣落地的驅(qū)動力。上述四個環(huán)節(jié),可以說是缺一不可,但又存在相互依賴和制衡的關(guān)系。

發(fā)掘到真正需要解放雙手的場景,而不是為了語音控制而創(chuàng)造的偽需求,當(dāng)然是最重要的基礎(chǔ)。實際上,讓用戶可以擺脫“永遠(yuǎn)找不到”的遙控器或者繁瑣的手機(jī)app,也不用在不愿、不方便起身的時候去操控開關(guān)按鈕,這種要求在我們?nèi)粘5娜粘^k公和生活起居中,的確是廣泛存在的。

有了客觀存在的需求,接下來就需要把產(chǎn)品的用戶體驗做好,最終通過語音交互的方式,帶給用戶交互化繁為簡而不是相反的體驗。想象一下,如果粗暴的丟給用戶幾十上百個命令詞,亦或聽不懂、聽不清、甚至聽錯用戶的指令,很快難逃被束之高閣的命運。好在隨著技術(shù)的成熟,無論是多麥陣列的各種聲學(xué)前端處理技術(shù),還是后端的關(guān)鍵字識別和ASR語音識別,在技術(shù)上都已經(jīng)相對成熟。

智能語音加速落地,離線方案如何實現(xiàn)破局突圍?

多麥陣列的語音聲學(xué)前處理流程圖

到此為止,一切看上去都很完美。然而,事實上,自2017年陸續(xù)有專用的智能語音芯片問世以來,整個離線語音市場的發(fā)展似乎一直不慍不火。在一些品類的產(chǎn)品中雖然得到了陸續(xù)的試水,但更多的是作為一種附加的產(chǎn)品賣點甚至是噱頭而存在,與預(yù)期的成為主要的人機(jī)交互方式,還存在著很大的距離,似乎離真正的市場爆發(fā)前夜,還若即若離。

人工智能新技術(shù)的落地的前提是成本可以落地。因為在大多數(shù)場景真正落地的時候,還是會面臨很大的成本壓力,特別是對價格極度敏感的消費類產(chǎn)品尤為重要。對廣泛的端側(cè)設(shè)備來說,算力和存儲的兩頭,一頭是成本及背后的市場接受度,另一頭則是性能及背后的用戶體驗。很多時候,這個蹺蹺板的平衡點,并不是那么容易找到的。

另一個重要的障礙是可復(fù)制性,或者說把智能語音方案做成標(biāo)準(zhǔn)化產(chǎn)品的可行性。眾所周知,只有當(dāng)一種產(chǎn)品成為“標(biāo)準(zhǔn)品”之后,才有可能真正大規(guī)模去推廣和應(yīng)用。而智能語音本身的特點決定了,不僅僅是不同品類,就算是相同品類的不同品牌,它們的控制命令也會各不相同,往往需要進(jìn)行有針對性的定制。基于目前主流的技術(shù),可以產(chǎn)品化的效果往往需要大量的語料作為訓(xùn)練的基礎(chǔ),而這些都意味著高昂的成本和以周為單位的交付周期。這幾萬元到幾十萬元不等的開發(fā)費用,毫無疑問會成為阻礙智能語音在很多應(yīng)用上落地的鴻溝。

突出重圍時擎聲瀚攜手技術(shù)破局

所謂解鈴還須系鈴人,要想突破困局,最終還是要依賴于技術(shù)的進(jìn)步。時擎科技與聲瀚科技近日聯(lián)合發(fā)布的,基于時擎科技AT1611芯片,搭載聲瀚科技最新一代本地語音識別引擎的TimesVoice離線語音方案,就在努力嘗試去解決上述兩個難題。

據(jù)了解,TimesVoice的目標(biāo)是在成本可以接受的前提下,追求最好的用戶體驗,同時無需收集專門的語料,即可支持對自定義命令詞的快速定制。從客戶需求到形成產(chǎn)品級標(biāo)準(zhǔn)的語音方案,只需要幾個小時的時間,幾乎做到了“立等可取”,也不需要額外的定制開發(fā)費用。大大縮短了設(shè)計導(dǎo)入的時間周期和開發(fā)成本,讓很多品類的設(shè)備插上語音的翅膀成為了可能。

智能語音加速落地,離線方案如何實現(xiàn)破局突圍?

時擎科技是一家專注于端側(cè)自然人機(jī)交互的芯片公司,致力于為各類端側(cè)應(yīng)用提供高能效比和高性價比的芯片和解決方案。他們針對端側(cè)應(yīng)用場景的特點和算法需求,研發(fā)了Timesformer系列DSA智能處理器,可以友好高效地支持各類DSP或者神經(jīng)網(wǎng)絡(luò)的端側(cè)語音、圖像和視覺算法。

聲瀚科技則專注于智能語音技術(shù)的自主研發(fā)與應(yīng)用,致力于將高端的語音識別技術(shù)真正融入到人們的日常生活里。聲瀚科技連續(xù)數(shù)年上榜國內(nèi)語音識別技術(shù)十強(qiáng)榜單,其語音識別方案已經(jīng)成功進(jìn)入海爾、美的等國內(nèi)家電龍頭企業(yè)的產(chǎn)品中。

AT1611是時擎科技2020年推出的一款端側(cè)智能處理芯片,搭載了其自研的TimesformerBlaster100智能處理器,具備百GOPS的人工智能算力和多核心的DSP處理能力,同時支持MB級的片上高速SRAM,具有靈活可擴(kuò)展的DRAM和NorFlash等豐富的存儲資源。時擎和聲瀚團(tuán)隊在長達(dá)半年多的時間內(nèi),組成了技術(shù)聯(lián)合攻關(guān)團(tuán)隊,緊密配合,充分發(fā)揮了AT1611靈活強(qiáng)大的DSA處理性能和豐富存儲資源,成功地將聲瀚科技包括了完整的多麥克風(fēng)前端處理在內(nèi)的最新一代語音識別引擎無縫落地在AT1611芯片上。

智能語音加速落地,離線方案如何實現(xiàn)破局突圍?

時擎科技AT1611芯片

談及這次合作研發(fā)的過程,時擎科技研發(fā)副總裁仇健樂表示,聲瀚科技提供的端側(cè)算法和模型之前運行在應(yīng)用處理器上,得益于時擎特有的DSA處理器和靈活的芯片架構(gòu)設(shè)計,經(jīng)過雙方團(tuán)隊的緊密配合,對運算和存儲資源做到了寸土必爭、錙銖必較,才讓聲瀚的算法和時擎的芯片渾然一體,最終在在性價比方面體現(xiàn)出競爭優(yōu)勢。

智能語音加速落地,離線方案如何實現(xiàn)破局突圍?

時擎科技研發(fā)副總裁仇健樂

目前,TimesVoice快速定制語音方案已經(jīng)開始小試牛刀,在短短一個月內(nèi),完成了電動車、跑步機(jī)、按摩椅等多個“非典型”智能語音場景的設(shè)計導(dǎo)入,而這些場景的噪音和應(yīng)用環(huán)境各有不同,命令詞更是千差萬別,在傳統(tǒng)的基于語料收集進(jìn)行訓(xùn)練的方案中,至少需要3個月到6個月的研發(fā)時間。

在人工智能行業(yè)中,技術(shù)和市場很多時候就像一個人的兩條腿,不斷通過Tick-tock式的迭代演進(jìn),我們有理由相信,智能語音技術(shù)將會一步一個腳印地,逐步滲透到我們生活的方方面面,真正迎來爆發(fā)的那一天。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到