智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

IM2Maker 4年前 (2021-07-02)

TimesVoice的目標(biāo)是在成本可以接受的前提下，追求最好的用戶體驗，同時無需收集專門的語料，即可支持對自定義命令詞的快速定制。

方興未艾 -智能語音交互風(fēng)起云涌

人工智能技術(shù)發(fā)展到今天，智能語音已經(jīng)成為公認(rèn)的最重要的人機(jī)交互方式之一，是人工智能的核心技術(shù)，也是最早在人們的日常生活中得到落地和應(yīng)用的技術(shù)之一。特別是近十年來隨著深度學(xué)習(xí)在語音識別領(lǐng)域的使用，機(jī)器語音識別的準(zhǔn)確率得到了長足的發(fā)展，已經(jīng)達(dá)到或者超過了人類水平。

2015年亞馬遜智能音箱Echo和2016年谷歌的GoogleHome相繼推出以來，各種以語音交互作為人機(jī)交互方式的終端設(shè)備得到了快速的落地和普及，這其中既有經(jīng)歷了2017年“百箱大戰(zhàn)“的智能音箱這樣的全新產(chǎn)品形態(tài)，也有集成在手機(jī)、車載等設(shè)備的語音助手，同時也在逐步滲透到空調(diào)、洗衣機(jī)、油煙機(jī)等白電和各種各樣的小家電中。

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

縱觀國內(nèi)外人工智能企業(yè)，以智能語音為主要方向的也占據(jù)了相當(dāng)?shù)谋壤?，與機(jī)器視覺、自然語言處理等賽道并駕齊驅(qū)。這其中既有BAT等互聯(lián)網(wǎng)巨頭，也包括科大訊飛、思必馳、云知聲等一眾國內(nèi)語音領(lǐng)域的領(lǐng)跑者和獨角獸。

相應(yīng)的，智能語音整體市場容量也水漲船高。根據(jù)ReportLinker預(yù)測，到2024年全球智能語音市場規(guī)模將得到215億美金，覆蓋了智能家電、智能家居、可穿戴設(shè)備、智能音箱、語音助手等生活類場景，以翻譯機(jī)、錄音筆、會議寶為代表的辦公場景，和車載語音等各類消費級應(yīng)用。

各有千秋–離線在線方案百家爭鳴

在智能語音識別中，技術(shù)方案路線分為離線方案和在線方案兩個大的類別。所謂離線語音識別，它無需聯(lián)網(wǎng)，完全在本地運行，因而可以不受網(wǎng)絡(luò)環(huán)境影響，不需要app，也不需要后臺服務(wù)器。設(shè)備可以根據(jù)用戶的語音指令做出快速的響應(yīng)，相對而言具有更低的成本和功耗。另外不可忽視的是，在目前這樣一個數(shù)據(jù)爆炸的時代，不聯(lián)網(wǎng)意味著用戶數(shù)據(jù)可以完全可以在本地進(jìn)行處理和存儲，使得用戶的隱私安全可以得到更好保障。

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

當(dāng)然，由于終端設(shè)備功耗和成本的限制，計算和存儲資源有所局限，無法完成復(fù)雜的語義理解，基本上還是只能識別和處理預(yù)先設(shè)定的命令詞詞條或著短語，數(shù)量一般在200個以內(nèi)，且每個命令詞長度一般在2-6個字。

相對應(yīng)的，在線方案由于對語音的處理和識別在云端進(jìn)行，對于命令詞的長度和條數(shù)沒有限制，也可以處理較為復(fù)雜的語義理解和交互對話。但是，在線方案需要依賴網(wǎng)絡(luò)環(huán)境，相應(yīng)延時較大，整體方案成本較高。用戶數(shù)據(jù)和隱私安全，也是一個不容忽視的隱患。

正是由于離線方案和在線方案有著鮮明的互補(bǔ)特點，離線語音和在線語音各自也有著明確的應(yīng)用場景。以智能音箱、語音助手為代表的終端中，由于其作為家庭智能控制中心的地位，以及與云端進(jìn)行內(nèi)容交互的天然需求，在線方案是不二的選擇。隨著2017年智能音箱市場的風(fēng)起云涌，各大廠商逐漸從作為入口的音箱硬件本身的比拼，進(jìn)入到背后的內(nèi)容、流量和生態(tài)的較量，也很快形成了以亞馬遜、谷歌、阿里、百度、小米等巨頭公司來主導(dǎo)的競爭格局。

當(dāng)然，即便是在這樣的場景中，也會有本地處理的需求。比如說，對麥克風(fēng)采集的語音數(shù)據(jù)進(jìn)行前端的處理和降噪，以及通過喚醒詞將設(shè)備喚醒進(jìn)入到工作模式，像亞馬遜的“Alexa”，以及“小度小度”、“天貓精靈”、“小愛同學(xué)“，對這些耳熟能詳?shù)膯拘言~的識別，就是在設(shè)備的本地來實時完成的。

與集中但品類有限的“入口”和“內(nèi)容交互”類設(shè)備相比，離線語音背后代表著更為廣大的潛在市場機(jī)會。各種品類的白電或者小家電，都可以通過語音代替?zhèn)鹘y(tǒng)的按鍵或者遙控器來進(jìn)行控制，而諸如兒童玩具、可穿戴設(shè)備也有越來越多的語音交互的需求。此外，也可以與圖像和視覺相結(jié)合，應(yīng)用在更多的多模態(tài)交互場景中。因為這只是一種更加貼近于人類自然的方式進(jìn)行人機(jī)交互，只涉及人機(jī)交互方式的智能化變革和升級，而不是創(chuàng)造新的產(chǎn)品形態(tài)，因此幾乎可以跟所有品類的產(chǎn)品應(yīng)用相疊加發(fā)生化學(xué)反應(yīng)，這其中的想象空間是非常之巨大的。

霧里看花–離線語音面臨推廣困局

任何一個新技術(shù)或者新產(chǎn)品的推廣和普及，市場的培育和用戶習(xí)慣的養(yǎng)成，肯定是需要一個時間過程的，更何況人機(jī)接口這種最基本的使用方式，更加不可能是一朝一夕就可以改變的。這個過程的發(fā)展，必須要在合適的場景中，以足夠好的用戶體驗作為基礎(chǔ)，而可以接受的成本和可復(fù)制的商業(yè)模式，則是真正能夠推廣落地的驅(qū)動力。上述四個環(huán)節(jié)，可以說是缺一不可，但又存在相互依賴和制衡的關(guān)系。

發(fā)掘到真正需要解放雙手的場景，而不是為了語音控制而創(chuàng)造的偽需求，當(dāng)然是最重要的基礎(chǔ)。實際上，讓用戶可以擺脫“永遠(yuǎn)找不到”的遙控器或者繁瑣的手機(jī)app，也不用在不愿、不方便起身的時候去操控開關(guān)按鈕，這種要求在我們?nèi)粘５娜粘＾k公和生活起居中，的確是廣泛存在的。

有了客觀存在的需求，接下來就需要把產(chǎn)品的用戶體驗做好，最終通過語音交互的方式，帶給用戶交互化繁為簡而不是相反的體驗。想象一下，如果粗暴的丟給用戶幾十上百個命令詞，亦或聽不懂、聽不清、甚至聽錯用戶的指令，很快難逃被束之高閣的命運。好在隨著技術(shù)的成熟，無論是多麥陣列的各種聲學(xué)前端處理技術(shù)，還是后端的關(guān)鍵字識別和ASR語音識別，在技術(shù)上都已經(jīng)相對成熟。

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

多麥陣列的語音聲學(xué)前處理流程圖

到此為止，一切看上去都很完美。然而，事實上，自2017年陸續(xù)有專用的智能語音芯片問世以來，整個離線語音市場的發(fā)展似乎一直不慍不火。在一些品類的產(chǎn)品中雖然得到了陸續(xù)的試水，但更多的是作為一種附加的產(chǎn)品賣點甚至是噱頭而存在，與預(yù)期的成為主要的人機(jī)交互方式，還存在著很大的距離，似乎離真正的市場爆發(fā)前夜，還若即若離。

人工智能新技術(shù)的落地的前提是成本可以落地。因為在大多數(shù)場景真正落地的時候，還是會面臨很大的成本壓力，特別是對價格極度敏感的消費類產(chǎn)品尤為重要。對廣泛的端側(cè)設(shè)備來說，算力和存儲的兩頭，一頭是成本及背后的市場接受度，另一頭則是性能及背后的用戶體驗。很多時候，這個蹺蹺板的平衡點，并不是那么容易找到的。

另一個重要的障礙是可復(fù)制性，或者說把智能語音方案做成標(biāo)準(zhǔn)化產(chǎn)品的可行性。眾所周知，只有當(dāng)一種產(chǎn)品成為“標(biāo)準(zhǔn)品”之后，才有可能真正大規(guī)模去推廣和應(yīng)用。而智能語音本身的特點決定了，不僅僅是不同品類，就算是相同品類的不同品牌，它們的控制命令也會各不相同，往往需要進(jìn)行有針對性的定制。基于目前主流的技術(shù)，可以產(chǎn)品化的效果往往需要大量的語料作為訓(xùn)練的基礎(chǔ)，而這些都意味著高昂的成本和以周為單位的交付周期。這幾萬元到幾十萬元不等的開發(fā)費用，毫無疑問會成為阻礙智能語音在很多應(yīng)用上落地的鴻溝。

突出重圍–時擎聲瀚攜手技術(shù)破局

所謂解鈴還須系鈴人，要想突破困局，最終還是要依賴于技術(shù)的進(jìn)步。時擎科技與聲瀚科技近日聯(lián)合發(fā)布的，基于時擎科技AT1611芯片，搭載聲瀚科技最新一代本地語音識別引擎的TimesVoice離線語音方案，就在努力嘗試去解決上述兩個難題。

據(jù)了解，TimesVoice的目標(biāo)是在成本可以接受的前提下，追求最好的用戶體驗，同時無需收集專門的語料，即可支持對自定義命令詞的快速定制。從客戶需求到形成產(chǎn)品級標(biāo)準(zhǔn)的語音方案，只需要幾個小時的時間，幾乎做到了“立等可取”，也不需要額外的定制開發(fā)費用。大大縮短了設(shè)計導(dǎo)入的時間周期和開發(fā)成本，讓很多品類的設(shè)備插上語音的翅膀成為了可能。

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

時擎科技是一家專注于端側(cè)自然人機(jī)交互的芯片公司，致力于為各類端側(cè)應(yīng)用提供高能效比和高性價比的芯片和解決方案。他們針對端側(cè)應(yīng)用場景的特點和算法需求，研發(fā)了Timesformer系列DSA智能處理器，可以友好高效地支持各類DSP或者神經(jīng)網(wǎng)絡(luò)的端側(cè)語音、圖像和視覺算法。

聲瀚科技則專注于智能語音技術(shù)的自主研發(fā)與應(yīng)用，致力于將高端的語音識別技術(shù)真正融入到人們的日常生活里。聲瀚科技連續(xù)數(shù)年上榜國內(nèi)語音識別技術(shù)十強(qiáng)榜單，其語音識別方案已經(jīng)成功進(jìn)入海爾、美的等國內(nèi)家電龍頭企業(yè)的產(chǎn)品中。

AT1611是時擎科技2020年推出的一款端側(cè)智能處理芯片，搭載了其自研的TimesformerBlaster100智能處理器，具備百GOPS的人工智能算力和多核心的DSP處理能力，同時支持MB級的片上高速SRAM，具有靈活可擴(kuò)展的DRAM和NorFlash等豐富的存儲資源。時擎和聲瀚團(tuán)隊在長達(dá)半年多的時間內(nèi)，組成了技術(shù)聯(lián)合攻關(guān)團(tuán)隊，緊密配合，充分發(fā)揮了AT1611靈活強(qiáng)大的DSA處理性能和豐富存儲資源，成功地將聲瀚科技包括了完整的多麥克風(fēng)前端處理在內(nèi)的最新一代語音識別引擎無縫落地在AT1611芯片上。

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

時擎科技AT1611芯片

談及這次合作研發(fā)的過程，時擎科技研發(fā)副總裁仇健樂表示，聲瀚科技提供的端側(cè)算法和模型之前運行在應(yīng)用處理器上，得益于時擎特有的DSA處理器和靈活的芯片架構(gòu)設(shè)計，經(jīng)過雙方團(tuán)隊的緊密配合，對運算和存儲資源做到了寸土必爭、錙銖必較，才讓聲瀚的算法和時擎的芯片渾然一體，最終在在性價比方面體現(xiàn)出競爭優(yōu)勢。

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

時擎科技研發(fā)副總裁仇健樂

目前，TimesVoice快速定制語音方案已經(jīng)開始小試牛刀，在短短一個月內(nèi)，完成了電動車、跑步機(jī)、按摩椅等多個“非典型”智能語音場景的設(shè)計導(dǎo)入，而這些場景的噪音和應(yīng)用環(huán)境各有不同，命令詞更是千差萬別，在傳統(tǒng)的基于語料收集進(jìn)行訓(xùn)練的方案中，至少需要3個月到6個月的研發(fā)時間。

在人工智能行業(yè)中，技術(shù)和市場很多時候就像一個人的兩條腿，不斷通過Tick-tock式的迭代演進(jìn)，我們有理由相信，智能語音技術(shù)將會一步一個腳印地，逐步滲透到我們生活的方方面面，真正迎來爆發(fā)的那一天。

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

方興未艾 -智能語音交互風(fēng)起云涌

各有千秋–離線在線方案百家爭鳴

霧里看花–離線語音面臨推廣困局

突出重圍–時擎聲瀚攜手技術(shù)破局

最新文章

注冊

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？

方興未艾 -智能語音交互風(fēng)起云涌

各有千秋–離線在線方案百家爭鳴

霧里看花–離線語音面臨推廣困局

突出重圍–時擎聲瀚攜手技術(shù)破局

最新文章

登錄

注冊

智能語音加速落地，離線方案如何實現(xiàn)破局突圍？