智能語(yǔ)音加速落地,離線方案如何實(shí)現(xiàn)破局突圍?
TimesVoice的目標(biāo)是在成本可以接受的前提下,追求最好的用戶體驗(yàn),同時(shí)無(wú)需收集專門的語(yǔ)料,即可支持對(duì)自定義命令詞的快速定制。
方興未艾 -智能語(yǔ)音交互風(fēng)起云涌
人工智能技術(shù)發(fā)展到今天,智能語(yǔ)音已經(jīng)成為公認(rèn)的最重要的人機(jī)交互方式之一,是人工智能的核心技術(shù),也是最早在人們的日常生活中得到落地和應(yīng)用的技術(shù)之一。特別是近十年來(lái)隨著深度學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域的使用,機(jī)器語(yǔ)音識(shí)別的準(zhǔn)確率得到了長(zhǎng)足的發(fā)展,已經(jīng)達(dá)到或者超過(guò)了人類水平。
2015年亞馬遜智能音箱Echo和2016年谷歌的GoogleHome相繼推出以來(lái),各種以語(yǔ)音交互作為人機(jī)交互方式的終端設(shè)備得到了快速的落地和普及,這其中既有經(jīng)歷了2017年“百箱大戰(zhàn)“的智能音箱這樣的全新產(chǎn)品形態(tài),也有集成在手機(jī)、車載等設(shè)備的語(yǔ)音助手,同時(shí)也在逐步滲透到空調(diào)、洗衣機(jī)、油煙機(jī)等白電和各種各樣的小家電中。
縱觀國(guó)內(nèi)外人工智能企業(yè),以智能語(yǔ)音為主要方向的也占據(jù)了相當(dāng)?shù)谋壤?,與機(jī)器視覺(jué)、自然語(yǔ)言處理等賽道并駕齊驅(qū)。這其中既有BAT等互聯(lián)網(wǎng)巨頭,也包括科大訊飛、思必馳、云知聲等一眾國(guó)內(nèi)語(yǔ)音領(lǐng)域的領(lǐng)跑者和獨(dú)角獸。
相應(yīng)的,智能語(yǔ)音整體市場(chǎng)容量也水漲船高。根據(jù)ReportLinker預(yù)測(cè),到2024年全球智能語(yǔ)音市場(chǎng)規(guī)模將得到215億美金,覆蓋了智能家電、智能家居、可穿戴設(shè)備、智能音箱、語(yǔ)音助手等生活類場(chǎng)景,以翻譯機(jī)、錄音筆、會(huì)議寶為代表的辦公場(chǎng)景,和車載語(yǔ)音等各類消費(fèi)級(jí)應(yīng)用。
各有千秋–離線在線方案百家爭(zhēng)鳴
在智能語(yǔ)音識(shí)別中,技術(shù)方案路線分為離線方案和在線方案兩個(gè)大的類別。所謂離線語(yǔ)音識(shí)別,它無(wú)需聯(lián)網(wǎng),完全在本地運(yùn)行,因而可以不受網(wǎng)絡(luò)環(huán)境影響,不需要app,也不需要后臺(tái)服務(wù)器。設(shè)備可以根據(jù)用戶的語(yǔ)音指令做出快速的響應(yīng),相對(duì)而言具有更低的成本和功耗。另外不可忽視的是,在目前這樣一個(gè)數(shù)據(jù)爆炸的時(shí)代,不聯(lián)網(wǎng)意味著用戶數(shù)據(jù)可以完全可以在本地進(jìn)行處理和存儲(chǔ),使得用戶的隱私安全可以得到更好保障。
當(dāng)然,由于終端設(shè)備功耗和成本的限制,計(jì)算和存儲(chǔ)資源有所局限,無(wú)法完成復(fù)雜的語(yǔ)義理解,基本上還是只能識(shí)別和處理預(yù)先設(shè)定的命令詞詞條或著短語(yǔ),數(shù)量一般在200個(gè)以內(nèi),且每個(gè)命令詞長(zhǎng)度一般在2-6個(gè)字。
相對(duì)應(yīng)的,在線方案由于對(duì)語(yǔ)音的處理和識(shí)別在云端進(jìn)行,對(duì)于命令詞的長(zhǎng)度和條數(shù)沒(méi)有限制,也可以處理較為復(fù)雜的語(yǔ)義理解和交互對(duì)話。但是,在線方案需要依賴網(wǎng)絡(luò)環(huán)境,相應(yīng)延時(shí)較大,整體方案成本較高。用戶數(shù)據(jù)和隱私安全,也是一個(gè)不容忽視的隱患。
正是由于離線方案和在線方案有著鮮明的互補(bǔ)特點(diǎn),離線語(yǔ)音和在線語(yǔ)音各自也有著明確的應(yīng)用場(chǎng)景。以智能音箱、語(yǔ)音助手為代表的終端中,由于其作為家庭智能控制中心的地位,以及與云端進(jìn)行內(nèi)容交互的天然需求,在線方案是不二的選擇。隨著2017年智能音箱市場(chǎng)的風(fēng)起云涌,各大廠商逐漸從作為入口的音箱硬件本身的比拼,進(jìn)入到背后的內(nèi)容、流量和生態(tài)的較量,也很快形成了以亞馬遜、谷歌、阿里、百度、小米等巨頭公司來(lái)主導(dǎo)的競(jìng)爭(zhēng)格局。
當(dāng)然,即便是在這樣的場(chǎng)景中,也會(huì)有本地處理的需求。比如說(shuō),對(duì)麥克風(fēng)采集的語(yǔ)音數(shù)據(jù)進(jìn)行前端的處理和降噪,以及通過(guò)喚醒詞將設(shè)備喚醒進(jìn)入到工作模式,像亞馬遜的“Alexa”,以及“小度小度”、“天貓精靈”、“小愛(ài)同學(xué)“,對(duì)這些耳熟能詳?shù)膯拘言~的識(shí)別,就是在設(shè)備的本地來(lái)實(shí)時(shí)完成的。
與集中但品類有限的“入口”和“內(nèi)容交互”類設(shè)備相比,離線語(yǔ)音背后代表著更為廣大的潛在市場(chǎng)機(jī)會(huì)。各種品類的白電或者小家電,都可以通過(guò)語(yǔ)音代替?zhèn)鹘y(tǒng)的按鍵或者遙控器來(lái)進(jìn)行控制,而諸如兒童玩具、可穿戴設(shè)備也有越來(lái)越多的語(yǔ)音交互的需求。此外,也可以與圖像和視覺(jué)相結(jié)合,應(yīng)用在更多的多模態(tài)交互場(chǎng)景中。因?yàn)檫@只是一種更加貼近于人類自然的方式進(jìn)行人機(jī)交互,只涉及人機(jī)交互方式的智能化變革和升級(jí),而不是創(chuàng)造新的產(chǎn)品形態(tài),因此幾乎可以跟所有品類的產(chǎn)品應(yīng)用相疊加發(fā)生化學(xué)反應(yīng),這其中的想象空間是非常之巨大的。
霧里看花–離線語(yǔ)音面臨推廣困局
任何一個(gè)新技術(shù)或者新產(chǎn)品的推廣和普及,市場(chǎng)的培育和用戶習(xí)慣的養(yǎng)成,肯定是需要一個(gè)時(shí)間過(guò)程的,更何況人機(jī)接口這種最基本的使用方式,更加不可能是一朝一夕就可以改變的。這個(gè)過(guò)程的發(fā)展,必須要在合適的場(chǎng)景中,以足夠好的用戶體驗(yàn)作為基礎(chǔ),而可以接受的成本和可復(fù)制的商業(yè)模式,則是真正能夠推廣落地的驅(qū)動(dòng)力。上述四個(gè)環(huán)節(jié),可以說(shuō)是缺一不可,但又存在相互依賴和制衡的關(guān)系。
發(fā)掘到真正需要解放雙手的場(chǎng)景,而不是為了語(yǔ)音控制而創(chuàng)造的偽需求,當(dāng)然是最重要的基礎(chǔ)。實(shí)際上,讓用戶可以擺脫“永遠(yuǎn)找不到”的遙控器或者繁瑣的手機(jī)app,也不用在不愿、不方便起身的時(shí)候去操控開(kāi)關(guān)按鈕,這種要求在我們?nèi)粘5娜粘^k公和生活起居中,的確是廣泛存在的。
有了客觀存在的需求,接下來(lái)就需要把產(chǎn)品的用戶體驗(yàn)做好,最終通過(guò)語(yǔ)音交互的方式,帶給用戶交互化繁為簡(jiǎn)而不是相反的體驗(yàn)。想象一下,如果粗暴的丟給用戶幾十上百個(gè)命令詞,亦或聽(tīng)不懂、聽(tīng)不清、甚至聽(tīng)錯(cuò)用戶的指令,很快難逃被束之高閣的命運(yùn)。好在隨著技術(shù)的成熟,無(wú)論是多麥陣列的各種聲學(xué)前端處理技術(shù),還是后端的關(guān)鍵字識(shí)別和ASR語(yǔ)音識(shí)別,在技術(shù)上都已經(jīng)相對(duì)成熟。
多麥陣列的語(yǔ)音聲學(xué)前處理流程圖
到此為止,一切看上去都很完美。然而,事實(shí)上,自2017年陸續(xù)有專用的智能語(yǔ)音芯片問(wèn)世以來(lái),整個(gè)離線語(yǔ)音市場(chǎng)的發(fā)展似乎一直不慍不火。在一些品類的產(chǎn)品中雖然得到了陸續(xù)的試水,但更多的是作為一種附加的產(chǎn)品賣點(diǎn)甚至是噱頭而存在,與預(yù)期的成為主要的人機(jī)交互方式,還存在著很大的距離,似乎離真正的市場(chǎng)爆發(fā)前夜,還若即若離。
人工智能新技術(shù)的落地的前提是成本可以落地。因?yàn)樵诖蠖鄶?shù)場(chǎng)景真正落地的時(shí)候,還是會(huì)面臨很大的成本壓力,特別是對(duì)價(jià)格極度敏感的消費(fèi)類產(chǎn)品尤為重要。對(duì)廣泛的端側(cè)設(shè)備來(lái)說(shuō),算力和存儲(chǔ)的兩頭,一頭是成本及背后的市場(chǎng)接受度,另一頭則是性能及背后的用戶體驗(yàn)。很多時(shí)候,這個(gè)蹺蹺板的平衡點(diǎn),并不是那么容易找到的。
另一個(gè)重要的障礙是可復(fù)制性,或者說(shuō)把智能語(yǔ)音方案做成標(biāo)準(zhǔn)化產(chǎn)品的可行性。眾所周知,只有當(dāng)一種產(chǎn)品成為“標(biāo)準(zhǔn)品”之后,才有可能真正大規(guī)模去推廣和應(yīng)用。而智能語(yǔ)音本身的特點(diǎn)決定了,不僅僅是不同品類,就算是相同品類的不同品牌,它們的控制命令也會(huì)各不相同,往往需要進(jìn)行有針對(duì)性的定制?;谀壳爸髁鞯募夹g(shù),可以產(chǎn)品化的效果往往需要大量的語(yǔ)料作為訓(xùn)練的基礎(chǔ),而這些都意味著高昂的成本和以周為單位的交付周期。這幾萬(wàn)元到幾十萬(wàn)元不等的開(kāi)發(fā)費(fèi)用,毫無(wú)疑問(wèn)會(huì)成為阻礙智能語(yǔ)音在很多應(yīng)用上落地的鴻溝。
突出重圍–時(shí)擎聲瀚攜手技術(shù)破局
所謂解鈴還須系鈴人,要想突破困局,最終還是要依賴于技術(shù)的進(jìn)步。時(shí)擎科技與聲瀚科技近日聯(lián)合發(fā)布的,基于時(shí)擎科技AT1611芯片,搭載聲瀚科技最新一代本地語(yǔ)音識(shí)別引擎的TimesVoice離線語(yǔ)音方案,就在努力嘗試去解決上述兩個(gè)難題。
據(jù)了解,TimesVoice的目標(biāo)是在成本可以接受的前提下,追求最好的用戶體驗(yàn),同時(shí)無(wú)需收集專門的語(yǔ)料,即可支持對(duì)自定義命令詞的快速定制。從客戶需求到形成產(chǎn)品級(jí)標(biāo)準(zhǔn)的語(yǔ)音方案,只需要幾個(gè)小時(shí)的時(shí)間,幾乎做到了“立等可取”,也不需要額外的定制開(kāi)發(fā)費(fèi)用。大大縮短了設(shè)計(jì)導(dǎo)入的時(shí)間周期和開(kāi)發(fā)成本,讓很多品類的設(shè)備插上語(yǔ)音的翅膀成為了可能。
時(shí)擎科技是一家專注于端側(cè)自然人機(jī)交互的芯片公司,致力于為各類端側(cè)應(yīng)用提供高能效比和高性價(jià)比的芯片和解決方案。他們針對(duì)端側(cè)應(yīng)用場(chǎng)景的特點(diǎn)和算法需求,研發(fā)了Timesformer系列DSA智能處理器,可以友好高效地支持各類DSP或者神經(jīng)網(wǎng)絡(luò)的端側(cè)語(yǔ)音、圖像和視覺(jué)算法。
聲瀚科技則專注于智能語(yǔ)音技術(shù)的自主研發(fā)與應(yīng)用,致力于將高端的語(yǔ)音識(shí)別技術(shù)真正融入到人們的日常生活里。聲瀚科技連續(xù)數(shù)年上榜國(guó)內(nèi)語(yǔ)音識(shí)別技術(shù)十強(qiáng)榜單,其語(yǔ)音識(shí)別方案已經(jīng)成功進(jìn)入海爾、美的等國(guó)內(nèi)家電龍頭企業(yè)的產(chǎn)品中。
AT1611是時(shí)擎科技2020年推出的一款端側(cè)智能處理芯片,搭載了其自研的TimesformerBlaster100智能處理器,具備百GOPS的人工智能算力和多核心的DSP處理能力,同時(shí)支持MB級(jí)的片上高速SRAM,具有靈活可擴(kuò)展的DRAM和NorFlash等豐富的存儲(chǔ)資源。時(shí)擎和聲瀚團(tuán)隊(duì)在長(zhǎng)達(dá)半年多的時(shí)間內(nèi),組成了技術(shù)聯(lián)合攻關(guān)團(tuán)隊(duì),緊密配合,充分發(fā)揮了AT1611靈活強(qiáng)大的DSA處理性能和豐富存儲(chǔ)資源,成功地將聲瀚科技包括了完整的多麥克風(fēng)前端處理在內(nèi)的最新一代語(yǔ)音識(shí)別引擎無(wú)縫落地在AT1611芯片上。
時(shí)擎科技AT1611芯片
談及這次合作研發(fā)的過(guò)程,時(shí)擎科技研發(fā)副總裁仇健樂(lè)表示,聲瀚科技提供的端側(cè)算法和模型之前運(yùn)行在應(yīng)用處理器上,得益于時(shí)擎特有的DSA處理器和靈活的芯片架構(gòu)設(shè)計(jì),經(jīng)過(guò)雙方團(tuán)隊(duì)的緊密配合,對(duì)運(yùn)算和存儲(chǔ)資源做到了寸土必爭(zhēng)、錙銖必較,才讓聲瀚的算法和時(shí)擎的芯片渾然一體,最終在在性價(jià)比方面體現(xiàn)出競(jìng)爭(zhēng)優(yōu)勢(shì)。
時(shí)擎科技研發(fā)副總裁仇健樂(lè)
目前,TimesVoice快速定制語(yǔ)音方案已經(jīng)開(kāi)始小試牛刀,在短短一個(gè)月內(nèi),完成了電動(dòng)車、跑步機(jī)、按摩椅等多個(gè)“非典型”智能語(yǔ)音場(chǎng)景的設(shè)計(jì)導(dǎo)入,而這些場(chǎng)景的噪音和應(yīng)用環(huán)境各有不同,命令詞更是千差萬(wàn)別,在傳統(tǒng)的基于語(yǔ)料收集進(jìn)行訓(xùn)練的方案中,至少需要3個(gè)月到6個(gè)月的研發(fā)時(shí)間。
在人工智能行業(yè)中,技術(shù)和市場(chǎng)很多時(shí)候就像一個(gè)人的兩條腿,不斷通過(guò)Tick-tock式的迭代演進(jìn),我們有理由相信,智能語(yǔ)音技術(shù)將會(huì)一步一個(gè)腳印地,逐步滲透到我們生活的方方面面,真正迎來(lái)爆發(fā)的那一天。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
