用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

韓璐 5年前 (2020-11-13)

論一顆攝像頭帶給AI錄音筆的變化。

時隔7個月左右,搜狗新一代AI錄音筆E2也正式上市。

相較于上一代的E1,E2可以說是從內(nèi)到外發(fā)生了變化,而相較于S1,兩者的差別進(jìn)一步被縮小,E2更是帶來了創(chuàng)新性的功能。

最近一段時間,鎂客網(wǎng)也拿到了一部“E2”,并進(jìn)行了數(shù)天的深度測評:

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

體積縮小、屏幕變大……改頭換面的E2

在拿到E2包裝盒的一瞬間,如果忽略外殼產(chǎn)品圖下面大大的“E2”兩字,我或許會認(rèn)為這是S1的升級版“S2”,之所以有這樣的感覺,實在是因為E2在外觀上與S1可以說是近乎一樣。

當(dāng)然,在打開包裝盒后,兩者之間的差別也是一眼就可看出,同時,E2與上一代E1的差別也可謂天差地別。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

這一次,搜狗為E2配備的全面屏分辨率為340*800,足有3.46英寸,比之原先的1.54英寸大了一倍多,比之S1 3.5英寸的大屏不遑多讓。需要注意的是,雖然屏幕大了,但是E2整體機(jī)身的大小比E1只小不大。

猶記得在E1的設(shè)計上,諸如錄音鍵、多功能M鍵和電源鍵是排布在機(jī)身正面,并排于屏幕下方,而這一次,E2全面屏的設(shè)計,也使得這些功能件被安排分散在了機(jī)身左右側(cè)。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 搜狗AI錄音筆E2機(jī)身右側(cè)

具體來看,機(jī)身左側(cè)為音量加減鍵以及電源鍵,右側(cè)排列的是錄音鍵、多功能M兼以及SIM卡槽,至于機(jī)身底部,則是充電口與3.5mm耳機(jī)孔。這其中,SIM卡槽的存在,意味著E2可以獨立聯(lián)網(wǎng)使用。

E2機(jī)身頂部與E1一樣,依舊是采用鏤空樣式,除了揚聲器,還配備2顆10mm心型哈曼指向麥,機(jī)身正面左右兩側(cè)對稱分布了6個小細(xì)孔,內(nèi)置6顆全向數(shù)字麥,從而形成8麥陣列,實現(xiàn)15m超遠(yuǎn)拾音和360°拾音。

就在屏幕的頂部中間,我們還能看到一個麥克風(fēng)指示燈,它能夠顯示三種顏色,綠色閃爍代表錄音正常,黃色亮起表示噪聲太大,紅色亮起則意味著講話聲太大。

值得說道的是,E2的背面帶了點新花樣——一顆800萬像素攝像頭,以及一個閃光燈,這也是E2此次在功能上最大的升級,具體如何,我們留到后面細(xì)說。

E2整體包裝以白色為主,除了機(jī)身主體,另外還有Type-C接口充電(數(shù)據(jù))線、取卡針以及一份說明書。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 搜狗AI錄音筆E2配件展示

E2機(jī)身則以黑色為主,配以紅色、金色細(xì)節(jié)設(shè)計。因為整體材料以塑料為主,因此E2在重量上并沒有什么負(fù)擔(dān),小巧便攜到足以一手掌控,隨踹隨走、隨用隨拿。與此同時,后殼大面積采用TPU材料,這也使得E2具備了減震和防滑的能力,于日常使用十分友好。

此外,E2機(jī)身內(nèi)存為32G,實際內(nèi)存為29G左右,電池容量為2000mAh,能夠持續(xù)錄音10小時以上,對于學(xué)生、記者等用戶群體聞言,這一存儲空間和續(xù)航能力已經(jīng)是綽綽有余。當(dāng)然,若實在文件過多,用戶也可以選擇將部分文件上傳至云端,如此也可在手機(jī)端、PC端和網(wǎng)頁端做到多屏共享,實現(xiàn)多人、異地的內(nèi)容同步。

依舊強(qiáng)悍的智能降噪能力,滿足多樣化場景需求

AI錄音筆最為基礎(chǔ)的功能就是“錄音”,但是在某些時候,“錄音”這一簡單的事情卻不會那么簡單能夠做到,比如遭遇周邊環(huán)境音干擾,又或者對話者音量過低等等,這些都能夠成為致使錄音文件失效的因素。

在這一點上,E2很好的延續(xù)了E1、S1的強(qiáng)大基因。首先在面向的特定場景方面,E2與兩位前輩一樣,皆基于clairVoice8麥克風(fēng)陣列算法提供四種錄音模式,分別是會議、采訪、聽課和音樂:

會議和采訪模式中,用戶只需將E2平放在桌面,即可實現(xiàn)360°拾音;

聽課模式中,將E2的頂端指向聲源,可做到定向拾音;

音樂模式中,同樣是將E2的頂端指向聲源,可做到高保真拾音,與此同時,搜狗也貼心的為用戶提供了MP3等5種錄音格式選擇。

另外,利用pureVoice AI降噪算法,E2也提供三種降噪模式(音樂模式不支持該功能),分別是真實音質(zhì)(保留真實人聲和環(huán)境音)、人聲增強(qiáng)(過濾環(huán)境音,顯著增強(qiáng)人聲)、純凈人聲(深度刪除環(huán)境音,僅保留人聲),讓用戶在使用過程中能夠依據(jù)自身需求進(jìn)行選擇。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 搜狗AI錄音筆E2錄音模式與降噪方式

選定錄音模式和降噪方式之后,用戶短按錄音鍵即可一鍵開始錄音,過程中可隨時更換語種,以及暫定或繼續(xù)錄音。當(dāng)錄音結(jié)束并保存本地之后,用戶可點擊機(jī)身屏幕主頁面的“錄音文件”查看錄音情況,若先前忘記選擇降噪方式,用戶也可點擊錄音詳情頁下方的“降噪方式”,打開“純凈人聲降噪”以聽取降噪處理之后的錄音。

針對這一功能,鎂客網(wǎng)也以一段會場采訪錄音做了實驗,在“純凈人聲降噪”功能關(guān)閉的情況下,錄音中周邊稀稀落落的交談聲和偶爾的碗碟碰撞聲能夠清晰聽到,但當(dāng)打開降噪功能后,我們能夠聽到的只剩下純凈的人聲,對于之后錄音轉(zhuǎn)換文字的整理還是能夠提供一些幫助的。

除了聽聲識字,E2還學(xué)會了“看圖說話”

相比于傳統(tǒng)錄音筆,AI錄音筆最大的特色在于語音識別與轉(zhuǎn)寫、中外文互譯。

實時轉(zhuǎn)寫方面,E2當(dāng)前共支持包括中文在內(nèi)的11種語言和11種方言,覆蓋基礎(chǔ)的英文、韓語、日語、德語,以及粵語、四川話、南京話、貴州話等等。

過程中,用戶也可以根據(jù)實際情境任意切換語言或語種,從而保證錄音的完整性和準(zhǔn)確度。

值得一提的是,因為前面提到的攝像頭,實時轉(zhuǎn)寫也多了一個功能——圖片實時拍攝與插入。基于這一功能,用戶將能夠同步記錄聲音與畫面。而在實時轉(zhuǎn)寫結(jié)束后,用戶也可以將該錄音文件中的圖片進(jìn)行“文字提取”處理,不過該功能的啟用需要一個前提,即錄音文件已經(jīng)作轉(zhuǎn)寫處理。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 圖文提取gif

官方介紹稱,OCR技術(shù)共可識別13種圖片語言。而在實時轉(zhuǎn)寫之外,用戶也可以打開E2的攝像機(jī)拍攝文檔、路標(biāo)等,做到“拍照秒變文字”?;谶@一功能,即使以后走出過門語言不通,只要E2在手,也不怕因為不會讀、看不懂文字而抓耳撓腮了。

至于轉(zhuǎn)寫的速度,鎂客網(wǎng)以一段時長39分鐘的錄音進(jìn)行測試,原始錄音文件以中文為主,間雜少許英文詞匯,轉(zhuǎn)換過程總共不超過3分鐘。為了進(jìn)一步提高轉(zhuǎn)換文字的精準(zhǔn)度和可讀性,減少不必要的口語化詞匯等等,用戶也可以點擊左下角的“智能整理”,選擇區(qū)分講話人(機(jī)主可提前錄入自己的聲紋信息以加強(qiáng)區(qū)分精準(zhǔn)度)、智能輔助校正、隱藏空錄音等功能。

依據(jù)E2的官方介紹,它一共可精準(zhǔn)識別8種專業(yè)領(lǐng)域數(shù)據(jù),覆蓋財經(jīng)貿(mào)易、醫(yī)療、IT科技、政府、文化體育、工業(yè)制造、建筑、教育,在“轉(zhuǎn)寫確認(rèn)”界面,用戶可依據(jù)實際情境進(jìn)行選擇。

當(dāng)然,與E1和S1一樣,M鍵在實時轉(zhuǎn)寫過程中也承擔(dān)著“劃重點”的作用,若是有遺漏,也可在錄音文件轉(zhuǎn)寫之后回聽錄音,并利用M鍵一鍵標(biāo)記重點。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 搜狗AI錄音筆E2重點標(biāo)志

除了用戶自行標(biāo)記重點,系統(tǒng)在轉(zhuǎn)寫錄音的過程中也會智能提取重點,并排列成摘要,供用戶后期查閱和快速定點回聽。只不過相較于用戶自己所標(biāo)注的,系統(tǒng)的重點提煉在精準(zhǔn)性上還存在那么一點欠缺。

整體來看,錄音文件轉(zhuǎn)寫在識別精準(zhǔn)度上較之實時轉(zhuǎn)寫有所提升,雖然還存在些許誤差,不過尚在接受范圍內(nèi)。當(dāng)然,如果強(qiáng)迫癥患者實在看不下去,也是可以邊回聽邊進(jìn)行編輯調(diào)整的。出于對觀感、編輯便利性以及效率的考慮,用戶在編輯的過程中也可以點擊“智能控制”調(diào)整字體大小以及錄音播放倍速。

此外,若用戶急需在眾多保存的錄音中找到某一段,也可長按M鍵喚醒智能語音助手,經(jīng)由語音交互找出自己想要的錄音記錄。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 搜狗AI錄音筆E2智能助手

翻譯方面,E2提供四種模式,分別是對話翻譯、自由對話翻譯、同聲傳譯和拍照翻譯,前三者可以提供63種語言互譯服務(wù),最后一個涉及到OCR識別,因此只能提供13種語言的互譯,覆蓋全球200多個國家和地區(qū)。

離線狀態(tài)下,E2支持8種語言的中外互譯,只需提前下載離線包即可。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 搜狗AI錄音筆E2離線翻譯包

對話翻譯模式中,錄音鍵和M鍵將各自承擔(dān)一種語言的錄入工作,在具體的應(yīng)用過程中,需要用戶長按按鍵以采集對應(yīng)語種,繼而由系統(tǒng)識別并翻譯成另一種語種。對于兩個語言不通的交流者而言,利用錄音筆進(jìn)行逐個轉(zhuǎn)寫或許會耗費些時間,但能有效避免交談過程中因語音來回交叉而帶來的錯亂問題,保證內(nèi)容的準(zhǔn)確性。

在上一代,對話翻譯模式僅支持中文與其他語言的翻譯,升級到現(xiàn)在,63種語言之間的互譯已經(jīng)不成問題。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 搜狗AI錄音筆E2可翻譯語種(部分)

自由對話翻譯模式中,將錄音筆兩段分別指向雙方講話人,系統(tǒng)即可自動識別雙方講話狀態(tài)并錄音、中英互譯,無須手動操作即可滿足跨語言采訪、交流等長時間交流的需要。當(dāng)然,保持更為嚴(yán)謹(jǐn)一點的態(tài)度,用戶也可以在對話界面右上角的設(shè)置中打開“手動打斷”按鈕,屆時哪方說話就點擊哪方的對話框,一段結(jié)束之后,再由另一方點擊自己這邊的錄入框以錄入語音。

或許會有人覺得,這樣一來的翻譯方式不就與對話翻譯模式類似嗎?其實不然,不管是錄入方式的便利程度,以及雙方對于交流內(nèi)容的理解程度都是不一樣的。換一種說法,前者更適合應(yīng)用于與陌生人的對話,譬如問路等場景,后者更適用于合作伙伴、朋友之間的交流互動。

視頻 | 自由對話翻譯

相比于對話翻譯,同聲傳譯不需要用戶在過程中長按某個鍵,點擊屏幕頂端即可調(diào)換翻譯方向。若中途需要暫停/繼續(xù),只需短按一下錄音鍵即可,適用于單方面的發(fā)言錄入,譬如演講、上課等等。

從測試結(jié)果來看,在發(fā)音正常的情況下,E2的識別和翻譯準(zhǔn)確度接近完美,些微差錯也在可接受范圍內(nèi)。

至于拍照翻譯,正如字面意思,只需要打開攝像頭對著文檔拍一張照片,上傳成功之后即可實時翻譯成另外一種語言。如若需要的話,用戶也可以點擊界面的“純文本”按鈕,從而直接查看文本信息,而不是對著照片查看比螞蟻還小的譯文。

用一顆攝像頭打破AI錄音筆固有形態(tài),搜狗AI錄音筆E2創(chuàng)新出發(fā)

圖 | 拍照翻譯gif

總結(jié)

眾所周知,錄音筆市場一直都是相對小眾的,主要受眾群體集中在新聞媒體、政府、事業(yè)單位等。

依據(jù)中國報告網(wǎng)數(shù)據(jù),國內(nèi)錄音筆市場呈現(xiàn)行業(yè)發(fā)展緩慢、替代風(fēng)險大等特點,一句話概括,因為手機(jī)等數(shù)碼產(chǎn)品的沖擊等因素,國內(nèi)錄音筆市場長時間處于“供過于求”的境遇。

對于這一點,搜狗CEO王小川也予以承認(rèn),他此前曾提到,以前錄音筆是專業(yè)小眾市場,記者用的多一些,注入AI后,重新煥發(fā)活力,會有更大的想象空間。

而從目前的情勢來看,顯然,在AI能力的加持下,錄音筆領(lǐng)域的競爭正在從剛性需求轉(zhuǎn)向消費分級。此時,搜狗創(chuàng)新性的為AI錄音筆增加一顆攝像頭,在顛覆過往錄音筆傳統(tǒng)形態(tài)的同時,也為錄音筆未來的升級增添了更多的可能性。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到