微軟Azure云服務(wù):可通過學(xué)習(xí)掌握人類情感密碼

鎂客 10年前 (2015-11-13)

以后能夠更愉快的和Cortana美女對(duì)話了?

想象一下,有這樣一種服務(wù),在你的房子煙霧報(bào)警器響起時(shí),能幫忙屋里的呼救聲傳達(dá)出去;它能記得住每個(gè)經(jīng)過房子周圍的人;并且通過識(shí)別你的聲音就能為你開門,甚至識(shí)別出你的情緒變化。是不是覺得不可思議?去年5月在Microsoft's Build的開發(fā)者會(huì)議中,微軟介紹了正在牛津大學(xué)開發(fā)中的Azure項(xiàng)目:一組基于云計(jì)算的機(jī)器學(xué)習(xí)服務(wù)。

這些服務(wù)能執(zhí)行一系列的圖像處理和識(shí)別任務(wù),提供語音合成和語音識(shí)別服務(wù),甚至是將自然語言轉(zhuǎn)換成計(jì)算機(jī)命令的應(yīng)用程序。服務(wù)同樣可應(yīng)用于微軟的Cortana私人助理和Skype的翻譯服務(wù),這意味著它同時(shí)能識(shí)別六種語言并進(jìn)行實(shí)時(shí)通話(包括50種語言的文字信息)。五月的一個(gè)周一,微軟升級(jí)了面部識(shí)別系統(tǒng)API,并借由Movmber基金會(huì)推出了一個(gè)“11月不刮胡子”籌款活動(dòng):參與者通過面部毛發(fā)識(shí)別API,可以識(shí)別是否有胡子,胡子增長情況并為其分配一個(gè)評(píng)級(jí)(以及添加一個(gè)小胡子“標(biāo)簽”的面部毛發(fā)的事件窗)。

同樣的,微軟為這些基于網(wǎng)絡(luò)請(qǐng)求的RESTful接口添加額外的聲音,文本和圖像服務(wù),包括一系列新將人工智能應(yīng)用于處理視頻內(nèi)容等全新體驗(yàn)。接下來的某個(gè)周二晚上,來自微軟劍橋研究院的負(fù)責(zé)人Chris Bishop,以及微軟技術(shù)和研究部門高級(jí)項(xiàng)目經(jīng)理Ryan Galgon共同在倫敦的微軟未來規(guī)劃會(huì)議上,作為該會(huì)議的主題之一,就這些新這些服務(wù)做了簡(jiǎn)單介紹。新的API細(xì)節(jié)也將于今天早上在一篇博客文章中公布。它們包括:

情感識(shí)別:這是Azure的基礎(chǔ)服務(wù),可用于一套新的公共測(cè)試服務(wù),可以處理圖像,收集面部圖像用以描繪不同的人類情感。這項(xiàng)服務(wù)可以將情感分類顯示在一個(gè)圖像上。Azure可以使用元數(shù)據(jù)應(yīng)用于圖像識(shí)別人們的快樂或者悲傷情緒,也可以用于收集特定事件數(shù)據(jù)對(duì)人們?cè)斐傻姆磻?yīng)。

拼寫檢查:基于Web API的拼寫檢查器,可以集成到任何移動(dòng)網(wǎng)絡(luò)或云應(yīng)用中檢查單詞拼寫錯(cuò)誤,但也有它做不到的地方,比如當(dāng)字母大寫時(shí),或上下文銜接中的拼寫錯(cuò)誤等問題。Galgon介紹,因?yàn)樵谠贫?,無法即時(shí)更新,所以不能根據(jù)拼寫的變化或使用場(chǎng)景而改善其拼寫規(guī)則。“例如,直到最近,拼寫檢查器還會(huì)認(rèn)為“Lyft”是拼寫錯(cuò)誤的“lift”,Galgon解釋道。拼寫檢查服務(wù)項(xiàng)目可以根據(jù)上下文以確定恰當(dāng)拼寫的實(shí)現(xiàn)。

視頻處理:根據(jù)技術(shù)開發(fā)Microsoft's Hyperlapse視頻處理工具,今年年底前該服務(wù)可以上線使用。它可以處理大量的視頻,在視頻中識(shí)別獨(dú)特的臉和追蹤它們。它還可以在視頻中檢測(cè)運(yùn)動(dòng)的人或?qū)ο蟊旧?。使用這些檢測(cè)功能,機(jī)器學(xué)習(xí)算法可以編輯視頻,基于一組參數(shù)執(zhí)行穩(wěn)定圖像操作,并通過視頻剪輯去除過多的攝影機(jī)運(yùn)動(dòng)。

語音識(shí)別:Azure已經(jīng)能相當(dāng)熟練的將語音轉(zhuǎn)換為文本信息,但是新的語音識(shí)別功能(也在今年年底)將允許應(yīng)用程序執(zhí)行一個(gè)身份檢查功能:是誰在說話。Galgon表示,語音識(shí)別不是為了替代身份驗(yàn)證工具。但它可以用來檢測(cè)用應(yīng)用程序的變化,增加額外的身份驗(yàn)證措施,這項(xiàng)應(yīng)用需求更少,安全要求也更嚴(yán)格,它可以用來識(shí)別具體用戶,例如,識(shí)別人在一次電話會(huì)議中講話或視頻的字幕。

自定義情報(bào)識(shí)別服務(wù)(CRIS):一個(gè)可創(chuàng)建私密數(shù)據(jù)的工具,CRIS允許開發(fā)人員構(gòu)建語音識(shí)別服務(wù)的應(yīng)用程序以滿足更多要求,無論它們?cè)诤翁幈皇褂没蚴钦l在使用它們。Galgon表示,例如,CRIS服務(wù)可以用來處理語音,即使在體育館廣場(chǎng),有很大的回聲巷口空間或有球迷歡呼的背景噪音等環(huán)境下依然可以識(shí)別出特定的語音信息。在另一個(gè)實(shí)例運(yùn)用中,CRIS在教室中正確識(shí)別出了一個(gè)五歲孩子的語音,并將它轉(zhuǎn)換為零差錯(cuò)文本。

除了面部毛發(fā)特性,微軟也做了額外的調(diào)整。性別和年齡檢測(cè)功能已得到改進(jìn),并將“微笑預(yù)測(cè)”工具添加到面部圖像應(yīng)用程序接口。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到