人工智能正在擁有「嘴」和「鼻」

偉銘 2年前 (2023-09-26)

越來越像人了

人工智能正在擁有「嘴」和「鼻」

作為人造的智能,AI人工智能擁有著人類難以企及的強(qiáng)大智慧量和信息處理能力,而現(xiàn)在,人類正在賦予其更多的“感官”,讓它越來越“像”人了。

就在最近,OpenAI宣布將為ChatGPT加上語音功能,相當(dāng)于給人工智能加上了“嘴”,而此前OpenAI已經(jīng)為ChatGPT加上了“眼睛”,將在10月正式上線,面向付費(fèi)的Plus和企業(yè)版用戶。

不僅如此,最近已經(jīng)有研究團(tuán)隊(duì)正在努力以AI模型為基礎(chǔ),讓機(jī)器擁有比肩,甚至超越人類的嗅覺。

人工智能擁有“視、聽、嗅”這樣的感官究竟有什么必要,今天筆者就和大家一同探究。

人工智能看得更仔細(xì)

“眼”應(yīng)該是人工智能較早擁有的人類感官。

研究者從很早就開始讓機(jī)器能夠?qū)W會(huì)“看”,其原理也非常簡單,就是用大量的數(shù)據(jù)進(jìn)行“投喂”。通過標(biāo)注區(qū)分每張照片、視頻中的結(jié)構(gòu)、模型、色彩等信息,由計(jì)算機(jī)形成對(duì)圖片內(nèi)容的數(shù)字信息概念,進(jìn)而完成區(qū)分。也就有了“計(jì)算機(jī)視覺”。

人工智能正在擁有「嘴」和「鼻」

(圖源:小米

現(xiàn)有的計(jì)算機(jī)視覺在日常生活中應(yīng)用已經(jīng)很多,尤其在大家的智能手機(jī)當(dāng)中,在拍照時(shí)無論是“人像模式”的主體摳像,還是美顏相機(jī)等一眾強(qiáng)大算法,都離不開計(jì)算機(jī)視覺。

這次ChatGPT加入的“眼睛”則更進(jìn)一步,直接整合了另一家文生圖大模型DALL·E 3,擁有圖片搜索功能,類似谷歌Lens,只要上傳照片,ChatGPT就可以發(fā)現(xiàn)照片中的問題,并且提供相應(yīng)的回應(yīng)。

人工智能正在擁有「嘴」和「鼻」

(圖源:OpenAI)

而在文生圖部分,DALL·E 3相比同為AI畫圖應(yīng)用的Midjourney,在語義理解、關(guān)鍵詞處理等方面也都更加強(qiáng)大,尤其改善了很多大模型對(duì)提示詞斷章取義的問題,“劉德華為什么很少演反派”觸發(fā)水軍關(guān)鍵詞的類似問題應(yīng)該會(huì)少很多(笑)。

人工智能講得更自然

相比于“看”,“聽”對(duì)人工智能來說要更簡單不少。

在很早之前,互聯(lián)網(wǎng)公司們就已經(jīng)開始積極布局“智能語音助手”了?,F(xiàn)如今,諸如蘋果Siri、小米小愛同學(xué)、百度小度,都已經(jīng)有了相對(duì)成熟的應(yīng)用。

但傳統(tǒng)的“智能語音助手”現(xiàn)在也只能做一些諸如開關(guān)燈、播報(bào)天氣這樣的簡單應(yīng)用,一些相對(duì)復(fù)雜的操作還需要人工介入或者依賴預(yù)設(shè)的自動(dòng)化選項(xiàng)。

而這次ChatGPT加上語音功能則能夠支持以5個(gè)“角色”視角來進(jìn)行回答,相比傳統(tǒng)語音助手,語氣更接近真人,并且在ChatGPT龐大的語言模型支撐下,能夠回答更長的問題或執(zhí)行更復(fù)雜的操作。

人工智能正在擁有「嘴」和「鼻」

(圖源:公眾號(hào) 小米公司)

國內(nèi)廠商也在布局,在去年5月20日當(dāng)天,小米以自家小愛同學(xué)音箱為主角,舉辦了一場特殊的“脫口秀”,這就是小米所做的“情感對(duì)話”功能。

其準(zhǔn)確把握到了當(dāng)代社會(huì)人普遍存在的心理情感問題,并以一個(gè)“感情陪伴者”“傾聽者”的角度給予一定的陪伴和安慰。

此后,“智能語音助手”將可能被大模型更多改造,以適應(yīng)情感陪伴、個(gè)性化對(duì)話等更具象化的需求。

人工智能聞得更有價(jià)值

在2013年愚人節(jié)期間,谷歌上線了一個(gè)愚人項(xiàng)目Google Nose,用戶只需要在谷歌搜索框內(nèi)輸入關(guān)鍵詞,然后點(diǎn)擊“聞一聞”,就能在電腦旁聞到相應(yīng)的味道,比如新車的氣味、早餐培根的香味等等。

人工智能正在擁有「嘴」和「鼻」

(圖源:《復(fù)仇者聯(lián)盟3》)

這當(dāng)然是一個(gè)愚人節(jié)玩笑(當(dāng)然,如果你想聞電腦燒糊的味道的話,那還是有機(jī)會(huì)的,笑),不過現(xiàn)在正在有人試圖將這個(gè)項(xiàng)目落地。

今年9月初的《科學(xué)》雜志刊登了一篇由初創(chuàng)公司Osmo(從谷歌分拆)和莫奈爾化學(xué)感官中心(Monell Chemical Senses Center)等多個(gè)研究團(tuán)隊(duì)共同發(fā)布的論文,其中稱,AI模型可以讓機(jī)器擁有比人類更好的“嗅覺”。

相比于圖片、語音、文字這樣已經(jīng)可數(shù)字化記錄和呈現(xiàn)的內(nèi)容,目前還沒有一個(gè)量化的指標(biāo)能夠采集歸納出“氣味”。

人工智能正在擁有「嘴」和「鼻」

(圖源:品玩)

實(shí)驗(yàn)人員通過模擬人類嗅覺系統(tǒng)對(duì)于特定氣味分子的識(shí)別傳遞過程,搭建了一套“消息傳遞神經(jīng)網(wǎng)絡(luò)”機(jī)器學(xué)習(xí)的模型,隨后引入了一個(gè)包含約5000個(gè)分子的香精香料數(shù)據(jù)庫,最終得出了一套嗅覺高維圖譜。其最終對(duì)氣味的識(shí)別準(zhǔn)確率還要高過人類氣味專家。

而這樣一套讓人工智能能夠“聞”到味道的系統(tǒng),可能有著大家想象之外的巨大意義。

回望人類利用嗅覺的主要場景,除了品味食物等日常場景,能夠最先想到的就是“警犬”——由于犬類比人發(fā)達(dá)數(shù)十倍的嗅覺系統(tǒng),往往被訓(xùn)練用作掃毒、排爆這樣的執(zhí)法場景。而讓機(jī)器擁有嗅覺就能夠讓生物遠(yuǎn)離潛在的威脅。

另一方面,早年筆者還曾看過,由于犬類發(fā)達(dá)的嗅覺,能夠?qū)θ祟惏┌Y等病灶有明顯的感知,而由機(jī)器來“聞”則更加具象化且易于診斷,是醫(yī)療診斷的新發(fā)展路徑。

同時(shí),這對(duì)于香水行業(yè)、餐飲業(yè)、環(huán)保業(yè)都有可能的幫助。

寫在最后

各位讀者覺得,讓機(jī)器、人工智能擁有人類的“五感”是有意義的嗎?歡迎在評(píng)論區(qū)留下你的看法。

本文作者:Visssom,觀點(diǎn)僅代表個(gè)人,題圖源:pixabay

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到