眼擎科技代勇:拋棄傳統(tǒng)ISP成像架構(gòu),讓視覺成像能力將全方位超越人眼

韓璐 8年前 (2018-05-08)

在其看來,日常生活中,如若不能解決弱光、逆光、反光等環(huán)境中的自適應(yīng)成像問題,AI視覺產(chǎn)品便無(wú)法大規(guī)模落地、進(jìn)行產(chǎn)業(yè)化。

4月25日,由硬科技第一產(chǎn)業(yè)媒體鎂客網(wǎng)主辦,蘇州市科學(xué)技術(shù)局指導(dǎo),蘇州工業(yè)園區(qū)人工智能產(chǎn)業(yè)協(xié)會(huì)、蘇州國(guó)際科技園、蒲公英孵化器協(xié)辦的“M-TECH主題論壇——AI創(chuàng)新帶來的智能革命”在蘇州南園賓館圓滿落幕。

現(xiàn)場(chǎng),眼擎科技商務(wù)總監(jiān)代勇帶來了主題演講《成像引擎芯片:AI視覺的最后一公里》。過程中,其詳細(xì)結(jié)構(gòu)了當(dāng)前成像技術(shù)的痛點(diǎn)——在傳統(tǒng)的攝像頭領(lǐng)域,最大的痛點(diǎn)就是不能像人眼一樣,能夠適應(yīng)各種各樣的復(fù)雜光線。

眼擎科技代勇:拋棄傳統(tǒng)ISP成像架構(gòu),讓視覺成像能力將全方位超越人眼

以下為代勇演講的要點(diǎn)摘錄:

1、很多計(jì)算機(jī)視覺系統(tǒng)的識(shí)別率可以達(dá)到99.9%,甚至更高。但是,這里面有一個(gè)重要的前提——所有圖像的成像效果是正常的;

2、在傳統(tǒng)攝像頭領(lǐng)域,它最大的痛點(diǎn)是不能像人眼一樣,能夠適應(yīng)各種各樣的復(fù)雜光線。不管是手機(jī)還是攝像頭,它的成像能力比人臉至少差30倍以上;

3、日常生活中,如若不能解決弱光、逆光、反光等環(huán)境中的自適應(yīng)成像問題,AI視覺產(chǎn)品便無(wú)法大規(guī)模落地、進(jìn)行產(chǎn)業(yè)化;

4、成像分為三個(gè)年代,第一個(gè)是以美國(guó)柯達(dá)公司為代表的30年代,那時(shí)候的成像是光和化學(xué)的轉(zhuǎn)化;第二個(gè)是以日本成像架構(gòu)為代表的數(shù)碼時(shí)代;第三個(gè)則是以AI為代表的成像時(shí)代;

5、以前,傳統(tǒng)的成像設(shè)備為了“人看圖像”而做的研發(fā),現(xiàn)在,給機(jī)器看的視覺時(shí)代開始了;

6、當(dāng)你要做一個(gè)原創(chuàng)芯片產(chǎn)品的時(shí)候,一定要做心理準(zhǔn)備——前三年甚至更長(zhǎng)時(shí)間,就是老老實(shí)實(shí)的做技術(shù)研發(fā),然后兩年的市場(chǎng)推廣,才很有可能迎來接下來兩年的大規(guī)模收割。

7、中國(guó)以前做芯片,大部分是從中低端產(chǎn)品開始做起,比如說有一個(gè)數(shù)字控制芯片,我們做的是美國(guó)或者歐洲價(jià)格的十分之一,性能差一點(diǎn),可靠性差一點(diǎn)沒有關(guān)系,最后有市場(chǎng),所以我們看到的市場(chǎng)就是做進(jìn)口替代的生意。

以下為代勇演講全文:

今天很親切看到合作伙伴和朋友從深圳和北京來到今天的現(xiàn)場(chǎng)。

我們現(xiàn)在可以看到,從視覺來看,我們所熟知的AI公司,如商湯和曠視等等,就像在做人類大腦的事情,即認(rèn)知分析層面的事情。而眼擎科技要解決的是“AI視覺成像的最后一公里”,做類似于“人眼”的東西。

AI視覺里面,今天看到許多媒體報(bào)道,很多計(jì)算機(jī)視覺系統(tǒng)的識(shí)別率可以達(dá)到99.9%,甚至更高。但是,這里面有一個(gè)重要的前提——當(dāng)這些產(chǎn)品在實(shí)驗(yàn)室里,所有圖像的成像效果是正常的。

在現(xiàn)實(shí)生活中,我們自己有很深的感受,就比如淘寶的買家秀和賣家秀。

在賣家秀的照片中,層次分明、顏色豐富、光線很正常。但是買家秀的照片,往往很黑、沒有細(xì)節(jié)。這時(shí)候就出現(xiàn)問題了,AI算法該怎么識(shí)別呢?

其實(shí),在這方面,包括語(yǔ)音在內(nèi),都可以看到比較大的問題。當(dāng)語(yǔ)音算法非常優(yōu)秀的時(shí)候,最受制約的就是前端的麥克風(fēng),后者比算法落后了十年。

為什么有這個(gè)問題?就有一個(gè)現(xiàn)象——在傳統(tǒng)的攝像頭領(lǐng)域,它最大的痛點(diǎn)是不能像人眼一樣,能夠適應(yīng)各種各樣的復(fù)雜光線。不管是手機(jī)還是攝像頭,它的成像能力比我們?nèi)四樦辽俨?0倍以上。

前一段時(shí)間,Uber自動(dòng)駕駛汽車在美國(guó)道路上行駛的時(shí)候撞死行人,這個(gè)事已經(jīng)眾所周知了。雖然事故的原因仍在調(diào)查,但在公布的視頻里,在撞人的一瞬間,這個(gè)行人非常不湊巧的是從大燈的暗光部走到亮光部,對(duì)于傳統(tǒng)的攝像頭就意味著亮度不夠。

我們自己開車也有一個(gè)體驗(yàn),因?yàn)榈缆酚新窡?,汽車有大燈,人在那兒肯定能看到這個(gè)行人。但是,當(dāng)機(jī)器的眼睛的能力不夠時(shí),就做不到這一點(diǎn)。

因此我們認(rèn)為在AI視覺的產(chǎn)業(yè)中,如若不能解決弱光、逆光、反光等環(huán)境中的自適應(yīng)成像問題,AI視覺產(chǎn)品便無(wú)法大規(guī)模落地、進(jìn)行產(chǎn)業(yè)化。

還原一下,從歷史的成因來看,成像分為三個(gè)年代:

一個(gè)時(shí)代是以美國(guó)柯達(dá)公司為代表的30年代,那時(shí)候是光和化學(xué)的轉(zhuǎn)化;

80年代,日本開始做起來,整個(gè)成像產(chǎn)業(yè)進(jìn)入了日系統(tǒng)治時(shí)代,我們可以看到今天所有的設(shè)備、攝像機(jī)都是日系的。還有一個(gè)奇怪的現(xiàn)象,當(dāng)日本開始數(shù)碼時(shí)代之后,美國(guó)和歐洲都沒有踏足成像技術(shù)。目前,所有成像ISP技術(shù)的核心全部是日本的。同樣,成像技術(shù)的架構(gòu)革新能不能適應(yīng)AI時(shí)代的需要,如果日本不做,大家就一直要等待;

到2018年,以AI為代表的時(shí)代來臨,很多興起的產(chǎn)業(yè)都是在中國(guó)。我們認(rèn)為,數(shù)碼相機(jī)ISP架構(gòu)是沒有辦法解決高動(dòng)態(tài)范圍內(nèi)復(fù)雜的光線問題。

為什么會(huì)這樣?傳統(tǒng)的ISP架構(gòu)有一個(gè)致命缺陷,那就是基于8位的數(shù)據(jù)處理導(dǎo)致大量RAW 數(shù)據(jù)信息丟失,從而讓圖像細(xì)節(jié)丟失嚴(yán)重。喜歡玩單反的朋友們都知道,很多專業(yè)的攝影師,其實(shí)在拍照的時(shí)候,是不用JPG格式的圖片的,更多是是基于后期的軟件修圖,最后把照片調(diào)的非常漂亮。在日系成像架構(gòu)里,傳統(tǒng)的ISP架構(gòu)有一個(gè)非常不好的地方,它所有出來的RAW數(shù)據(jù),第一步進(jìn)入ISP處理的時(shí)候,直接就把16位的裁成8位,,RAW數(shù)據(jù)是一個(gè)單獨(dú)的數(shù)據(jù)流,如果是16位的信息被ISP裁成8位,那么JPG格式照片比原始RAW數(shù)據(jù)信息少256倍。就是通俗理解的,這個(gè)圖片在傳統(tǒng)的架構(gòu)上給到算法識(shí)別的時(shí)候,這個(gè)圖像的信息少了接近200多倍,這就導(dǎo)致了圖片出現(xiàn)問題,為什么圖像的質(zhì)量那么差,那么不清晰,為什么逆光拍的不清楚。這個(gè)里面有一個(gè)大概的結(jié)構(gòu),包括鏡頭、CMOS傳感器,還有成像引擎,我們就是要專門解決這個(gè)問題。

眼擎科技是一家致力于研發(fā)比人眼更強(qiáng)的成像引擎公司。我們可以看到左邊的圖片,這是實(shí)驗(yàn)室現(xiàn)場(chǎng)圖景,很黑,但是經(jīng)過成像引擎的處理之后,在現(xiàn)場(chǎng)沒有任何輔助光源的前提下,我們可以把照片中物體的顏色進(jìn)行還原,讓成像很清楚。

左邊有一個(gè)短視頻,沒有成像引擎的時(shí)候,整個(gè)場(chǎng)景都是很黑的,但是我們開啟成像引擎的時(shí)候,就可以把圖像的顏色和亮度,物體的細(xì)節(jié)就都可以被看清楚。

通過努力,我們可以做到在實(shí)時(shí)的弱光、逆光等復(fù)雜光纖環(huán)境下,讓設(shè)備的成像能力超越人眼,并且?guī)椭惴ㄟM(jìn)行正常的識(shí)別。目前成像引擎暗光能力比人眼高8倍,降噪能力比攝像頭高64倍,逆光能力比攝像頭高32倍。未來三年,眼擎科技的使命就是讓視覺成像能力將全方位超越人眼。

我們?cè)趺醋龅侥??剛才講傳統(tǒng)ISP核心的問題,就是不管圖像信息多豐富,我進(jìn)來先給你裁剪成8位數(shù)據(jù),信息量就少了200多倍。我們第一天就徹底拋棄了日系的傳統(tǒng)架構(gòu),在成型引擎架構(gòu)中,當(dāng)一個(gè)CMOS 14~20位RAW數(shù)據(jù)進(jìn)來的時(shí)候,我們直接基于Raw數(shù)據(jù)進(jìn)行處理,最后在把它壓縮成8位的JPG圖像,保留所有圖像細(xì)節(jié)信息讓AI機(jī)器可以識(shí)別出來,不管是什么樣的光線環(huán)境下,都可以很好的處理。

這里跟大家分享一下:AI的革新帶給成像產(chǎn)業(yè)的變革是什么?

以前傳統(tǒng)的成像設(shè)備都是基于“人看圖像”在做研發(fā),現(xiàn)在,給機(jī)器看的視覺時(shí)代開始了。首先,AI視覺不需要美化圖像,需要的是高精度的視覺測(cè)量?jī)x器,即圖像準(zhǔn)不準(zhǔn),顏色準(zhǔn)不準(zhǔn)。另外,顏色是AI視覺測(cè)量世界的根本依據(jù),包括信噪比也是衡量顏色準(zhǔn)確度的關(guān)鍵指標(biāo)。

我們眼擎科技的產(chǎn)品是eyemore×42成像芯片,是AI機(jī)器的視覺中樞。比較傳統(tǒng)的成像能力,我們?cè)谟?0倍的算力提升、20+算法以及500多種光線場(chǎng)景的驗(yàn)證數(shù)據(jù)。

明年,我們會(huì)做到28納米,2020年我們會(huì)做成一個(gè)14納米的SOC,這樣的話,我們的算力將更加強(qiáng)大,功能更加豐富。

做一個(gè)芯片挺難的,更難的是怎么把芯片賣出去。從第一天開始,我們就深刻認(rèn)識(shí)單獨(dú)做一個(gè)芯片很難形成一個(gè)產(chǎn)業(yè),當(dāng)一個(gè)客戶有一個(gè)新場(chǎng)景的時(shí)候,最先用的是開發(fā)套件驗(yàn)證性能和場(chǎng)景,然后,會(huì)用你的模組進(jìn)行小批量試產(chǎn),等到規(guī)模穩(wěn)定之后才考慮用你的芯片,后面還有IP授權(quán),行業(yè)定制等模式,這是我們建立起來的完整商業(yè)模式。

我們是一個(gè)“3+2+2”模式,怎么說呢?當(dāng)你要做一個(gè)原創(chuàng)芯片產(chǎn)品的時(shí)候,一定要做心理準(zhǔn)備——前三年甚至更長(zhǎng)時(shí)間,就是老老實(shí)實(shí)的做技術(shù)研發(fā),然后兩年的市場(chǎng)推廣,才很有可能迎來接下來兩年的大規(guī)模收割。

我們成立于2014年,幾年來專注做一件事情,就是開發(fā)超越人眼的成像引擎。我們今年是第四年,市場(chǎng)推廣的第二年,我們徹底拋棄傳統(tǒng)的ISP成像架構(gòu),從解決復(fù)雜光線下的成像品質(zhì)角度起步,形成單點(diǎn)突破,最終超越人眼。

分享一個(gè)案例,4月20日我們發(fā)布了針對(duì)自動(dòng)駕駛和輔助駕駛的DX120汽車成像方案,產(chǎn)品系統(tǒng)整個(gè)都是車規(guī)級(jí)要求的。我們第一天做的時(shí)候就是從非常成熟的產(chǎn)業(yè)角度去做的這個(gè)事情。其中,120dB是什么概念呢?這個(gè)是個(gè)歐洲車規(guī)標(biāo)準(zhǔn),這個(gè)動(dòng)態(tài)范圍基本與我們?nèi)搜鄣哪芰Φ韧覀兿葘⑵嚨囊曈X能力提升到和人能力等同,以后路上汽車也可以很安全的看路而行。

視覺其實(shí)是一個(gè)很直觀的事情,可能大家不是做這一塊的,就不了解我們的技術(shù),在這就分享一個(gè)在深圳道路實(shí)測(cè)的視頻。右邊是我們的DX120拍的,過隧道非常典型的場(chǎng)景,有逆光,還有道路漆黑,左邊對(duì)比的情況下,大家看不清楚的時(shí)候,其實(shí)可以看到DX120 視頻流中圖像的層次,輪廓和車牌都可以看得很清楚,這就是我們講的120dB的概念。

這個(gè)是北京實(shí)驗(yàn)室拍的,很多人都知道逆光是很頭疼的事情,你想拍清楚人的時(shí)候,背景過度曝光,左邊就是可以看到人和背景,同時(shí)也可以看得非常清楚。

產(chǎn)業(yè)布局也是一樣的,我們的技術(shù)會(huì)重點(diǎn)放在自動(dòng)駕駛、安防、工業(yè)檢測(cè)、無(wú)人零售和機(jī)器人、深度相機(jī)六個(gè)領(lǐng)域。

2018年,我們的市場(chǎng)策略是針對(duì)行業(yè)領(lǐng)域樹立標(biāo)準(zhǔn),同時(shí)兼顧戰(zhàn)略客戶、行業(yè)標(biāo)桿客戶和落地客戶的市場(chǎng)戰(zhàn)略,歡迎大家跟我們建立合作。

這是我們產(chǎn)業(yè)布局的分布。芯片產(chǎn)業(yè)現(xiàn)在比較有意思,以前受制于產(chǎn)業(yè)格局的局限,所有的東西都是CPU一家獨(dú)大,現(xiàn)在所有的算法基于GPU,它的重要性就被體現(xiàn)出來了。當(dāng)GPU的算力達(dá)到很高標(biāo)準(zhǔn),算法很豐富的時(shí)候,前端攝像頭這個(gè)眼睛的成像能力好壞,就成了“最后一公里”的關(guān)鍵問題,也是我們現(xiàn)在在做的事情。

最后跟大家分享一個(gè)中興的事情。很多朋友問我,說中國(guó)航母都造出來了,火箭也造出來了,為什么一個(gè)芯片會(huì)這么困擾大家?

中國(guó)人做芯片只能做很簡(jiǎn)單的,比如說有一個(gè)數(shù)字控制芯片,我們做的是美國(guó)或者歐洲價(jià)格的十分之一,性能差一點(diǎn),可靠性差一點(diǎn)沒有關(guān)系,最后有市場(chǎng),所以我們看到的市場(chǎng)就是做進(jìn)口替代的生意。以前想做芯片其實(shí)沒有空間,現(xiàn)在AI的興起,對(duì)AI芯片需求逐漸多樣化,全球都在統(tǒng)一起跑線上,大家才有機(jī)會(huì),我們第一天起就很清楚要做這個(gè)領(lǐng)域?qū)儆谧约旱脑瓌?chuàng)數(shù)字的高端芯片,將來成為成像引擎芯片產(chǎn)業(yè)的領(lǐng)導(dǎo)者

這個(gè)是我們的創(chuàng)業(yè)團(tuán)隊(duì),創(chuàng)始人是朱繼志,1998年在北大電子系畢業(yè),他后來在中興做了十年的視頻圖像產(chǎn)品研發(fā)和管理,接著在國(guó)內(nèi)最大的芯片分銷商做了八年,負(fù)責(zé)包括汽車、手機(jī)、工業(yè)等芯片推廣,所以我們?cè)谝曈X、芯片都有比較資深的經(jīng)驗(yàn)。另外,我們CTO余博士專注成像領(lǐng)域技術(shù)20年,在圖像領(lǐng)域和成像算法研發(fā)都有豐富的經(jīng)驗(yàn)。

也希望更多合作伙伴能夠與我們一起探索AI視覺時(shí)代的新成像市場(chǎng)。

我的演講到此結(jié)束!謝謝大家。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到