清湛人工智能研究院楊磊:AI賦能工業(yè)制造業(yè)

偉銘 2年前 (2023-08-22)

大模型之戰(zhàn)步入后半場,行業(yè)逐漸達(dá)成共識,大模型的競爭,關(guān)鍵不在技術(shù),而在產(chǎn)業(yè)場景落地。

本文來源于微信公眾號:盛景新經(jīng)濟(jì),作者盛小景;本站經(jīng)授權(quán)轉(zhuǎn)載。

清湛人工智能研究院楊磊:AI賦能工業(yè)制造業(yè)

大模型之戰(zhàn)步入后半場,行業(yè)逐漸達(dá)成共識,大模型的競爭,關(guān)鍵不在技術(shù),而在產(chǎn)業(yè)場景落地。傳統(tǒng)產(chǎn)業(yè)何應(yīng)對新一輪AI浪潮?AI如何幫助行業(yè)降本增效?企業(yè)如何利用大模型重塑業(yè)務(wù)?

8月15日,在中國人工智能學(xué)會、清華人工智能研究院、中關(guān)村企業(yè)家顧問委員會、中關(guān)村100企業(yè)家俱樂部的大力支持下,由清湛人工智能研究院發(fā)起并主辦,由盛景網(wǎng)聯(lián)承辦的《大模型時(shí)代,AI賦能產(chǎn)業(yè)升級與引領(lǐng)》系列論壇于北京中關(guān)村全球科創(chuàng)路演中心成功舉辦。

論壇上,清湛人工智能研究院執(zhí)行院長楊磊博士發(fā)表了以“AI賦能工業(yè)制造業(yè)”為主題的主題演講。

以下為精華內(nèi)容整理,enjoy~

歷史邁進(jìn)工業(yè)5.0

制造業(yè)是中國未來發(fā)展的必經(jīng)之路,這毋庸置疑。目前工業(yè) 4.0正在如火如荼地進(jìn)行,已深入應(yīng)用到各行各業(yè),學(xué)者界和商業(yè)界對工業(yè)4.0的未來發(fā)展形勢總體上持樂觀態(tài)度。但是也有部分研究者及從業(yè)人員逐漸發(fā)現(xiàn)工業(yè)4.0在發(fā)展過程中過于側(cè)重生產(chǎn)制造流程的優(yōu)化和設(shè)備的自動化水平的提升,而忽視了制造過程中最重要的參與者“人”這一主體。

直到今天才發(fā)現(xiàn)我們前面一直提“無人工廠”的好多路可能是走不通的。

在過去的5-10年里,我們一直在考慮一個(gè)問題,如何發(fā)揮新機(jī)器的作用,從而替代人。然而,人的創(chuàng)造力是沒法替代的,如何和機(jī)器緊密結(jié)合在一起,這才應(yīng)該是行業(yè)專家所做的工作。

歐洲提出工業(yè)5.0的概念,改變了以前“整個(gè)工廠是無人化”、“未來工廠只由,一個(gè)看門的人和一個(gè)看人的狗構(gòu)成”認(rèn)知。

在新的工業(yè)5.0人機(jī)體系中,更強(qiáng)調(diào)協(xié)作,包括機(jī)器的協(xié)作、系統(tǒng)和人的協(xié)作。

未來,制造業(yè)的發(fā)展是以人為本,以持續(xù)生產(chǎn)為本。過去強(qiáng)調(diào)智能化、強(qiáng)調(diào)把人的環(huán)節(jié)剔除的說法是不正確的。

工業(yè)背景下談大模型

過去三年中,大模型的應(yīng)用已經(jīng)給很多行業(yè)領(lǐng)域創(chuàng)造了震撼的效果。斯坦福大學(xué)把目前下載數(shù)超過5萬的大模型做了一個(gè)圖譜,超過15870個(gè)?;旧厦刻於加行碌拇竽P统霈F(xiàn),為社會帶來了巨大的變化。大模型時(shí)代的起始最早可以追溯到2019年Google推出的T5大模型,直到GPT-4在22年底推出,23年初開放測試后爆火。至此,真正進(jìn)入大模型的高速發(fā)展時(shí)期,也走了很多彎路。

值得注意的是,工業(yè)人工智能和商業(yè)人工智能有巨大的不同,吳恩達(dá)曾說,“在消費(fèi)者軟件互聯(lián)網(wǎng)中,我們可以訓(xùn)練一些機(jī)器學(xué)習(xí)模型來服務(wù)于十億用戶。在制造業(yè)中,你可能有10000家制造商建造10000個(gè)定制的人工智能模型。”即使是大模型時(shí)代,這種由于應(yīng)用領(lǐng)域的差異化帶來的技術(shù)路線的不同也是長期存在的。

當(dāng)前的人工智能系統(tǒng)本質(zhì)上包括兩個(gè)主要組成部分:代碼和數(shù)據(jù)。如果我們從2006的深度學(xué)習(xí)元年計(jì)算,我們花了不到二十年的時(shí)間,從模型驅(qū)動走向了數(shù)據(jù)驅(qū)動,又逐漸走向了更大規(guī)模數(shù)據(jù)的大模型時(shí)代。傳統(tǒng)的以模型為中心的人工智能專注于在給定一組固定數(shù)據(jù)的情況下,改進(jìn)代碼以獲得更好的結(jié)果。對于系統(tǒng)開發(fā)的過程,更關(guān)注于代碼本身。而以數(shù)據(jù)驅(qū)動的人工智能應(yīng)用是通過將代碼視為不可更改的實(shí)體來提高數(shù)據(jù)質(zhì)量,以實(shí)現(xiàn)更好的結(jié)果。在以模型為中心的人工智能中,我們在優(yōu)化人工智能模型上花費(fèi)的時(shí)間相對較多,而在以數(shù)據(jù)為中心的AI中,我們花在提高數(shù)據(jù)質(zhì)量上的時(shí)間相對較長。

高質(zhì)量數(shù)據(jù)的重要性已愈發(fā)明顯。大型模型近年的進(jìn)展在很大程度上依賴于高質(zhì)量和豐富的訓(xùn)練數(shù)據(jù)集。相比于GPT-2,GPT-3在模型架構(gòu)上的改變微乎其微,更大的精力是投入到了收集更大、更高質(zhì)量的數(shù)據(jù)集來進(jìn)行訓(xùn)練。例如,GPT-4與GPT-3的模型架構(gòu)類似,但使用了RLHF(來自人工反饋過程的強(qiáng)化學(xué)習(xí))來生成用于微調(diào)的高質(zhì)量標(biāo)注數(shù)據(jù)。

認(rèn)識到這一現(xiàn)象,人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的AI”運(yùn)動,這是一種新的理念,它主張?jiān)谀P图軜?gòu)相對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個(gè)模型的訓(xùn)練效果。這其中包括添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護(hù)數(shù)據(jù)等。

因此,未來在大模型開發(fā)中,數(shù)據(jù)成本所占的比例可能會逐步提高。這代表了一種理念的轉(zhuǎn)變,傳統(tǒng)的AI工程師需要了解的Python,就可以做個(gè)應(yīng)用。后來需要學(xué)習(xí)pytorch框架來交付應(yīng)用。但是現(xiàn)在,這已經(jīng)不夠了。

大模型落地需要新范式,新工具集。

大模型在工業(yè)場景的應(yīng)用

生成式人工智能,特別是大型語言模型如ChatGPT,是目前在制造業(yè)內(nèi)嶄露頭角的范式轉(zhuǎn)變。生成式人工智能可以利用現(xiàn)有數(shù)據(jù)來編造新的、獨(dú)特的數(shù)據(jù)集,而大模型則進(jìn)一步發(fā)展了這一概念,提供了無與倫比的能力來剖析和協(xié)調(diào)錯綜復(fù)雜的信息,并和人類以自然語言對話互動。

過去,所有的工廠業(yè)主都希望我們能夠做一臺機(jī)器,能把人替換下來。這個(gè)機(jī)器要比人聰明,比人便宜,而且沒有疲勞、沒有勞資糾紛。整個(gè)制造業(yè)一直朝著這個(gè)方向努力,造一臺更聰明的機(jī)器,圍繞著這臺機(jī)器我們要提供更聰明的感知,更聰明的計(jì)算能力,更聰明的執(zhí)行能力、可以思索的能力。

清湛在過去兩年中,我們也是圍繞這條路線在走。我們提供了基于機(jī)器視覺+智能機(jī)器人的產(chǎn)線自動化的平臺工具。

基于具身智能技術(shù),我們打造了低成本、更高效率的智能移動機(jī)器人。圍繞著海量的工業(yè)數(shù)據(jù)分析,我們面向市場交付了MLOps/LLMOps平臺。我們也嘗試把一些多模態(tài)技術(shù)落地在實(shí)際工業(yè)場景。包括用一些新的技術(shù)視覺視頻分析來做環(huán)境感知。我們一直在嘗試尋找一些新的方法、新的技術(shù)給制造業(yè)的行業(yè)的變革貢獻(xiàn)一些力量。但是,我們也是非常困惑于如何提供成本更低的、更為智能的系統(tǒng)服務(wù)于制造業(yè)產(chǎn)業(yè)。

事實(shí)上,隨著生成式人工智能的到來,尤其GPT-4的實(shí)際應(yīng)用落地,讓我們看到了這場變革的新希望。

1.基于大模型的工業(yè)知識庫

以往在工廠里,通常是老師傅教新工人,把經(jīng)驗(yàn)技藝都傳授出來。但是現(xiàn)在,找老師傅很難找到,因?yàn)楫a(chǎn)線上大部分是18歲以下和55歲以上的人,從業(yè)時(shí)間很短,他們沒有什么經(jīng)驗(yàn)。同時(shí),產(chǎn)線上的工藝過程、設(shè)備操作也變得越來越復(fù)雜。整個(gè)產(chǎn)業(yè)都希望形成一個(gè)萬能的專家系統(tǒng)或者知識圖譜來教大家。

事實(shí)上,這一點(diǎn)很多人都嘗試過但是很難做到。因?yàn)橄雵@動態(tài)的、需求不斷變化的工業(yè)生產(chǎn)環(huán)境,想形成完備的知識系統(tǒng)是很難的。隱含的知識是無法預(yù)先挖掘出來的?,F(xiàn)在通過類似OpenAI和Llama這類基礎(chǔ)模型系統(tǒng),我們很快就能夠形成一個(gè)具有海量常識性知識和垂直領(lǐng)域?qū)I(yè)知識的知識庫系統(tǒng),而且可以通過自然語言去對話。

2.基于大模型的產(chǎn)品研發(fā)

傳統(tǒng)上,產(chǎn)品設(shè)計(jì)師專注于產(chǎn)品概念和規(guī)格,而操作人員則負(fù)責(zé)生產(chǎn)任務(wù)。然而,大模型可以使設(shè)計(jì)過程信息更加透明,可以將一線操作人員的見解納入決策過程中。這些一線操作人員擁有實(shí)際生產(chǎn)過程的理解能力,能夠提出有價(jià)值的見解。大模型則能幫助將他們的想法轉(zhuǎn)化為可操作的設(shè)計(jì)建議。

通過分析操作人員的見解,大模型能夠生成考慮到實(shí)際因素和限制的設(shè)計(jì),從而形成現(xiàn)實(shí)有效的解決方案。這種合作方式能培養(yǎng)操作人員的主人翁意識和參與感。由于制造設(shè)備和機(jī)器人系統(tǒng)中蘊(yùn)含著豐富的信息,因此大模型可以在產(chǎn)品設(shè)計(jì)和優(yōu)化方面發(fā)揮重要作用,可以將這些知識與市場趨勢、科學(xué)文獻(xiàn)、不斷變化的ESG考慮因素和客戶偏好相結(jié)合。

舉個(gè)例子,來自洛桑聯(lián)邦理工學(xué)院(EPFL)和美國羅切斯特大學(xué)的研究團(tuán)隊(duì)開發(fā)了一種能夠完成有機(jī)合成、藥物發(fā)現(xiàn)和材料設(shè)計(jì)等多種化學(xué)任務(wù)的語言模型代理 ChemCrow。該代理整合了 17 種由專家設(shè)計(jì)的工具,增強(qiáng)了其在化學(xué)領(lǐng)域的性能,并涌現(xiàn)出新的能力。到目前為止,ChemCrow 已經(jīng)自主設(shè)計(jì)了一種驅(qū)蟲劑、三種有機(jī)催化劑以及合成其他相關(guān)分子。

在傳統(tǒng)的工業(yè)生產(chǎn)中,在一個(gè)材料發(fā)現(xiàn)過程中,很難快速通過系統(tǒng)來形成結(jié)果。以往,即使應(yīng)用系統(tǒng)也需要很多跨專業(yè)的人,要求他們對各個(gè)知識都非常了解。但是現(xiàn)在通過這樣的一個(gè)系統(tǒng),材料發(fā)現(xiàn)、化學(xué)發(fā)現(xiàn)的過程可以從數(shù)年縮短至幾個(gè)月、甚至是幾天。我們不需要有一個(gè)特別資深的化學(xué)老師或者是化學(xué)諾貝爾獎獲得者,就可以獲得很深邃的理解。

3.基于大模型的視覺應(yīng)用

視覺數(shù)據(jù)大模型在工業(yè)中也開始逐步應(yīng)用于缺陷檢測、目標(biāo)識別。依據(jù)以往用成千上萬的圖片數(shù)據(jù)訓(xùn)練出來的結(jié)果,基于預(yù)訓(xùn)練模型調(diào)整,兩三天就能獲得比較高效的結(jié)果。眾所周知,視覺系統(tǒng)對于理解和推理視覺場景的組成特性至關(guān)重要。這個(gè)領(lǐng)域的挑戰(zhàn)在于對象之間的復(fù)雜關(guān)系、位置、歧義、以及現(xiàn)實(shí)環(huán)境中的變化等。作為人類,我們可以很輕松地借助各種模態(tài),包括但不僅限于視覺、語言、聲音等來理解和感知這個(gè)世界。隨著 Transformer 等關(guān)鍵技術(shù)的提出,以往看似獨(dú)立的各個(gè)方向也逐漸緊密地聯(lián)結(jié)到一起,組成了“多模態(tài)”的概念。

自 2021 年以來,人們對結(jié)合視覺和語言模式的模型(也稱為聯(lián)合視覺語言模型)越來越感興趣,例如OpenAI 的 CLIP。聯(lián)合視覺語言模型在圖像字幕、文本引導(dǎo)圖像生成和操作以及視覺問答等極具挑戰(zhàn)性的任務(wù)中表現(xiàn)出了特別令人印象深刻的能力。該領(lǐng)域不斷發(fā)展,其在提高零樣本泛化能力方面的有效性也在不斷發(fā)展,從而產(chǎn)生了各種實(shí)際用例。

基于大模型的視覺應(yīng)用,包括以Meta代表的各種對于圖片、視頻、音頻的“分割一切”的技術(shù),的確給現(xiàn)在生產(chǎn)線的視覺缺陷檢測、工業(yè)機(jī)器人的視覺伺服帶來個(gè)巨大的便利,也獲得了比傳統(tǒng)視覺方法更好的檢測結(jié)果。

4.基于大模型的產(chǎn)品外觀設(shè)計(jì)

產(chǎn)品外觀設(shè)計(jì)也是當(dāng)前大模型的在工業(yè)里面的應(yīng)用。通過生成式設(shè)計(jì)技術(shù)可以快速獲得新的產(chǎn)品設(shè)計(jì)。

生成設(shè)計(jì)是一個(gè)反復(fù)的設(shè)計(jì)過程,它涉及到一個(gè)將產(chǎn)生一定數(shù)量的符合某些約束條件的輸出的程序,以及一個(gè)將通過選擇特定的輸出或改變輸入值、范圍和分布來微調(diào)可行區(qū)域的設(shè)計(jì)者。設(shè)計(jì)者不需要是人,可以是測試環(huán)境中的測試程序或人工智能,例如生成式對抗網(wǎng)絡(luò)。隨著時(shí)間的推移,設(shè)計(jì)者的設(shè)計(jì)目標(biāo)變得更加明確,他們會在每次迭代中學(xué)習(xí)完善程序(通常涉及算法)。

清湛現(xiàn)在在努力和服裝生產(chǎn)商、包裝設(shè)計(jì)的合作伙伴在嘗試做一些努力。

5.基于大模型的生產(chǎn)

我們用到的大模型能力,更多是問答、客服、做知識庫。如果僅僅把大模型的能力局限在這個(gè)領(lǐng)域,就把事情看簡單了。我們都在探索,大模型除了聊天對話之外能夠呈現(xiàn)地更為“智能”的能力。

事實(shí)上,包括OpenAI、Meta、谷歌都在努力探索大模型的“智能自主代理”能力。未來“智能自主代理”可以像人一樣,不僅僅是有記憶(短期記憶和長期記憶),而且可以形成規(guī)劃,對面臨的任務(wù)進(jìn)行“任務(wù)拆分”,同時(shí)系統(tǒng)可以像人一樣進(jìn)行“反思”和“自我評價(jià)”,像人一樣自主的選擇使用不同的“工具”去完成不同的“任務(wù)”。

如果大模型能夠有這樣的“智能”,是不是我們可以基于“大模型技術(shù)”去控制生產(chǎn)線,自主的完成生產(chǎn)過程。我們在這樣思考的時(shí)候,事實(shí)上已經(jīng)開始有團(tuán)隊(duì)嘗試用“大模型”的智能機(jī)制完成整體的生產(chǎn)環(huán)節(jié),替代掉產(chǎn)線的控制系統(tǒng)。

MIT和華盛頓大學(xué)的團(tuán)隊(duì)在論文《大型語言模型如何幫助人類進(jìn)行設(shè)計(jì)和制造?》,描述了借助于GPT自主的完成制造過程——通過GPT-4造一個(gè)柜子。

整個(gè)生產(chǎn)流程由用戶通過與GPT-4基于文本的方式交互,GPT-4自動的提供設(shè)計(jì)規(guī)范,GPT-4同時(shí)可以將設(shè)計(jì)轉(zhuǎn)換為制造指令,并生成設(shè)計(jì)空間和設(shè)計(jì)變體、計(jì)算設(shè)計(jì)的性能,以及搜索基于性能的設(shè)計(jì)。GPT-4可以幫助生產(chǎn)過程自動進(jìn)行采購尋源、供應(yīng)商比價(jià)。這個(gè)做傳統(tǒng)的制造過程是個(gè)非常繁復(fù)的過程。通過基礎(chǔ)模型,可以在未來全自動的完成包括采購、加工、庫存、銷售的整個(gè)生產(chǎn)流程。

事實(shí)上,這個(gè)僅僅是這方面的一個(gè)例子。微軟亞洲研究院的研究人員嘗試借助于基礎(chǔ)模型帶來的大量先驗(yàn)知識,可以作為各種工業(yè)控制任務(wù)的豐富先驗(yàn)知識來源。通過一個(gè)實(shí)際的空調(diào)溫度控制調(diào)節(jié)的任務(wù)作為驗(yàn)證,研究結(jié)果表面GPT-4的性能與增強(qiáng)學(xué)習(xí)方法相當(dāng),可以代替經(jīng)典的自動化控制方法。但樣本較少,技術(shù)債務(wù)較低,這表明了將基礎(chǔ)模型直接應(yīng)用于工業(yè)控制任務(wù)的潛力??梢栽O(shè)想,未來對很多工業(yè)控制場景,可以直接由邊緣端的預(yù)置的基礎(chǔ)模型來發(fā)出指令,完成控制動作。

6.基于大模型的機(jī)器人控制

基于大模型的機(jī)器控制的成果很多了,最為著名的是李飛飛參與的《具有多模態(tài)提示的VIMA通用機(jī)器人操作》。我們看到,現(xiàn)在基于大模型的機(jī)器人控制,不僅僅完成對于環(huán)境的理解,還包括任務(wù)的自動分解、自動示教學(xué)習(xí)等等各種傳統(tǒng)方法無法完成的任務(wù)。

大模型在工業(yè)場景的應(yīng)用

事實(shí)上,我們現(xiàn)在對大模型的能力還沒有充分認(rèn)識清楚。何況,大模型技術(shù)本身也在快速發(fā)展。海量的數(shù)據(jù)進(jìn)行百億級別的參數(shù)訓(xùn)練,這個(gè)是人類歷史上前所未有的。

我相信在半年或一年之內(nèi),AIGC或者大模型會對制造業(yè),乃至于工業(yè)產(chǎn)業(yè)產(chǎn)生巨大的影響。而且,在未來數(shù)年內(nèi)會有很多新的預(yù)訓(xùn)練模型出新,圍繞著工業(yè)產(chǎn)業(yè)提供更好的應(yīng)用場景。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到