被寒假作業(yè)逼瘋?實(shí)測(cè)三款主流國(guó)產(chǎn)大模型,哪家輔導(dǎo)作業(yè)最靠譜
國(guó)產(chǎn)廠商們針對(duì)中文語(yǔ)境的持續(xù)優(yōu)化,也讓 AI 在教育領(lǐng)域的應(yīng)用場(chǎng)景更加多元,讓更多人享受到AI帶來(lái)的價(jià)值。
寒假作業(yè),大概是每個(gè)年代的孩子都逃不過(guò)的宿命。
而自從“雙減”政策開(kāi)始落實(shí),教育回歸家庭后,家長(zhǎng)們也開(kāi)始迎來(lái)了他們的“酷刑”——為孩子們輔導(dǎo)作業(yè)。
相信不少人都能在網(wǎng)上刷到被作業(yè)整崩潰的家長(zhǎng),有的因?yàn)楹⒆有牟辉谘煽嗫谄判模械囊驗(yàn)楹⒆釉趺匆猜?tīng)不懂氣到捶桌,而更多家長(zhǎng)則因?yàn)楹⒆诱n程知識(shí)點(diǎn)越來(lái)越豐富,未必能很好地為孩子答疑解惑。
可以說(shuō),寒假作業(yè)讓家長(zhǎng)和孩子們都犯了難。
不過(guò),面對(duì)這個(gè)難題,家長(zhǎng)們可以借助當(dāng)下最火的AI大模型。
目前不少國(guó)產(chǎn)大模型都號(hào)稱自帶教育功能,最關(guān)鍵的是,這些國(guó)產(chǎn)工具都可以通過(guò)網(wǎng)頁(yè)或App免費(fèi)體驗(yàn),對(duì)于大部分家長(zhǎng)們來(lái)說(shuō),使用門(mén)檻足夠低。
為此,筆者挑選了國(guó)內(nèi)三款主流對(duì)話式大模型(訊飛星火、文心一言、通義千問(wèn))進(jìn)行了多次提問(wèn),并且將他們與目前公認(rèn)最強(qiáng)的GPT4大模型進(jìn)行對(duì)比,看看他們?cè)谡鎸?shí)場(chǎng)景下輔導(dǎo)作業(yè)時(shí),都有哪些表現(xiàn)?
國(guó)產(chǎn)大模型 VS GPT4
寒假說(shuō)長(zhǎng)不長(zhǎng),說(shuō)短不短,由于中間夾雜著春節(jié)假期,大多數(shù)學(xué)生很難完整安排學(xué)習(xí)計(jì)劃。
那如果我們以20天來(lái)計(jì)算,AI大模型會(huì)給孩子們安排什么樣的學(xué)習(xí)計(jì)劃呢?
(注:全文截圖均按照:訊飛星火、通義千問(wèn)、文心一言、GPT4進(jìn)行排序)
總結(jié):從篇幅來(lái)看,訊飛星火給出的計(jì)劃非常詳細(xì)(因?yàn)殚L(zhǎng)度原因并未截全),并且詳細(xì)到每個(gè)學(xué)科;GPT4與文心一言給出的方案內(nèi)容大致相似,但前者在內(nèi)容上更加豐富,而通義千問(wèn)則具體到每個(gè)時(shí)間段。但總體來(lái)說(shuō),AI大模型生成的計(jì)劃都過(guò)于籠統(tǒng)。
安排好學(xué)習(xí)計(jì)劃后,下一步就是開(kāi)始輔導(dǎo)作業(yè)了。
語(yǔ)數(shù)外題目實(shí)測(cè)
論語(yǔ)數(shù)外三門(mén)中最難的學(xué)科,大部分人可能首先會(huì)在數(shù)學(xué)上犯了難。
那么今天我們就看看AI大模型的解題能力如何?
(1)第一道是個(gè)小學(xué)數(shù)學(xué)應(yīng)用題,涉及未知數(shù)和方程式。
總結(jié):在使用截圖時(shí),通義千問(wèn)給出了正確的方程式,但奇怪的是在計(jì)算時(shí)翻車(chē)。而其他三家大模型都因?yàn)樽R(shí)別數(shù)字原因列錯(cuò)了公式。
而在手動(dòng)輸入題目后,四家大模型都給出了正確答案,不過(guò)文心一言“別出心裁”使用用T代表未知數(shù),這可能不太符合一般的教學(xué)習(xí)慣。
(2)有了應(yīng)用題,幾何題自然也不能錯(cuò)過(guò)。
結(jié)論:由于文心一言需要多次步驟,因此筆者并未繼續(xù)操作,其他三家均給出了解題步驟。其中在觀感上,還是國(guó)產(chǎn)大模型更勝一籌,而GPT4文字描述過(guò)多,總體來(lái)說(shuō)這三家的表現(xiàn)都很不錯(cuò)。
做完數(shù)學(xué)題,讓我們來(lái)幾道英語(yǔ)題。
對(duì)于大部分家長(zhǎng)來(lái)說(shuō),由于長(zhǎng)期遠(yuǎn)離英語(yǔ)環(huán)境,詞匯掌握量逐年下降,當(dāng)孩子升入中學(xué)后,輔導(dǎo)英語(yǔ)就變得十分困難。
其中,長(zhǎng)難句又是英語(yǔ)學(xué)習(xí)中最難的一部分,無(wú)法理解句子自然也很難選擇正確答案。
就翻譯來(lái)說(shuō),大部分AI大模型都可以給出準(zhǔn)確的答案,但要做到“信達(dá)雅”,還是有一定的難度的。
(3)讓我們先用一句經(jīng)典的英文名句試試:
結(jié)論:不得不說(shuō),每家英翻中都很有詩(shī)意,其中GPT4和訊飛星火給出的翻譯最為對(duì)仗,不過(guò)GPT4還附帶了對(duì)原句的解釋?zhuān)x千問(wèn)則找出了原句的出處。
(4)那么換成考試真題的長(zhǎng)難句后,表現(xiàn)又如何呢?
結(jié)論:在這句話的翻譯上,之前表現(xiàn)平平的文心一言這一次翻譯地最為出色。而其他三家則更加貼近直譯。對(duì)于學(xué)生們來(lái)說(shuō),通俗易懂的翻譯或許更適合應(yīng)試。
比起數(shù)學(xué)和英語(yǔ),語(yǔ)文學(xué)科更加考驗(yàn)中文能力,也正是在這一部分,GPT4遇到了難題。
(5)首先來(lái)一段文言文的翻譯:
結(jié)論:或許是因?yàn)榇竽P驮诶斫?ldquo;白話文”和“文言文”時(shí)出現(xiàn)錯(cuò)誤,目前均不支持全文翻譯。在改為短句子后,翻譯的準(zhǔn)確性明顯高了許多,筆者個(gè)人更偏好訊飛星火的翻譯。
最后,讓我們拿出“作者都覺(jué)得離譜”的現(xiàn)代文閱讀,看看大模型們能不能讀懂出題人的心。
這是一篇來(lái)自2023年全國(guó)高考的散文《給兒子》,原作者陳村,該文不僅篇幅較長(zhǎng),并且蘊(yùn)含非常多的寓意。
(6)首先讓大模型總結(jié)一下文章的內(nèi)容:
(7)接著我們讓大模型們來(lái)嘗試下高考真題,看看他們是否可以理解段落背后的含義。
總結(jié):從個(gè)人主觀判斷,三款國(guó)產(chǎn)大模型在中文理解能力還是強(qiáng)于GPT4,不過(guò)后在理解段落的回答上,表現(xiàn)也稱得上超出預(yù)期。
結(jié)語(yǔ)
從以上的實(shí)測(cè)來(lái)看,對(duì)于家長(zhǎng)們來(lái)說(shuō),國(guó)產(chǎn)大模型已經(jīng)足夠應(yīng)對(duì)孩子們的日常作業(yè)。
而國(guó)產(chǎn)廠商們針對(duì)中文語(yǔ)境的持續(xù)優(yōu)化,也讓 AI 在教育領(lǐng)域的應(yīng)用場(chǎng)景更加多元,讓更多人享受到AI帶來(lái)的價(jià)值。
例如今天下午舉行的星火認(rèn)知大模型發(fā)布會(huì)上,科大訊飛董事長(zhǎng)劉慶峰、研究院院長(zhǎng)劉聰正式發(fā)布基于首個(gè)全國(guó)產(chǎn)算力訓(xùn)練的訊飛星火V3.5,多個(gè)核心能力得到全面提升,其中在數(shù)學(xué)、語(yǔ)言理解、語(yǔ)音交互能力上已經(jīng)超越GPT-4 Turbo。
在發(fā)布會(huì)上,劉慶峰著重介紹了通用人工智能對(duì)教育領(lǐng)域的賦能,他表示:“教育是人類(lèi)進(jìn)步的根本,關(guān)乎每一位個(gè)體,是真正的全民剛需。”
隨著大模型的全新提升,新版本在視覺(jué)問(wèn)答、聯(lián)想推理等方面實(shí)現(xiàn)了高分應(yīng)對(duì),理解更加精確,表述也更好。
除了教育領(lǐng)域以外,國(guó)產(chǎn)廠商正利用大模型賦能千行百業(yè),把大模型技術(shù)的創(chuàng)造力轉(zhuǎn)化為促進(jìn)產(chǎn)業(yè)高質(zhì)量發(fā)展的新質(zhì)生產(chǎn)力,正在成為行業(yè)的共同選擇。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
