被寒假作業(yè)逼瘋？實(shí)測(cè)三款主流國(guó)產(chǎn)大模型，哪家輔導(dǎo)作業(yè)最靠譜

jh 2年前 (2024-01-31)

國(guó)產(chǎn)廠商們針對(duì)中文語(yǔ)境的持續(xù)優(yōu)化，也讓 AI 在教育領(lǐng)域的應(yīng)用場(chǎng)景更加多元，讓更多人享受到AI帶來(lái)的價(jià)值。

寒假作業(yè)，大概是每個(gè)年代的孩子都逃不過(guò)的宿命。

而自從“雙減”政策開(kāi)始落實(shí)，教育回歸家庭后，家長(zhǎng)們也開(kāi)始迎來(lái)了他們的“酷刑”——為孩子們輔導(dǎo)作業(yè)。

相信不少人都能在網(wǎng)上刷到被作業(yè)整崩潰的家長(zhǎng)，有的因?yàn)楹⒆有牟辉谘煽嗫谄判模械囊驗(yàn)楹⒆釉趺匆猜?tīng)不懂氣到捶桌，而更多家長(zhǎng)則因?yàn)楹⒆诱n程知識(shí)點(diǎn)越來(lái)越豐富，未必能很好地為孩子答疑解惑。

可以說(shuō)，寒假作業(yè)讓家長(zhǎng)和孩子們都犯了難。

不過(guò)，面對(duì)這個(gè)難題，家長(zhǎng)們可以借助當(dāng)下最火的AI大模型。

目前不少國(guó)產(chǎn)大模型都號(hào)稱自帶教育功能，最關(guān)鍵的是，這些國(guó)產(chǎn)工具都可以通過(guò)網(wǎng)頁(yè)或App免費(fèi)體驗(yàn)，對(duì)于大部分家長(zhǎng)們來(lái)說(shuō)，使用門(mén)檻足夠低。

為此，筆者挑選了國(guó)內(nèi)三款主流對(duì)話式大模型（訊飛星火、文心一言、通義千問(wèn)）進(jìn)行了多次提問(wèn)，并且將他們與目前公認(rèn)最強(qiáng)的GPT4大模型進(jìn)行對(duì)比，看看他們?cè)谡鎸?shí)場(chǎng)景下輔導(dǎo)作業(yè)時(shí)，都有哪些表現(xiàn)？

國(guó)產(chǎn)大模型 VS GPT4

寒假說(shuō)長(zhǎng)不長(zhǎng)，說(shuō)短不短，由于中間夾雜著春節(jié)假期，大多數(shù)學(xué)生很難完整安排學(xué)習(xí)計(jì)劃。

那如果我們以20天來(lái)計(jì)算，AI大模型會(huì)給孩子們安排什么樣的學(xué)習(xí)計(jì)劃呢？

（注：全文截圖均按照：訊飛星火、通義千問(wèn)、文心一言、GPT4進(jìn)行排序）

總結(jié)：從篇幅來(lái)看，訊飛星火給出的計(jì)劃非常詳細(xì)（因?yàn)殚L(zhǎng)度原因并未截全），并且詳細(xì)到每個(gè)學(xué)科；GPT4與文心一言給出的方案內(nèi)容大致相似，但前者在內(nèi)容上更加豐富，而通義千問(wèn)則具體到每個(gè)時(shí)間段。但總體來(lái)說(shuō)，AI大模型生成的計(jì)劃都過(guò)于籠統(tǒng)。

安排好學(xué)習(xí)計(jì)劃后，下一步就是開(kāi)始輔導(dǎo)作業(yè)了。

語(yǔ)數(shù)外題目實(shí)測(cè)

論語(yǔ)數(shù)外三門(mén)中最難的學(xué)科，大部分人可能首先會(huì)在數(shù)學(xué)上犯了難。

那么今天我們就看看AI大模型的解題能力如何？

（1）第一道是個(gè)小學(xué)數(shù)學(xué)應(yīng)用題，涉及未知數(shù)和方程式。

總結(jié)：在使用截圖時(shí)，通義千問(wèn)給出了正確的方程式，但奇怪的是在計(jì)算時(shí)翻車(chē)。而其他三家大模型都因?yàn)樽R(shí)別數(shù)字原因列錯(cuò)了公式。

而在手動(dòng)輸入題目后，四家大模型都給出了正確答案，不過(guò)文心一言“別出心裁”使用用T代表未知數(shù)，這可能不太符合一般的教學(xué)習(xí)慣。

（2）有了應(yīng)用題，幾何題自然也不能錯(cuò)過(guò)。

結(jié)論：由于文心一言需要多次步驟，因此筆者并未繼續(xù)操作，其他三家均給出了解題步驟。其中在觀感上，還是國(guó)產(chǎn)大模型更勝一籌，而GPT4文字描述過(guò)多，總體來(lái)說(shuō)這三家的表現(xiàn)都很不錯(cuò)。

做完數(shù)學(xué)題，讓我們來(lái)幾道英語(yǔ)題。

對(duì)于大部分家長(zhǎng)來(lái)說(shuō)，由于長(zhǎng)期遠(yuǎn)離英語(yǔ)環(huán)境，詞匯掌握量逐年下降，當(dāng)孩子升入中學(xué)后，輔導(dǎo)英語(yǔ)就變得十分困難。

其中，長(zhǎng)難句又是英語(yǔ)學(xué)習(xí)中最難的一部分，無(wú)法理解句子自然也很難選擇正確答案。

就翻譯來(lái)說(shuō)，大部分AI大模型都可以給出準(zhǔn)確的答案，但要做到“信達(dá)雅”，還是有一定的難度的。

（3）讓我們先用一句經(jīng)典的英文名句試試：

結(jié)論：不得不說(shuō)，每家英翻中都很有詩(shī)意，其中GPT4和訊飛星火給出的翻譯最為對(duì)仗，不過(guò)GPT4還附帶了對(duì)原句的解釋?zhuān)x千問(wèn)則找出了原句的出處。

（4）那么換成考試真題的長(zhǎng)難句后，表現(xiàn)又如何呢？

結(jié)論：在這句話的翻譯上，之前表現(xiàn)平平的文心一言這一次翻譯地最為出色。而其他三家則更加貼近直譯。對(duì)于學(xué)生們來(lái)說(shuō)，通俗易懂的翻譯或許更適合應(yīng)試。

比起數(shù)學(xué)和英語(yǔ)，語(yǔ)文學(xué)科更加考驗(yàn)中文能力，也正是在這一部分，GPT4遇到了難題。

（5）首先來(lái)一段文言文的翻譯：

結(jié)論：或許是因?yàn)榇竽Ｐ驮诶斫?ldquo;白話文”和“文言文”時(shí)出現(xiàn)錯(cuò)誤，目前均不支持全文翻譯。在改為短句子后，翻譯的準(zhǔn)確性明顯高了許多，筆者個(gè)人更偏好訊飛星火的翻譯。

最后，讓我們拿出“作者都覺(jué)得離譜”的現(xiàn)代文閱讀，看看大模型們能不能讀懂出題人的心。

這是一篇來(lái)自2023年全國(guó)高考的散文《給兒子》，原作者陳村，該文不僅篇幅較長(zhǎng)，并且蘊(yùn)含非常多的寓意。

（6）首先讓大模型總結(jié)一下文章的內(nèi)容：

（7）接著我們讓大模型們來(lái)嘗試下高考真題，看看他們是否可以理解段落背后的含義。

總結(jié)：從個(gè)人主觀判斷，三款國(guó)產(chǎn)大模型在中文理解能力還是強(qiáng)于GPT4，不過(guò)后在理解段落的回答上，表現(xiàn)也稱得上超出預(yù)期。

結(jié)語(yǔ)

從以上的實(shí)測(cè)來(lái)看，對(duì)于家長(zhǎng)們來(lái)說(shuō)，國(guó)產(chǎn)大模型已經(jīng)足夠應(yīng)對(duì)孩子們的日常作業(yè)。

而國(guó)產(chǎn)廠商們針對(duì)中文語(yǔ)境的持續(xù)優(yōu)化，也讓 AI 在教育領(lǐng)域的應(yīng)用場(chǎng)景更加多元，讓更多人享受到AI帶來(lái)的價(jià)值。

例如今天下午舉行的星火認(rèn)知大模型發(fā)布會(huì)上，科大訊飛董事長(zhǎng)劉慶峰、研究院院長(zhǎng)劉聰正式發(fā)布基于首個(gè)全國(guó)產(chǎn)算力訓(xùn)練的訊飛星火V3.5，多個(gè)核心能力得到全面提升，其中在數(shù)學(xué)、語(yǔ)言理解、語(yǔ)音交互能力上已經(jīng)超越GPT-4 Turbo。

在發(fā)布會(huì)上，劉慶峰著重介紹了通用人工智能對(duì)教育領(lǐng)域的賦能，他表示：“教育是人類(lèi)進(jìn)步的根本，關(guān)乎每一位個(gè)體，是真正的全民剛需。”

隨著大模型的全新提升，新版本在視覺(jué)問(wèn)答、聯(lián)想推理等方面實(shí)現(xiàn)了高分應(yīng)對(duì)，理解更加精確，表述也更好。

除了教育領(lǐng)域以外，國(guó)產(chǎn)廠商正利用大模型賦能千行百業(yè)，把大模型技術(shù)的創(chuàng)造力轉(zhuǎn)化為促進(jìn)產(chǎn)業(yè)高質(zhì)量發(fā)展的新質(zhì)生產(chǎn)力，正在成為行業(yè)的共同選擇。

最后，記得關(guān)注微信公眾號(hào)：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

被寒假作業(yè)逼瘋？實(shí)測(cè)三款主流國(guó)產(chǎn)大模型，哪家輔導(dǎo)作業(yè)最靠譜

國(guó)產(chǎn)大模型 VS GPT4

語(yǔ)數(shù)外題目實(shí)測(cè)

結(jié)語(yǔ)

最新文章

注冊(cè)

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

被寒假作業(yè)逼瘋？實(shí)測(cè)三款主流國(guó)產(chǎn)大模型，哪家輔導(dǎo)作業(yè)最靠譜

國(guó)產(chǎn)大模型 VS GPT4

語(yǔ)數(shù)外題目實(shí)測(cè)

結(jié)語(yǔ)

最新文章

登錄

注冊(cè)

被寒假作業(yè)逼瘋？實(shí)測(cè)三款主流國(guó)產(chǎn)大模型，哪家輔導(dǎo)作業(yè)最靠譜