亚洲字幕成人中文在线观看,日韩久久网,欧美日韩一,操日本女人逼视频,国产欧美123,久久久久av,欧美久久久久久久久中文字幕

產(chǎn)品分類導(dǎo)航
CPHI制藥在線 資訊 GPT等AI大語言模型,能夠像人類一項(xiàng)思考推理嗎?

GPT等AI大語言模型,能夠像人類一項(xiàng)思考推理嗎?

作者:王聰  來源:生物世界
  2025-02-25
阿姆斯特丹大學(xué)和圣塔菲研究所的研究表明,GPT 模型在類比推理任務(wù)中,面對(duì)問題變化時(shí)表現(xiàn)不佳,其推理不如人類靈活,更多依賴模式匹配而非抽象理解,這提醒在重要決策領(lǐng)域使用 AI 需謹(jǐn)慎。

人工智能(AI),特別是像 GPT-4 這樣的大語言模型(LLM),在推理任務(wù)上表現(xiàn)出了令人印象深刻的性能。

但這些 AI 真正實(shí)現(xiàn)了對(duì)抽象概念的l理解嗎?抑或是僅僅停留在了模式模仿層面?

最近,阿姆斯特丹大學(xué)和圣塔菲研究所的一項(xiàng)新研究表明,雖然 GPT 模型在一些推理類比任務(wù)中表現(xiàn)良好,但當(dāng)問題發(fā)生改變時(shí),它們就不行了,這突出了 AI 推理能力的關(guān)鍵弱點(diǎn)。

研究表明

類比推理是根據(jù)兩個(gè)不同事物在某些方面的相似性來進(jìn)行比較的能力。這是人類試圖了解世界和做出決定的最常見的方法之一。

舉個(gè)類比推理的例子:杯子之于咖啡,就像湯之于碗。從杯子與咖啡的關(guān)系,類比推理出與湯具有類似關(guān)系的是碗。

像 GPT-4 這樣的大語言模型在各種測(cè)試中表現(xiàn)良好,包括那些需要類比推理的測(cè)試。但是,AI 真的可以進(jìn)行通用的、穩(wěn)健(魯棒性)的推理嗎?還是過度依賴于訓(xùn)練數(shù)據(jù)中的模式?

阿姆斯特丹大學(xué)的 Martha Lewis 與圣塔菲研究所的 Melanie Mitchell 在這項(xiàng)研究檢查了 GPT 模型(GPT-3、GPT-3.5、GPT-4)在進(jìn)行類比推理時(shí)是否像人類一樣靈活和穩(wěn)健??紤]到 AI 在顯示世界中被越來越多地應(yīng)用于決策和解決問題,因此,AI 的類比推理能力顯得尤為重要。

他們比較了人類與 GPT 模型在三種不同類型的類比問題中的表現(xiàn):

字母字符串類比——測(cè)試對(duì)字母序列變換規(guī)則的推理;

● 數(shù)字矩陣推理——分析數(shù)字矩陣模式并補(bǔ)全其中缺失的數(shù)字;

故事類比——理解兩個(gè)故事中的哪一個(gè)更符合給定的例子故事。

除了測(cè)試 GPT 模型是否可以理解原始問題外,該研究還測(cè)試了當(dāng)問題被微妙修改時(shí),它們的表現(xiàn)如何。例如,在字母字符串類比中,將打亂的字母順序作為新字母表,或使用非字母符號(hào)代替字母;在數(shù)字矩陣推理中,隨機(jī)放置缺失的數(shù)字位置,或用符號(hào)代替數(shù)字;在故事類比中,調(diào)換答案順序,或保持故事的因果結(jié)構(gòu)但改變表達(dá)內(nèi)容。

論文作者指出,一個(gè)能夠真正理解類比推理的系統(tǒng)應(yīng)該即使面對(duì)這些變化也能保持高性能。

結(jié)果顯示,在字母字符串類比中,對(duì)于簡(jiǎn)單類比,無論問題是否被修改,人類的正確率穩(wěn)定在 75% 左右,而 GPT 在問題被修改后正確率顯著下降,例如,GPT 從 45% 下降至 35%。對(duì)于復(fù)雜類比,人類和 GPT 表現(xiàn)都比較差,但人類仍優(yōu)于 GPT。

在數(shù)字矩陣推理中,隨機(jī)放置缺失的數(shù)字位置,人類的正確率穩(wěn)定在 77% 左右,而 GPT 則顯著下降,例如,GPT-4 從 81% 下降至 48%。但符號(hào)代替數(shù)字后,人類和 GPT 均未產(chǎn)生顯著變化。

在故事類比中,GPT 模型更傾向于選擇第一個(gè)給定的答案作為正確答案,而人類不受答案順序的影響。此外,當(dāng)故事的關(guān)鍵元素被改寫時(shí),GPT 表現(xiàn)的比人類更吃力,這表明 GPT 依賴于表面的相似性,而不是更深層的因果推理。

論文作者認(rèn)為,這表明了 AI 的推理通常不如人類靈活,它們的推理與真正的抽象理解無關(guān),而是更多地進(jìn)行模式匹配。

之前一個(gè)廣泛的假設(shè)是,即像 GPT-4 這樣的人工智能模型具有涌現(xiàn)類比推理能力,可以像人類一樣推理,而這項(xiàng)研究表明事實(shí)并非如此,并指出了其推理的脆弱性。

雖然 AI 展示了令人印象深刻的能力,但這并不意味著它們真正理解自己在做什么,它們?cè)诟鞣N變化中的泛化能力仍然遠(yuǎn)遠(yuǎn)弱于人類的認(rèn)知能力,GPT 模型通常依賴于表面模式,而不是深度理解。這也提醒了我們,AI 可以成為一個(gè)強(qiáng)大的工具,但它還不能取代人類的思維和推理。因此,在教育、法律以及醫(yī)療等重要決策領(lǐng)域,使用 AI 需要慎重。

論文鏈接:https://arxiv.org/abs/2411.14215

相關(guān)文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國(guó)際展覽有限公司版權(quán)所有(保留一切權(quán)利) 滬ICP備05034851號(hào)-57
体育| 嘉善县| 鹤庆县| 金堂县| 桃江县| 雷波县| 荥阳市| 黔西县| 玉田县| 镇康县| 安福县| 宣化县| 黑河市| 三门县| 奉节县| 精河县| 民乐县| 邓州市| 丰顺县| 江达县| 毕节市| 嘉兴市| 萍乡市| 阜南县| 横峰县| 福清市| 分宜县| 安丘市| 集贤县| 静乐县| 阳春市| 郧西县| 洛浦县| 台东县| 延安市| 京山县| 虎林市| 双峰县| 荣成市| 阳高县| 镇坪县|