OpenAI發(fā)布GPT-4.1模型：最強編碼能力，僅提供API訪問，價格降了

2025-04-16 09:41:47來源：TechWeb.com.cn 關鍵詞：OpenAI GPT-4.1模型閱讀量：18163

導讀：GPT?4.1系列模型在編碼能力、復雜指令遵循、長文本處理(首次支持高達一百萬 Token 上下文，且無額外費用)以及多模態(tài)理解方面均實現(xiàn)了顯著提升，性能全面超越 GPT-4o，并在關鍵指標上比肩甚至超越 GPT-4.5。

　　4月15日消息，OpenAI推出專為開發(fā)者打造的全新模型系列——GPT-4.1。該系列包含三個新成員：旗艦級GPT-4.1、高速的GPT-4.1 Mini，以及最小、最快、最經(jīng)濟的 GPT-4.1 Nano。

　　據(jù)介紹，GPT?4.1系列模型在編碼能力、復雜指令遵循、長文本處理(首次支持高達一百萬 Token 上下文，且無額外費用)以及多模態(tài)理解方面均實現(xiàn)了顯著提升，性能全面超越 GPT-4o，并在關鍵指標上比肩甚至超越 GPT-4.5。

　　值得注意的是，GPT-4.1系列僅通過 API 提供。

　　此前，OpenAI剛剛出臺了一項針對未來新的大模型AIP調用的規(guī)定，要求AIP調用組織完成身份驗證流程，才能解鎖訪問OpenAI平臺最先進模型和功能。也就是說“不通過驗證就不讓用最新模型”。盡管OpenAI 的AIP組織驗證支持200多個國家和地區(qū)，但中國大陸開發(fā)者仍面臨資格限制。

　　另外，OpenAI史上最貴大模型將被“淘汰”。

　　OpenAI稱，將在API中棄用GPT-4.5預覽版，因為GPT-4.1在許多關鍵功能上提供了改進或相似的性能，且成本和延遲更低。GPT-4.5預覽版將在三個月后，即2025年7月14日關閉，以便開發(fā)者有足夠的時間進行過渡。

　　GPT-4.1三大模型

　　旗艦模型GPT?4.1性能優(yōu)化集中于編碼、指令遵循、長文本理解上：

　　1、最強編碼：GPT?4.1在SWE-bench Verified上的得分為54.6%，比GPT?4o提高了21.4個百分點，比GPT?4.5提高了26.6個百分點。

　　2、指令遵循：在Scale的MultiChallenge?上，GPT?4.1的得分為38.3%，比GPT?4o提高了10.5個百分點。

　　3、長上下文：在Video-MME上，GPT?4.1取得了新的SOTA——在長視頻、無字幕類別中得分72.0%，高于GPT-4o的65.3%。

　　GPT-4.1 mini 在小型模型性能方面取得了重大飛躍，甚至在許多基準測試中超越了 GPT-4o。它在智能評估中與 GPT-4o 相當或超過，同時將延遲減少了近一半，成本降低了 83%。

　　對于需要低延遲的任務，GPT-4.1 nano 是最快且最便宜的模型。它以其 100 萬個標記的上下文窗口，在小型尺寸下提供卓越的性能，并在 MMLU 上得分 80.1%，在 GPQA 上得分 50.3%，在 Aider 多語言編碼上得分 9.8%——甚至高于 GPT-4o mini。它非常適合分類或自動補全等任務。

　　API定價

　　GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 現(xiàn)在對所有開發(fā)者開放，僅通過API提供。

　　價格方面，GPT?4.1比GPT?4o便宜26%，輸入、輸出分別是每百萬token 2美元和8美元。

　　GPT?4.1 nano是OpenAI迄今為止價格最低、速度最快的模型，輸入、輸出分別為0.1美元和0.4美元。

　　對于重復使用相同上下文的查詢，這些新模型的提示詞緩存折扣已從之前的50%提高至75%。

　　最后，長上下文請求已包含在標準的按Token計費內(nèi)，無需額外費用。

　　今年2月，OpenAI發(fā)布了自己有史以來最貴的大模型GPT-4.5，GPT-4.5的API定價高達75美元/百萬tokens輸入、150美元/百萬tokens輸出，被開發(fā)者吐槽“用不起”！

　　這次GPT-4.1的價格，你覺得如何？

　　通過視頻，OpenAI 團隊成員介紹了GPT?4.1系列模型模型的性能優(yōu)勢、基準測試結果，并通過實時演示，如現(xiàn)場編寫功能完善的前端應用、處理超長日志文件等，展現(xiàn)了它們的實際能力。

　　一起看看：

　　編碼能力顯著優(yōu)于 GPT-4o

　　GPT-4.1 在各種編碼任務中顯著優(yōu)于 GPT-4o，包括主動解決編碼任務、前端編碼、減少不必要的編輯、可靠地遵循差異格式、確保一致的工具使用等。

　　在SWE-bench Verified(一個衡量現(xiàn)實世界軟件工程技能的指標)上，GPT-4.1完成了54.6%的任務，而GPT-4o完成了33.2%(2024-11-20)。這反映了GPT-4.1模型在探索代碼庫、完成任務以及生成既可運行又可通過測試的代碼方面的能力提升。

　　對于希望編輯大型文件的API開發(fā)者來說，GPT-4.1在多種格式下的代碼差異方面更加可靠。Aider的多語言差異基準測試中，GPT-4.1的成績是GPT-4o的兩倍多，并且甚至比GPT-4.5高出8個百分點。

　　GPT-4.1專門訓練以更可靠地遵循diff格式，這使得開發(fā)者只需讓模型輸出更改的行，而不是重寫整個文件，從而節(jié)省成本和延遲。

　　對于喜歡重寫整個文件的開發(fā)者，GPT-4.1的輸出token限制提高到了32,768個(相比GPT-4o的16,384個tokens有所增加)。

　　GPT-4.1 在前端編碼方面也顯著優(yōu)于 GPT-4o，能夠創(chuàng)建功能更強大、外觀更美觀的網(wǎng)頁應用。在對比測試中，評分人員80%的時間更喜歡 GPT-4.1生成的網(wǎng)站，而不是 GPT-4o生成的網(wǎng)站。

　　除了上述基準測試之外，GPT-4.1 在更可靠地遵循格式方面表現(xiàn)更佳，并且更少進行不必要的編輯。在OpenAI內(nèi)部評估中，代碼中的不必要的編輯從 GPT-4o 的 9% 降至 GPT-4.1 的 2%。

　　指令遵循

　　GPT-4.1 更可靠地遵循指令，我們在各種指令遵循評估中測量到了顯著的改進。GPT-4.1在困難提示方面的表現(xiàn)相較于GPT-4o有了顯著提升。

　　多輪指令跟隨對于許多開發(fā)者來說至關重要——模型需要能夠在對話的深層保持連貫性，并跟蹤用戶之前告訴它的信息。OpenAI訓練了GPT-4.1，使其能夠更好地從對話中的過去消息中提取信息，從而實現(xiàn)更自然的對話。

　　在Scale的MultiChallenge基準測試中GPT?4.1雖然不及o1和GPT-4.5，但已經(jīng)可以追上o3-mini，并且比GPT?4o提升了10.5個百分點之多。

　　GPT-4.1在IFEval上的得分也為87.4%，而GPT-4o的得分為81.0%。IFEval使用帶有可驗證指令的提示(例如，指定內(nèi)容長度或避免某些術語或格式)。

　　長文本

　　GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 可以處理多達 100 萬個上下文標記——比之前的 GPT-4o 模型多 128,000 個，非常適合處理大型代碼庫或大量長文檔。

　　OpenAI展示了GPT-4.1在上下文窗口內(nèi)不同位置檢索一條隱藏的少量信息(即一根 “針”)的能力，也就是“大海撈針”的能力。

　　OpenAI還發(fā)布了用于評估多跳長上下文推理的數(shù)據(jù)集Graphwalks。這是因為，許多需要長上下文的開發(fā)者用例需要在上下文中進行多個邏輯跳躍，例如在編寫代碼時在多個文件之間跳轉，或者在回答復雜的法律問題時交叉引用文檔等。

　　Graphwalks需要模型跨上下文多個位置進行推理，其使用由十六進制散列組成的定向圖填充上下文窗口，然后要求模型從圖中的一個隨機節(jié)點開始進行廣度優(yōu)先搜索(BFS)，然后要求它返回一定深度的所有節(jié)點。

　　GPT-4.1在上下文長度達到128K個token時優(yōu)于GPT-4o。

上一篇：余承東秀隔空刷掌！華為首款AI掌靜脈識別智能門鎖

下一篇：全球首個！高德發(fā)布AI導航智能體情緒價值拉滿

我要評論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個字符)

表情

所有評論僅代表網(wǎng)友意見，與本站立場無關。

OpenAI營收將迎爆發(fā)式增長，高投入下前景與挑戰(zhàn)并存
自兩年多前推出ChatGPT后，OpenAI積極布局，為消費者和企業(yè)打造了豐富多樣的訂閱服務。不過，在收入不斷攀升的背后，OpenAI面臨著諸多嚴峻挑戰(zhàn)。
OpenAI人工智能
2025-03-28 13:15:47
OpenAI考慮建設首個數(shù)據(jù)中心減少對微軟云服務依賴
有知情人士爆料，OpenAI首個數(shù)據(jù)中心未來或許會用于存儲OpenAI計劃采購的硬件和軟件數(shù)據(jù)，而這筆采購價值高達數(shù)十億美元。
OpenAI數(shù)據(jù)中心
2025-03-27 13:58:03
OpenAI又有高管離職創(chuàng)業(yè)了押注利用AI技術加速新材料的發(fā)現(xiàn)
OpenAI后訓練團隊負責人William Fedus認為，AI在材料科學中的應用潛力巨大，希望通過技術創(chuàng)新，推動材料領域的革命性突破。
OpenAIAI技術新材料
2025-03-20 09:34:09
一周趣評：百度搜索將全面接入DeepSeek；1月中國手機市場數(shù)據(jù)出爐
大家好，歡迎來到《一周趣評》。2025年2月10日-2月16日，大模型深度搜索、OpenAI、手機、人工智能芯片等領域都呈現(xiàn)出了哪些有趣動態(tài)和精彩故事呢？我們一起來看一看吧！
OpenAI人工智能芯片
2025-02-17 16:25:00
消息稱OpenAI自研芯片團隊有40人由谷歌前工程師帶領
從外媒最新的報道來看，OpenAI在設計芯片的這一內(nèi)部團隊，目前有40人，由谷歌的前工程師Richard Ho帶領。
OpenAI自研芯片
2025-02-13 10:01:51
攤牌了！OpenAI：DeepSeek可與ChatGPT媲美愿在AI領域與中國合作
DeepSeek“干得不錯”，比如在展示思維鏈條以及允許大規(guī)模免費應用方面，這些“顯然都是用戶期望的”功能。
OpenAIDeepSeekChatGPT
2025-02-12 15:05:10

版權與免責聲明：

凡本站注明“來源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡有限公司-智能制造網(wǎng)合法擁有版權或有權使用的作品，未經(jīng)本站授權不得轉載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的，應在授權范圍內(nèi)使用，并注明“來源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關法律責任。

本站轉載并注明自其它來源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點或和對其真實性負責，不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時，必須保留本站注明的作品第一來源，并自負版權等法律責任。如擅自篡改為“稿件來源：智能制造網(wǎng)”，本站將依法追究責任。

鑒于本站稿件來源廣泛、數(shù)量較多，如涉及作品內(nèi)容、版權等問題，請與本站聯(lián)系并提供相關證明材料：聯(lián)系電話：0571-89719789；郵箱：[email protected]。

不想錯過行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

今日焦點/FOCUS 更多

熱門話題/TOPICS更多

人形機器人奏響“狂歡曲”

高難度！深圳眾擎實現(xiàn)全球首例人形機器人前空翻

宇樹科技王興興：預計年底H1機器人跑速達10米/秒超博爾特

“智能經(jīng)濟”駛入發(fā)展“快車道”

AI智能體Manus橫空出世！中國AI實現(xiàn)自主執(zhí)行能力跨越式突破

數(shù)轉智改，安全先行！“以模制模”護航企業(yè)數(shù)智升級

精彩直播/VIDEO更多

回放

數(shù)字孿生賦能新型工業(yè)化分論壇

: 數(shù)字孿生賦能低空經(jīng)濟分論壇

: 數(shù)字孿生賦能城市全域數(shù)字化轉型分論壇

推薦產(chǎn)品/PRODUCT 更多

水煤管線式研磨分散機
水煤管線式研磨分散機,管線式研磨分散機,高剪切管線式研磨分散機,德國研磨分散機,納米研磨分散機
品牌
其他品牌
中國臺灣CPG晟邦齒輪減速電機
晟邦減速機,晟邦變頻電機,CPG晟邦電機,晟邦齒輪減速電機,晟邦馬達
品牌
其他品牌
多功能500克芝麻顆粒全自動定量小型包裝機
多功能全自動顆粒包裝機,芝麻全自動顆粒包裝機,定量全自動顆粒包裝機,不銹鋼全自動顆粒包裝機,全自動定量包裝機
品牌
上海清易
養(yǎng)殖污水處理設備的日常維護
養(yǎng)殖污水處理設備,養(yǎng)殖污水處理裝置,養(yǎng)殖污水處理設備維護,碳鋼、不銹鋼、玻璃鋼,養(yǎng)殖廢水處理設備
品牌
明基環(huán)保
昆侖通態(tài) 10.1英寸高清智能工業(yè)觸摸屏
智能制造 HMI 人機界面,工業(yè)自動化產(chǎn)線遠程運維終端,工業(yè)一體化觸控終端,工業(yè)級穩(wěn)定性設計,CE/FCC 認證：符合工業(yè)電磁兼容標準
品牌
昆侖通態(tài)
純國產(chǎn)化飛騰D2000處理器工控主板
飛騰D2000,工控機主板,工業(yè)工控主板,電腦服務器主板,集特智能
品牌
集特智能

国产免费一区二区三区最新不卡_gogo全球大胆高清人露出91_国产无遮挡一区二区三区毛片日本_免费淫视频_俄罗斯16一20sex牲色另类_免费观看黄色片视频

OpenAI發(fā)布GPT-4.1模型：最強編碼能力，僅提供API訪問，價格降了

熱門評論

全部評論