人類的推理能力植根于語言思維和視覺記憶中,利用視覺理解增強大模型推理能力是AI技術的前沿探索之一。2024年12月25日,阿里云通義千問發布首個開源多模態推理模型QVQ-72B-Preview。QVQ展現出超預期的視覺理解和推理能力,在解決數學、物理、科學等領域的復雜推理問題上表現尤為突出。
一個月前(11月28日),通義發布AI推理模型QwQ - 32B - Preview并斬獲SuperCLUE的AI推理模型榜單「全球開源冠軍」,評測數據顯示,預覽版本的QwQ,已展現出研究生水平的科學推理能力,在數學和編程方面表現尤為出色,整體推理水平比肩OpenAI o1。
QwQ(Qwen with Questions)是通義千問Qwen大模型最新推出的實驗性研究模型,也是阿里云首個開源的AI推理模型。阿里云通義千問團隊研究發現,當模型有足夠的時間思考、質疑和反思時,其對數學和編程的理解就會深化。
如今在Qwen2 - VL - 72B開源模型基礎上,研發出QVQ - 72B - Preview。
QVQ-72B-Preview不僅在邏輯推理上更上一層樓,還巧妙地融合了視覺理解能力,使得AI在解析圖像信息、結合上下文進行空間推理方面取得了顯著進步。這一突破意味著AI在處理諸如視覺問答、圖像識別與解釋等復雜任務時,能夠更加精準地把握細節,實現更加智能化、人性化的交互體驗。
例如,在解析一張包含物理實驗的圖像時,QVQ不僅能準確識別出實驗器材,還能基于視覺線索推斷出實驗步驟、預測實驗結果,甚至對實驗設計中可能存在的邏輯漏洞提出質疑。這種跨模態的推理能力,為教育、科研、工業設計等多個領域帶來了革命性的變化,加速了知識的自動化處理和創新應用的步伐。
目前,QVQ-72B-Preview已在魔搭社區和HuggingFace等平臺上開源,開發者可上手體驗。截至目前,通義千問Qwen的衍生模型數突破7.8萬個。
阿里云通義千問團隊表示,QVQ-72B-Preview的發布只是冰山一角,他們正不斷探索AI推理能力的極限,旨在構建一個更加全面、智能、適應未來需求的AI生態系統。隨著技術的不斷迭代與成熟,我們有理由相信,AI將在更多領域展現出超越人類想象的智慧之光,開啟一個由技術與人類共同編織的智慧新時代。
版權與免責聲明:
凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。
本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。
鑒于本站稿件來源廣泛、數量較多,如涉及作品內容、版權等問題,請與本站聯系并提供相關證明材料:聯系電話:0571-89719789;郵箱:[email protected]。