新引擎實現大語言模型推理速度顯著提升
原文地址:http://news.sciencenet.cn/htmlnews/2023/11/511841.shtm......閱讀全文
新引擎實現大語言模型推理速度顯著提升
原文地址:http://news.sciencenet.cn/htmlnews/2023/11/511841.shtm
OpenAI-發布新一代大模型,更擅長推理也更貴
傳說中的“草莓”現身,9月12日晚間,OpenAI正式對外發布一款名為o1的新模型,這款模型為該公司下一代 “推理” 模型中的第一個,o為“Orion(獵戶座)”,這款模型可以比人類更快地回答更復雜的問題。與以前的模型相比,在編寫代碼和解決多步驟問題方面做得更好。但它也比此前發布的GPT-4o更貴,
大模型加速改變云計算行業規則
原文地址:http://news.sciencenet.cn/htmlnews/2023/4/498365.shtm
我國科學家提出高效推理策略-可避免大模型“過度思考”
隨著人工智能大模型的不斷發展,如何讓其在“難”的問題上深入思考,而不是對所有問題“想個不停”?記者5月29日從中國科學院自動化研究所獲悉,該所聯合鵬城實驗室提出了一種高效推理策略AutoThink,可讓大模型實現自主切換思考模式,避免“過度思考”。 “當前,越來越多的大模型開始具備‘深度思考能
OpenAI推出具備推理能力新AI模型
據ChatGPT制造者美國開放人工智能公司(OpenAI)官網12日報道,該公司已經成功研發出一系列具備推理能力的人工智能(AI)模型,并命名為“OpenAI o1”。這些模型的獨特之處在于,其會花更長時間思考問題,再做出響應,就像人類一樣。因此,這些模型能對復雜任務進行推理,解決以前模型很難解決的
智譜發布推理模型初代版本
12月31日,國內明星大模型創業公司北京智譜華章科技有限公司推出基于擴展強化學習技術訓練的推理模型GLM-Zero-Preview,擅長處理數理邏輯、代碼和需要深度推理的復雜問題。GLM-Zero-Preview是GLM-Zero的初代版本。智譜表示,目前的GLM-Zero-Preview與Open
OpenAI推出具備推理能力新AI模型
據ChatGPT制造者美國開放人工智能公司(OpenAI)官網12日報道,該公司已經成功研發出一系列具備推理能力的人工智能(AI)模型,并命名為“OpenAI o1”。這些模型的獨特之處在于,其會花更長時間思考問題,再做出響應,就像人類一樣。因此,這些模型能對復雜任務進行推理,解決以前模型很難解決的
OpenAI最新模型o3展現強大推理能力
12月20日,美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱,o3具備更先進、近似人類的推理能力,在代碼編寫、數學競賽和掌握人類博士級別的科學知識等方面,均超越了其“前輩”o1。 不過,英國《新科學家》網站在12月22
手機就能跑!騰訊推出4款可端側部署的開源模型
8月4日,騰訊混元宣布開源4款小尺寸模型,參數規模分別為0.5B、1.8B、4B、7B,消費級顯卡即可運行,適用于筆記本電腦、手機、智能座艙、智能家居等低功耗端側場景,且支持垂直領域低成本微調。據介紹,新開源的4個模型屬于融合推理模型,具備推理速度快、性價比高的特點,用戶可根據使用場景靈活選擇模型思
ChatGPT如何“思考”
北京時間5月14日凌晨,美國開放人工智能研究中心(OpenAI)發布了其下一代大型語言模型GPT-4o,人工智能(AI)領域再起硝煙。盡管AI一詞已很普及,但其內部運作方式仍像黑箱操作一樣,是一個謎。因為AI依賴機器學習算法,而先進的機器學習算法使用模擬人腦結構的神經網絡,信息在不同神經元間傳遞,以
清華大學等發布超長時長、高性價比的Sora級視頻生成大模型
近日,北京極佳視界科技有限公司聯合清華大學自動化系正式發布我國首個超長時長、高性價比的Sora級視頻生成大模型“視界一粟 YiSu”。據介紹,“視界一粟 YiSu”可生成1分鐘以上的視頻,并擁有超大運動、超強表現力等優勢;此外,該模型成本更低、速度更快,有望更快實現長視頻生成的大規模產品應用。清華大
AI心理推斷能力或與人類相當,但不意味它們有情商
新一期《自然·人類行為》發表論文顯示,在測試追蹤他人心理狀態能力——也稱心智理論(Theory of Mind)的任務中,兩類大語言模型(LLM)在特定情況下的表現與人類相似,甚至更好。 研究團隊對熱門LLM展開測試。圖片來源:《自然·人類行為》 心智理論對人類社交互動十分重要,是人類溝通交
AI心理推斷能力或與人類相當,但不意味它們有情商
新一期《自然·人類行為》發表論文顯示,在測試追蹤他人心理狀態能力——也稱心智理論(Theory of Mind)的任務中,兩類大語言模型(LLM)在特定情況下的表現與人類相似,甚至更好。研究團隊對熱門LLM展開測試。心智理論對人類社交互動十分重要,是人類溝通交流和產生共鳴的關鍵。之前的研究表明,LL
學者發布無機材料AI模型,推理能力到達新高度
松山湖材料實驗室研究員孟勝/劉淼團隊在國家自然科學基金等項目的支持下,研發了一種基于深度學習圖結構的通用預訓練力場(graph-based pre-trained transformer force field,簡稱GPTFF)。相關成果近日發表于《科學通報(英文版)》(Science Bullet
AI心理推斷能力或與人類相當,但不意味它們有情商
新一期《自然·人類行為》發表論文顯示,在測試追蹤他人心理狀態能力——也稱心智理論(Theory of Mind)的任務中,兩類大語言模型(LLM)在特定情況下的表現與人類相似,甚至更好。研究團隊對熱門LLM展開測試。圖片來源:《自然·人類行為》心智理論對人類社交互動十分重要,是人類溝通交流和產生共鳴
阿里云:CPU為中心的計算體系也可加速AI推理
原文地址:http://news.sciencenet.cn/htmlnews/2024/1/515906.shtm
青年科學家:尺度定律不能顯著提高模型因果推理能力
幻覺和泛化是模型落地繞不開的話題。模型的幻覺帶來錯誤回答,使得人們在一些關鍵的認知上產生疑慮,一定程度上會阻礙大模型落地。由于過分注重尺度定律,人力、算力等大量資源資源投入到尺度定律,導致基層研究人員沒有足夠多的計算資源研究新的模型路線,擠壓創新空間。青年科學家共同探討大模型技術架構的未來可能性人工
AI尚不具備獨立臨床診療的能力
盡管人工智能(AI)在醫療領域的應用日益增多,但其“像醫生一樣思考”的能力仍存在明顯短板。由美國麻省總醫院MESH孵化器團隊開展的一項最新研究發現,生成式AI在臨床推理關鍵環節仍顯不足,尚不具備獨立承擔臨床診療任務的能力。相關成果發表在最新一期《JAMA Network Open》上。 團隊選
GPT4驅動的機器人化學家登Nature:自主設計反應,挑戰復雜實驗
基于 Transformer 的大語言模型(LLM)在自然語言處理、生物、化學和計算機編程等各個領域取得了重大進展。 但對于在實驗室工作的研究人員或那些不熟悉計算機代碼的人來說,人工智能方法并不那么容易理解。 近日,卡內基梅隆大學的研究團隊找到了如何讓人工智能系統自學化學的方法。提出了一種基
“征服”數學,AI是否有能力“回答世界”
最近,專門為人工智能(AI)設立的AI國際奧林匹克數學競賽(IMO)即將進入尾聲,其結果將隨今年7月于英國巴斯舉行的65屆IMO大會同步揭曉。這項賽事的目的是推動發展大語言模型的數學推理能力,訓練出更高數學水平的新AI模型。? ? ?純數學領域中的重大發現是推理和創造力的靈感結晶,往往意味著人類智慧
訊飛聯手華為攻克全國產算力下推理模型訓練難關
1月15日,科大訊飛發布了我國“全國產”算力平臺第一個深度推理大模型——訊飛星火X1。據公開測試,該模型中文數學能力表現突出,目前已應用于教育、醫療等場景。在大模型研發領域,訊飛星火堅持走全國產化路線。據科大訊飛研究院副院長殷兵介紹,盡管在全國產算力平臺上訓練深度推理模型遭遇了諸多挑戰,但科大訊飛攜
科大訊飛全國產深度推理模型星火X1實現升級
3月3日,記者從科大訊飛獲悉,其自主研發的全國產深度推理大模型“星火X1”完成全面升級,并在醫療、教育等領域推出系列創新應用。科大訊飛表示,此次升級“充分證明基于國產算力訓練的全棧自主可控大模型具備登頂業界最高水平的強大實力和持續創新的巨大潛力”。 在升級后的星火X1加持下,科大訊飛旗下訊飛曉
日本發布大規模語言模型
東京工業大學、日本理化學研究所及富士通公司等近日宣布,利用超級計算機“富岳”,他們開發的大規模語言模型“Fugaku-LLM”正式發布。 “Fugaku-LLM”是首個完全由日本國產技術構建的AI語言模型,其在處理日語及相關文化內容上表現卓越。模型特別擅長基于日語敬語進行自然對話,并展現出在人
日本發布大規模語言模型
科技日報訊?(記者李楊)東京工業大學、日本理化學研究所及富士通公司等近日宣布,利用超級計算機“富岳”,他們開發的大規模語言模型“Fugaku-LLM”正式發布。“Fugaku-LLM”是首個完全由日本國產技術構建的AI語言模型,其在處理日語及相關文化內容上表現卓越。模型特別擅長基于日語敬語進行自然對
面對大模型應用門檻高-如何大模型發揮更大價值?
原文地址:http://news.sciencenet.cn/htmlnews/2022/9/485510.shtm 人工智能預訓練大模型的研發,面臨著數據規模大、數據質量參差不齊、模型體積大、訓練難度高、算力需求大等一系列挑戰。在這樣的背景下,如何加速大模型的產業落地,讓大模型發揮更大價值?
2023人工智能算力性能500排行榜出爐
原文地址:http://news.sciencenet.cn/htmlnews/2023/11/512087.shtm在11月10日舉行的第5屆中國超級算力大會(ChinaSC 2023)上,由中科院計算技術研究所研究員張云泉、清華大學教授陳文光、美國阿貢國家實驗室Pavan Balaji研究員和瑞
硬剛“GPT4”,谷歌重磅推出最強殺手锏“Gemini”
12月6日,谷歌宣布推出其認為規模最大、功能最強大的人工智能模型Gemini。Gemini將包括三種不同的套件:Gemini Ultra,Gemini Pro和Gemini Nano。官方宣文中,概括出這三種套件的突出特性: Gemini Ultra——參數量最大,能力最強,適用于高度復雜的任
合合信息大模型“加速器”亮相2024世界人工智能大會
7月4日至7日,2024世界人工智能大會在上海開幕。合合信息在大會上展示了其大模型“加速器”解決方案。據了解,在大模型訓練的上游階段,“加速器”中的文檔解析引擎將助力大模型突破在書籍、論文、研報等文檔中的版面解析障礙,從源頭為模型訓練與應用輸送純凈的“燃料”,助力大模型跑得更快;“加速器”還加載了行
科學家設置數學測試新基準,難倒AI
下棋、寫詩、繪畫……人工智能(AI)似乎越來越“多才多藝”,就連數學似乎都難不倒它。大語言模型(LLM),如OpenAI的ChatGPT,幾乎在每一次數學測試中都表現良好。不過,此前AI幾乎沒有觸及數學領域的前沿研究,并不能反映其真正的數學能力。近日,一項在預印本平臺公布的研究中,美國技術研究機構E
“以毒攻毒”!識別大模型“一本正經胡說八道”
6月18日,《自然》發表的一項研究報道了一種能檢測大語言模型(LLM)幻覺(hallucination)的方法,該方法能檢測生成回答的含義的不確定性,或能用于提升LLM輸出的可靠性。LLM(如ChatGPT和Gemini)是能閱讀和生成人類自然語言的人工智能系統。不過,這類系統很容易產生幻覺,生成不