在國內的頭部人工智能大模型研發隊伍中,騰訊混元大模型率先采用“混合專家(MoE)”結構,模型參數規模突破萬億,處于中國大模型第一梯隊。
許多人可能不知道,在鍛造“混元”的過程中,騰訊選擇的是從零開始的自研路線。
大模型的鍛造,是一個在約束條件下高效地把工程、算法、數據以及業務應用整個串聯起來的工作,其對組織能力的要求非常高。騰訊如何在短時間內搭建出萬億參數規模的模型?又如何突破算力極限、在訓練和推理上下功夫,高效產出多款業界領先的模型?
2個多月前的2024年世界互聯網大會烏鎮峰會給出了答案。在烏鎮峰會發布的20項世界互聯網大會領先科技獎中,由騰訊公司、北京大學、北京科技大學共同申報的關鍵技術項目“Angel大規模機器學習平臺關鍵技術與應用”赫然在列。

Angel機器學習平臺獲選世界互聯網大會領先科技獎。騰訊 供圖,下同
針對大模型訓練和推理場景,騰訊機器學習平臺Angel主要包含負責訓練的AngelPTM和負責推理的AngelHCF兩大部分。騰訊機器學習平臺部總監陶陽宇近日接受《中國科學報》專訪時表示,面對大模型訓練這個復雜且龐大的任務,在“數據Ready”和“算力Ready”的基礎上,Angel機器學習平臺提供了一個“超級流水線”。
“集團作戰”的秘密武器
訓練大模型,對算力的要求是“多多益善”。因此模型訓練的算力支撐,往往是成千上萬張算力卡的“集團軍作戰”。集團作戰,首重通信。陶陽宇介紹說,在解決高速網絡互聯方面,騰訊Angel的秘密武器是“星脈網絡”。
“星脈網絡是一套軟硬件協同的高性能網絡體系,包括自研網絡設備、通信協議、通信庫以及運營系統四大關鍵組件,支持超10萬卡大規模組網。”陶陽宇說,全鏈路自研硬件、擁塞控制路由算法等不僅提升了網絡性能,也使成本顯著下降70%。
如果把大模型訓練比作一場一級方程式賽車比賽,“星脈網絡”就是專為其設計的高性能算力網絡“賽道”。陶陽宇告訴記者,騰訊還自研了相應的網絡協議作為“賽車指揮中心”,它們共同讓高性能計算集群發揮最大算力性能。
此外,算力底層架構還面臨著“異構混合計算”的難題:如何做好對不同款型芯片的協同支持和兼容,將其共同構建為一個強大的算力平臺。
陶陽宇介紹說,為了讓參差不齊的算力設備為同一個計算任務“出力”,一方面星脈網絡可以通過兼容不同廠家芯片的通信協議實現芯片間的通信,另一方面,他們還提出了一種非均勻的負載切分混合訓練技術,按照芯片的不同算力對計算任務中的神經網絡進行不同層次切分。
“簡單來說,就是讓算力強的芯片多承載一些計算任務;算力弱一些的芯片少承載一些計算任務,從而使得整個計算任務沒有‘木桶短板效應’,高效地完成計算。”陶陽宇說。
“讓每一滴資源都被榨干”
“算力Ready”的下一步,就是如何“榨干”算力。
“算力組網連起來后,如何調度是個技術活。”陶陽宇說,讓大模型訓練任務、推理任務快速地用上這些算力,正是框架層需要解決的問題。
現有的算力條件下,模型達到TB級,而現有GPU的顯存只有80GB,參數存儲存在瓶頸。為減少顯存浪費,騰訊Angel機器學習平臺提出了顯存主存統一視角存儲管理機制。
“我們通過統一編存的方式,把顯存跟主存統一打通,使得一個機器上能夠放更多的參數,包括一些中間的臨時變量,使得整個效率進一步提升。”陶陽宇介紹道,Angel機器學習平臺通過顯存+主存一體化管理技術,實現模型存儲與通信的調度優化,幫助大模型任務實現靈活調度,來達到“每一滴資源都被榨干利用”的效果。
此外,Angel機器學習平臺還通過模型并行、數據并行、流水并行、上下文并行等實現算力和通信的并行,再加上算子融合等優化,整個訓練框架的整體性能得到有效提升。據測算,相比微軟的開源框架,Angel機器學習平臺訓練性能提升2.6倍,推理速度提升2.3倍。

混元生成的大熊貓。
高效率“擁抱”多模態
大模型要向通用模型發展,離不開對多模態數據的處理支持。
“文字、圖片、音頻、視頻等不同模態數據的對齊融合理解難度很大,怎么把蘊藏于其中的知識提取出來、融合在一個大模型里面,我們也做了很多工作。”陶陽宇介紹道。
具體來說,他們提出了“自適應預采樣訓練技術”以及“不確定性感知機制”,來實現多模態數據的融合。
其中,“自適應預采樣”技術,是將訓練過程和采樣動作進行解耦。“傳統的訓練方法需要先采樣、然后訓練;訓練之后再去采樣、再訓練,如此反復迭代。”陶陽宇解釋道,這種串行的流程,訓練跟采樣不能分開,影響訓練效率。而通過自適應預采樣,模型訓練跟預采樣是分開的,訓練過程中可以進行下一輪的采樣,這種方式不僅更適于多模態數據融合,還可顯著提升訓練效率。
“不確定性感知機制”則是一種通過概率表達形式高效實現多模態知識融合的方式。陶陽宇說,傳統上對不同模態數據硬性分類,忽視了知識可能同時存在于文字、圖片、語音等多個模態數據中的因素,這時通過一種概率感知的方式將不同模態知識進行融合,不僅高效,而且節能降耗。Angel平臺已支持騰訊混元、廣告等多個場景的多模態模型的訓練生產。
立足當下,面向未來
據介紹,基于騰訊Angel機器學習平臺,騰訊混元大模型目前已經構建了從5億(0.5B)到700億參數(70B)以及萬億參數的不同尺寸通用模型和專用領域模型,涵蓋了語言模型、多模態理解模型和文生圖/視頻模型等。這些模型已被應用于700多個騰訊業務場景,展現了其強大的應用潛力和價值。對外,Angel平臺通過騰訊云輸出,廣泛應用在大模型、廣告、推薦、社交、金融等領域,服務30萬行業客戶,助力實體行業進行數智化升級。

騰訊內部已有700+業務接入混元。
“現在大模型訓練已經是‘萬卡時代’了,未來的規模可能超過萬卡。我們現在的研發方向之一,就是針對更大規模的訓練場景,如何提高效率和穩定性。”陶陽宇展望說道。
騰訊機器學習平臺部總經理、混元大模型負責人王迪表示,大模型訓練存在“線性加速比”的問題,從萬卡到十萬卡,需要考慮的不光是訓練規模的問題,還需要考慮交換機、路由器等通信能力方面的問題,“這是一個很值得持續探索和實踐的方向”。
與此同時,陶陽宇還披露,目前他們還在探索跨數據中心的大規模訓練技術。
“我們已經有了初步探索,在相隔120公里的兩座數據中心之間,我們完成了千卡規模的訓練任務,其效率能達到單集群的98%左右,從邏輯上看就好像一個集群。”他說,這其中會用到許多優化技術,“非常有趣”。
陶陽宇還表示,在更多支持異構算力特別是國產芯片方面,未來仍有發力點。“如何把這些異構芯片更大規模地集中起來去做訓練和推理,我們已經有些探索經驗了,接下來要做更靈活、更有效的國產化支持。”
近期,國家自然科學基金委員會與騰訊公司正式簽約,騰訊公司向國家自然科學基金委員會無償捐贈人民幣5億元,用于資助青年學生基礎研究項目(博士研究生項目),重點支持其中女性、西部、粵港澳大灣區獲資助者開展基......
在國內的頭部人工智能大模型研發隊伍中,騰訊混元大模型率先采用“混合專家(MoE)”結構,模型參數規模突破萬億,處于中國大模型第一梯隊。許多人可能不知道,在鍛造“混元”的過程中,騰訊選擇的是從零開始的自......
據騰訊官微消息,騰訊今日宣布,混元大模型上線并開源文生視頻能力。據介紹,該模型參數量為130億,已經在HuggingFace平臺及Github上發布,包含模型權重、推理代碼、模型算法等完整模型,可供企......
大模型持續迭代,AI基礎設施成為云廠商的核心競爭力之一。7月1日,騰訊宣布其自研星脈高性能計算網絡全面升級,升級后的星脈網絡2.0搭載自研的網絡設備與AI算力網卡,支持超10萬卡大規模組網,網絡通信效......
5月14日,騰訊宣布其旗下混元文生圖大模型全面升級,并對外開源。據了解,這是首個中文原生的類Sora架構開源模型,填補了國產大模型在文生圖先進架構上的空白。目前,主流的文生圖開源生態基本圍繞英文建設,......
4月11日,由政校企院四方共建的“四川省人工智能學院”正式獲批成立,揭牌儀式在電子科技大學舉行。據介紹,四川省人工智能學院采取“1+N”政校企院共建模式,以電子科技大學為牽頭單位,四川省教育廳、經濟和......
“雖然大家對通用大模型期待很高,但它不一定是滿足行業場景需求的最優解。”6月19日,騰訊云在國家科技傳播中心召開行業大模型及智能應用技術峰會。會上,騰訊集團高級執行副總裁、云與智慧產業事業群CEO湯道......
據澎湃新聞報道,騰訊集團高級執行副總裁、云與智慧產業事業群CEO湯道生表示,騰訊正在研發類ChatGPT聊天機器人。對于騰訊的聊天機器人是集成到QQ、微信,還是通過騰訊云向B端用戶服務,湯道生說:“都......
設施農業資源利用率、勞動生產率和土地產出率高,對節約我國有限的耕地、保障城鄉居民“菜籃子”和提升消費品質意義重大。黨的二十大報告提到,要樹立大食物觀,發展設施農業,構建多元化食物供給體系。設施農業面臨......
據國家市場監管總局官網10月27日發布的《2022年10月17日-10月23日無條件批準經營者集中案件列表》顯示,聯通創新創業投資有限公司與深圳市騰訊產業創投有限公司新設合營企業案獲無條件批準,審結時......