揭秘“騰訊混元”誕生背后的“生產車間”

發布時間：2025-01-22 15:01 原文鏈接：揭秘“騰訊混元”誕生背后的“生產車間”

在國內的頭部人工智能大模型研發隊伍中，騰訊混元大模型率先采用“混合專家（MoE）”結構，模型參數規模突破萬億，處于中國大模型第一梯隊。

許多人可能不知道，在鍛造“混元”的過程中，騰訊選擇的是從零開始的自研路線。

大模型的鍛造，是一個在約束條件下高效地把工程、算法、數據以及業務應用整個串聯起來的工作，其對組織能力的要求非常高。騰訊如何在短時間內搭建出萬億參數規模的模型？又如何突破算力極限、在訓練和推理上下功夫，高效產出多款業界領先的模型？

2個多月前的2024年世界互聯網大會烏鎮峰會給出了答案。在烏鎮峰會發布的20項世界互聯網大會領先科技獎中，由騰訊公司、北京大學、北京科技大學共同申報的關鍵技術項目“Angel大規模機器學習平臺關鍵技術與應用”赫然在列。

Angel機器學習平臺獲選世界互聯網大會領先科技獎。騰訊供圖，下同

針對大模型訓練和推理場景，騰訊機器學習平臺Angel主要包含負責訓練的AngelPTM和負責推理的AngelHCF兩大部分。騰訊機器學習平臺部總監陶陽宇近日接受《中國科學報》專訪時表示，面對大模型訓練這個復雜且龐大的任務，在“數據Ready”和“算力Ready”的基礎上，Angel機器學習平臺提供了一個“超級流水線”。

“集團作戰”的秘密武器

訓練大模型，對算力的要求是“多多益善”。因此模型訓練的算力支撐，往往是成千上萬張算力卡的“集團軍作戰”。集團作戰，首重通信。陶陽宇介紹說，在解決高速網絡互聯方面，騰訊Angel的秘密武器是“星脈網絡”。

“星脈網絡是一套軟硬件協同的高性能網絡體系，包括自研網絡設備、通信協議、通信庫以及運營系統四大關鍵組件，支持超10萬卡大規模組網。”陶陽宇說，全鏈路自研硬件、擁塞控制路由算法等不僅提升了網絡性能，也使成本顯著下降70%。

如果把大模型訓練比作一場一級方程式賽車比賽，“星脈網絡”就是專為其設計的高性能算力網絡“賽道”。陶陽宇告訴記者，騰訊還自研了相應的網絡協議作為“賽車指揮中心”，它們共同讓高性能計算集群發揮最大算力性能。

此外，算力底層架構還面臨著“異構混合計算”的難題：如何做好對不同款型芯片的協同支持和兼容，將其共同構建為一個強大的算力平臺。

陶陽宇介紹說，為了讓參差不齊的算力設備為同一個計算任務“出力”，一方面星脈網絡可以通過兼容不同廠家芯片的通信協議實現芯片間的通信，另一方面，他們還提出了一種非均勻的負載切分混合訓練技術，按照芯片的不同算力對計算任務中的神經網絡進行不同層次切分。

“簡單來說，就是讓算力強的芯片多承載一些計算任務；算力弱一些的芯片少承載一些計算任務，從而使得整個計算任務沒有‘木桶短板效應’，高效地完成計算。”陶陽宇說。

“讓每一滴資源都被榨干”

“算力Ready”的下一步，就是如何“榨干”算力。

“算力組網連起來后，如何調度是個技術活。”陶陽宇說，讓大模型訓練任務、推理任務快速地用上這些算力，正是框架層需要解決的問題。

現有的算力條件下，模型達到TB級，而現有GPU的顯存只有80GB，參數存儲存在瓶頸。為減少顯存浪費，騰訊Angel機器學習平臺提出了顯存主存統一視角存儲管理機制。

“我們通過統一編存的方式，把顯存跟主存統一打通，使得一個機器上能夠放更多的參數，包括一些中間的臨時變量，使得整個效率進一步提升。”陶陽宇介紹道，Angel機器學習平臺通過顯存+主存一體化管理技術，實現模型存儲與通信的調度優化，幫助大模型任務實現靈活調度，來達到“每一滴資源都被榨干利用”的效果。

此外，Angel機器學習平臺還通過模型并行、數據并行、流水并行、上下文并行等實現算力和通信的并行，再加上算子融合等優化，整個訓練框架的整體性能得到有效提升。據測算，相比微軟的開源框架，Angel機器學習平臺訓練性能提升2.6倍，推理速度提升2.3倍。

混元生成的大熊貓。

高效率“擁抱”多模態

大模型要向通用模型發展，離不開對多模態數據的處理支持。

“文字、圖片、音頻、視頻等不同模態數據的對齊融合理解難度很大，怎么把蘊藏于其中的知識提取出來、融合在一個大模型里面，我們也做了很多工作。”陶陽宇介紹道。

具體來說，他們提出了“自適應預采樣訓練技術”以及“不確定性感知機制”，來實現多模態數據的融合。

其中，“自適應預采樣”技術，是將訓練過程和采樣動作進行解耦。“傳統的訓練方法需要先采樣、然后訓練；訓練之后再去采樣、再訓練，如此反復迭代。”陶陽宇解釋道，這種串行的流程，訓練跟采樣不能分開，影響訓練效率。而通過自適應預采樣，模型訓練跟預采樣是分開的，訓練過程中可以進行下一輪的采樣，這種方式不僅更適于多模態數據融合，還可顯著提升訓練效率。

“不確定性感知機制”則是一種通過概率表達形式高效實現多模態知識融合的方式。陶陽宇說，傳統上對不同模態數據硬性分類，忽視了知識可能同時存在于文字、圖片、語音等多個模態數據中的因素，這時通過一種概率感知的方式將不同模態知識進行融合，不僅高效，而且節能降耗。Angel平臺已支持騰訊混元、廣告等多個場景的多模態模型的訓練生產。

立足當下，面向未來

據介紹，基于騰訊Angel機器學習平臺，騰訊混元大模型目前已經構建了從5億（0.5B）到700億參數（70B）以及萬億參數的不同尺寸通用模型和專用領域模型，涵蓋了語言模型、多模態理解模型和文生圖/視頻模型等。這些模型已被應用于700多個騰訊業務場景，展現了其強大的應用潛力和價值。對外，Angel平臺通過騰訊云輸出，廣泛應用在大模型、廣告、推薦、社交、金融等領域，服務30萬行業客戶，助力實體行業進行數智化升級。