“未來,自然語言將成為新的通用編程語言。”
4月16日,Create 2024百度AI開發者大會在深圳舉行。百度公司董事長兼首席執行官李彥宏作“人人都是開發者”的主題演講,并帶來了“開箱即用”的三大AI開發工具——智能體開發工具AgentBuilder、AI原生應用開發工具AppBuilder、各種尺寸的模型定制工具ModelBuilder。
這是自2023年10月文心大模型4.0發布以來,時隔半年后的全新面孔。值得一提的是,文心大模型此次升級,幾乎全部都是“開發者友好”視角:以文心大模型為基礎,為開發者提供所需的開發工具。李彥宏說:“未來開發應用就像拍個短視頻一樣簡單,人人都是開發者,人人都是創造者。”
讓人人成為創造者,文心大模型的底氣什么?百度首席技術官王海峰在大會上的主題演講給出了答案:“技術筑基,星河璀璨”。
進化出會思考的智能體
從誕生之初至今,文心大模型就專注于一件事:能力進化。
2023年3月16日,國內首個知識增強大語言模型文心一言問世。在這之后的一年零一個月的時間里,文心大模型持續快速迭代。至2023年10月17日,文心大模型4.0亮相“百度世界2023”。文心4.0基于萬卡算力和飛槳平臺,并通過與飛槳平臺聯合調優,實現了多維數據、多階段對齊、可再生訓練等技術能力。
時隔半年之后,Create 2024百度AI開發者大會上的文心大模型又有了“新花樣”:在技術架構中正式增加了“智能體”。
智能體并不是第一次出現在文心大模型的框架之下。
去年10月,百度就在文心大模型中引入了智能體機制。王海峰介紹,借鑒《思考,快與慢》一書闡述的智能系統,百度在基礎大模型的基礎上研制了雖反應慢但更理性、更準確的“系統2”,讓大模型像人一樣理解、規劃、反思,并一定程度上將思考過程白盒化,使大模型在完成復雜任務的同時,還可以在環境中持續學習、自主進化。
這其中的“思考過程”是怎樣的?具體是如何實現的?
王海峰解釋說,系統2在基礎模型上增加了思考增強訓練,包括思考過程的有監督精調、行為決策的偏好學習、結果反思的增強學習,就得到了思考模型。有了思考模型,大模型就可以像人一樣,會閱讀說明書、學習工具的使用方法,進一步“懂得”合理運用工具來完成任務。
在現場,文心一言接到王海峰“我要到大灣區出差一周,想了解一下天氣變化,好決定帶什么衣服。請幫我查一下,并整理成表格”的指令,啟動智能體機制,將需求拆解成多個子任務,并先后調用聯網工具查天氣,調用“代碼解釋器”畫溫度趨勢圖,進而根據天氣情況建議了衣物,并對結果進行反思、確認,并自動匯總成表格。
代碼能力助人人成為開發者
面向廣大用戶對于低門檻開發的需求,百度基于文心大模型的自然語言的能力和代碼能力,開發了代碼智能體和智能代碼助手。
秉持“用模型寫代碼讓復雜的任務變簡單”的思想,文心大模型在思考模型的基礎上,結合代碼解釋器構成了代碼智能體。它的工作原理大概如下:首先,思考模型理解用戶需求,把完成任務的指令和相關信息整合成提示,輸入給代碼解釋器;然后,代碼解釋器根據提示,把自然語言表達的用戶需求翻譯成代碼并執行,得到執行結果或調試信息;接著,思考模型對代碼解釋器的執行結果進行反思、確認,若正確,則把結果返回給用戶,不正確則繼續更新。
通過這樣的機制,智能體可以理解用戶的需求,實現“只要說說話,就能完成AI應用開發”。
智能代碼助手則可以幫助專業程序員更高效、便捷地寫出高質量代碼。在模型效果不斷提升的基礎上,百度進一步構建了智能代碼助手上下文增強、私域知識增強、流程無縫集成等能力。
“代碼智能體是讓大家有機會做之前只有程序員才能做的開發,智能代碼助手則意在幫助專業的程序員寫出更好的代碼,是程序員的AI同儕。”王海峰談到,作為人類思維的載體,自然語言代表了人的思考;有著嚴密邏輯的形式語言是計算機可執行的程序。從自然語言到形式語言,打通了從思考到執行的過程。
最大化平衡效果、效率和成本
除了智能體、代碼能力之外,王海峰還著重介紹了多模型技術。
“在大模型應用落地過程中,效果、效率和成本都很重要。在實際應用中,需要從場景需求出發,選擇最適合的模型。”王海峰說,大模型效果好,小模型速度快,為了更好地平衡效果與效率,多模型技術是必經之路。
他介紹說,對此,百度研制了基于反饋學習的端到端多模型推理技術,構建了智能路由模型,其可進行端到端反饋學習,充分發揮不同模型處理不同任務的能力,最終實現效果、效率和成本的最佳平衡。
王海峰還提到,在高效低成本模型生產方面,技術團隊還研制了大小模型協同的訓練機制,可以有效進行知識繼承、高效生產高質量的小模型,也可以利用小模型實現對比增強,幫助大模型訓練。高效低成本模型生產機制,助力應用速度更快、成本更低、效果更好。
文心大模型在其他方面也持續創新,包括基于模型反饋閉環的數據體系、基于自反饋增強的大模型對齊技術及多模態技術等。王海峰現場公布,文心大模型4.0的效果持續提升,相比半年前提高52.5%。
王海峰表示,文心大模型的持續快速進化,得益于百度在芯片、框架、模型和應用上的全棧布局,尤其是飛槳深度學習平臺和文心的聯合優化。文心大模型的周均訓練有效率達到98.8%,相比一年前訓練效率提升4.1倍。
王海峰透露,截至目前,飛槳文心生態已凝聚1295萬開發者,服務24.4萬家企事業單位,基于飛槳和文心創建89.5萬個模型。同時,文心一言累計用戶規模已達2億,日均調用量也達到了2億,高效滿足了用戶工作、生活和學習需求。
王海峰介紹了百度AI人才計劃的最新進展。百度在2020年提出了5年為全社會培養500萬AI人才,目前這一目標已提前達成。他表示,“未來,百度將繼續投身人才培養,讓人才的點點星光,匯成璀璨星河。”
山西大學智能信息處理研究所團隊在圖神經網絡研究方面取得重要進展,相關成果5月23日發表于人工智能領域國際期刊《IEEE模式分析與機器智能學報》(IEEETransactionsonPatternAna......
原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻電影《749局》科影融合特別場在京舉行。電影主創團隊與科技領域相......
10月11日,甘肅省迎來了職業教育領域的一個重要里程碑——甘肅林業職業技術大學正式揭牌成立。這一歷史性時刻標志著歷經六十八載發展的甘肅省唯一一所林業類高等院校,正式邁入了本科教育的新階段,開啟了新的征......
”標志性科考活動獲系列重大突破 “第二次青藏科考標志性科考活動守護水塔‘一原兩湖三江’科考主體任務已經基本完成,這次科考從天到地、從冰到水取得了全方位的進展。”第二次青藏科考隊隊長、中國科學......
關于確定2024年國家環境健康管理試點名單的通知北京市、河北省、內蒙古自治區、遼寧省、黑龍江省、江蘇省、浙江省、江西省、山東省、湖北省、湖南省、廣東省、重慶市、四川省、貴州省、陜西省、青海省生態環境廳......
10月8日,華中農業大學果蔬園藝作物種質創新與利用全國重點實驗室、藥用植物資源可持續利用團隊梅之南教授和楊慶勇教授課題組,發布了首個專門面向菊科植物的多組學數據庫平臺——AsteraceaeMulti......
實驗桌上堆放著精密儀器和焊接工具,電腦上是正在運行的電路圖,一頁頁寫滿了數據、畫滿了圖樣的紙張在桌面鋪開,各式或大或小的電子元件前,南京郵電大學工程實驗教學部創新中心副主任郝學元正在埋首研制電工電子實......
近日,記者從中國計量大學獲悉,該校生命科學學院蜜蜂與蜂產品學研究團隊主持的兩項推薦性國家標準《GB/T44349-2024 蜂花粉總多酚的檢測福林酚試劑比色法》和《GB/T44350-202......
10月10日,由廣東省機械行業協會組織并主持召開的“面向軟性物料的多級賦碼追溯柔性包裝生產線研制與應用”項目科技成果鑒定會議在廣東佛山舉行。經專家鑒定,該項目成果總體技術水平達到國際先進水平。記者獲悉......
近日,中國熱帶農業科學院橡膠研究所組培與轉基因團隊在全球率先獲得了橡膠樹CRISPR/Cas9純合基因編輯橡膠苗。相關研究成果在線發表于《經濟作物和產品》(IndustrialCropsandProd......