• <table id="4yyaw"><kbd id="4yyaw"></kbd></table>
  • <td id="4yyaw"></td>
  • 發布時間:2023-03-22 14:33 原文鏈接: 如何規避安全風險?大模型安全評估框架發布

      當前,ChatGPT 正在引領人類進入無縫人機交互的新時代。相關業內人士指出,大規模語言模型(以下簡稱大模型)在新一輪快速發展同時,場景應用也暴露出一些問題,如事實性錯誤、知識盲區和常識偏差等。此外,大模型還面臨訓練數據來源合規性、數據使用的偏見性、生成內容的安全性等風險。

      “要規避安全風險,降低人工智能對人類的負面影響,關鍵在于大模型底座。”日前,清華大學計算機系長聘副教授、北京聆心智能科技有限公司創始人黃民烈在接受《中國科學報》采訪時表示,“大模型發展到現在,其結構和規模已經有了很大的進展,但實用性還有待加強,我們應該通過技術讓模型更加安全、可控,使其快速適配更多的應用場景。”

      記者獲悉,針對大模型的安全倫理問題,黃民烈研究團隊歷經兩年積淀,建立了大模型安全分類體系,并從系統層面和模型層面出發,打造更可控、可信的大模型安全框架。他介紹,安全框架的建立,定義了大模型的應用邊界,促進大模型生態的健康發展,引領國內學術界和工業界邁向更有用(helpful)、更可信(truthful)、更安全(harmless)的AI研究和應用。

      此前,黃民烈研究團隊已經在安全倫理方面開展了相關研究,并依此建立了大模型安全分類體系,其中不安全的對話場景包括:政治敏感、犯罪違法、身體健康、心理健康、財產隱私、歧視/偏見、辱罵/仇恨言論、倫理道德八大方面。他表示,這些問題與人們的價值觀和倫理道德息息相關,可能會導致用戶接收不當信息、甚至影響用戶產生有害的行為,限制大模型的發展和應用。

      與此同時,黃民烈研究團隊也針對以上八大安全場景對大模型進行針對性升級。團隊通過收集多輪安全數據訓練模型,使模型具備基本的安全性,能夠在遇到安全問題時給予正確的回復策略,不去做判斷和誤導。進一步對模型進行自動測試,針對安全缺陷通過微調的方式進行快速迭代,促使模型越來越符合人類的認知理解模式,生成更加安全可信的內容。

      另外,著眼于容易觸發安全問題的類型,黃民烈研究團隊收集和構造了相應的hard case(更難識別和處理的安全測試用例),總結和設計了六種一般模型難以處理的安全攻擊方式,稱為指令攻擊,使得安全體系更加完善,進一步改進和優化模型表現。

      未來,黃民烈研究團隊將打造中文大模型的安全風險評估的 Leaderboard,為國內對話大模型的安全評估提供公平公開的測試平臺。

    相關文章

    消費品安全風險管理國家標準修訂發布

    近日,市場監管總局(國家標準委)批準發布《消費品安全風險管理第1部分:導則》(GB/T28803.1—2025),將于2025年12月1日正式實施。隨著人工智能、大數據等新技術在消費品領域的深度融合應......

    我們該如何應對人工智能發展潛在風險?

    《中共中央關于進一步全面深化改革、推進中國式現代化的決定》提出:“建立人工智能安全監管制度。”這是黨中央統籌發展與安全,積極應對人工智能安全風險作出的重要部署。人工智能是引領這一輪科技革命和產業變革的......

    美國一款心臟泵因安全風險已致49人死亡

    當地時間3月30日,據《國會山報》報道,因存在安全風險,美國食品和藥物管理局(FDA)對一款心臟泵發出I級召回,即最高級別警報。美國已召回超過66000臺設備。據悉,心臟泵能夠在醫療過程中或嚴重心臟病......

    開展安全風險隱患復查,筑牢安全生產防線

    2023年12月14日,中國疾控中心黨委副書記周宇輝帶隊在輻射安全所開展安全風險隱患復查工作。中心辦公室、教育培訓處、實驗室管理處、基建處、保衛處、運管中心和信息中心有關同志參加,輻射安全所全體領導班......

    海關總署發布60項行業標準,含實驗室安全管理和色譜質譜等檢測方法

    近日,海關總署發布2023年第156號(關于發布《檢測實驗室質量安全風險管理通則》等60項行業標準的公告(以下簡稱“公告”)。公告指出發布《檢測實驗室質量安全風險管理通則》等60項行業標準。《技術性貿......

    長沙環保職院首屆“綠色的搖籃,安全的港灣”實驗室安全周啟動

    長沙環境保護職業技術學院于10月23日正式啟動首屆“綠色的搖籃,安全的港灣”實驗室安全周活動。此次活動旨在加強校園安全文化建設,提高師生實驗室安全意識,有效防范和消除安全隱患,確保校園安全、師生生命安......

    如何規避安全風險?大模型安全評估框架發布

    當前,ChatGPT正在引領人類進入無縫人機交互的新時代。相關業內人士指出,大規模語言模型(以下簡稱大模型)在新一輪快速發展同時,場景應用也暴露出一些問題,如事實性錯誤、知識盲區和常識偏差等。此外,大......

    國辦針對危險廢物的監管、利用和處置發文

    為提升危險廢物監管和利用處置能力,有效防控危險廢物環境與安全風險,國務院辦公廳近日印發《強化危險廢物監管和利用處置能力改革實施方案》(以下簡稱《方案》)。《方案》提出,到2022年底,危險廢物監管體制......

    廣東省《化工園區區域安全風險評估導則》(征求意見稿)

    廣東省應急管理廳官網發布《化工園區區域安全風險評估導則》(征求意見稿)(以下簡稱“征求意見稿”)。征求意見稿明確提到,化工園區至少每3年進行一次區域安全風險評估。值得注意的是,當化工園區出現產業規劃改......

    《安全風險物質高通量質譜檢測技術》新書發布會在穗舉辦

    2月26日上午,由廣東省測試分析研究所(中國廣州分析測試中心)、華南理工大學出版社主辦的“《安全風險物質高通量質譜檢測技術》新書發布會”在廣州保利世貿博覽館1層二號廳茶歇區舉行。活動現場廣東省測試分析......

  • <table id="4yyaw"><kbd id="4yyaw"></kbd></table>
  • <td id="4yyaw"></td>
  • 调性视频