如何規避安全風險？大模型安全評估框架發布

發布時間：2023-03-22 13:41 原文鏈接：如何規避安全風險？大模型安全評估框架發布

當前，ChatGPT 正在引領人類進入無縫人機交互的新時代。相關業內人士指出，大規模語言模型（以下簡稱大模型）在新一輪快速發展同時，場景應用也暴露出一些問題，如事實性錯誤、知識盲區和常識偏差等。此外，大模型還面臨訓練數據來源合規性、數據使用的偏見性、生成內容的安全性等風險。

“要規避安全風險，降低人工智能對人類的負面影響，關鍵在于大模型底座。”日前，清華大學計算機系長聘副教授、北京聆心智能科技有限公司創始人黃民烈在接受《中國科學報》采訪時表示，“大模型發展到現在，其結構和規模已經有了很大的進展，但實用性還有待加強，我們應該通過技術讓模型更加安全、可控，使其快速適配更多的應用場景。”

記者獲悉，針對大模型的安全倫理問題，黃民烈研究團隊歷經兩年積淀，建立了大模型安全分類體系，并從系統層面和模型層面出發，打造更可控、可信的大模型安全框架。他介紹，安全框架的建立，定義了大模型的應用邊界，促進大模型生態的健康發展，引領國內學術界和工業界邁向更有用（helpful）、更可信（truthful）、更安全（harmless）的AI研究和應用。

此前，黃民烈研究團隊已經在安全倫理方面開展了相關研究，并依此建立了大模型安全分類體系，其中不安全的對話場景包括：政治敏感、犯罪違法、身體健康、心理健康、財產隱私、歧視/偏見、辱罵/仇恨言論、倫理道德八大方面。他表示，這些問題與人們的價值觀和倫理道德息息相關，可能會導致用戶接收不當信息、甚至影響用戶產生有害的行為，限制大模型的發展和應用。

與此同時，黃民烈研究團隊也針對以上八大安全場景對大模型進行針對性升級。團隊通過收集多輪安全數據訓練模型，使模型具備基本的安全性，能夠在遇到安全問題時給予正確的回復策略，不去做判斷和誤導。進一步對模型進行自動測試，針對安全缺陷通過微調的方式進行快速迭代，促使模型越來越符合人類的認知理解模式，生成更加安全可信的內容。

另外，著眼于容易觸發安全問題的類型，黃民烈研究團隊收集和構造了相應的hard case（更難識別和處理的安全測試用例），總結和設計了六種一般模型難以處理的安全攻擊方式，稱為指令攻擊，使得安全體系更加完善，進一步改進和優化模型表現。

未來，黃民烈研究團隊將打造中文大模型的安全風險評估的 Leaderboard，為國內對話大模型的安全評估提供公平公開的測試平臺。