與荀子對話：“古籍版ChatGPT”發布

發布時間：2023-12-12 14:07 原文鏈接：與荀子對話：“古籍版ChatGPT”發布

　　對于普通受眾而言，想要走近繁體、豎版、未添加句逗的古文不是一件容易的事。近日，國內首個專門應用于古籍處理與研究的智能工具“荀子”上線，意味著在智媒時代和古籍對話成為可能。

　　據悉，古籍大語言模型“荀子”由南京農業大學信息管理學院教授王東波研究團隊研發，是一個包含了《四庫全書》在內古籍文獻的超20億字大型語料庫，能夠實現自然語言理解、自動翻譯、詩歌生成、自動標引等多項功能。作為開源的、公益的研究成果，該模型已在GitHub、ModelScope等網站開源。

　　向思想家荀子致敬

　　為何取名“荀子”？據王東波介紹，荀子不僅是我國先秦時期偉大的樸素唯物主義思想家，也是一位散文大家。在對他作品的深入研討中，團隊發現，他在語言學理論的闡述上也是一位開拓者，命名荀子是為了紀念這位中國歷史上的語言學先驅。

　　“咱們請它以金陵為主題，生成一首五言絕句。”王東波現場演示了“荀子”的智能寫詩功能。指令一輸入，系統便生成了一首堪稱絕妙的原創絕句：“秦淮佳麗地，城闕望中迷。柳暗青絲發，花香碧玉衣。歌樓留夜色，畫閣斂春暉。細雨輕舟去，雙魚夢澤飛。”

　　除此之外，古文的閱讀理解、標點添加，以及將古漢語翻譯為現場漢語，這些讓受眾難啃的“硬骨頭”，“荀子”可以輕松拿下。

　　對于領域專家而言，可以借助“荀子”完成古籍詞法分析、實體識別、關系抽取、文本分類與匹配、文本摘要等專業古籍研究處理場景。同時發布的基座模型，還可以讓用戶根據自己的需求，使用本地的訓練語料微調“荀子”基座模型，使其在古籍下游處理任務上取得更優越的處理性能。

　　10年“冷板凳”教會機器通讀古今

　　盡管目前有200多個通用模型在各領域得到應用，但古籍領域仍缺乏專業的大語言模型。功能強大的 “荀子”到底是怎么做到化繁為簡、通讀古今的呢？

　　“首先是‘算力充足’，并且‘飽讀經書’！”王東波介紹，“荀子”的順利問世離不開南京農業大學提供的高性能算力基礎設施支持，以及團隊長期積累的大量標注、精加工語料庫，團隊給“荀子”投喂了40億字大型混合語料數據。

　　“模型的構建受算力、場景應用等多方影響，但精準度較高的優質數據，是最為關鍵的。”據王東波介紹，團隊從2008年開始接觸古籍，2013年至今一直專注于人工精標注數據的工作。

　　“比如《岳陽樓記》，要訓練機器標注該典籍中的形容詞，就要首先訓練相關人員標注形容詞，在大量人工標注的基礎上，再讓機器學習。”這項坐冷板凳的基礎標注工作一做就是10年之久。

　　王東波表示，期待能將古籍的智能化研究與跨學科的人才培養相結合，讓學生既有前瞻的科研視野，又能積累較為深厚的人文底蘊。同時讓更多受眾接觸古籍、品讀古籍、傳播古籍，真正地喚活“故紙堆”，共同推動中華優秀傳統文化創造性轉化和創新性發展，賡續傳承中華文脈。

　　聯合發布荀子古籍大語言模型的中華書局古聯公司則主要致力于未來的場景應用和領域推廣。荀子大模型除讓大眾用戶能夠順暢利用古籍內容、在專業領域推動古籍整理、古籍數字化、古籍活化利用與傳播之外，未來還可廣泛應用于AI寫作、AI教學、數字文娛等領域。

　　該成果依托國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”。在同步舉行的古籍智能化研究與產業應用研討會上，來自高校、出版界和互聯網企業的與會專家學者分別立足于各自領域，圍繞大模型在古籍整理、傳統文化傳承、數字化轉型等方面的工作進行了深入探討。