想和古籍对话？来找“荀子”！

文章来源：扬子晚报

字体：大中小

发布时间：2023-12-12 10:33:03

《新江南网》江南区域知名综合门户网站！

追踪网络热点，关注民生动态，传播江南文化，倡导网络新时代！

https://www.xjnnet.com/欢迎您！

☆ 新江南网 ☆欢迎您

新江南网欢迎你/www.xjnnet.com/新江南网荣誉出品

12月11日，记者从南京农业大学获悉，该校信息管理学院王东波教授研究团队研发的“荀子”古籍大语言模型发布，这是国内首个专门应用于古籍处理与研究的智能工具，包含了《四库全书》在内的古籍文献超20亿字大型语料库，能够实现自然语言理解、自动翻译、诗歌生成、自动标引等多项功能，作为开源的、公益的研究成果，该模型已在GitHub、ModelScope等网站开源。

通讯员楠秾宣扬子晚报/紫牛新闻记者王赟

为何取名“荀子”？据王东波介绍，荀子，不仅是我国先秦时期伟大的朴素唯物主义的思想家,也是一位散文大家。在对他作品的深入研讨中团队发现,他在语言学理论的阐述上也是一位开拓者，命名荀子是为了纪念这位中国历史上的语言学先驱。对于普通受众而言，想要走近繁体、竖版、未添加句读的古文不是一件容易的事，而“荀子”的上线意味着在智媒时代，和古籍对话成为可能。

“咱们请它以金陵为主题，生成一首五言古诗。”王东波现场演示了“荀子”的智能写诗功能，指令一输入，系统便生成了一首堪称绝妙的原创古诗：“秦淮佳丽地，城阙望中迷。柳暗青丝发，花香碧玉衣。歌楼留夜色，画阁敛春晖。细雨轻舟去，双鱼梦泽飞。”

除此之外，古文的阅读理解、标点添加，以及将古汉语翻译为现代汉语，这些让受众难啃的“硬骨头”，“荀子”可以轻松拿下。

对于领域专家而言，可以借助“荀子”完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等专业古籍研究处理场景。同时发布的基座模型，还可以让用户根据自己的需求，使用本地的训练语料微调“荀子”基座模型，使其在古籍下游处理任务上取得更优越的处理性能。

尽管目前有200多个通用模型在各领域得到应用，但古籍领域仍缺乏专业的大语言模型。功能强大的“荀子”到底是怎么做到化繁为简、通读古今的呢？“首先是‘算力充足’并且‘饱读经书’！”王东波介绍，“荀子”的顺利问世离不开南京农业大学提供的高性能算力基础设施支持，以及团队长期积累的大量标注、精加工语料库，团队给“荀子”投喂了40亿字大型混合语料数据。

“模型的构建受算力、场景应用等多方影响，但精准度较高的优质数据，是最为关键的。”据王东波介绍，团队从2008年开始接触古籍，2013年至今一直专注于人工精标注数据的工作。“比如《岳阳楼记》，要训练机器标注该典籍中的形容词，就要首先训练相关人员标注形容词，在大量人工标注的基础上，再让机器学习。”

新江南网欢迎你/www.xjnnet.com/新江南网荣誉出品

声明：
本文仅代表作者个人观点，与新江南网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容，新江南网号系信息发布平台，新江南网仅提供信息存储空间服务。如有侵权请出示权属凭证联系管理员（yin040310@sina.com）删除！

上一篇：音乐节遍地开花给江苏旅游带来了什么
下一篇：第三批“长三角高铁旅游小城”应“运”而生