从春节到元宵,越来越多的人在这个新春选择用豆包、DeepSeek等大模型写祝福、生成拜年视频等。大家发现,大模型变得更好用、更“懂人心”了。
这背后,离不开大型高质量语料库的支持。
语料库被视为决定大模型能力上限的核心生产要素,此前以企业自建自用为主,少量对外开放。但由于各平台语料库良莠不齐,不少模型出现幻觉,“一本正经地胡说八道”。业内担忧,高质量语料库的稀缺,将制约产业长远发展。
2025年,我国启动布局新型国家语料库建设。当年底,杭州正式公布了杭州语料库建设图景和阶段性成效。其建设重点,是探索打造多元高效的数据供给、流通和应用体系,催生更多新技术、新产品、新业态,推动数据这一“未来的石油”实现资源化、价值化。
从92号油到98号油
如果把AI大模型比作汽车,语料就是让它跑起来的汽油。
近几年,这辆车不断改造升级,已不再满足于“92号油”,而是需要适配“98号油”了。
浙江大学软件学院教授、人工智能专家张微向记者科普了几个核心概念:数据,是所有能被计算机系统存储、记录的信息。语料,全称语言材料,也即我们日常说的话,在大模型领域可以理解为AI的“学习资料”,包括文字、语音、视频等。语料经清洗、标注、结构化处理,就是语料库,也有人称之为数据集。
以浙产大模型代表之一的DeepSeek为例,其V3版训练的语料,据悉来自互联网、书籍和学术期刊等,数量达到约15万亿词元(token)。词元是大模型处理语料的基本单位,在不同大模型中,1个词元对应约0.5~2个汉字,或是3~4个英文字母。
目前,全球头部开源大模型训练的语料库规模,在10万亿~20万亿词元之间。以常见的86万字版《西游记》为参考,DeepSeekV3训练的语料约等于3000万本《西游记》,普通人不吃不喝、24小时不间断阅读,大概需要16万年。这是早期智人开始崭露头角直到现代的时间跨度。
大模型读的还不只一两本书,而是大型图书馆的藏书。
但随着大模型飞速进化,一个全球性难题出现了:语料库建设跟不上了。
据国家数据局披露,2024年初,我国日均词元的消耗量为1000亿。截至去年9月底,这一数字已突破40万亿,1年多时间增长了400多倍。
人工智能研究机构Epoch此前一项预测更显严峻:全球范围内,能训练出更优性能的高质量语言数据可能在2026年耗尽。
“人类语言一直在变,大模型想要变得跟人一样,也得及时升级语料库。”北京语言大学信息科学学院副教授柯登峰说。
作为语音识别专家,他参与过传统语料库建设,发现其与AI语料库有很大差异,“传统语料库一般只记录有代表性的说法,比如播音员的语音,但AI的语料库要尽可能覆盖人的各种说话方式和内容,最好不同年龄层、不同职业、不同受教育程度的都有涉及。”
他举了个例子:有方言专家用大半辈子收集一种方言的词汇,为1.5万条,但他们团队两个月内收集的该方言语料就有两万余条,包含了大量新词语,以及更多灵活的口头表达。
采访中,有业内人士甚至担心,大模型若缺乏高质量语料,最终只能产出“数字垃圾”。
近日,杭州互联网法院公开了一起关于AI幻觉的网络侵权纠纷案的审判情况。一位高考生的哥哥梁某在查询高校信息时,发现某AI平台生成的信息有误,且该平台在受到质疑后,仍底气十足地表示若内容有误将赔偿10万元。梁某一气之下将平台的研发公司告上法庭。一审判决驳回了诉讼请求。但此事进一步引发了人们对AI幻觉的重视。
“AI出现幻觉的原因有很多,数据缺陷、数据不足、知识更新滞后等语料方面的问题尤为致命。”迪安诊断首席科学家王宇说。前几年,大模型所用的数据主要来自网络,质量很难保障。“想要让大模型做专业的事,就得提供垂直领域的专业语料库。比如想让它给人看片子,就得让它像医生一样,不断阅读医学影像等专业文献。”
在迪安诊断实验室,工程师与检验专家正持续优化该公司的医检语料库。该语料库基于迪安诊断20余年积累的数据建立,涵盖已完成数据清洗、匿名化等处理的多组学、多模态数据,包括基因组学、微生物组学和影像组学等内容。仅病理切片数据就有约1500万份。
基于该语料库,迪安诊断去年底向杭州一家科技企业交付了一款用于疾病辅助诊断的高质量临床数据集。这也是杭州城市可信数据空间在医疗领域的首单数据集交易。
“油田”变为“炼化基地”
2025年11月公布首批数据合伙人;12月发布首批50个高质量数据集建设先行先试“揭榜挂帅”任务名单;近期又发布第二批任务……当下,杭州语料库建设脚步加快。
进入新一年,杭州数据交易所就上架了首笔具身智能数据集、首个卫星定位导航领域公共数据集等不少语料库方面的新产品。“杭州正在冲刺‘全国人工智能创新发展第一城’。在这场关乎未来产业主导权的竞速中,数据不再是附属资源,而是核心生产要素。”杭州数据交易所董事长、总经理应琦说。
从业者表示,这是杭州、上海、深圳等数据“大油田”的使命。
作为“数字经济第一城”,杭州一直在探索、鼓励数据资源化、价值化转化。2024年,“中国数谷”入选国家数字经济创新发展试验区建设案例。“中国数谷”就是一个涵盖杭州全市的数据产业集聚区。多位创业者表示,在杭州从事语料相关产业,有政策、有补贴,有技术、有市场,氛围也很好。
去年9月,杭甬温等全国10个地区获批国家要素市场化配置综合改革试点。两个多月后,随着首批高质量数据集建设先行先试“揭榜挂帅”名单等成果的发布,杭州语料库就率先与世人见面。
杭州市数据局相关负责人表示,杭州语料库的建设,主要就是为大模型训练提供易获取、高质量、规模化、低成本的语料资源,变“大油田”为“超级石油炼化基地”。
杭州有个“小目标”,争取在年底前建成100个具有一定规模的高质量数据集,服务人工智能模型训练10个以上。
首批50个高质量数据集,涉及具身智能工业场景、交通基础设施安全、医疗健康可视化等具体场景,“揭榜”的大多数是企业,横跨医疗健康、工业制造、具身智能等14个新兴领域。它们背后,是杭州扎实的、不断提供语料并生产语料库的数字经济产业。
记者发现,参与语料库建设的单位,犹如一个个同时拥有“油井”和炼油生产线的小基地。
杭州景联文科技有限公司就是其中一家。它承接了“教育大模型英文知识数据集”建设任务。“这一语料库包含了经标准化处理的英语听说读写等各类数据5600多万条,并进行了产权确认,可供其他教育科技公司、出版集团用于智能教育的研发训练。”景联文CEO刘云涛说。
记者近距离观察了其核心生产环节:
首先是“原油开采”,即多源合规语料采集,往往锁定权威英语教学素材、正规书籍期刊等优质“富油矿”;再经“原油除杂净化”,也即语料清洗筛选,如把PDF、网页、Word等不同载体统一起来,剔除劣质、杂质——错误、违规、低俗等表达;随后通过“分馏分级”,即精细化语料标注,完成难度、知识点、应用场景的精准划分,炼制成适配不同需求的“专用油品”;最终经质检封装后上架流通……
开采、提炼过程中,景联文还与浙江师范大学等专业机构合作,以保证语料质量。据悉,现在已经有教育企业来咨询该产品。
声明:
本文仅代表作者个人观点,与新江南网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,新江南网号系信息发布平台,新江南网仅提供信息存储空间服务。如有侵权请出示权属凭证联系管理员(yin040310@sina.com)删除!
阅读推荐
新闻爆料