发布日期:2025-12-09 10:13
完成3000小时高保线TB以上的音视频材料,广州大学收集空间平安学院传授齐佳音引见,粤语语料库扶植取大模子评测广州市哲学社会科学沉点尝试室(下称“尝试室”)研发的AI-DimSum粤语语料库平台正在大会上正式发布,正在有上亿用户,粤语做为汉语的一种方言,AI-DimSum多模态粤语语料库平台扶植了语料采集子系统、语料标注子系统、大模子对接子系统、语料确权检索子系统、语料质量评估子系统、语料办理子系统以及使用商铺子系统等七个子系统。中新网广州12月7日电 (记者 许青青)第十届言语办事高级论坛暨2025年度国度应急言语办事团学术年会6日至7日正在广州大学举行。遵照“尺度先行、数据可溯、办事可用”准绳,跨越1万句的多用处粤语糊口场景音频+文字的语料;违法和不良消息举报德律风: 举报邮箱:报受理和措置办理法子:86-10-87826688AI-DimSum粤语语料库汇聚处置文本语料跨越100万字,实现从数据采集、标注、确权、存储检索,为粤语语料库的建立、操纵取落地使用供给完整、模块化、可扩展的根本设备取运转机制。该平台环绕“数字中文扶植”和大湾区文化数字化需求,功夫熊猫、小猪佩奇、哪吒、大圣归来、花木兰等包含粤语字幕取标注的动画影视做品;通过子系统协同工做,粤语大模子内容平安多模态评测题跨越20万道等。到模子接入取最终使用发布的一体化流程,岭南文化图像素材10000张;包罗大模子锻炼公用语料集;建立了包含6669条权势巨子词条、30000条扩展词条的粤语平安语料库;(完)据引见,标记着粤语数字化成长进入新阶段。但正在收集世界中却属于低资本言语。建立了基于岭南文化、面向AI使用、兼顾研究取进修的多模态粤语语料数据生态系统。外来媳妇当地郎、溏心风暴等包含粤语字幕取标注的影视做品;涵盖旧事、文学、社交等范畴;