人民网推出“语料库社区”,支持中文人工智能数据优质生态建设

人民网“语料社区”上线。人民网记者 任凤涛 供图
随着像 DeepSeek 这样的技术创新推动智能代理能力的进步,高质量的知识语料库已经成为驱动AI产业发展的核心生产要素。越来越多的企业正在将知识库集成到智能代理中,实现从“交付工具”到“交付结果”的跨越,显着提高生产和运营效率。
然而,当前中国语料库生态仍面临诸多挑战。垂直领域和地域特征语料库的缺乏导致了“数据荒漠”的形成。大量有价值的数据分散在各处,形成了“信息孤岛”。网络充满噪音和信息偏见,给内容安全带来风险。
人民网“语料社区”。 (点击图片即可进入)
作为党和国家在互联网领域的重要阵地,人民日报依托“国家通信内容识别重点实验室”,构建大规模人工智能模型内容安全评估体系,并以党报、网站可靠内容和党和国家重要文学资源为基础,形成300T以上的“常规价值语料库”。该语料库涵盖超过3000万对的基础语料、32万个问答对的语料以及超过500万个图文对的语料。今年8月,国家数据办公室评选其为高质量数据集典型。
基于此,人民日报社以“开放合作、共建生态圈”的战略,正式上线人民日报社线上“语料库社区”。 acorpus的“共同体”有两个特点。首先,它是一个语料库“厨房”,一个共创语料库生产平台。其次,它还是一个语料库“超市”,一个共享语料生态服务平台,实现语料共创共享、开源协作、安全流通。
据悉,人民网将l 发布主导价值观、主导文化、新闻事实等核心语料库,提供免费的语料库创建“样板间”,为政府、学术机构、企业大学提供定制化的语料库开发和审核服务,帮助其构建独特的高质量人工智能数据集。
“单独行动快,但齐心协力就远”。人民日报呼吁企业、科研开发者共同推动语料生态系统建设,共同为未来人工智能的发展打造坚实的数据库。
请扫描二维码联系我们
(编者:李源、卢茜)
关注我们的公众号:人民网财经
分享出去让更多人看到。