×
天晴创艺网站建设公司。主要为北京天津全国各地提供网站建设与网页设计制作服务,欢迎大家咨询。您的IP地址是:3.237.94.109。今天是:2020年09月27日,星期日,农历庚子年(鼠),八月十一,现在是:10:47:02,早上好,一天之际在于晨,又是美好的一天!

GitHub出现一个大型中文NLP资源宣称要放出亿级语料库

作者:天晴创艺发布时间:2019/2/14 15:24:05浏览次数:10361文章出处:北京网站开发

      中文信息很多,但要找到合适的中文语料很难。
      有人看不下去了,在GitHub上开了一个项目,专门贡献中文语料资源。
      他说,要为解决中文语料难找贡献一份力量。
      什么样的资源?
      目前,这个项目中一共有3种json版资源:
      包含104万个词条的维基百科资源,包含250万篇新闻的新闻语料,以及包含150万个问答的百科类问答资源。
GitHub出现一个大型中文NLP资源宣称要放出亿级语料库

      一般来说,这些资源可以作为通用的中文语料,用于预训练或者构建词向量等等。
      不同的资源,用处也有不同,比如维基百科和问答百科,可以用来构建知识问答等等。
      新闻语料资源,囊括了标题、关键词、描述和正文,也可以用来训练标题生成模型、关键词生成模型等等。
      此外,在对数据集划分过的新闻语料和百科类问答资源中,只提供训练集和验证集高端网站建设,不提供测试集数据的下载。
      是因为——
      希望更多人参与
      资源的贡献者表示,希望大家报告模型在验证集上的准确率,并提供模型信息、方法描述、运行方式,以及可运行的源代码(可选)。
      这些信息都有的话,资源贡献者会在测试集上测试模型,并给出准确率。
      他表示,项目中的语料库将会不断扩充教育网站建设,号召大家多多贡献资源,并给出了相应的目标:
      到2019年5月1日,放出10个百万级中文语料&3个千万级中文语料。
      到2019年12月31日鸿翔创意广告,放出30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料。
      从目前已经有的资源来看,一个语料可以是一个问答,也可以是一个词条等等。
      这份资源的贡献者,名为徐亮,杭州实在智能的算法专家,主要关注文本分类、意图识别、问答和面向任务的对话。

文章来源:北京网站开发

文章标题:GitHub出现一个大型中文NLP资源宣称要放出亿级语料库

文本地址:https://www.bjtqcy.com/info_1087.html

收藏本页】【打印】【关闭

本文章Word文档下载:word文档下载 GitHub出现一个大型中文NLP资源宣称要放出亿级语料库

用户评论

客户评价

专业的网站建设、响应式、手机站微信公众号开发

© 2010-2020 天晴创艺 版权所有 京ICP备16050845号

关注公众号 关注公众号

进入手机版 进入手机版