-
通信和计算机自然语言处理都要求曾经软性的字表、词表、方案发展为硬性的规范标准。汉字和少数民族语言文字的编码字符集、字形规范标准、语料库标准、机器翻译评测规范等发展迅速。
当前,中文国际化程度迅速提高,国际中文教育发展一日千里。在实现了国内文盲扫除、语言生活和谐、人...
2021.04.07 09:02:00
-
肺炎疫情相关的词汇多达7个。这既是对全年重点事件的忠实盘点,也从一个侧面记录了中国上下抗击疫情的非凡历程。
本次流行语评选所基于的语料库,源自2020年1月1日至11月底国内的15家报纸、12个电视台和7个电台的节目、2个门户网站,数据规模10余亿字次,足以代表主流媒体的关注焦点...
2020.12.17 17:44:00
-
【文化评析】
从2004年开始,作为当今全球最权威的英文词典之一,《牛津英语词典》基于对语料库的大数据分析,每年都会发布一个年度词汇。但今年,疫情的冲击、错综复杂的全球局势引发英语词汇的激烈变化,大量新词涌现出来。这直接导致《牛津英语词典》官方决定放弃用一个单一词汇描...
2020.12.10 09:14:00
-
发展的必要之举。尤其在大数据时代,语言信息处理和通用计算快速发展,依靠技术赋能收集自然语言文本、进行语法标注和语义分析、形成专业语料库,进而为机器识别自然语言、深度学习和智能翻译等领域提供结构化知识,正在成为现实。
语言是人类文明的载体,把语音固定为书写、记录的符...
2020.08.21 08:52:00
-
各国都比较重视生物医药领域的原创药物投入、企业专利布局、医疗物资生产等,但相关的语言服务有待升级。就我国而言,目前疫情相关的医学语料库、术语库尚不完备,普通译员缺乏专业领域的知识储备,医疗产品进出口和科技领域的语言服务质量存在不小的质量标准差异。中国向24个国家派...
2020.06.04 08:47:00
-
“十九大”、“新时代”、“共享”、“雄安新区”等年度热词上榜。
据悉,“2017年度中国媒体十大流行语”是基于国家语言资源监测语料库,利用语言信息处理技术,结合人工后期处理提取、筛选而获得。语料来源包括国内15家报纸2017年1月1日至2017年11月底的全部文本。这些报纸包...
2018.01.08 14:32:00
-
起袖子加油干、不忘初心,牢记使命”。(12月9日商务印书馆微信公众号)
2017年度中国媒体十大流行语的出炉,是基于国家语言资源监测语料库,利用语言信息处理技术,结合人工后期处理提取、筛选而获得。语料来源包括国内15家报纸2017年1月1日至2017年11月底的全部文本。这些报纸...
2018.01.03 09:40:00
-
据央视新闻报道,9日,作为“汉语盘点2017”活动的重要组成部分,国家语言资源监测语料库利用语言信息处理技术,根据词语出现的频次,结合人工后期处理提取、筛选而评选出了十个频次最高的词语,代表了中国主流媒体关注点和语言特点和变化指征。“十九大”、“新时代”、“共享”...
2018.01.03 15:52:00
-
的魏励提出了另一种建议:作谓语的动词都写“做”,固定的词都写“作”,“动词+作(做)”一律写“作”,在提出这一建议之前,魏励运用语料库方法做了语用上近于穷尽式的考察。很多看似简单、易于把握的结论背后,是研究者苦心孤诣甚或皓首穷经的研究。
网上有句话:“热闹是一...
2017.09.28 21:21:44
-
会发布年度语言生活状况报告。2016年,一大批反映社会百态的词语活跃在社会语言生活中。
报告列出的年度新词,是从国家语言资源监测语料库130万个文本、18亿字次中经过筛选提取的。其实这也符合人们的判断。一段时间以来,葛优躺、辣眼睛、全是套路、洪荒之力等新词、热词,纷纷...
2017.07.19 09:08:11