汉英双语平行语料库:中国科学院汉英平行语料库、南京大学双语词典研究中心英汉双语平行语料库、清华大学中英平行语料库
1
中国科学院汉英平行语料库
中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工后建立的一个句子级对齐的双语语言信息和知识库,该语料库借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,面向多领域多体裁,采用基于双语辞典的句子对齐方法进行了文本对齐,并对双语文本句子对齐结果实现自动评价。
2
南京大学双语词典研究中心英汉双语平行语料库(NJU_BDRCBC)
该语料库的总体规模共约200万对英汉平行句对,英语和汉语词例数高达2亿词次,其素材一方面来源于南京大学双语词典中心拥有自主知识产权的双语辞书标准数据以及英汉双语对照文献,另一方面也面向网络获取了大量的英汉双语平行对语料。南京大学双语词典研究中心还跟商务印书馆联合开发了CONULEXID(The Commercial Press and Nanjing University Lexical Database) 英汉语言资料库,该语料库系统于1994年正式开始创建,并于1997年通过验收。
3
清华大学中英平行语料库
清华大学中英平行语料库(http://thumt.thunlp.org/)由清华大学自然语言处理与社会人文计算实验室在国家“863 计划” 项目“ 互联网语言翻译系统研制” 的支持下,利用自身研发的互联网平行网页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。
我的笔记