自然语言理解--中国科学院新疆理化技术研究所

自然语言理解

| 简介 Introduction

　　为了在海量文本数据中提取有效信息，更好地开展文本信息处理，开发了可识别汉、英、维、哈、俄等200多种语言的语种识别系统；整理建设了多语言资源库，开发了词语形态切分、形态还原、词性标注及词对齐等系列工具软件，为开展维吾尔语自然语言处理奠定了坚实基础和技术支撑；针对敏感关键词的监管和舆情监测，开发了维吾尔语、哈萨克语关键词生成软件、维吾尔语文本自动摘要系统、维吾尔语新闻话题检测系统；面向形态丰富语言的实时检索，构建了维吾尔语词级和词根级关键词检索系统、哈萨克语词级和词根级关键词检索系统。

| 研究方向及内容 RESEARCH DIRECTION AND CONTENT

研究方向	多语种自然语言处理
研究内容	机器翻译，文本语种识别，维吾尔语语义理解与分析，维吾尔文文章自动摘要，信息抽取，命名实体识别等。
主持项目	包括国家重点研发计划、中国科学院战略性先导科技专项、自治区十三五重大专项、国家自然科学基金、自治区自然科学基金、自治区重点实验室开放课题、中科院西部之光项目等。

| 成果统计 ACHIEVEMENT EXHIBITION


10	2	30	70
标准	专利	软著	论文

| 产品及案例 PRODUCTS AND CASES

序号	项目	简介
01	多语种机器翻译系统	在国家重点研发计划、中国科学院战略性先导科技专项、自治区十三五重大专项等项目的支持下，围绕信息安全和社会发展的重大需求，建设了规模化的多语言基础资源库；开发了词干切分、词性标注、形态学分析等系列工具库；着重开展了资源缺乏语言的人机结合知识获取技术、多语言处理基础技术、复杂形态语言的词语表示与形态分析、复杂形态语言的翻译模型和语言模型、命名实体识别与翻译方法和译文转换与调序方法的研究，构建了实用化的支持维吾尔语-汉语、哈萨克语-汉语、哈萨克语-西里尔哈萨克斯坦语、俄罗斯语-汉语、土耳其语-汉语、阿拉伯语-汉语、英语-汉语、法语-汉语等翻译的多语言机器翻译平台，针对不同用户需求设计了服务器版批量翻译、网页版翻译、插件版划词翻译，在新疆、上海、广州、杭州、温州、厦门等地的国安和公安部门部署应用。可对“一带一路”沿线地区与国家不同语言应用需求设计定制翻译系统。由本研究所承办的第十二届全国机器翻译研讨会(CWMT 2016)在乌鲁木齐举办。全国机器翻译研讨会组织机器翻译评测、开源系统模块开发、战略研讨等活动内容，本单位研发的非受限维汉机器翻译系统在2013年、2015年、2017年的全国机器翻译评测中连续3届获得第一名。
02	多语言文本智能信息处理	为了在海量文本数据中提取有效信息，更好地开展文本信息处理，开发了可识别汉、英、维、哈、俄等200多种语言的语种识别系统；建设资源稀缺语言高质量语料资源库和知识库，研发词语形态切分、形态还原、词性标注及词对齐等系列工具，为开展自然语言处理奠定了坚实基础，提供了技术支撑；针对文本图像、PDF等不可编辑文档中的形态复杂语言文字进行识别，将其变为可编辑文本，开发可识别汉、维、哈等多语言的OCR文字识别系统；针对词语组成形态丰富、词形变化多样的黏着性语言，关键词检索存在搜索不准确，索引结构复杂，不能很好利用上下文信息等问题，构建了形态复杂语言同根词检索系统。为积极推动对外文化传播，促进各民族间文化交流，加快科研成果惠及群众，适用于生活、办公的翻译小程序—“疆小译”应运而生。疆小译有维吾尔语-汉语、哈萨克语-汉语双向互译，图片文字识别与翻译，多语言界面切换等功能。
03
04
05
06
07
08