| 简介 Introduction
为了在海量文本数据中提取有效信息,更好地开展文本信息处理,开发了可识别汉、英、维、哈、俄等200多种语言的语种识别系统;整理建设了多语言资源库,开发了词语形态切分、形态还原、词性标注及词对齐等系列工具软件,为开展维吾尔语自然语言处理奠定了坚实基础和技术支撑;针对敏感关键词的监管和舆情监测,开发了维吾尔语、哈萨克语关键词生成软件、维吾尔语文本自动摘要系统、维吾尔语新闻话题检测系统;面向形态丰富语言的实时检索,构建了维吾尔语词级和词根级关键词检索系统、哈萨克语词级和词根级关键词检索系统。
| 研究方向及内容 RESEARCH DIRECTION AND CONTENT
研究方向 | 多语种自然语言处理 |
研究内容 | 机器翻译,文本语种识别,维吾尔语语义理解与分析,维吾尔文文章自动摘要,信息抽取,命名实体识别等。 |
主持项目 | 包括国家重点研发计划、中国科学院战略性先导科技专项、自治区十三五重大专项、国家自然科学基金、自治区自然科学基金、自治区重点实验室开放课题、中科院西部之光项目等。 |
| 成果统计 ACHIEVEMENT EXHIBITION
10 | 2 | 30 | 70 |
标准 | 专利 | 软著 | 论文 |
| 产品及案例 PRODUCTS AND CASES
序号 | 项目 | 简介 |
01 |
多语种机器翻译系统 |
在国家重点研发计划、中国科学院战略性先导科技专项、自治区十三五重大专项等项目的支持下,围绕信息安全和社会发展的重大需求,建设了规模化的多语言基础资源库;开发了词干切分、词性标注、形态学分析等系列工具库;着重开展了资源缺乏语言的人机结合知识获取技术、多语言处理基础技术、复杂形态语言的词语表示与形态分析、复杂形态语言的翻译模型和语言模型、命名实体识别与翻译方法和译文转换与调序方法的研究,构建了实用化的支持维吾尔语-汉语、哈萨克语-汉语、哈萨克语-西里尔哈萨克斯坦语、俄罗斯语-汉语、土耳其语-汉语、阿拉伯语-汉语、英语-汉语、法语-汉语等翻译的多语言机器翻译平台,针对不同用户需求设计了服务器版批量翻译、网页版翻译、插件版划词翻译,在新疆、上海、广州、杭州、温州、厦门等地的国安和公安部门部署应用。可对“一带一路”沿线地区与国家不同语言应用需求设计定制翻译系统。 由本研究所承办的第十二届全国机器翻译研讨会(CWMT 2016)在乌鲁木齐举办。全国机器翻译研讨会组织机器翻译评测、开源系统模块开发、战略研讨等活动内容,本单位研发的非受限维汉机器翻译系统在2013年、2015年、2017年的全国机器翻译评测中连续3届获得第一名。 |
02 |
多语言文本智能信息处理 |
为了在海量文本数据中提取有效信息,更好地开展文本信息处理,开发了可识别汉、英、维、哈、俄等200多种语言的语种识别系统;建设资源稀缺语言高质量语料资源库和知识库,研发词语形态切分、形态还原、词性标注及词对齐等系列工具,为开展自然语言处理奠定了坚实基础,提供了技术支撑;针对文本图像、PDF等不可编辑文档中的形态复杂语言文字进行识别,将其变为可编辑文本,开发可识别汉、维、哈等多语言的OCR文字识别系统;针对词语组成形态丰富、词形变化多样的黏着性语言,关键词检索存在搜索不准确,索引结构复杂,不能很好利用上下文信息等问题,构建了形态复杂语言同根词检索系统。 为积极推动对外文化传播,促进各民族间文化交流,加快科研成果惠及群众,适用于生活、办公的翻译小程序—“疆小译”应运而生。疆小译有维吾尔语-汉语、哈萨克语-汉语双向互译,图片文字识别与翻译,多语言界面切换等功能。 |
03 | ||
04 | ||
05 | ||
06 | ||
07 | ||
08 | ||