新疆民族语音语言信息处理重点实验室于2014年经自治区科技厅批准成立。
1、总体定位
面向国家安全和新疆区域发展战略需求,立足新疆经济和社会发展,以重大工程和产业发展为导向,瞄准民族语音语言信息处理方向,开展前瞻性、基础性、战略性、系统性研究,建成国内高水平的科学研究基地、人才培养基地、成果产出基地。
2、主要研究方向及目标
重点开展以下三个方向的研究:大数据分析技术研究,自然语言理解技术研究,语言声学与内容理解研究。
坚持基础研究不断深化和创新,使实验室的基础研究和应用研究处于国际前沿和国内领先水平;力争在自然语言处理、大数据分析、语言学习与分析等方面取得一系列的研究成果;通过研究成果的应用,实现关键技术和技术集成方案的突破,满足国家重大战略需求。通过科研成果向产品转化的完整的创新价值链,推动系列科技成果的产业化和 市场化,为提高人民生活质量服务。
培养和造就一支具有创新活力的中青年学术骨干队伍,涌现出一批在国际上该领域有影响的学术带头人。
针对形成完整创新价值链的目标,加强实验室的研发平台建设,完善体制与运行机制,发展成为民族信息处理技术的应用基础研究和关键技术研发不可替代的、在国际上具有重要影响的研究单位。
3、主要研究内容
(1)大数据分析技术研究
本方向面向社会稳定与网络掌控的应用需求,开展面向领域的复杂物体资源访问与协同及高并发、大数据量的实时传输设计与研发;研究业务活动、对象定义与内外在关系,建立多源异构大数据统一表达方法,探寻基于业务要素的领域数据元模型分析技术,解决海量异构数据的共享、交换和集成等问题。开展基于海量数据大规模图数据的存储压缩与表示算法、大规模图数据计算加速技术开展,研究建立基于领域的知识图谱,开展各种特性的时空数据的相关性分析、信息挖掘和知识发现。针对宏观网络安全态势,建立高危情报关系图谱,充分利用高中低位异构多元网络安全数据,突破多元安全事件建模、安全事件关联分析、未知攻击发现和高价值人员画像等关键技术,形成可量化伸缩的描述性态势因子和重点行业覆盖的多维多级指标体系,最终实现网络安全态势感知原型系统。
本方向研制出的面向领域数据融合与智能分析平台,在特种设备监管领域包括车用气瓶电子监管、巴州电梯维保系统、液化气瓶动态监管,公共安全领域包括汽油销售信息采集、智慧安防、智慧护边等,在社会民生领域包括面向人社的数据分析、新疆高考志愿辅助填报系统等应用,为新疆社会稳定与发展发挥了重要作用。研制的网络安全态势感知原型系统可应用于面向互联网的关键基础设施的风险评估,增强国家互联网络网站等的安全保障和应急响应能力;同时,还可以应用于面向重要党政机关的网络安全保障的国家重要专项任务和安全审查任务,并通过产品转化后可以进一步在党政机关和关系国计民生的重要领域进行推广和应用,采集的相关资源,相关数据可有效支持国家安全相关业务,能有效提升我国在网络空间安全方面的威胁发现、态势感知、事件处置、应急响应等方面的整体能力。
(2)自然语言理解技术研究
基于特色语言的自然语言理解,面向机器翻译、信息抽取、文本分类、语义分析等领域,在复杂形态语言的形态特征分析、语言模型与翻译模型建模、命名实体识别技术、译文转换与生成技术、实体关系抽取、情感分析等方面开展基础和应用研究。非受限维汉机器翻译系统在连续三届参加全国机器翻译评测,均取得维汉机器翻译新闻领域非受限集系统评测第一名,成果在上海、广州、杭州、温州、厦门等地部署应用,拓展了信息文化沟通交流渠道,提升了信息获取与掌控能力,推动了自然语言信息处理领域的技术进步。获得2019年度自治区科技进步一等奖。
(3)语言声学与内容理解研究
以国家对语音处理的重大需求为导向,通过对音频听感知的基础研究,试图发现突破当前自动识别瓶颈的新理论和方法,推动语言声学和内容理解研究及相关产业的发展。实验室已形成从基础研究(音频听觉感知)到核心技术(自动语音识别,音频信号分析,音频事件检测,媒体内容分析,社会计算和大数据分析等)再到应用系统的科研组织模式,是国内和国际本领域为数不多的具有规模的、全方位覆盖相关研究内容的单位。音频内容理解核心技术达到与国外主流科研机构并驾齐驱的水平。在本领域的国际评测中,先后获七次世界第一;在国家有关部委举办的语音评测中多次获得第一;近年来在国际顶级刊物发表的论文得到国际主流实验室的引用和好评;研究成果在多个国家工程得到实际应用并得到相关省部主要领导的高度评价;部分研究成果被国际一流企业采用。在应用方面引领了领域和产业发展:与百度合作推出了国内第一款基于云的语音搜索服务;与阿里巴巴合作推出了国内第一个智能客服系统;与创维合作推出了国内第一款基于语音操控的智能电视;与长虹集团合作推出了国内第一款具有语音操控功能的空调。所研发的音频水印是第一个通过广电总局测试达到播放级无损要求的技术,并在中央台得到应用。与中移在线等合作,为呼叫中心智能客服和商业情报分析提供了高效的解决方案。
4、实验室的地位与影响力
新疆民族语音语言信息处理重点实验室团队长期专注于大数据分析、多语种信息处理、机器翻译、内容理解技术研究与应用,积累了丰富的信息处理研究开发经验。已在国际、国内期刊和国际会议发表论文200余篇,累计获得软件著作权登记100余项。获得国家科学技术进步二等奖1项,获中科院杰出成就奖1项,获省部级科技进步一等奖5项、二等奖2项。近年来,实验室承担各类科研任务50多项,包括:国家重点研究计划、国家973项目、863项目、国家自然科学基金新疆联合基金、科技支撑项目等20多项,中科院先导专项等重要项目18项,自治区科技重大专项等项目8项、其它项目10多项。
实验室开展民族语言自然语言处理语料库的采集、建设、管理工作。开发了多语种语料标注平台,建立了复杂场景下的多模态多语种资源库与知识库,涵盖类型包括:语音、视频、图片、文本。在这里需要特别说明的是建立了亿级规模的多语种语料库,及其标注知识库。
成果应用方面,自主研发的多项研究成果已在疆内外等相关部门部署应用。研究成果产生直接和间接经济效益上亿元,显著推动了新疆信息技术领域的技术进步,为维护新疆地区社会经济发展、稳定和长治久安提供了强有力的技术支撑。