博士研究生中期报告

中国科学院新疆理化技术研究所

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

研究生学位论文中期报告

维吾尔语广播新闻敏感词检索系统的研究

THE STUDY OF UYGHUR BROADCAST NEWS SENSITIVE-WORD SPOTTING

报告人:木合塔尔·沙地克 导 师:李 晓 研 究 员

二零一三年一月

中国科学院新疆理化技术研究所

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

研究进展

内容

下一步工作 科研成果

第1页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

2、阶段 性成果 1、论文 进展情况

3、存在 的问题

第2页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

论文进展情况

经过近两年的学习和研究,掌握 了较深的理论知识,具备了一定 的科研能力。同时,也面临了不 少工作和学习之间的矛盾。但是, 在导师细致的指导和巨大的帮助 下,毕业论文基本完成。为此, 特别感谢在学习和生活上给过我 许多帮助的所有老师和同学。

第3页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

2、阶段 性成果 1、论文 进展情况

3、存在 的问题

第4页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

阶段性成果

1、创建一个小型维吾尔语广 播新闻连续语音敏感词语音语 料库,并在此基础上,开发维 吾尔语广播新闻连续语音敏感 词检索系统,同时实现敏感词 语料库维护功能。在MATLAB 编程中,采用了多种优化技巧, 有效提高了检索速度。

第5页 共17页

系统运行界面

中国科学院新疆理化技术研究所

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

语料库维护界面

第7页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

阶段性成果

2、对维吾尔语32个音素进行声 学特征分析,提出了一种基于 贝叶斯方法的面向维吾尔语关 键词检索的单词切分算法。本 算法是根据单词音素数和清浊 音顺序,对连续语音进行单词 切分,不符合规定的语音段视 为垃圾语音,有效提高了检索 速度并适当减少了误警率。

第8页 共17页

Start

1、取敏感词S的音素数P和VU结构; 2、对语音文件进行VU端点检测,生成音素序列T; 3、以P为单位,音素为位移,将T分成i=1,2,…,N个语音块。

置i=1

否 是

iN

i的VU结构 是否与S一致

End

将i视为垃圾语音快

将i确定为单词

i=i+1

算法流程图

第9页 共17页

 8个元音均为浊音,分别是:/a/, /e/, /é /, /i/, /o/, /ö /, /u/, /ü /。

展唇元

索。 3、语料库词汇量不大,影响识别效率。

第15页 共17页

中国科学院新疆理化技术研究所

下一步工作

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

撰写论文并投稿

扩大语料库词汇量

切词用新算法

加多词检索功能

第16页 共17页

中国科学院新疆理化技术研究所

科研成果

• • • • • • • • • •

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

[1] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Trigram Language Model”, ICMCE 2010.(EI检索) [2] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Front-end Processor”, NCIS 2011. (EI检索) [3] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Acoustic Model”, CSIE 2011. (EI检索) [4] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Decoder”, ISNN 2011. (EI检索) [5] 木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力,“维吾尔语广播新闻敏感词检索系统的研究”,中文信 息学报,2011年第4期。(全国中文核心期刊) [6] 木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力,“维吾尔语广播新闻连续语音敏感词检索系统”,计算 机系统应用,2012年第21卷第3期。(中国科技核心期刊) [7] 木合塔尔•沙地克,李晓,布合力齐姑丽•瓦斯力,“维吾尔语广播新闻敏感词识别系统实现”,计算机应 用研究,第29卷2012年增刊。 [8] Buheliqiguli Wasili, Askar Yakup, Muhetaer Shadike, LI Xiao, “Research on Uyghur Broadcast News Continues Speech Sensitive-word Spotting System”, CSEE2012. (EI检索) [9] Muhetaer Shadike, Buheliqiguli Wasili, Xiao Li, “A Bayesian Approach to Phoneme Detection for Uyghur”, Applied Mechanics and Materials, Accepted. (国际期刊,EI检索) [10] 木合塔尔•沙地克,布合力齐姑丽•瓦斯力,李晓, 维吾尔语广播新闻敏感词检索切词算法研究, 西北师范大 学学报(自然科学版), 已录用。(全国中文核心期刊,中国科技核心期刊)

第17页 共17页

中国科学院新疆理化技术研究所

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

请各位老师指导…

中国科学院新疆理化技术研究所

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

研究生学位论文中期报告

维吾尔语广播新闻敏感词检索系统的研究

THE STUDY OF UYGHUR BROADCAST NEWS SENSITIVE-WORD SPOTTING

报告人:木合塔尔·沙地克 导 师:李 晓 研 究 员

二零一三年一月

中国科学院新疆理化技术研究所

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

研究进展

内容

下一步工作 科研成果

第1页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

2、阶段 性成果 1、论文 进展情况

3、存在 的问题

第2页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

论文进展情况

经过近两年的学习和研究,掌握 了较深的理论知识,具备了一定 的科研能力。同时,也面临了不 少工作和学习之间的矛盾。但是, 在导师细致的指导和巨大的帮助 下,毕业论文基本完成。为此, 特别感谢在学习和生活上给过我 许多帮助的所有老师和同学。

第3页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

2、阶段 性成果 1、论文 进展情况

3、存在 的问题

第4页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

阶段性成果

1、创建一个小型维吾尔语广 播新闻连续语音敏感词语音语 料库,并在此基础上,开发维 吾尔语广播新闻连续语音敏感 词检索系统,同时实现敏感词 语料库维护功能。在MATLAB 编程中,采用了多种优化技巧, 有效提高了检索速度。

第5页 共17页

系统运行界面

中国科学院新疆理化技术研究所

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

语料库维护界面

第7页 共17页

中国科学院新疆理化技术研究所

研究进展

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

阶段性成果

2、对维吾尔语32个音素进行声 学特征分析,提出了一种基于 贝叶斯方法的面向维吾尔语关 键词检索的单词切分算法。本 算法是根据单词音素数和清浊 音顺序,对连续语音进行单词 切分,不符合规定的语音段视 为垃圾语音,有效提高了检索 速度并适当减少了误警率。

第8页 共17页

Start

1、取敏感词S的音素数P和VU结构; 2、对语音文件进行VU端点检测,生成音素序列T; 3、以P为单位,音素为位移,将T分成i=1,2,…,N个语音块。

置i=1

否 是

iN

i的VU结构 是否与S一致

End

将i视为垃圾语音快

将i确定为单词

i=i+1

算法流程图

第9页 共17页

 8个元音均为浊音,分别是:/a/, /e/, /é /, /i/, /o/, /ö /, /u/, /ü /。

展唇元

索。 3、语料库词汇量不大,影响识别效率。

第15页 共17页

中国科学院新疆理化技术研究所

下一步工作

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

撰写论文并投稿

扩大语料库词汇量

切词用新算法

加多词检索功能

第16页 共17页

中国科学院新疆理化技术研究所

科研成果

• • • • • • • • • •

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

[1] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Trigram Language Model”, ICMCE 2010.(EI检索) [2] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Front-end Processor”, NCIS 2011. (EI检索) [3] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Acoustic Model”, CSIE 2011. (EI检索) [4] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Decoder”, ISNN 2011. (EI检索) [5] 木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力,“维吾尔语广播新闻敏感词检索系统的研究”,中文信 息学报,2011年第4期。(全国中文核心期刊) [6] 木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力,“维吾尔语广播新闻连续语音敏感词检索系统”,计算 机系统应用,2012年第21卷第3期。(中国科技核心期刊) [7] 木合塔尔•沙地克,李晓,布合力齐姑丽•瓦斯力,“维吾尔语广播新闻敏感词识别系统实现”,计算机应 用研究,第29卷2012年增刊。 [8] Buheliqiguli Wasili, Askar Yakup, Muhetaer Shadike, LI Xiao, “Research on Uyghur Broadcast News Continues Speech Sensitive-word Spotting System”, CSEE2012. (EI检索) [9] Muhetaer Shadike, Buheliqiguli Wasili, Xiao Li, “A Bayesian Approach to Phoneme Detection for Uyghur”, Applied Mechanics and Materials, Accepted. (国际期刊,EI检索) [10] 木合塔尔•沙地克,布合力齐姑丽•瓦斯力,李晓, 维吾尔语广播新闻敏感词检索切词算法研究, 西北师范大 学学报(自然科学版), 已录用。(全国中文核心期刊,中国科技核心期刊)

第17页 共17页

中国科学院新疆理化技术研究所

XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS

请各位老师指导…


相关内容

  • 教育技术学专业博士学位研究生培养方案
  • 教育技术学专业博士学位研究生培养方案 (专业代码:040110) 一.培养目标 培养适应国家和地方社会发展需要的德智体全面发展的研究型.高层次教育信息化专门人才.具体要求: 1.树立爱国主义和集体主义思想,具有良好的道德品质和强烈的事业心,能立志为国家的教育事业服务. 2.掌握坚实宽广的教育技术学基 ...

  • 课程与教学论:博士研究生培养方案 (2012版):
  • 博士研究生培养方案 (课程与教学论) 一.培养目标 本专业培养德.智.体全面发展,具有创新精神和创新能力,为社会主义教育事业和课程与教学论专业发展积极工作的高级专门人才.基本要求是: 1.认真学习马列主义.毛泽东思想.邓小平理论,拥护中国共产党的领导,坚持四项基本原则,遵纪守法,具有良好的道德品质和 ...

  • 武汉理工大学 2015机械工程博士培养方案
  • 机械工程博士研究生培养方案 (学科代码:0802) 一.培养目标 1. 掌握马克思主义基本理论.树立科学的世界观,坚持党的基本路线,热爱祖国:遵纪守法,品行端正:诚实守信,学风严谨,团结协作,具有良好的科研道德和敬业精神. 2. 掌握本学科坚实宽广的基础理论和系统深入的专业知识,可胜任本学科领域高层 ...

  • 清华大学攻读公共管理博士学位研究生培养方案
  • 攻读公共管理博士学位研究生培养方案 (2010年6月23日学位分委员会讨论通过,2010级开始执行) 一.适用学科: 公共管理(Public Management),一级学科,管理学门类,学科代码:120400 本方案适用于以下研究方向: 1. 公共政策 2. 政府管理 3. 国际经济政治与国际组织 ...

  • 凝聚态物理(070205)博士研究生培养方案
  • 凝聚态物理(070205)博士研究生培养方案 一.培养目标 培养适应国家和地方社会发展需要的德.智.体.美全面发展的高素质创造性人才.具体要求: 1.树立爱国主义和集体主义思想,掌握马克思主义基本原理,树立科学的世界观与方法论. 2.掌握凝聚态物理的基本理论和相关实验技术,了解本学科的历史.现状和当 ...

  • 2016年度中国博士后科学基金资助申请指南
  • 2016年度中国博士后科学基金资助申请指南 目 前录言........................................................................................................................... ...

  • 同济大学博士研究生培养方案
  • 建设管理系2011年博士培养方案 管理科学与工程(工学门类) (2011年7月修订) 一.适用学科.专业: 管理科学与工程(一级学科,工学门类) 本一级学科不设二级学科,此方案适用于建设项目管理.房地产经济与管理研究方向,授工学学位. 二.学制年限 直博生和提前攻博生4-5年,普博生一般为3年,在职 ...

  • 博士研究生培养方案模板
  • 安徽师范大学 攻读博士学位研究生培养方案 专业名称(代码) 所属一级学科名称(代码) 授予博士学位门类(代码) 071011 生物学(0710) 理学 安徽师范大学研究生学院制表 填表日期:2012年 7 月 1 日 一.培养目标 培养适应我国社会发展需要的,德智体全面发展的高层次专门人才.要求学位 ...

  • 中国人民大学博士后工作实施细则
  • 中国人民大学学校办公室文件 2014-2015学年校办字27号 关于印发<中国人民大学博士后工作 实施细则(修订)>的通知 各学院(系),机关各部.处及直(附)属单位: <中国人民大学博士后工作实施细则(修订)>经2014-2015学年第4次校长办公会研究通过,现予以印发,请 ...

  • 研究生教育督导团工作总结(2015
  • 为了进一步提高研究生教育培养质量,研究生教育督导团依据<郑州大学研究生教育督导工作条例>,围绕学校硕士学科评估.研究生教学检查等中心工作,按照本学期督导团的工作计划展开了积极的督导工作.通过现场考察.走访交流.师生座谈.抽查核查.课堂观摩等方式,对研究生入学复试.预答辩和答辩.论文选题与 ...