中国科学院新疆理化技术研究所
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
研究生学位论文中期报告
维吾尔语广播新闻敏感词检索系统的研究
THE STUDY OF UYGHUR BROADCAST NEWS SENSITIVE-WORD SPOTTING
报告人:木合塔尔·沙地克 导 师:李 晓 研 究 员
二零一三年一月
中国科学院新疆理化技术研究所
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
研究进展
内容
下一步工作 科研成果
第1页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
2、阶段 性成果 1、论文 进展情况
3、存在 的问题
第2页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
论文进展情况
经过近两年的学习和研究,掌握 了较深的理论知识,具备了一定 的科研能力。同时,也面临了不 少工作和学习之间的矛盾。但是, 在导师细致的指导和巨大的帮助 下,毕业论文基本完成。为此, 特别感谢在学习和生活上给过我 许多帮助的所有老师和同学。
第3页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
2、阶段 性成果 1、论文 进展情况
3、存在 的问题
第4页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
阶段性成果
1、创建一个小型维吾尔语广 播新闻连续语音敏感词语音语 料库,并在此基础上,开发维 吾尔语广播新闻连续语音敏感 词检索系统,同时实现敏感词 语料库维护功能。在MATLAB 编程中,采用了多种优化技巧, 有效提高了检索速度。
第5页 共17页
系统运行界面
中国科学院新疆理化技术研究所
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
语料库维护界面
第7页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
阶段性成果
2、对维吾尔语32个音素进行声 学特征分析,提出了一种基于 贝叶斯方法的面向维吾尔语关 键词检索的单词切分算法。本 算法是根据单词音素数和清浊 音顺序,对连续语音进行单词 切分,不符合规定的语音段视 为垃圾语音,有效提高了检索 速度并适当减少了误警率。
第8页 共17页
Start
1、取敏感词S的音素数P和VU结构; 2、对语音文件进行VU端点检测,生成音素序列T; 3、以P为单位,音素为位移,将T分成i=1,2,…,N个语音块。
置i=1
否 是
iN
否
是
i的VU结构 是否与S一致
End
将i视为垃圾语音快
将i确定为单词
i=i+1
算法流程图
第9页 共17页
8个元音均为浊音,分别是:/a/, /e/, /é /, /i/, /o/, /ö /, /u/, /ü /。
展唇元
索。 3、语料库词汇量不大,影响识别效率。
第15页 共17页
中国科学院新疆理化技术研究所
下一步工作
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
撰写论文并投稿
扩大语料库词汇量
切词用新算法
加多词检索功能
第16页 共17页
中国科学院新疆理化技术研究所
科研成果
• • • • • • • • • •
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
[1] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Trigram Language Model”, ICMCE 2010.(EI检索) [2] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Front-end Processor”, NCIS 2011. (EI检索) [3] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Acoustic Model”, CSIE 2011. (EI检索) [4] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Decoder”, ISNN 2011. (EI检索) [5] 木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力,“维吾尔语广播新闻敏感词检索系统的研究”,中文信 息学报,2011年第4期。(全国中文核心期刊) [6] 木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力,“维吾尔语广播新闻连续语音敏感词检索系统”,计算 机系统应用,2012年第21卷第3期。(中国科技核心期刊) [7] 木合塔尔•沙地克,李晓,布合力齐姑丽•瓦斯力,“维吾尔语广播新闻敏感词识别系统实现”,计算机应 用研究,第29卷2012年增刊。 [8] Buheliqiguli Wasili, Askar Yakup, Muhetaer Shadike, LI Xiao, “Research on Uyghur Broadcast News Continues Speech Sensitive-word Spotting System”, CSEE2012. (EI检索) [9] Muhetaer Shadike, Buheliqiguli Wasili, Xiao Li, “A Bayesian Approach to Phoneme Detection for Uyghur”, Applied Mechanics and Materials, Accepted. (国际期刊,EI检索) [10] 木合塔尔•沙地克,布合力齐姑丽•瓦斯力,李晓, 维吾尔语广播新闻敏感词检索切词算法研究, 西北师范大 学学报(自然科学版), 已录用。(全国中文核心期刊,中国科技核心期刊)
第17页 共17页
中国科学院新疆理化技术研究所
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
请各位老师指导…
中国科学院新疆理化技术研究所
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
研究生学位论文中期报告
维吾尔语广播新闻敏感词检索系统的研究
THE STUDY OF UYGHUR BROADCAST NEWS SENSITIVE-WORD SPOTTING
报告人:木合塔尔·沙地克 导 师:李 晓 研 究 员
二零一三年一月
中国科学院新疆理化技术研究所
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
研究进展
内容
下一步工作 科研成果
第1页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
2、阶段 性成果 1、论文 进展情况
3、存在 的问题
第2页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
论文进展情况
经过近两年的学习和研究,掌握 了较深的理论知识,具备了一定 的科研能力。同时,也面临了不 少工作和学习之间的矛盾。但是, 在导师细致的指导和巨大的帮助 下,毕业论文基本完成。为此, 特别感谢在学习和生活上给过我 许多帮助的所有老师和同学。
第3页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
2、阶段 性成果 1、论文 进展情况
3、存在 的问题
第4页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
阶段性成果
1、创建一个小型维吾尔语广 播新闻连续语音敏感词语音语 料库,并在此基础上,开发维 吾尔语广播新闻连续语音敏感 词检索系统,同时实现敏感词 语料库维护功能。在MATLAB 编程中,采用了多种优化技巧, 有效提高了检索速度。
第5页 共17页
系统运行界面
中国科学院新疆理化技术研究所
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
语料库维护界面
第7页 共17页
中国科学院新疆理化技术研究所
研究进展
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
阶段性成果
2、对维吾尔语32个音素进行声 学特征分析,提出了一种基于 贝叶斯方法的面向维吾尔语关 键词检索的单词切分算法。本 算法是根据单词音素数和清浊 音顺序,对连续语音进行单词 切分,不符合规定的语音段视 为垃圾语音,有效提高了检索 速度并适当减少了误警率。
第8页 共17页
Start
1、取敏感词S的音素数P和VU结构; 2、对语音文件进行VU端点检测,生成音素序列T; 3、以P为单位,音素为位移,将T分成i=1,2,…,N个语音块。
置i=1
否 是
iN
否
是
i的VU结构 是否与S一致
End
将i视为垃圾语音快
将i确定为单词
i=i+1
算法流程图
第9页 共17页
8个元音均为浊音,分别是:/a/, /e/, /é /, /i/, /o/, /ö /, /u/, /ü /。
展唇元
索。 3、语料库词汇量不大,影响识别效率。
第15页 共17页
中国科学院新疆理化技术研究所
下一步工作
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
撰写论文并投稿
扩大语料库词汇量
切词用新算法
加多词检索功能
第16页 共17页
中国科学院新疆理化技术研究所
科研成果
• • • • • • • • • •
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
[1] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Trigram Language Model”, ICMCE 2010.(EI检索) [2] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Front-end Processor”, NCIS 2011. (EI检索) [3] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Acoustic Model”, CSIE 2011. (EI检索) [4] Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili, “Large Vocabulary Continuous Speech Recognition: Basic research of Decoder”, ISNN 2011. (EI检索) [5] 木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力,“维吾尔语广播新闻敏感词检索系统的研究”,中文信 息学报,2011年第4期。(全国中文核心期刊) [6] 木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力,“维吾尔语广播新闻连续语音敏感词检索系统”,计算 机系统应用,2012年第21卷第3期。(中国科技核心期刊) [7] 木合塔尔•沙地克,李晓,布合力齐姑丽•瓦斯力,“维吾尔语广播新闻敏感词识别系统实现”,计算机应 用研究,第29卷2012年增刊。 [8] Buheliqiguli Wasili, Askar Yakup, Muhetaer Shadike, LI Xiao, “Research on Uyghur Broadcast News Continues Speech Sensitive-word Spotting System”, CSEE2012. (EI检索) [9] Muhetaer Shadike, Buheliqiguli Wasili, Xiao Li, “A Bayesian Approach to Phoneme Detection for Uyghur”, Applied Mechanics and Materials, Accepted. (国际期刊,EI检索) [10] 木合塔尔•沙地克,布合力齐姑丽•瓦斯力,李晓, 维吾尔语广播新闻敏感词检索切词算法研究, 西北师范大 学学报(自然科学版), 已录用。(全国中文核心期刊,中国科技核心期刊)
第17页 共17页
中国科学院新疆理化技术研究所
XINJIANG TECHNICAL INSTITUTE OF PHYSICS & CHEMISTRY, CAS
请各位老师指导…