基于索引过滤的汉语短文本模糊匹配计算方法

来源 :第十届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户：muagie

【摘要】

：

在当前的中文信息处理中，对短文本进行模糊匹配有广泛的应用。而现有的模糊匹配算法时间复杂度常常无法满足实际的在线需求。本文从索引检索代替顺序计算的思想出发，提出了基于

【作者】

：

曹犟邬晓钧夏云庆郑方

【机构】

：

清华大学计算机科学与技术系,北京 100084 清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,北京 100084

【出处】

：

第十届全国人机语音通讯学术会议

【发表日期】

：

2009年期

【关键词】

：

索引过滤汉语文本模糊匹配计算方法算法时间复杂度中文信息处理索引检索长度过滤召回率计算量思想实验任务和字

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当前的中文信息处理中，对短文本进行模糊匹配有广泛的应用。而现有的模糊匹配算法时间复杂度常常无法满足实际的在线需求。本文从索引检索代替顺序计算的思想出发，提出了基于索引过滤的中文短文本模糊匹配计算方法，包括长度过滤和字命中过滤两种方法，能够大大地减少模糊匹配的计算量。实验表明，本文提出的算法在不影响召回率的前提下，能够极大地减少模糊匹配任务的计算时间。

其他文献

基于VP树结构的多层匹配算法在哼唱识别中的应用

哼唱识别是音频检索的一个重要应用，其难点是音频歌曲数据的非结构性以及搜索速度和准确率平衡的问题。本文提出了新的数据库构造方法，将音频歌曲集用手工标注方法提取主旋律并

会议

Over-sampling basis expansion model aided channel estimation for OFDM systems with ICI

The rapid variation of channel can induce the intercarrier interference in orthogonal frequency-division multiplexing (OFDM) systems. Intercarrier interference

期刊

estimatoraidedmultiplexingmultipathdifficultysymbolresolvefadingdiagonal

段长在汉语识别系统后处理阶段的应用

针对传统的隐含马尔可夫模型(hidden Markov model ，HMM)存在的缺陷，该文提出了一种在识别的后处理阶段使用段长模型的方法，并应用在基于HMM的汉语识别系统上。该方法利用归一化

会议

汉语识别系统后处理段长模型隐含马尔可夫模型Markov model错误和删除识别过程归一化错误率音节数据实验解码分数

多口音英语学习者口语语音库

多口音英语学习者口语语音库(CELSCOM：Chinese EFLLearners speech corpus with multi-accents )旨在收集和建立中国不同方言区英语学习者的英语口语语音，一方面为英语语音识别

会议

面向计算机辅助正音语音语料库的创制与标注

面向有正音功能的对外汉语计算机辅助发音训练(CAPT)语音语料库的创制与标注是一个新的课题。本文介绍北京语言大学对外汉语CAPT语音语料库的建设思路与方法。该库分两期建设

会议

适于嵌入式英语发音评价系统的英美音融合方法

英音和美音是最为常见的英语目标口音。本文针对英语学习者存在的英美口音混杂现象，提出一种英美口音模型融合方法，提高发音质量评价性能，并压缩声学模型规模以适于嵌入式实现。

会议

基于增量估计的快速高斯计算

本文分析讨论了连续语音识别系统中的快速高斯计算问题。语音信号的短时平稳特性，使得相邻语音帧可能共享相似的分布。利用该特性，估计当前帧与基准帧间似然值增量的最大值，以此

会议

IBM GALE中文识别系统最新进展

本文介绍了参加DARPA GALE中文评测时，IBM开发的系统和算法最新进展。同时给出了在三个测试集上的识别结果，包括广播新闻和广播访谈类节目。结果显示，IBM GALE中文识别系统取得

会议

中文识别性能访谈类节目识别系统广播新闻测试集算法测时

基于分数阶付立叶变换的谱减法及其语音增强应用

利用分数阶付立叶变换(FrFT)在时频分析上的特点，提出一种新的谱减法-分数阶谱减法。首先，对每一帧带噪语音进行的分数阶付立叶变换，通过使得分数阶谱减法的信噪比达到最大从而

会议

分数阶付立叶变换谱减法语音增强功率谱带噪语音信噪比去噪声语音信号统计估计时频分析新方法实验阶数

基于任务分析的自适应数据挑选

在语音识别领域，针对具体的任务进行分析进而挑选自适应数据，往往能够获得更好的自适应效果。本文提出一种基于任务分析的声学模型自适应方法，该方法针对特定任务，分析任务相关语

会议

任务分析声学模型自适应语音数据混淆度语音识别语音单元贪婪算法适应性能任务相关覆盖度定任务实验改善

基于索引过滤的汉语短文本模糊匹配计算方法

其他学术论文