【摘 要】
:
该文详细介绍了短信文本的实时过滤与主题归纳这一系统,主要包括以下几个方面的内容:1.介绍了课题的背景及其研究意义,并对该领域的发展概况进行了介绍.2.介绍了短信文本的实
论文部分内容阅读
该文详细介绍了短信文本的实时过滤与主题归纳这一系统,主要包括以下几个方面的内容:1.介绍了课题的背景及其研究意义,并对该领域的发展概况进行了介绍.2.介绍了短信文本的实时过滤与主题归纳系统,该系统的主要目标是对短信息进行实时的分类处理;对内容相同或相似的短信息,保留一条语义相关的正文,去掉重复的信息,做计数统计;对包含敏感词汇的短信文本进行过滤.3.介绍了分类子系统,并对中文信息分类做了初步的探讨,对所应用的关键性技术阐述了一些可行性的方案,对分类算法提出了一些改进方法,并且在对中文编码体系和中文分词的算法进行研究的基础上提出一种分词词典,基于这种分词词典设计了一种适合于短信文本的分词算法.4.介绍了过滤与匹配统计子系统,并对字串的匹配做了初步的探讨,对所应用的关键性技术进行了阐述,尝试对标准DFSA算法进行改造,解决了可能出现的存储空间膨胀问题.另外,考虑到中文是大字符集语言的特点,我们将QS单模式匹配算法的思想融入DSFA多模式匹配算法中,应用于对敏感词汇多模式精确匹配,取得了良好的效果.并根据短信文本自身的特点以及系统实时性的要求,提出了最大字串的相似匹配算法.5.对短信文本的实时过滤与主题归纳系统进行了测试,对系统的可行性作了分析.
其他文献
视频数字图书馆是数字图书馆的一个重要组成部分.目前在这个方面已经做了大量的工作,并出现了许多原型系统和商用系统.但这些系统都把重点放在视频理解与视频处理上,而在数据
该文的工作主要包括以下六个方面:1)结合当前的网络安全现状,研究了国内外流行的扫描软件,重点研究了它们的实现方式和技术特点.2)TCP/IP协议是网络互联的基础协议模型,是论
该文针对传统的多级分散式采购物流管理存在的问题,通过对汽车行业采购物流模式的研究,提出采用集中式物流中心管理模式.在采购物流管理中,强调供需双方物流信息共享,从而减
首先,该文简要分析了武器系统数据通信的特点和失效模式,然后介绍了一些常用的保证数据通信可靠性的方法.其次,该文针对武器系统中多CPU组成的处理机网络,当数据收发双方在半
如今,互联网在日常生活中越来越普及,人们习惯于通过搜索引擎在大量的网络信息中查找自己需要的信息,随着网络上信息海量地增长,搜索引擎的作用日益重要,赞助商搜索拍卖应运而生。
全文共分8章,主要内容如下:第1章:简要介绍了分布式虚拟环境的概念及特征,回顾了该技术的产生和发展过程,列举了一些典型的分布式虚拟环境系统和应用领域,介绍了分布式虚拟环境
现今商务世界中网络的广泛应用,相互交流各种来源不同的信息越来越重要。然而今天大多数的应用并不是为了共享信息而设计的,甚至是用不同的语言开发的,并在不同的硬件和软件平台
随着互联网技术的迅速发展,各种社交应用改变了人们的生活方式。人们在虚拟的互联网中交流合作,形成了大规模社会网络。在社会网络中普遍存在社区结构的特征,挖掘大规模社会
不规则三角网数字模型(Triangulated Irregular Network,TIN)是用一组连续而不重复的三角形逼近地形表面,是数字地面模型中的一种主要表示方法。数字地面模型(Digital Terrain
该文着重基于分布式存储系统的并行I/O模型和核外存储策略的设计与实现.首先,该文阐述了并行I/O的系统结构,文件系统的结构与特性,典型的并行文件系统,并行I/O库的发展,以及