【摘 要】
:
为了有效地组织Internet网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域.但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题.本文介绍了主成分分析(Principle Component Analysis,PCA)、潜在语义索引(Latent Semantic Indexing,LSI)和投影寻踪(projection pursuit,PP)等维数约简方法
【机 构】
:
江西师范大学物理与通信电子学院(南昌) 江西师范大学计算机信息工程学院(南昌)
【出 处】
:
第一届全国信息检索与内容安全学术会议
论文部分内容阅读
为了有效地组织Internet网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域.但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题.本文介绍了主成分分析(Principle Component Analysis,PCA)、潜在语义索引(Latent Semantic Indexing,LSI)和投影寻踪(projection pursuit,PP)等维数约简方法,并对其应用于网页分类进行了比较.对比实验结果表明,这几种维数约简方法对网页分类都有较好的分类结果.从所降到的维数来看,投影寻踪方法将特征空间降到了超低维(一维),这不仅提高了数据的可视性,而且提高了分类速度.
其他文献
通过应用新型骨架材料,提高轮胎胎圈钢丝的整体性能,改进轮胎趾口部位的强度,降低轮胎在使用过程中出现的趾口爆裂等质量问题,减少轮胎的早期损坏.
简要介绍了玻璃纤维帘线的制备工艺及提高其耐疲劳性能的方法。对玻璃纤维表面进行处理、在浸渍剂中加入其它橡胶胶乳、采用二次浸渍处理及改变帘线结构等措施均可提高玻璃纤维的耐疲劳性能。
详细介绍了镀锡青铜回火胎圈钢丝生产线的有关特点。包括镀前钢丝工艺(盘条预处理和中丝热处理后的表面处理、奥氏体化及铅淬火和拉丝工序)及化镀锡青铜生产线的工艺流程、主要技术参数和设备组成。所生产镀锡青铜回火胎圈钢丝性能优良,得到用户的广泛好评.
从外观形貌、综合机械性能和表面涂层三方面介绍了胎圈用钢丝的主要品种.论述了轮胎制造对胎圈用钢丝的主要技术性能要求。分析了胎圈用钢丝的发展趋势。指出胎圈用钢丝将向多品种、多规格、系列化方向发展;钢丝综合机械性能将向高强度、高韧性方向发展。
将高模量低收缩率的尺寸稳定型聚酯(DSP)帘线用于轿车子午线轮胎中,可简化轮胎的生产工艺,且轮胎的使用尺寸也能得到保证。DSP帘线的干热收缩率至关重要,要严格控制。
在文本分类系统中,传统的特征选择和特征加权方法充分利用了文档信息,而轻视或忽视了类信息.新的特征选择和加权方法以类信息作为调节因子,使均匀分布于单个类中的特征更具代表性,弥补了传统方法的不足.实验证明,基于新的特征选择和加权方法的四种常用分类器都表现出良好的性能.
网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?文章针对这些问题对实际网络日志进行了实证性的规模统计分析.研究了网络日志规模与用户数、Web页面数以及单位用户访问的Web页面数的关系,并研究了用户访问Web的动机.得出了一些有用的结论.这些结论为网络日志挖掘提供了一定的研究根据和基础.
本文从文本分类与信息过滤角度研究垃圾邮件过滤问题,介绍Winnow算法在垃圾邮件过滤中的应用,在PU1邮件语料和Ling-Spam语料上实验Winnow算法的性能,得到了较好的效果.实验表明,这种错误驱动的在线学习方法在垃圾邮件过滤上有较大的实用意义.
文本特征提取是指从文本中提取有代表性的词作为特征,由于中文的特殊性,预先分词是中文文本的特征提取的关键步骤.本文在基于Apriori的中文特征提取算法上进行了改进,提出了一种以n-gram相邻字为分词线索的中文文本特征快速提取方法,使词典无关的中文分词和特征提取的速度大大提高.本文对新算法的正确性进行了证明,并通过试验验证了这种算法的性能和速度方面的优势.
本文通过对足球比赛视频中的场地信息和运动信息的分析,提出了一种有效分割场地和运动员的新算法,并对此算法性能进行了讨论.本算法主要利用Canny算子和数学形态学方法对足球比赛场地进行检测,并对除场地标志线,利用检测出的场地信息实现了场地内运动区域的检测和分割.实验表明该算法有较好的效果.场地和运动员区域的正确分割对比赛的分析和检索具有重要意义.