对等网络检索系统中关键技术的研究

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:liliandidi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,传统的客户端/服务器模式由于受到硬件和体系结构的限制,已无法满足Internet快速增长的需要。对等网络(Peer-to-PeerNetwork,简称P2P网络),作为一个新的互联网应用模式,得到了快速的发展和普及。由于无中心、自组织等特性,怎样在对等网络中进行准确、有效的信息检索成为一个新的研究课题。   本文针对对等网络信息检索中的关键技术进行了研究,主要的研究内容和成果如下:   1、设计了基于语言类别簇的P2P重叠网结构。由于对等网络在全球范围内得到发展,使用不同语言的用户参与其中,如果不对用户群进行有效的划分并针对性的提供搜索服务,则很难得到可实际应用的、高效的检索系统。本文提出了一个基于语言类别簇的多层P2P体系结构。在这个结构下,每个查询问题都依据其语言类别识别的后验概率,提交到与查询最相似的语言簇中进行处理,有效减少了搜索空间的大小,降低了节点负载。实验表明,当6种使用不同语言的用户进行查询时,与洪泛查找相比较,在相同的通信代价下(如消息量为400),可以将平均搜索成功率从6.1%提高到54.5%。   2、提出了一个基于AdaBoost对多Chunk特征进行融合的专有名词语言分类算法。在传统的基于数据驱动的语言分类方法中,由于数据稀疏等问题,统计语言模型无法对长程信息进行有效的学习,仅仅对字母间的关系进行建模很难区分不同的拉丁字母语言。因此,本文通过对专有名词的词结构信息进行多角度挖掘,提取出具有类别表征性的字母块(chunk),并针对不同的chunk建立统计模型,缓解数据稀疏带来的过训练问题。除此之外,根据统计学习理论,用AdaBoost有效融合多个chunk模型,将单分类器的分类能力进行提升。该模型显著地提高了拉丁字母语言的专有名词语言分类的正确率,有利于节点和用户查询时对关键词的语言验证。实验中,对英语、德语、法语和葡萄牙语四种语言进行了分类,与传统的基于字母的N元语法模型相比,多Chunk模型融合的分类方法可以将平均正确率从75%提高到78.4%,减少了13.6%的分类错误(ErrorReduction)。同时,本文对不同的融合分类器也分别进行了研究,实验表明,AdaBoost具有最好的融合性能,显著优于投票、决策树以及高斯混合模型。   3、提出了一个两级的语言分类系统以及多信息源融合的专有名词语言分类算法。针对拉丁字母语言的特点,通过多级系统,对语言聚类(Cluster)和语言类别进行分段识别。另外,针对拉丁字母语言中构词法相似的问题,提出了一个词语流行度信息的概念,并通过对Web的挖掘提取出强鲁棒性的特征,作为新的信息源辅助词结构信息共同增强模型的分类能力。实验表明,在该结构下,98.6%的Cluster(中文,日语和拉丁字母语言)可以被正确区分,而对于同一个Cluster内的拉丁字母语言(英语、德语、法语和葡萄牙语),多信息源融合后,与基于字母的N元语法模型相比,可以将正确率从75%提高至86.3%,纠正近45.2%的分类错误。   4、提出了一个基于Web信息进行媒体文件描述符扩展的算法。由于P2P网络中普遍存在媒体文件描述信息匮乏的问题,通过对Web中相关网页进行挖掘和统计,抽取出具有媒体内容表征性的文本信息,用以丰富资源描述符。实验表明,该算法明显提高了媒体文件信息检索的正确率,与未扩展前相比,平均排序倒数可从0.09提高到0.23,改善了用户体验。   5、提出了一个基于语义扩展的P2P网络结构。由于媒体描述信息不足,分布式哈希表无法支持语义查询的问题,提出了媒体文件语义特征映射算法,以及基于DHT和语义跳表多层环的特征空间向量搜索算法。仿真表明,该算法不仅可以有效扩展媒体文件的特征信息,其检索精度也和传统的中心式搜索方法的结果很相似,具有实用价值。
其他文献
随着计算机技术和通信技术的迅速发展以及Internet的不断发展,嵌入式系统已经广泛地渗透到科学研究、工程设计、军事技术、各类产业和商业文化艺术以及人们的日常生活等方方
重金属Pb作为毒性较高的环境毒物,不仅危害植物的生长和发育,也对人类健康带来严重威胁。水杨酸(salicylic acid,SA)作为一类新型植物生长调节物质,在诱导植物抗病性、激活植物
运动目标跟踪是计算机视觉处理中的一个热点,有着非常广泛的应用前景;同时视觉环境的多样性和复杂性使其成为图像处理领域的难点。本文以均值平移算法为核心算法,并针对其固有缺
本文提出了采用BP合成神经网络和菲涅尔转换技术建立了一种计算机合成全息图像(CGH)压缩处理的新结构,这种处理结构能够自适应地调整处理非线性的计算全息信息分布。 在研
研究3+9×0.175NT钢丝帘线在轻型载重子午线轮胎胎体中的应用.结果 表明,采用1层压延密度为83根·dm-1的3+9×0.175NT钢丝帘布替代3层压延密度为110根·dm-1的1670dtex/2-28E
进入二十一世纪,科技的发展更为迅猛,尤其在计算机应用方面,随着计算机处理器性能的提高、存储设备存储量的不断扩大、计算机网络性能的提升、以及相应的成本的不断降低,越来越多
目前的静态汉字字库,经历了点阵字库、矢量字库到曲线字库的发展,在字库存储量问题上已经有了长足的进步。微软的TrueType字库和Adobe的PostScript系列字库利用曲线轮廓技术,
蓝绿脉冲激光在水下良好的穿透性和高性能的光电成像器件的迅速发展,使得水下激光成像技术成为水下目标探测和成像的主要研究方向,然而激光在水下传输中产生很强的后向散射严
收发两端都采用多天线的MIMO(多输入多输出)技术在无需增加频谱资源和天线发射功率的情况下,可以使信道容量成倍增加,还可以提高无线频谱利用率,提高信道可靠性,降低误码率,是新一
通过超声设备进行产前诊断,及早查出畸形胎儿并采取相应措施,是降低出生缺陷发生率的重要手段。头部由于其重要性且具有明显特征,成为研制胎儿畸形产前超声诊断专家系统第一步工