一种高效的文本查重算法在电子商务中的应用

来源 :计算机应用与软件 | 被引量 : 2次 | 上传用户:lsq_1123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究一种高效的文本信息查重算法,对电子商务网站的相似信息进行自动归类排序,大幅度提高信息审核效率与正确性。测试表明,信息数量在100-1000条时,该算法十分有效,1000条的文本信息相互比较可控制在2秒之内。信息数量超过1000条后,计算时间会大幅度上升。可通过调整算法中相关参数来调整精度。对于过短信息(少于10个字),可将本算法与Levenshtein算法相结合,以提高该文本信息查重算法的灵活性。
其他文献