论文部分内容阅读
针对技术性贸易壁垒(TBT)预测预警问题,本文结合TBT预警原理,将主题爬虫引入电子信息产品的TBT预警领域,建立电子信息产品主题相关本体,并借鉴向量空间模型中关键词权重分析方法,在此基础上使用Heritrix的扩展定制类从海量数据中筛选主题相关数据信息。通过实验验证了基于本体和向量空间模型的主题爬虫在领域信息获取的效率方面有明显提高,也为下一步研究奠定了良好的基础。