论文部分内容阅读
采用原始x2检验公式进行突发性度量时存在低频词偏袒问题,论文提出了结合TF的改进的x2检验方法能有效克服该问题.该方法将词频累加和作为文档统计篇数的影响因子β引入原始x2检验公式从而解决了低频词偏袒问题,提高了度量热点词突发性的精确度.动态突发性热点词库依据改进后的x2检验公式得到的突发性度量值来建立,并将该词库运用在动态突发性向量空间模型中来发现与追踪网络突发性热点话题.实例验证表明,利用该文的方法进行话题发现与追踪,可以获得有更高的准确率、召回率以及F度量.