论文部分内容阅读
自动文摘技术应尽可能荻取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动摘要,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合。同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标。实验证明利用词序信息可有效提高自动文摘质量。