【摘 要】
:
典型的文本聚类算法是一种硬划分,但是实际上由于中文文本的多样性和大量性更适合进行软划分,模糊集理论的提出为这种软划分提供了有力的分析工具。传统的模糊聚类方法大都是
【机 构】
:
北京科技大学信息工程学院,河北经贸大学计算机中心
【基金项目】
:
国家自然科学基金 (the National Natural Science Foundation of China under Grant No.60374032)河北省教育厅科研计划项目(the Scientific Research Program of Hebei Province Education Department under Grant No.2009116)
论文部分内容阅读
典型的文本聚类算法是一种硬划分,但是实际上由于中文文本的多样性和大量性更适合进行软划分,模糊集理论的提出为这种软划分提供了有力的分析工具。传统的模糊聚类方法大都是通过对隶属度的矩阵逐步迭代得到模糊等价矩阵或模糊划分的方法实现聚类,这个过程需要大量的存储空间。基于模糊粒度计算的文本聚类算法是在文档集合的模糊粒度空间上给定一个归一化的距离函数d(di,d)j,对距离小于粒度dλ的文本进行动态聚类。通过实验证明此方法在解决文本聚类问题时具有降低计算复杂度和空间复杂度,适于大量文本的聚类处理。
其他文献
Due to its unique properties, e:g: high melting temperature, high thermal conductivity and low sputtering erosion, tungsten has been selected as one of the most
采用超临界流体CO2萃取法提取新鲜佛手和干佛手的挥发油,经气相色谱-质谱联机分析,新鲜佛手挥发油的得率为16.2 mL/kg,鉴定出34个组分,主成分为丁二醇,占16.28%;干佛手挥发油
借鉴NTRU公钥密码体制的设计思想,提出了一种基于因式分解困难性的全新公钥加密方案.该方案安全、简单、高效,易于实现,且密文具有随机性的特点,非常适合于小数据量和受限环境(如手
复合材料称重结构耐腐蚀、抗疲劳性能优于金属称重结构.根据复合材料秤体铺层工艺,加载条件,在有限元软件中对结构进行数值模拟.通过与静态加载试验的对比分析,调整数值模型,
为进一步探讨优化轻钢龙骨复合墙体传热性能的有效途径,扩大其在我国寒冷地区的应用,采用热电偶测温方法进行了腹板开孔、带外保温层腹板开孔轻钢龙骨复合墙体传热性能的试验
用于三维矢量场可视化的VolumeLIC算法比较耗时,而且生成的图像无法洞察场的内部信息,场的方向性也不明显。针对以上缺点,对原始VolumeLIC算法做了改进,它不同于以往的算法要计算整个矢量场,而是选取场中的部分点作为种子点,从这些点出发积分生成流线,对这些线上的点用VolumeLIC算法生成最终图像。实验结果表明,改进后的算法大幅提高了运算速度,并且空间方向感明显增强。
为了解决有机物分子模拟中的模型问题,提出一种有机材料元胞模型的构建方法.在应用“随机行走”法和“定向行走”法构建有机材料单分子链模型的基础上,基于将分子链均匀分配于元
在研究WED(Weighted Erasure Decoding)算法的基础上,提出了一种新的针对中短LDPC码的BP—WED级联译码算法。BP算法是软输入软输出的算法,当BP译码失败后,其输出软信息进行分级量
目的评价腓动脉穿支芾皮瓣用f修复足部大面积软组织缺损的临床效果。方法对21例足部大而积皮肤软组织缺损病例应用腓动脉穿支蒂皮瓣进行修复,皮瓣最小10cm×8cm、最大20cm
统一建模语言(UML)为面向对象系统定义了一个统一的标准.使用UML提高了与不同背景领域专家、工作流专家、软件工程师和其他专业人员的沟通,UML可以用在各个方面.在描述用例建模