【摘 要】
:
文本分类指在给定类别体系下,根据文本内容自动确定文本所属类别.目前流行的分类方法是SVM(Support Vector Machine,支持向量机),为取得较高的分类性能,避免遗漏具有代表性的
【机 构】
:
北京理工大学计算机科学技术学院,北京,100081
【出 处】
:
第二十三届中国数据库学术会议(NDBC2006)
论文部分内容阅读
文本分类指在给定类别体系下,根据文本内容自动确定文本所属类别.目前流行的分类方法是SVM(Support Vector Machine,支持向量机),为取得较高的分类性能,避免遗漏具有代表性的样本,通常的做法是使用尽可能多的训练样本.可是完备的训练文本库不仅面临着数量和权威性问题,还面临着时效性问题.比如Web新闻栏目,通过文本自动分类为政治、体育、军事等类别,反映这些类别的代表性样本每天都在变化,这就需要定期选用新样本更新分类器.传统的方法是人工选择新样本并标注其类别,加入训练集重新训练分类器,这样需要投入大量的人力和时间,效率低下.
如果使用已有的分类器自动选择新样本更新自己,则能节省大量的人力,这就是主动学习.本文研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习方法,很好地解决了小规模标注样本集的分类问题,提高了训练速度,增强了文本分类的智能化程度。
其他文献
本文利用随机Flow Shop的一个性质,讨论了同一工件在不同机器上的加工时间独立同分布时,m台机器Flow Shop随机调度问题,机器之间具有存储器,其容量充分大,使得加工过程不会出
纳米级β-氢氧化镍的出现为人们大幅度提高MH/Ni电池性能带来了希望.当物质尺寸进入纳米数量级时,其性能将发生改变,纳米氢氧化镍也是一样.纳米Ni(OH)具有较高的电化学活性,
本文研究了负极添加CuO对MH-Ni电池高功率性能的影响,同时考察了机械粉碎以后的CuO和未粉碎的CuO对电池高功率性能的影响.
本文针对一类非线性状态空间模型描述的仿射系统,提出了一种基于微分几何的非线性隐式闭环自适应预测控制算法,并通过仿真验证了其有效性和鲁棒性.考虑到许多实际问题中不允
随着温度的降低,锂离子电池的脱锂容量明显下降,脱锂电压上升.通过交流阻抗测试不同温度下的阻抗图谱,证实影响锂离子电池低温性能的主要因素是低温时锂离子在电极中的扩散速
导电双极板是钒电池电堆中的重要组件,要求除电化学活性外,应具有一定的机械强度、导电性好、不透液体,相当的比表面、在强酸性条件下不发生阳极氧化或溶解、有一定的导热性
作为一种普遍的非线性现象,混沌具有随机性、遍历性和内在规律性的特点,其中遍历性可作为搜索过程避免陷入局部极小的有效机制,由此混沌已成为一种新颖且有潜力的优化工具.此
针对电费实时计价政策,研制了锌电解过程分时供电优化调度系统.本文首先建立了系统的优化模型,并为该模型建立了一个等价的Hopfield神经网络.通过对Sigmoid函数的简单变形,消
DFH-4氢镍蓄电池组是为DFH-4研制的储能电源.DFH-4卫星平台是我国首颗大功率、长寿命卫星,有效载荷9150W,在轨工作寿命15年.DFH-4氢镍蓄电池组的机电热设计、可靠性和安全性
由于锂离子电池在滥用情况下引发的事故时有发生,开发具有阻燃性的功能锂离子电解质材料十分必要.通过加入无闪点的有机溶剂来替代或部分替代易燃的、热稳定性较差的有机溶剂