维、哈文不良网页判别方法研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:abcchencj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网已成为人们快速发布信息和获取信息的重要工具。近年来,维吾尔文、哈萨克文网站数量有了快速增长,具不完全统计,国内维哈文网站目前有两千多个,且在不断增加中。民族语言网站在为广大少数民族用户提供丰富多彩本民族文化信息的同时,部分不法之徒利用互联网传播反动、煽动性言论等不良信息,此类信息严重歪曲我党方针政策,扭曲事实真相,极易引起公众的不理性判断,对社会和谐稳定带来巨大隐患。如何对此类信息进行有效监控、过滤成为政府部门关心的问题,维哈文不良网页识别技术也成为科研单位研究热点。笔者首先设计了维哈文网站识别模型,并利用搜索引擎技术对互联网维哈文网站进行搜寻和数据采集,同时对维哈文不良网页识别模型中涉及的以下技术进行了研究:维哈文网页正文内容抽取方法、维哈文分词技术、特征词提取方法,文本分类算法,分类器性能评价指标。本文在对维哈文不良网页特征分析基础上,利用卡方检验方法对训练集进行特征词抽取。为检测不同文本分类算法对维哈文不良网页识别模型判别性能的影响,笔者分别研究了支持向量机、K临近、朴素贝叶斯等文本分类算法,并根据多元线性回归原理,设计了多元线性回归模型。本文分别对这四类方法进行了测试对比,测试结果表明,当文本采用带权重特征向量表示,且支持向量机采用径向基核函数时,利用该算法设计的维哈文不良网页识别模型识别准确率和召回率能达到95%以上,且识别性能稳定,识别效率也相对较高,在实际应用中,该算法也取得了很好的识别效果。
其他文献
本文立足宁夏青铜峡河东秦汉渠灌区,在可用水资源量及总灌溉面积已经确定的条件下,实现灌区的渠系水量的优化调度,并以当前流行的B/S模式计算机应用系统开发了秦渠信息管理及水
思想政治课是高中德育工作的主要渠道,学科素养和德育教育的最终实现,要求教师做好课堂教学设计,把课堂的主体身份还给学生,立足学生生活实际选取学生身边的案例设置贴切的议
本文通过对荣华二采区10
期刊
2020年,市质协将以习近平新时代中国特色社会主义思想为指导,以服务高质量发展和人民美好生活需要为总目标,以质量强国、长三角一体化发展等国家战略为引领,服务上海五个中心
期刊
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
超短脉冲激光是一种重要的激光光源,它是物理学,化学,生物学,光电子学以及激光光谱学等学科对微观世界进行科学研究和揭示新的超快过程的重要手段。目前应用最多的超短脉冲激光是
学位
蒸腾作用是植物耗水的重要环节。本文以我国北方常见的苹果树作为研究对象。利用TDP茎流计实时监测苹果树蒸腾速率变化过程,研究了果树的液流速率变化规律及树干液流与气象因
患者男性,69岁,因“体检发现左肾肿瘤半月余”人院.患者半月前无明显诱因出现左侧腰背部胀痛不适,无尿频、尿急、尿痛,无明显肉眼血尿,无腹胀、腹痛,遂至武威市人民医院体检,
期刊