【摘 要】
:
随着互联网技术的高速发展和全球化普及,网民规模不断扩大,网络也成为网民获取信息的重要平台。新闻文本信息呈爆炸式的涌现在网络上,因此从大量冗余的文本信息中提取出有价
论文部分内容阅读
随着互联网技术的高速发展和全球化普及,网民规模不断扩大,网络也成为网民获取信息的重要平台。新闻文本信息呈爆炸式的涌现在网络上,因此从大量冗余的文本信息中提取出有价值的信息已成为当前计算机领域中的一项重要研究内容。如果仅靠人工处理这些杂乱无章的舆情数据,不仅会增加工作量,而且准确程度也会由于受主观意识的影响而降低。基于上述研究背景,本文对热点话题推荐研究的出发点是:如何从海量的、种类多样的信息中迅速发现目前最热门、网络平台讨论最多的话题推荐展示给网民。传统的热点话题研究方法不仅需要对数据集进行人工标注,而且在大数据集下容易出现维度灾难的问题。近年来深度学习作为前沿领域与多学科融合并取得众多突破,在自然语言处理领域上的运用也为网络热点话题推荐带来了新的解决思路。本文主要工作内容如下:对于传统语言模型无法避免在词语向量化的过程中忽略主要信息以及无法结合整体内容进行文本分析的问题,本文结合卷积神经网络通过卷积核上下滑动提取文本特征的特点,设计了基于卷积神经网络的词特征文本表示方法。本文使用Word2Vec预训练语言模型实现词向量的转化,并引入TF-IDF算法增强文本特征,最后通过卷积神经网络实现文本特征的提取,通过实验,探究影响模型分析结果的参数,并调节参数使模型达到最优的效果。实验结果表明,本文提出的文本表示方法相比于神经网络语言模型的文本表示在两种不同新闻数据集上的F值均有提升,证明了该文本表示方式的可靠性。本文在了解传统K-means与DBSCAN聚类算法后,对于K-means算法在初始选点问题进行优化,提出基于移动范围内密度最大选点方式的聚类算法,该算法既解决了选点个数问题,又解决了选点位置的难题,同时吸取了DBSCAN算法耗时的教训,在密度选点时,采用环域范围的方式加快遍历速度。实验结果表明,本文提出的算法在聚类准确效果以及运算时间的综合评估效果良好。将本文提出的基于卷积神经网络的词特征文本表示方法与基于移动范围密度最大选点方式的聚类算法相结合,并基于Dataframe存储方式的搜索最优文本以实现文本的推荐目的,提出基于深度学习的网络热点话题推荐研究框架,并且经过实验实现了该目标,验证了该方法的可行性。
其他文献
《喧哗与骚动》是威廉·福克纳的杰作之一,描述了一个经典的约克纳帕塔法世系家族的故事,即康普森一家逐渐衰落的故事。小说以其高超的写作技巧,深刻的意蕴表达和生动的人物刻画受到文学批评家们的极四关注。在福克纳的作品面世初期,他笔下的女性或失常或放荡,通常都境遇凄惨,命途多舛,因而他被误解为厌女主义者。但是,随着对其作品研究的深入,批评家们发现隐藏在文字之下的是福克纳对各类压制力量(包括父权力量)的批判和
多模态在人类信息传递和交际中无处不在,常指两个或两个以上模态资源来传递信息的符号系统。在传递信息的过程中又不可避免地涉及到了隐喻和转喻。轻轨标识是一个我们日常生活中常见的多模态语言象征符号,它是图像象征和文本象征的结合体。但是目前关于轻轨标识的大量研究仅仅局限于从静态角度分析其中的语言文字和功能语言学角度简要分析图文分布,而关于轻轨标识的多模态隐转喻意义构建的动态认知过程研究相对匮乏,尤其是重庆轻
新风负荷在大型公共建筑的空调能耗中占比较高,对新风负荷进行预测是降低建筑能耗、发展绿色建筑的有效途径。本课题分别针对商场类、旅店类、办公类三种不同类型的大型公共
可控励磁直线磁悬浮同步电动机是一种新型的直线电机,在励磁绕组通入电流产生电磁吸力,将平台悬浮在导轨上,实现了无摩擦运行,可以满足高精度数控机床对高定位精度和高速度的
P450超家族成员CYP17和CYP19分别是调控动物雄激素和雌激素合成的关键限速酶,在调控卵泡类固醇激素含量,维持卵泡生长发育过程中有重要作用。CYP17和CYP19在哺乳动物卵泡发育
近些年,随着生物医学水平和计算机技术的提高,人脸识别技术引起研究者们的广泛关注,其作为生物识别技术的一种,具有自然性和不容易被被测个体感知的特点,成为计算机视觉领域
污水污泥的处理是全世界急需解决的课题之一,它的排放不仅污染环境同时也是资源的浪费。热解是污泥等碳质资源提质利用的重要方式之一,但是污泥的高含氧量和高含氮量的特点限制了其热解提质。该论文在下坠式管式反应器中研究了污泥的催化热解,旨在降低热解液体产物中含氮和含氧类有机化合物(ONSs和OOSs),提高生物油品质。实验选取了三种不同类型的催化剂用于污泥快速热解挥发分的催化重整,分别是钙基催化剂(CBCs
图像融合是一种信息融合技术,为很多领域带来了实际的应用价值。对于图像融合任务来说,减少融合过程信息的丢失才能获得较好的融合结果。然而,现有的方法一定程度上存在信息
近年来,统计分类在机器学习中引起了广泛关注。对于分类问题,机器学习算法的性能极大地取决于不同模型的特征。一种可能的解决方案是我们可以使用集成学习来整合各种学习算法
随着国内外基础社会服务的提高和城市公共交通的不断建设和完善,目前可用于查询公交线路和监控车辆运营、调度信息的智能公交系统已日趋成熟,但在提高车载服务方面的研究还有