【摘 要】
:
论文针对网络新闻的平台,提出利用自然语言处理和机器学习等算法进行内容组织和话题监控,从而提供用户便捷地定位“兴趣信息”的浏览体验。通过这套文本处理系统,用户可以采
论文部分内容阅读
论文针对网络新闻的平台,提出利用自然语言处理和机器学习等算法进行内容组织和话题监控,从而提供用户便捷地定位“兴趣信息”的浏览体验。通过这套文本处理系统,用户可以采集实时新闻,定制喜欢的新闻,以及按类别细化查找想看的文章。此外,用户还可以发现实时热点话题,跟踪感兴趣话题的动态。论文工作首先用传统的文本处理手段进行新闻组织、用户频道定制和话题发现,主要有:基于文本分类器自动划分用户感兴趣的新闻;基于Single-pass、NMF和LDA等文本处理算法对历史新闻进行话题发现。然后提出了一系列创新的新闻平台解决方案,主要有:基于HFTC算法进行新闻组织,自动构建出具有层次性的新闻聚类结构,帮助用户按带有语义描述信息的类别进行新闻查找;基于WBN-FTC进行话题发现,克服了FTC算法支持度阈值难以选择的缺点,不仅可以像LDA那样有效发现话题,而且摆脱了VSM模型的限制,在海量数据上的时间性能更好,此外,还可以通过调整参数来设置话题发现的粒度;在工程实践方面,本文提出基于搜索引擎技术实现挖掘算法,不仅提高系统运行效率,而且降低编程成本。同时,论文提出两套话题跟踪方案,分别基于查询扩展和组合分类器,并提出利用时序特征进行话题预测和模式识别。这些都为话题监控领域提供了更广阔的应用前景。
其他文献
文化自信是一个国家、一个民族生存发展的强大动力和精神支柱.十九大报告提出:“没有高度的文化自信没有文化的繁荣兴盛,就没有中华民族的伟大复兴.”优秀传统文化是中华民族
新媒体的独特表现使视觉传达朝着多维化、人性化、趣味化、参与性等方面发展,视觉、听觉、触觉、嗅觉等多种感官同时参与传达的过程,不同的设计形式相互结合形成新的信息传播
利用拟南芥耐低磷突变体lpt1-1、低钾敏感突变体lks1-1材料,通过对其与野生型蛋白表达差异的分析、差异表达蛋白的质谱分析、幼苗表型分析等,对与耐低磷、低钾敏感性状相关的基
本文以“疾病诊断和治疗方法”专利审查领域中的“非治疗目的外科手术方法”为出发点,比较中国审查实践和欧洲相应的审查实践,从而为我国医疗器械领域的专利审查提供借鉴.
幽门螺杆菌(Helicobacer Pylori,H Pylori)感染是慢性活动性胃炎、消化性溃疡、胃黏膜相关性淋巴组织(MALT)淋巴瘤的主要病因,与胃癌的发生亦有密切关系。我国属H.PYlori的高
2018年11月,在工信部和计世传媒的联合推动下,贵州贵阳推出了针对数据资产确权的交易型金融产品.这是贵州贵阳继不良资本、信用衍生品、专用供应链、大宗农产品、款期产品等
在视频信息高速膨胀的今天,如何在海量数据中快速高效的检索有用信息,找出感兴趣的内容,并对之进行有效的利用和管理,是多媒体信息检索和人工智能领域的一大挑战,已成为最新
近来年,我国科学技术在不断的发展,电子通信行业得到了很大的进步,电子通信技术的应用水平也随之得到了提升,给人们的生活提供了各种便利.然而电子通信在应用过程中仍然有一