文本预处理相关论文
本文基于深度学习框架及自然语言处理,将政企类文本智能分类过程中的文本预处理、模型构建、分类效果比较等环节进行了实现与分析。......
围绕标准文本的词性标注,针对通用词性标注集对标准文本标注不适配的问题,基于词性标注任务研究现状,提出一种针对标准文本特点的词性......
该文就文本自动聚类技术的发展及现状进行了系统的回顾,然后,针对社科领域的文本聚类进行了较为深入的探讨与研究,实现了两个实验......
Web2.0兴起让越来越多的网络使用者参与到社交网络中,他们热衷于进行资源分享,信息互换,互相之间的交流也越来越多。针对用户产生内容......
计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体包含了文本中重要的信息,命名实体识别是信息抽取研究中最有......
随着互连网络的迅速发展,人们获得越来越多的网络信息,但同时也带来了很多的负面影响,其中垃圾信息已成为人们日益关注的焦点问题。网......
随着互联网产业的飞速发展,网络上聚集了海量的数字信息资源,越来越多的研究人员把如何有效处理这些海量数据作为自己的研究课题,......
专利文献作为技术信息最有效的载体,囊括了全球90%以上的最新技术成果,对于知识产权的保护起着至关重要的作用。随着目前专利数量......
命名实体识别是目前自然语言处理研究的热点问题。MUC(Message Understanding Conferences)对命名实体的定义是:人们感兴趣的专有......
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访......
随着互联网的普及,网络已经成为人们获取信息的一个非常重要的手段。但是随着信息爆炸似的增长,人们很难在较短的时间内找到自己所......
随着互联网技术的快速发展和三网融合的大力推进,互联网上的视频数量呈海量增长,对于视频内容的分析和监管也越来越重要。传统对于敏......
互联网是随着时代发展产生的新型信息交流工具,如今已经进入了我们学习生活中的方方面面。与此同时网络上可交流的平台越来越多,在......
文本聚类是文本数据挖掘的重要技术,它是一种非监督学习,可以由计算机自动进行,不需要人工干预。文本聚类通过比较文本的相似性,能......
随着数据库和Internet技术的发展与应用,大量的文本数据也随之产生。用户很难从这些文本数据中获取自己所需的有价值的信息。因此,文......
随着计算机和因特网的迅速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富,这已成为数字图书馆的发展动力。同时网络存......
随着科技的日新月异,信息技术在不断发展,可以说这个时代就是一个信息爆炸的时代.针对海量的信息处理,文本分类技术应运而生,这种......
本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的......

