论文部分内容阅读
随着Web服务方式的发展,新型的数据资源Web API大量地涌现出来。为了更加方便地管理快速增长的Web API,人们基于Web API的描述文本使用标签信息对Web API进行标记,而如何正确高效地对Web API进行分类标注的方式显得尤为重要。鉴于此,本文结合深度学习与文本内容分析的相关技术,对于Web API单标签的分类任务,将卷积神经网络(Convolutional Neural Network,CNN)文本分类模型应用于Web API数据,实践CNN对Web API数据的分类效果;对于Web API多标签的标注任务,本文基于文本内容分析及协同过滤的思想,提出基于自编码网络的协同标注模型进行处理。本文的创新之处在于使用自编码网络提取的文本特征来增强相似性计算继而基于文本内容进行协同标注,避免了因为Web API数据稀疏导致协同标注效果不佳的情况。具体来说,本文的主要工作如下:1)通过CNN有监督地学习方式,将相关的基于CNN的分类标注模型应用于Web API文本数据上,并设计相关的实验来验证分类标注模型对Web API文本的分类效果。本文使用的基于CNN分类标注模型有两个,一个是通过CNN连接Softmax进行文本分类;另一个是使用CNN提取文本特征,然后计算文本特征向量与类别标记之间的相似度,并通过相似性对API文本进行分类。2)提出基于自编码网络的Web API协同标注模型,使用自编码网络对Web API文本内容进行无监督地学习,提取得到Web API的文本特征。由于Web API数据的稀疏性,不能直接使用协同过滤算法对Web API数据进行标签推荐。利用自编码网络学习得到的Web API文本特征,求得待标注API的相似API集合,根据相似API集合中的标签类别,完成多个标签的标注任务。设置不同的协同过滤算法中的超参数,查看超参数对Web API协同标注模型的影响。3)选取各个模型中效果最好的结果,纵向比较模型对Web API的分类或者标注的效果,实验最终结果表明基于自编码网络的协同标注模型对于Web API文本的综合分类效果最好。