【摘 要】
:
针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法。该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT-BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性。通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类
【机 构】
:
江苏警官学院计算机信息与网络安全系,江苏警官学院江苏省电子数据取证分析工程研究中心,江苏警官学院江苏省公安厅数字取证重点实验室,江苏省公安厅网络安全保卫总队,南京市公安局大数据中心
【基金项目】
:
江苏省公安厅科技研究(2020KX008)资助项目,江苏省高等学校自然科学基金(19KJB510022)资助项目,江苏警官学院高层次引进人才科研启动基金资助项目。
论文部分内容阅读
针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法。该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT-BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性。通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类
其他文献
摘要:鋁合金在激光-熔化极惰性气体保护(melt inert-gas,MIG)复合热源焊接过程中形成的气孔会引起应力集中、降低焊接接头的强度和塑性等问题,从而明显降低焊接接头的性能。采用激光-MIG复合热源焊接技术,对4 mm厚7N01P铝合金进行了对接焊接,分析了焊接工艺对焊接接头中气孔的影响。结果表明,采用复合热源焊接技术,在送丝速度为7.0、8.0、9.0 m/min,焊接速度为0.9、1.
摘要:针对铝合金滑板车导轨型材制造过程中出现的质量问题,采用平模设计对铝合金挤压过程中出现的形位尺寸、缩尾与粗晶环等重大生产风险点进行了分析,并提出了降低铸锭上机温度、优化挤压模具结构等相应的控制措施,形成了质量控制方案,最终制备出符合用户要求的铝合金滑板车导轨型材产品。 关键词:滑板车导轨型材;挤压;缩尾;粗晶环 中图分类号:TG 376 文献标志码:A 基金项目:广东省省级科技计划项目(
基于深度学习的骨导语音盲增强已经取得了较好的效果,但仍存在模型体积大、计算复杂度高等问题。为此提出一种融合卷积网络和残差长短时记忆网络的轻量级骨导语音增强深度学习模型,该模型在保持语音增强质量的前提下,能有效提升骨导语音盲增强的效率。该模型借助卷积网络参数量小、特征提取能力强等优点,在语谱图频率维度引入卷积结构,从而深入挖掘时频结构的细节和高低频信息间的关联关系以提取新型特征,并将此新型特征输入改进后的长短时记忆网络中,用于恢复高频成分信息并重构语音信号。通过在骨导语音数据库上实验,表明所提模型可以有效改
光学相干层析-血管内超声联合(Optical coherence tomography intravascular ultrasound,OCT-IVUS)成像技术能同时弥补光学相干涉成像的低成像深度与超声成像的低分辨率,能够较为全面地进行血管内的易损斑块识别,但受血管内超声(Intravascular ultrasound,IVUS)技术超声激发重复频率限制,OCT-IVUS成像难以在高帧率成像
文章提出水力资源开发需遵循的原则,重点对贺江干流和重要支流进行梯级规划,规划过程中综合考虑水资源的综合利用和生态环境保护的要求,经多次优化设计,制定了梯级开发方案,本轮规划期内贺江干流梯级规划为13级开发方案、大宁河干流梯级规划为8级开发方案、东安江干流梯级规划为5级开发方案。研究成果可以减小对生态环境的不利影响。
针对欠定盲源分离(Underdetermined blind source separation,UBSS)问题,采用基于密度的空间聚类(Density based spatial clustering of applications with noise,DBSCAN)算法估计聚类中心时易陷入局部最优,因此由聚类中心坐标构成的混合矩阵的精度降低,导致信号分离结果不理想。本文在DBSCAN基础上提出布谷鸟自适应搜索群优化算法(Cuckoo adaptive search swarm optimizatio
为了对环境声音进行更好的识别和分类,提出了基于多级残差网络(Multilevel residual network,Mul-EnvResNet)的环境声音分类方法。对声音事件进行时标和基频压扩之后,提取其梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCCs),以及它们的差分作为特征参数送入MulEnvResNet对声音事件进行分类。实验数据集采用ESC-50,将Mul-EnvResNet模型与端到端的卷积神经网络(EnvNet)、基于注意力机制的循环神经网络
针对数字助听器中回声消除算法计算复杂度高的问题,提出了一种基于集员滤波(Set membership filtering,SMF)理论的变步长基于L0范数的改进比例归一化最小均方误差算法(L0-norm constrained improved proportional NLMS,L0-IPNLMS)算法。该算法将集员滤波的时变步长引入到L0-IPNLMS算法中,不仅提高了系统的收敛特性,而且充分利用了集员滤波理论的数据选择更新特性,在误差幅度有界的前提下进行滤波器系数的更新,减少了不必要的迭代次数,降低
传统的语音文档分类系统通常是基于语音识别系统所转录的文本实现的,识别错误会严重影响到这类系统的性能。尽管将语音和识别文本融合可以一定程度上减轻识别错误的影响,但大多数融合都是在表示向量层面融合,没有充分利用语音声学和语义信息之间的互补性。本文提出融合声学特征和深度特征的神经网络语音文档分类,在神经网络训练中,首先采用训练好的声学模型为每个语音文档提取包含语义信息的深度特征,然后将语音文档的声学特征和深度特征通过门控机制逐帧进行融合,融合后的特征用于语音文档分类。在语音新闻播报语料集上进行实验,本文提出的系
准确解析水电站的尾水位特性是对其进行建模、从而实现尾水位高精度预测的关键。首先采用定性与定量分析相结合的方法揭示了水电站尾水位变化的后效性特征;然后基于相关性分析初步探明了尾水位变化过程的关键影响因子;进一步构建了水电站尾水位特性的多项式拟合模型和支持向量回归模型,并对比分析了各模型描述水电站尾水位特性的性能。溪洛渡-向家坝梯级和三峡-葛洲坝梯级水电站的实例研究表明,四座水电站2小时尺度的尾水位变化过程后效性特征显著,以当前和前一时段的下泄流量以及下游电站水位或下游支流来水为输入的支持向量回归模型是一种实