【摘 要】
:
近年来,国家之间的网络对抗正变得越来越激烈,以高级持续性威胁为代表的定向网络攻击已经严重威胁到政府、军队和企业等重要机构和组织的网络安全。面对日益严峻的网络安全形势,安全人员亟需快速定位攻击来源,并从源头遏制网络攻击行为的能力。恶意代码是攻击者使用的重要工具和手段,但同时也是安全人员的重要溯源依据。目前基于恶意代码的溯源分析方法大多是从功能层面进行分析,但不同的攻击组织可以使用不同的方法包装同一功
论文部分内容阅读
近年来,国家之间的网络对抗正变得越来越激烈,以高级持续性威胁为代表的定向网络攻击已经严重威胁到政府、军队和企业等重要机构和组织的网络安全。面对日益严峻的网络安全形势,安全人员亟需快速定位攻击来源,并从源头遏制网络攻击行为的能力。恶意代码是攻击者使用的重要工具和手段,但同时也是安全人员的重要溯源依据。目前基于恶意代码的溯源分析方法大多是从功能层面进行分析,但不同的攻击组织可以使用不同的方法包装同一功能的恶意代码,并将其用于攻击;而同一攻击组织也会针对不同目标,开发不同功能的恶意代码,以上情况给溯源攻击组织的工作带来了很大的困难。针对以上问题,本文主要研究从恶意代码中提取能够明确指向其攻击组织的可见字符串和汇编代码片段,将其定义为该攻击组织的恶意代码基因。恶意代码基因是同一攻击组织的恶意代码样本特有,而其他攻击组织样本不具备的信息,具有排他性。攻击组织特征是该攻击组织所有恶意代码基因的集合。在此基础上,本文提出了一种基于恶意代码基因的攻击组织特征提取方法,主要工作可以概括如下:(1)提出了一种基于TF-IDF与Word2Vec融合的恶意代码可见字符串向量化方法。在提取恶意代码可见字符串基因时,需要确定某个可见字符串是否仅在某个攻击组织的样本存在。为了便于可见字符串间的比较,需要将可见字符串转化为易于比较的向量,针对Word2Vec模型侧重于词语的语义信息而忽略每个恶意代码可见字符串重要性的问题,本文首先使用TF-IDF算法计算恶意代码可见字符串在攻击组织样本中的权重,然后对UNICODE编码和特殊模式的可见字符串进行了权重叠加,最后将其与原始Word2Vec向量拼接,得到既包含恶意代码可见字符串语义信息又包含其重要程度的向量表示。(2)提出了一种基于自注意力机制的双向循环神经网络的汇编代码表示学习模型。在提取恶意代码的汇编代码基因时,需要确定某一汇编代码片段是否仅在某一个攻击组织中存在。为了便于汇编代码片段间的相互比较,需要将汇编函数转化为易于比较的向量。本文提出的模型能够更全面的学习不同编译器和优化级别上生成的恶意代码汇编函数的上下文语义,得到包含语义的汇编代码向量表示,尽可能消除不同的编译器和优化级别对恶意代码函数相似性检测带来的影响。(3)提出了基于恶意代码基因的攻击组织特征提取方法。恶意代码基因是某一攻击组织的恶意代码样本中特有的可见字符串和汇编代码片段,攻击组织特征是则该攻击组织的所有恶意代码基因的集合。在提取过程中,需要移除与其他攻击组织样本高度相似的可见字符串和汇编代码片段。在将恶意代码可见字符串与汇编函数转换为对应向量后,计算向量之间的余弦相似度,然后按照相似度进行排序,若某个可见字符串或汇编代码片段与其他攻击组织的可见字符串或汇编代码片段高度相似,则将移除该可见字符串和汇编代码片段。通过不断迭代,提取出在当前恶意代码样本集下该攻击组织所有恶意代码基因,作为攻击组织特征。(4)开发了基于恶意代码基因的攻击组织特征提取系统。最后,经过多项对比实验,验证了本文所提出的攻击组织特征提取方法的有效性。能够有效溯源到攻击组织中的特有基因,与其他方法相比查全率和查准率有着明显提升。
其他文献
目的 调查新型冠状病毒肺炎疫情下医护人员的职业倦怠情况,以了解其工作状态,为减轻其身心压力,提升其工作效能提供依据.方法 2020年1-2月,采用便利抽样方法,选取广东省29家三级甲等综合医院370名临床医护人员作为调查对象.应用MBI-GS职业倦怠调查问卷对调查对象进行问卷调查,并对调查数据进行统计分析.结果 调查对象个人情绪维度得分为2.0(1.0,2.6)分,去人格化维度得分为1.0(0.3,1.8)分,个人成就感维度得分为1.2(0.7,2.8)分.不同科室、职业类别、年龄及职称的调查对象其MBI
目的 了解重庆市沙坪坝区居民高血压患病现状及影响因素,为开展高血压预防控制工作提供依据.方法 采用多阶段分层随机抽样方法,在沙坪坝区6个镇街抽取1800名居民作为研究对象.对研究对象进行问卷调查、体格检查,同时采集研究对象血液测定空腹血糖、餐后2h血糖、血脂水平.采用SPSS 19.0进行统计分析.结果 研究对象高血压粗患病率为24.44%,标化患病率为20.82%.不同性别、年龄、文化程度、体质指数(BMI)及有害饮酒史、吸烟史、中心性肥胖情况、高血压家族史、中高强度娱乐活动和锻炼情况、红肉摄入情况、高
目的 了解新时期在校大学生健康素养现状及其影响因素,为完善高校健康教育工作,制定针对性的健康素养干预策略和措施提供依据.方法 采用多阶段分层整群随机抽样方法,选取河南某综合性大学2231名在校大学生作为调查对象,并进行健康素养问卷调查.采用卡方检验和多因素Logistic回归分析健康素养水平影响因素.结果 共有815名调查对象具备健康素养,调查对象健康素养水平为36.53%.不同性别、民族、年级、居住地、专业及父亲文化程度、母亲文化程度、家庭人口数和家庭人均月收入不同的调查对象健康素养水平差异均有统计学意
目的 探讨长沙市男男性行为者(MSM)对艾滋病病毒(HIV)暴露前预防(PrEP)用药需求及其影响因素.方法 依托长沙市MSM人群哨点监测站“湖南左岸彩虹工作组”,采用非概率抽样方法,选取2019年11月-2020年6月来检测或进行PrEP评估的MSM 295名作为调查对象.结果 54.2%的调查对象听说过HIV PrEP.单因素分析显示,不同月收入水平,是否出现过安全套破裂、滑脱等危险性性行为,最近6个月内是否有同性商业性行为及对当地MSM人群感染艾滋病疫情知晓情况不同的调查对象对HIV PrEP服务需
20世纪二三十年代,中国音乐文化发生了巨大的变化,显著的特点体现在音乐思潮的不断涌现。全文将从国粹主义思想、整体西化思想和中西兼容思想、国乐改良思想四个方面来论述中国音乐思潮对中国音乐文化所产生的影响。客观地评价了20世纪的中国音乐思潮。
目的 分析剖宫产手术椎管内麻醉后发生低血压的危险因素,为临床治疗制定防治策略.方法 选取2019年5月-2020年5月在沈阳市某医院妇产科行椎管内麻醉剖宫产的160例产妇为研究对象,按照行椎管内麻醉后是否发生低血压将产妇分为低血压组与非低血压组,对麻醉后低血压危险因素进行分析.结果 160例剖宫产产妇中,共有71例产妇行椎管内麻醉后发生低血压,占比44.4%;单因素分析结果显示,2组产妇麻醉方式、术前心率、妊娠前体质量指数(BMI)、妊娠后体质量增长量比较,差异均具有统计学意义(P<0.05);多因素Lo
目的 了解重庆市沙坪坝区游泳池水质卫生状况,为卫生监督管理提供科学依据.方法 于2016-2019年连续针对重庆市沙坪坝区对公众开放的游泳场所开展采样监测,本研究共采集了93家游泳池的324份水样.按照相关检验标准对样品中尿素、细菌总数、大肠菌群、浑浊度、pH值和游离性余氯6项指标进行检测,按照《游泳场所卫生标准》(GB/T 9667-1996)进行结果评价,采用SAS 9.4软件对资料进行统计分析.结果 324份水样中合格水样163份,总体合格率为50.31%,2016-2019年的合格率分别为32.5
目的 探讨富血小板血浆(PRP)治疗对慢性难愈合创面患者创面恢复的影响.方法 选取2019年7月-2021年2月达州市某医院诊治的86例慢性难愈合创面患者为研究对象,根据随机双色球分组法将患者分为对照组和研究组,每组43例.对照组患者行常规换药处理,研究组患者行PRP治疗.比较2组患者住院时间、创面完全愈合率,以及治疗90 d时的创面长度、宽度和深度.结果 治疗前,2组患者的创面大小(长度、宽度和深度)比较,差异均无统计学意义(P>0.05).治疗90 d时,研究组患者的创面大小(长度、宽度和深度)均明显
目的 探讨对索拉非尼治疗效果不佳的中晚期肝癌患者采用安罗替尼靶向治疗的临床效果.方法 选取2018年8月-2019年10月河南省某医院收治的20例中晚期肝癌患者为研究对象.给予患者口服安罗替尼12 mg,1次/d,连续服用14d后停用1周.21 d为1个疗程.患者均每6周通过复查CT或核磁共振评价疗效1次,根据CT或核磁共振测量的目标病灶最大直径判断治疗效果.观察患者的治疗效果、生存情况、不良反应发生情况.结果 1例(5%)达到部分缓解(PR),9例(45%)为疾病稳定(SD),10例(50%)出现疾病进
经过学者和科研人员的不懈努力以及信息化技术的不断发展和普及,互联网上迅速积累了海量的科技大数据。不同于互联网上爆发式增长的新闻、社交等信息,科技大数据有其独特的一面。科技数据主要以论文和学者信息等具有学术风格的资源为主体构成,其数量庞大但数据的冗余信息少,具有专业性强但不同领域间差异性大的特点。在对科技资源进行检索查询时,一方面由于科技大数据的独特数据特性导致了传统的检索算法难以满足学者用户的需求