【摘 要】
:
基于美国最大的P2P平台Lending Club2019年的个人借款数据,尝试将深度学习方法引入个人信用风险评估领域,与集成学习构建串联结构的组合学习模型.具体做法是将深度神经网络的隐藏层作为“特征提取器”,将原始变量转换为更高层次的抽象特征后输入随机森林、XGBoost、LightGBM和CatBoost 4种集成学习模型进行训练.研究结果表明,4种集成学习模型之间差距不大,随机森林表现最好,LightGBM训练速度最快;稀疏自编码器相比深度神经网络和主成分分析更适合作为集成学习的特征提取器,尤其是对B
【机 构】
:
复旦大学经济学院,上海200433
论文部分内容阅读
基于美国最大的P2P平台Lending Club2019年的个人借款数据,尝试将深度学习方法引入个人信用风险评估领域,与集成学习构建串联结构的组合学习模型.具体做法是将深度神经网络的隐藏层作为“特征提取器”,将原始变量转换为更高层次的抽象特征后输入随机森林、XGBoost、LightGBM和CatBoost 4种集成学习模型进行训练.研究结果表明,4种集成学习模型之间差距不大,随机森林表现最好,LightGBM训练速度最快;稀疏自编码器相比深度神经网络和主成分分析更适合作为集成学习的特征提取器,尤其是对Boosting类模型效果的提升更为明显.
其他文献
宽带数字阵列雷达(WB-DAR)具有模式多变、抗干扰能力强的优势,还兼具高距离分辨力,能够获取未知目标距离像,对目标进行分类和识别.大带宽信号的使用引入了孔径渡越时间的约束,因此,宽带数字阵列雷达需采用基于时延的宽带波束形成方法,以数字时延补偿方式取代传统窄带相控阵中的移相器来形成波束.该文在宽带数字阵列基础上,针对多级抽取结合可变分数时延滤波器的典型接收通道结构,提出了一种新的接收通道优化设计方法.与原方法相比,在满足同样性能要求的情况下,该方法能够降低抗混叠滤波器和分数时延滤波器的阶数,有效地节约了系
Air pollution by particulate matter (PM) is one of the main threats to human health,particularly in large cities where pollution levels are continually exceeded.According to their source of emission,geography,and local me-teorology,the pollutant particles
Epidemiological studies have suggested that inhalation exposure to indoor ambient air from coal-burning envi-ronments is causally associated with respiratory health risks.In order to explore the toxicological mechanisms behind the adverse health effects,t
股票预测本质上是数据挖掘的问题,大盘走势是一个很好的股票买卖时机抉择信号.在量化分析中,常用深度学习技术对大盘历史数据进行拟合与特征提取,为股票投资提供决策参考.该文首先训练了一个经典深度神经网络对沪深300的日K量价数据进行监督学习,实现了一个输出“涨跌”概率的二分类预测器,并以此制定策略进行模拟交易,利用测试集数据计算累积收益率,从而评估投资策略的优劣.此外,还构造了一种混合量子?经典神经网络模型,充分利用量子计算的线路模型特点,构造参数化变分量子线路,实现了量子前馈神经网络.在量子线路学习框架中,将
考虑到实际分布式存储系统中节点故障情况的多样性,该文提出一种基于非均匀循环编码的分组修复码(GRC-NCC),使高故障率节点得到更有效的保护.具体地,根据节点故障率对存储节点进行非均匀分组,将数据块依次存入长度递增的节点分组,再使用跨条带循环编码的思路生成组编码块和全局校验块.性能分析以及实验仿真表明,GRC-NCC虽然具有高于RS码的存储开销,但与RS码和重叠分组修复码相比,该方法在故障节点修复过程中具有较低的修复带宽开销和修复局部性,且在多节点故障修复过程中性能更优,容错性更好.
在级联开关变换器中,负载变换器前馈电流纹波可重塑源变换器的输出电压纹波,导致源变换器的稳定性发生变化.以峰值电压纹波(PVR)控制Buck变换器级联峰值电流模式(PCM)控制Boost变换器为例,研究了级联开关变换器中源变换器的稳定性机理.首先,展示了负载变换器前馈电流纹波对源变换器稳定性的影响,分析了源变换器随所选电路参数变化的分岔行为;其次,建立了级联开关变换器具有3种开关状态序列的离散映射模型,推导了其在不动点邻域内的Jacobi矩阵,通过监测Jacobi矩阵的特征根轨迹明晰了源变换器随所选电路参数
传统的级联预测模型不考虑信息传播过程中的动态性且极大依赖于人工标记特征,推广性差,预测准确性低.为此,该文提出一种融合动态图表示和自注意力机制的级联预测模型(DySatCas).该模型采用端到端的方式,避免了人工标记特征造成级联图表示困难的问题;通过子图采样捕获级联图的动态演化过程,引入自注意力机制,更好地融合在观测窗口中学到的信息级联图的动态结构变化和时序特征,为网络合理地分配权重值,减少了信息的损失,提升了预测性能.实验结果表明,DySatCas与现有的基线预测模型相比,预测准确性有明显提升.
事件抽取是构建知识图谱的关键前置任务之一,而事件论元抽取是事件抽取的子任务,对事件抽取质量有显著影响.针对现有的流水线式事件抽取方法在论元抽取时忽略了触发词和论元间、论元和论元间相互关系导致抽取质量低的问题,该文提出了一种基于双向门控循环神经网络(Bi-GRU)的事件论元抽取方法.该方法融合Bert词向量、词性特征、词位置特征和触发词类型特征作为输入,采用Bi-GRU网络对文本中的词进行编码,进而应用改进的多注意力机制为句子不同部分分配权重提取句子级别特征,最后通过全连接层实现论元识别和角色分类.在基准数
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键.针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法.首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,利用实体类型来丰富句子编码信息;最后,将一个依存句法分析模块纳入模型,共同组成了关系抽取器.同时,为实现标签级别的降噪,该文结合强化学习方法,设计了一个标签学习器来学习句子的软标签,以纠正错
广义旁瓣对消器GSC在传统的机载相控阵雷达的干扰抑制中有着广泛应用,辅助通道的选择直接影响干扰抑制效果.在共形阵列中,由于各个阵元的摆放方式不同导致每个阵元的单元方向图响应并不相同,选择合适的辅助通道更为重要.该文在共形阵信号模型基础上,提出了一种以最小化广义旁瓣对消输出为目标的优化方法.为了解决非凸的0-1优化问题,该文采用惩罚序列凸规划SCP算法,并基于最大最小MM算法求解.仿真和数值结果证明了该文算法在共形阵下能准确选择出具有良好干扰抑制性能的辅助通道.