当前位置:网站首页 > 编程语言 > 正文

sgd和adam哪个好(SGD和Adam哪个好)



来源:中金点睛

Abstract

摘要

在量化投资领域,因子筛选和合成是构建有效选股组合的核心步骤。传统线性模型在处理因子非线性预测能力时存在局限,因此我们考虑是否可以借用机器学习模型(例如树模型、神经网络模型等)来挖掘因子非线性的预测能力。本报告重点探讨了使用树模型来提升多因子选股指数增强模型的效果。通过对比回归和分类模型、分析特征筛选的必要性、特征间的相关性,以及特征重要性指标,我们验证了XGBoost算法在因子筛选和合成中的应用潜力,并且在沪深300、中证500和中证1000指数增强中进行了不同参数和不同模型的较为全面的测试。

树模型用于因子合成与筛选的五问五答:

回归or分类?在量化因子选股的场景中,尽管股票收益率是连续变量,但考虑到收益率绝对值预测难度高等问题,我们常倾向于将问题转换为预测高收益和低收益股票的分类问题。测试结果也表明,XGBoost分类模型在沪深300成分股上的多头收益表现优于回归模型,分类树模型在量化因子选股场景中存在一定优势。

特征是否需要提前筛选?我们探讨了特征筛选在机器学习任务中的作用,包括提高模型性能、降低计算复杂度和增强模型可解释性。尽管特征筛选在高维数据处理中至关重要,但我们的测试发现XGBoost算法能够有效处理高维特征和特征间的相关性,减少了特征预筛选的必要性。

如何处理特征之间的相关性?特征(因子)之间的高相关性可能带来的问题包括:模型不稳定、难以解释、信息冗余。我们讨论了特征选择、降维、正则化和集成方法等策略来应对这一问题。由于XGBoost算法本身已经是集成模型,可以一定程度缓解高相关性的问题,因此在本文的测试场景下特征相关性的处理对模型的影响相对较小。

选择哪种特征重要性?XGBoost提供了'weight'、'gain'和'cover'三种评估特征重要性的指标。不同计算方法下的特征重要性排名存在差异,'weight'类型的特征重要性排名靠前的因子中基本面类型因子的占比较高,而‘gain’、‘cover’给出的重要性排名较为接近,价量类型的因子占比显著更高。

是否需在成分股内训练?对于沪深300、中证500和中证1000这三个宽基指数,我们预期树模型等机器学习模型的应用也需要对不同的指数进行差异化的训练范围选择。测试结果支持了我们的观点,即在沪深300指数增强中,成分股内训练的模型表现优于全市场训练的模型。

宽基指数增强中的应用:

我们提出了两种策略:模型信赖型策略和模型微调型策略,用于在不同宽基指数上进行指数增强。模型信赖型策略依赖于XGBoost分类模型给出的因子特征重要性排序来决定使用的因子和权重,而模型微调型策略则依赖于原指增模型确定的因子和权重,使用XGBoost分类模型的特征重要性进行微调。

1)沪深300指数模型微调型增强策略2015年以来年化超额收益8.4%,相比原组合提高了1.3个百分点,信息比由2.07提升至2.19;2)中证500指数模型微调型增强策略2015年以来年化超额收益17.0%,相比原组合提高了1.1个百分点,信息比由2.71提升至2.87;3)中证1000指数模型信赖型增强策略2018年以来年化超额收益22.3%,相比原组合提高了0.98个百分点,信息比略微下降,但近3年的表现有明显提升。

风险提示:本篇报告对于各类因子表现结论以及指数增强模型均基于历史数据,历史回测表现不代表未来,并不构成投资意见。

Text

正文

树模型用于因子合成与筛选的五问五答

因子筛选和合成作为因子挖掘研究中十分关键的步骤,最传统和常见的方案是基于线性模型的方法,通常会由分析师根据经济逻辑和回测表现来选择。例如在成长、盈利、估值、动量&反转、波动等等大类因子中,筛选各个大类中历史因子IC表现较好的因子作为入选因子,并进一步根据因子的过去一段时间的表现(滚动IC、滚动ICIR或者线性回归的Beta)来确定因子复合加权的权重。我们前期的指增模型《量化多因子系列(9):宽基指数增强2.0体系》中使用的也是线性的加权方法(滚动最优化ICIR)。

但正如我们在报告《量化多因子系列(2):非线性假设下的情景分析因子模型》中所提到的,量化因子研究中因子在不同特征的股票上会存在非线性的预测能力。因此我们很自然的想到,是否可以借用机器学习模型(例如树模型、神经网络模型等)来挖掘这些非线性的预测能力。

图表1:机器学习模型进行因子筛选和合成的优劣势


资料来源:Wind,中金公司研究部

本文中我们将主要验证树模型(以XGBoost为例)能否帮助提升传统的多因子选股指数增强模型的效果,以及怎样选择模型的类型和相关参数如何设置。

回归还是分类

回归和分类模型层面的差异和对比

在使用类似XGBoost等树模型来进行个股收益的预测时,我们常首先遇到的一个选择是,使用回归模型还是分类模型?首先我们简单的回顾一下树模型中回归模型和分类模型的差异。

1、目标函数:在回归问题中,通常使用均方误差(MSE)或均方根误差(RMSE)作为损失函数;在分类问题中,可以使用多种损失函数,如逻辑回归损失(适用于二分类问题)或多项式逻辑回归损失(适用于多分类问题)。

2、输出:回归模型的输出是连续的数值,预测结果通常是实数;分类模型的输出是离散的类别标签,预测结果是一个类别或类别的概率分布。

3、树的构建:回归树可能会更关注最小化误差的累积;分类树可能会更关注类别的区分度。

量化选股领域的模型选择:分类或许更合适

在我们的量化选股领域研究中,我们通常预测的目标是未来一段时间的股票收益,股票收益率通常是连续的变量。不过在研究中其实我们是有一定的倾向将预测变量从连续变量转为离散变量的:也就是说相比直接去预测股票收益,更倾向于将问题转换为预测收益较高的股票与收益较低的股票。例如,我们可以将收益率前30%的股票分类为‘1’,将后30%的股票分类为‘-1’,其余的股票分类为‘0’。

使用分类模型的优势可能包括以下几点:

► 准确预测股票未来收益率的具体数值是难度较高的,同时模型还可能会过拟合,无法对样本外的收益进行有效预测。分类模型往往稳健性更高,过拟合的程度相对更低。

► 部分投资者更关心胜率而不是平均收益。基本面投资者一般会更倾向于使用胜率更高的模型,因此分类模型可能更符合这类需求。

► 基于分类的模型与量化因子模型中常用的线性回归框架存在差异,因此可以提供一定的低相关的增益信息。

模型结果表现对比

我们使用沪深300成分股来做一个对于XGBoost分类模型与回归模型的效果对比,计算两种方法下的多头股票组合收益。分类模型时我们取每个截面收益率排名前30%的个股分类为‘1’,排名后30%的个股分类为‘-1’,其余个股分类为‘0’。具体的分类模型和回归模型的测试流程和参数如下:

特征(因子)集:中金量化策略团队开发的132个常见价量因子,以及88个基本面因子共220个因子。

调仓频率:月度

训练方法:滚动训练,避免单次训练带来的不稳定因素。具体来说,我们每次使用过去5年的数据作为训练集和验证集,验证集取总训练集数据的最后20%的样本数据,对未来6个月的目标作为样本外进行预测。我们将多期样本外数据拼合作为模型滚动样本外表现。滚动训练的方法详见报告《机器学习系列(3):如何结合树模型与深度学习的优势》。

持仓股票:分类模型时取每一期预测分类为1的股票,回归模型时取每一期预测排名前30%的股票。

到此这篇sgd和adam哪个好(SGD和Adam哪个好)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 学籍认证码如何获取(学籍认证码如何获取的)2025-08-29 09:27:07
  • ddp条件下卖方承担的风险(ddp条件下卖方承担的风险转移界限)2025-08-29 09:27:07
  • 制作启动盘的u盘怎么恢复u盘空间大小(制作了启动盘的u盘如何恢复)2025-08-29 09:27:07
  • pp是啥意思?(pp是啥意思 百分数)2025-08-29 09:27:07
  • 卡巴斯基更新不了怎么办呀(卡巴斯基安卓中文版怎么更新)2025-08-29 09:27:07
  • xmouse怎么设置宏(xmouse设置模拟按键)2025-08-29 09:27:07
  • 主板nvme接口(主板nvme接口兼容ngff)2025-08-29 09:27:07
  • 删除虚拟环境后包会一起删除吗(如何删除虚拟环境)2025-08-29 09:27:07
  • junit5和junit4的区别(junit5又名)2025-08-29 09:27:07
  • 好玩的代码游戏超级马里奥(有没有超级马里奥游戏)2025-08-29 09:27:07
  • 全屏图片