本篇文章1423字,读完约4分钟

发行日期:年2月6日

研究员:林晓明s0570516010001/陈烨s0570518080004/李子钰s0570519110003 。

中心视点

本文介绍了机器学习解释方法的原理,以xgboost选股模型为例揭示了黑匣子 。

本文介绍了六种机器学习模式说明方法的原理,以华泰xgboost选股模型为例,尝试阐明了机器学习模式的“黑匣子”。 机器学习多属于黑匣子模型,资管领域的伦理需要可解释的白匣子模型。 除了以前传来的特征的重要性,ice、pdp、sdt、lime、shap都是说明模型的有力工具。 打开选择模型的黑匣子,发现1 )价格类因子的重要性总体上高于基类因子。 2)xgboost模型在非线性逻辑中采用因子,因子的非线性优势在市场价格、反转、技术、情感因子中尤为明显。

现在人工智能算法的本质依然是样本拟合,直接采用模型的结论可能有风险 。

现在的人工智能算法即使是近年来迅速发展的深度神经网络,也与线性回归没有本质区别,拟合了样本特征x和标签y,不仅机器学习模型的非线性拟合能力更强。 人工智能不具备真正的“智能”。 模型只能学习特征和标签的关系,但不能发掘其因果关系。 如果不打开机器学习模型的黑匣子,不明确机器学习模型的“思考”过程,直接采用机器学习的评价结果,可能会带来很大的风险。

近年来,研究者提出了许多机器学习模式的解释方法,核心思想不同 。

近年来,研究者提出了许多机器学习模型的解释方法,除了以前流传下来的特征的重要性外,ice、pdp、sdt、lime、shap是揭示机器学习模型黑匣子的有力工具。 特征重要度计算根据某个特征决定树分裂时,分裂前后的新闻增益。 ice和pdp考察了某个特征不同的可取值对模型输出值的影响。 sdt用一根决策树说明其他更多复杂的机器学习模型。 lime的中心思想是对每个样本寻找更容易解释的代理模型来解释原始模型。 shap的概念来自博弈论,核心思想是计算特征对模型输出的边际贡献。

应用多种机器学习模型的解释方法,明确xgboost选择模型的“黑匣子”

我们试图应用许多机器学习模型的解释方法,分解以~年为训练和验证集、以2019年全年为测试集的模型,明确xgboost的股票选择模型的“黑匣子”。 特征的重要性和sdt的结果表明价值量类因子的重要性总体上高于基本面类因子。 ice和lime可以给出模型预测一株的依据。 pdp和shap结果表明:1) xgboost模型采用非线性逻辑因子,因子的非线性优势在市场价格、反转、技术、情感因子方面尤为明显。 2 )部分因子之间有很强的相互作用3 )部分因子界限贡献0将来可以考虑提前去除。

shap理论完善,表现直观,从全球和个人层面表现出特征的边际贡献

shap的优点是理论完善,表现直观,可以从全局层面判断特征的重要性,同时从个人层面判断各样本的各特征对模型输出的影响,显示特征之间的相互作用。 shap展示了模型如何使用因子,相反也有助于加深因子的理解。 几种机器学习模式的解释方法各有专长,综合来说建议采用shap。

风险提示:人工智能选择股是历史规则的总结,将来规则发生变化时,模型有失效的风险。 人工智能的股票选择模型有拟合风险。 机器学习模型的解释方法有过度简化的风险。

本文首次在微信公共平台:华泰证券( 601688,股票吧)研究所发表。 复印件是作者个人的观点,不代表搜狐网的角度。 投资者据此,风险请自己承担。

来源:搜狐微门户

标题:“揭开机器学习模型的“黑箱””

地址:http://www.shwmhw.com/shxw/69513.html