观测器

要规律不要噪声,模型是科学也是艺

发布时间:2023/4/27 14:38:33   
中科白癜风医院用疗效说话 http://baidianfeng.39.net/a_cjzz/180416/6169871.html

科技的进步,社会的发展,我们不知不觉已经进入了智能社会。神经网络、决策树、逻辑回归、XGBOOST、Lightgbm、GBDT、SVM等机器学习模型和算法业已成为了当今的时髦词汇,也是各大科技公司装点门面的利器。

伴随着计算能力和数据收集能力的大幅提升,模型的确变得越来越重要,大到宏观经济预测、天气预报、地质灾害预报、借款人违约概率预测等,小到对一家便利店每日营业额的估计,都离不开模型。那什么是模型呢?模型是指利用计算机科学、统计学、经济学等理论,从大量历史数据的分析中总结出来的统计规律,因此模型的基本要求是能较好地拟合历史数据。

但是,模型真正的作用绝不在于对历史数据的拟合,而在于对未来的预测。模型能够发挥作用的一个基本假设是“历史会重现”,即历史数据中隐含的事物发展规律会在未来继续发挥作用,这就要求建模人员在训练模型时要确保模型从历史数据中学到的是“规律”,而不是随机扰动的“噪声”,这是广大建模人员不懈追求的目标。

为了减少噪声对模型预测效果的影响,在用收集到的数据训练模型之前,往往需要对数据进行预处理,主要包括以下几个方面:

1、缺失值处理

缺失值产生的原因较多,包括新增变量导致的变量上线之前数据缺失、计算错误、数据未收集等。除了对计算错误的需要重新计算以外,对缺失数据的处理方式通常包括:删除有缺失或缺失比例较高的观测、删除有缺失或缺失比例较高的变量、用变量的均值或中位数填充缺失值等。不同的缺失值处理方法各有利弊,删除观测或变量会导致未缺失的观测也会被删除,从而导致信息的损失,好处在于保留下来的数据是完全真实的;用特定数值填充缺失值,虽然不会造成信息损失,但是当缺失率较高时,用特定数值填充缺失值会导致变量的区分能力显著下降。

因此,通常的做法是:对于缺失比例较高(如缺失率大于75%)的观测进行删除;对于缺失比例较高的变量进行删除或将缺失值作为该变量的单独一类取值进行分析;对于缺失比例较低的观测或变量,则采用中位数或平均值进行填充。

2、异常值处理

异常值产生的原因包括:计算错误、特殊事件扰动以及厚尾分布产生的异常值等,异常值不能代表事件的“规律性”,因此在训练模型之前需要对异常值进行处理。

当然,不同的模型或算法受异常值影响的程度是不同的,比如决策树模型(如CART、GBDT、XGBOOST、Lightgbm等)受异常值的影响较小,而逻辑回归、线性回归模型等线性模型受异常值的影响较大,因此在正式训练模型之前一般都需要对异常值进行处理。首选需要对异常值进行识别,即哪些值可以被认为是异常值,通常是基于正态分布的3σ原则和切比雪夫不等式来判定异常值。

对于计算错误的需要重新计算,对于其他情形的异常值一般采用两端拉平的方式进行处理,比如分别用1%和99%分位点的值代替小于1%和大于99%的变量取值。

3、特征工程

收集了基本指标数据之后,并不意味着就可以马上开始建模了,因为单个基本指标通常只从某个方面反映了与目标变量之间的关系信息,通常对目标变量的预测能力不会太好。因此,需要对基本变量之间进行加减乘除以及平方、取对数、开方等函数变换或对多条观测进行聚合,甚至需要对聚合的结果再次进行各类函数变换,从而衍生出更多维度的变量,这一过程称为特征工程。在模型算法相对标准化的情况下,特征工程就变得尤为重要,在某种程度上决定了最终模型效果的优劣。

当完成数据预处理之后,就可以用处理好的数据训练模型了。在训练模型时,既要用到统计学原理,也要用到建模人员对业务的理解和建模经验,选择、调整各类模型算法的参数,使得最终模型能有较好的预测效果。

在训练模型时,建模人员需要平衡预测模型的偏差(bias)和方差(variance),尤其要注意两方面的错误,即过拟合(overfitting)和欠拟合(underfitting)。过拟合,是指模型在训练集上的拟合效果很好,但在训练集之外的预测效果较差,即模型表现出较低的偏差和较高的方差。欠拟合,是指模型在训练集上的拟合效果较差,在训练集之外的预测准确率也较差,通常表现为较低的方差和较高的偏差。

为了避免模型出现过拟合或欠拟合情况,通常需要将建模数据集分为三组,即训练集(training)、测试集(testing)和验证集(validation),其中训练集是用来训练模型,得到模型参数;测试集是用来从训练集训练出来的众多模型中挑选一个预测能力和稳定性都较好的模型,验证集是用来评估最终模型的泛化能力即广义误差的。训练集、测试集和验证集的样本量比例通常可以定为7:2:1,但也没有统一的标准。

由此可见,建模过程是在一定的理论指导下开展的,具有明显的“科学”性,也是一个需要凭经验和直觉选择、调整模型的仁者见仁智者见智的过程,并没有一个精确的数学公式来判定应该选哪个模型,建模过程具有明显的“艺术”性,相同的建模数据和模型算法,不同的建模人员训练出的模型效果可能会有天壤之别。模型是科学也是艺术,这也正是模型的魅力所在。



转载请注明:http://www.aideyishus.com/lkgx/4540.html
------分隔线----------------------------