怎么用机器学习模型做时间序列预测

如题所述

推荐答案 2017-06-20

SVM理论是在统计学习理论的基础上发展起来的,由于统计学习理论和SVM方法对有限样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难、局部极小点问题等。应用SVM进行回归预测的步骤具体如下:
1)实验规模的选取,决定训练集的数量、测试集的数量,以及两者的比例;2)预测参数的选取;3)对实验数据进行规范化处理;4)核函数的确定;5)核函数参数的确定。其中参数的选择对SVM的性能来说是十分重要的,对于本文的核函数使用RBF核函数,对于RBF核函数,SVM参数包括折衷参数C、核宽度C和不敏感参数E。目前SVM方法的参数、核函数的参数选择,在国际上都还没有形成统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻和交叉检验等进行寻优。实际应用中经常为了方便,主观设定一个较小的正数作为E的取值,本文首先在C和C的一定范围内取多个值来训练,定下各个参数取值的大概范围,然后利用留一法来具体选定参数值
股价时间序列的SVM模型最高阶确定
股价数据是一个时间序列,从时间序列的特征分析得知,股价具有时滞、后效性,当天的股价不仅还与当天各种特征有关,还与前几天的股价及特征相关,所以有必要把前几天的股价和特征作为自变量来考虑。最高阶确定基本原理是从低阶开始对系统建模,然后逐步增加模型的阶数,并用F检验对这些模型进行判别来确定最高阶n,这样才能更客观反映股票价格的时滞特性。具体操作步骤如下:假定一多输入单输出回归模型有N个样本、一个因变量(股价)、m- 1个自变量(特征),由低阶到高阶递推地采用SVM模型去拟合系统(这儿的拓阶就是把昨天股价当做自变量,对特征同时拓阶),并依次对相邻两个SVM模型采用F检验的方法判断模型阶次增加是否合适[ 7]。对相邻两模型SVM ( n)和SVM ( n+ 1)而言,有统计量Fi为:Fi=QSVR (n)- QSVR( n+1)QSVR (n)1N - m n - (m -1)mi =1,2,,, n(1)它服从自由度分别为m和(N - m n - (m -1) )的F分布,其中QSVR (n)和QSVR( n+1)分别为SVR ( n)和QSVR( n+1)的剩余离差平方和,若Fi< F(?,m, N-m n- (m-1) ),则SVM (n )模型是合适的;反之,继续拓展阶数。
前向浮动特征筛选
经过上述模型最高阶数的确定后,虽然确定了阶数为n的SVM模型,即n个特征,但其中某些特征对模型的预测精度有不利影响,本文采用基于SVM和留一法的前向浮动特征特征筛选算法选择对提高预测精度有利影响的特征。令B= {xj: j=1,2,,, k}表示特征全集, Am表示由B中的m个特征组成的特征子集,评价函数MSE (Am)和MSE (Ai) i =1,2,,, m -1的值都已知。本文采用的前向浮动特征筛选算法如下[9]:1)设置m =0, A0为空集,利用前向特征筛选方法寻找两个特征组成特征子集Am(m =2);2)使用前向特征筛选方法从未选择的特征子集(B -Am)中选择特征xm +1,得到子集Am+1;3)如果迭代次数达到预设值则退出,否则执行4);4)选择特征子集Am+1中最不重要的特征。如果xm+1是最不重要的特征即对任意jXm +1, J (Am +1- xm+1)FJ(Am +1- xj)成立,那么令m = m +1,返回2) (由于xm+1是最不重要的特征,所以无需从Am中排除原有的特征);如果最不重要的特征是xr( r =1,2,,, m )且MSE (Am+1- xr) < MSE (Am)成立,排除xr,令A'm= Am+1- xr;如果m =2,设置Am= A'm,J (Am) = J (A'm), ,返回2),否则转向步骤5);5)在特征子集A'm中寻找最不重要的特征xs,如果MSE (A'm- xs)EM SE (Am-1),那么设置Am= A'm, MSE (Am)= MSE (A'm),返回2);如果M SE (A'm- xs) < M SE (Am -1),那么A'm从中排除xs,得到A'm-1= Am- xs,令m = m -1;如果m =2,设置Am= A'm, MSE (Am) = MSE (A'm)返回2),否则转向5)。最后选择的特征用于后续建模预测。
预测评价指标及参比模型
训练结果评估阶段是对训练得出的模型推广能力进行验证,所谓推广能力是指经训练后的模型对未在训练集中出现的样本做出正确反应的能力。为了评价本文模型的优劣,选择BPANN、多变量自回归时间序列模型( CAR)和没有进行拓阶和特征筛选的SVM作为参比模型。采用均方误差(mean squared error, MSE)和平均绝对误差百分率(mean ab-solute percentage error, MAPE)作为评价指标。MSE和MAP定义如下:M SE=E(yi- y^i)2n( 2)MAPE=E| yi- y^i| /yin( 3)其中yi为真值, y^i为预测值, n为预测样本数。如果得出M SE, MAPE结果较小,则说明该评估模型的推广能力强,或泛化能力强,否则就说明其推广能力较差

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/YYNG88IG3WIqvNYNGWp.html

相似回答

【时间序列】时间序列预测算法总结答：特征工程与机器学习</：深入理解时间序列特征工程，例如异常检测和GBM类回归算法，如AdaBoost和GBDT（XGBoost、LightGBM），它们以决策树为基本单元，构建出强大的预测模型。深度学习视角自动化工具如NNI，提供了特征工程、神经网络架构搜索等服务。通过简单命令，我们可以启动实验，数据可视化直观呈现。DeepAR，基...

时间序列数据用基本线性回归模型吗和截面不同答：时间序列数据用基本线性回归模具。使用机器学习线性回归模型预测时间序列数据，要预测序列的未来时间步长的值，可训练回归机器学习，其中响应是训练序列，其值移动了一个时间步长，在输入序列的每个时间步，机器学习学习预测下一个。

深度学习时间序列预测如何构建矩阵答：深度学习时间序列预测在构建矩阵时需要在输入序列的每个时间步，LSTM网络都学习预测下一个时间步的值。时间序列预测一直以来是机器学习中的一个难题。要预测序列在将来时间步的值，需要将目标指定为将值移位了一个时间步的训练序列。预测变量是没有最终时间步的训练序列。为了更好地拟合并防止训练发散，需要...

掌握时间序列分析利器:Python库全解析!答：Tsfresh，凭借其特征提取功能，能自动从时间序列中抓取数百种特征，这些特征对于机器学习模型的构建无疑是一大助力，帮助我们深入理解数据的内在结构。综上，Python的这些时间序列分析库集合了统计分析、机器学习搜索和特征提取的精华，为深入探索和利用时间序列数据提供了全方位的支持，使得预测和决策更加精准和...

时间序列模型(三):MA模型答：2. 时间序列基础知识在深入MA模型前，务必掌握时间序列的基本概念，如单变量与多变量的区别，以及时序模型与机器学习的区别。《时间序列模型(一)》和《时间序列模型(二)：AR模型》将为你提供扎实的背景知识。3. MA模型的实质与应用MA模型的精髓在于，它假设数据围绕均值波动，其中白噪声的线性组合决定了...

一文囊括序列预测方法(源码)答：1、时间序列基本规则法-周期因子法；2、传统序列预测方法，如均值回归、ARIMA等线性模型；3、机器学习方法，将序列预测转为有监督建模预测，如XGBOOST集成学习方法，LSTM长短期记忆神经网络模型。当序列存在周期性时，通过加工出数据的周期性特征预测。这种比较麻烦，简述下流程不做展开。1、计算周期的因子 ...

怎么利用svm对时间序列进行建模答：最后选择的特征用于后续建模预测。预测评价指标及参比模型训练结果评估阶段是对训练得出的模型推广能力进行验证,所谓推广能力是指经训练后的模型对未在训练集中出现的样本做出正确反应的能力。为了评价本文模型的优劣,选择BPANN、多变量自回归时间序列模型( CAR)和没有进行拓阶和特征筛选的SVM作为参比模型。...

大家正在搜