1.概括
随着社会经济的快速发展和股票市场的不断完善,股票投资越来越受到广泛关注。股价预测已成为工程认知计算领域的重要研究方向。数据驱动的股价预测旨在根据历史值和文本数据来预测未来的股价走势,可以有效帮助人们在股票投资过程中降低风险,提高回报。文章回顾了股票价格预测方法的文献,从模型和特征两个不同的角度对股票价格预测方法进行了分类。根据模型角度不同,现有的股价预测方法可分为统计分析方法、传统机器学习方法方法和深度学习方法。根据不同的特征角度,现有的股价预测方法可以分为基于数值数据的方法和基于文本与数值数据混合的方法。最后总结了股价预测面临的研究挑战并提出了未来的研究方向。

2.介绍
股票价格并不完全遵循随机游走和有效市场假设,具有长期记忆。市场具有高风险、高回报特点,预测分析受机构和投资者欢迎。预测旨在根据历史数据预测未来股价走势,帮助投资者降低风险、增加收益。股价反映经济格局变化,受多种因素影响,预测存在难度。近年来,多种学习方法和数据被用于股价预测,包括统计分析、机器学习和深度学习模型等。数值和文本数据都被用于预测,数据驱动方法更可靠和准确。预测是数据挖掘领域的研究热点之一。
研究思路
根据不同的研究思路,不同模型和特征视角下的股价预测方法如图所示。

(1)从模型不同来看,股价预测方法可分为统计分析方法、基于传统机器学习的方法和基于深度学习的方法。我们分析了三类方法在股价预测中的应用,并利用每种模型的优点构建组合预测模型。
(2)从不同特征的角度划分基于数值数据的研究和基于数值和文本数据的研究。股票市场是一个由多种要素组成的复杂系统。多源异构预测技术构建了融合多种特征的股价预测模型。评论信息包含财经网站、投资者决策以及各种预测指标。
不同思路的股价预测方法
股市存在不确定性,容易受到多种因素的影响。研究人员首先使用ARMA和ARIMA等统计分析方法来预测股票价格走势。随后,统计机器学习方法被广泛应用于股票预测研究中。CNN、RNN等深度学习方法的兴起也逐渐应用于这一任务。不同年份代表性的统计机器学习股价预测方法如图2所示。

- 统计分析方法
股票市场数据适合进行时间序列分析,尤其是ARMA和ARIMA模型。ARIMA能处理非线性、非平稳时间序列,并提高预测精度。GARCH模型用于处理非白噪声残差和预测非平稳时间序列,适用于股票数据。沪深300指数的日收盘价和日收益可采用类GARCH模型预测,提供短期股票价格的准确预测。
- 基于传统机器学习的方法
股票市场复杂,统计分析模型在大数据时代适用性降低。机器学习适用于处理大量数据,适应非平稳和非线性数据。股票价格波动不服从正态分布,BN网络速度快、易训练,可用于股价预测。小波变换能处理非平稳时间序列数据,提高预测准确率。SVM广泛应用于数据挖掘,但大样本集上训练困难。组合模型优化多种算法,减小预测误差,提高股票预测准确性。

- 基于深度学习的方法
随着计算能力的增强和大数据技术的进步,深度学习在股票预测领域取得了突破。BP神经网络、RBF神经网络、CNN、RNN和LSTM模型等深度学习模型被广泛应用于股票预测。这些模型通过优化学习步数、隐藏节点数量和激活函数等参数,提高了预测精度。RBF神经网络因其对非线性数据的预测精度高和学习速率快而常用于时间序列数据分析、模型识别和预测。CNN模型具有较好的特征提取和识别能力,可用于研究和分析股票报价。RNN和LSTM模型能够解决具有时间序列特征的数据问题,并取得了较好的预测效果。然而,这些模型也存在计算复杂度高、参数多等问题,需要进一步优化。
- 不同股价预测方法的绩效比较
- 股票价格预测方法的时间复杂度及预测结果比较:
随着机器学习和深度学习模型的完善,股价预测准确性提高。深度学习能自动提取样本特征和规则,发现行为变化模式,比统计分析和传统机器学习在序列建模上更强。组合模型结合各算法优点,预测精度更高。
- 不同模型的时间复杂度:
贝叶斯网络时间复杂度高于小波变换、SVM算法和BP神经网络。RBF网络隐含层神经元数量随训练样本增加远超BP网络,复杂度增加。CNN和RNN时间复杂度高于BP神经网络,LSTM模型改进RNN避免梯度消失并增强记忆能力,其时间复杂度高于CNN和RNN。

不同特征角度的股价预测方法
- 基于数值数据的股价预测方法
现有研究中基于数值数据的股价预测方法应用较多,主要是用某只股票在一定时期内的历史数据来预测未来价格。机器学习、深度学习和数据挖掘技术也用于此预测。
Wang等人在六因素模型基础上构建了八因素选股模型指标体系,使用随机森林模型预测200只股票涨跌,平均预测准确率75.50%。崔等使用HMM和多频率特征对沪深指数数据预测。RNN处理时间序列时考虑之前和之后的数据。朱对过去十年苹果股票数据标准化和缩放后,用RNN预测,准确率95%以上。
Mishra等用GRG非线性方法和遗传算法进化方法。Musa和Joshua用ARIMA和人工神经网络模型预测尼日利亚亚洲股市全股指数,结果表明混合模型比单一模型效果好。
- 基于数值和文本数据的股价预测方法
情感分类技术在股票价格预测中有重要作用。不同分类方法如机器学习、深度学习可用于财经文本情感分析,其中支持向量机和随机森林等方法被证明有效。社交媒体数据和财经新闻等文本数据可用于情感分类,以辅助投资决策。不同研究者使用各种方法完成金融文本情感分类任务。
- 不同股价预测方法的效果比较:

对于股票预测的未来展望
综上所述,股票预测模型种类繁多,均取得了良好的效果。但仍有许多问题尚未得到彻底解决。未来可能的研究挑战和观点主要有以下四个方面。
(1)大多数研究采用单一算法构建预测模型,缺乏将统计机器学习模型与传统股票分析方法(基本面分析和技术指标分析)相结合的研究。预测过程往往忽略股票的内在价值和市场因素的外在影响。未来我们可以利用各种算法的优点,调整模型特性,优化模型的加权平均,从而构建组合模型进行预测。股票相关指标特征的选取应充分利用因子分析等方法。我们还可以利用股市图像,可以充分捕捉不同股市的规律,更深入地探索股市。
(2)目前的股价预测方法大多简单地利用历史股票交易数据进行分析和预测,而没有考虑财经新闻、公司财报、股条评论等可能对投资者产生影响的文本信息。因此,应充分考虑文本信息对股市的影响。深度学习应该应用于股票价格预测。我们量化投资者的言论决策、财经新闻等文本数据,结合投资者的注意力。我们还构建模型,将其与历史股票交易数据融合,并利用多种信息源进行分析和预测。

(3)大多数模型以月或年为周期预测股票价格及其趋势,预测周期较长。他们不太可能更准确地预测每日股价及其涨跌,从而难以在实际操作中给出指导性建议。在未来的研究中,可以设置时间步长,选择不同的时间步长,应用智能方法或模式识别来捕捉股票的异常现象,通过实时检测进行定量分析。它能够评估预期收益,发现波动较大的股票走势的量化特征,根据股价收益和涨跌幅度,有效给出非平滑股票的买入和卖出信号。
(4)现有的预测模型基本可以满足对未来股票价格的预测。但大多数模型对股票未来走势进行笼统预测,准确度较低。提高预测精度仍然是一个问题。应综合考虑各种因素对模型和股票市场的影响,例如股票的交易情况。该模型用于研究多种类型的股票市场,同时在参数选择设置方面优化模型构建。建立普遍适用的模型使得股价预测模型具有较高的准确度,同时也为预测结果的可信度提供了指标。
结论
本文回顾了股票价格预测相关的背景知识,以及现有的股票价格预测方法和应用。我们根据不同的模型和不同的特点,从两个角度对现有的股价预测工作进行分类和总结。特别是对不同股票价格预测方法以及不同特征角度的预测方法所使用的数据集、文献来源和性能进行了比较。基于深度学习的模型取得了更好的结果。组合模型是当前重要的研究方法。基于数值和文本数据的股价预测方法是前沿研究方向。最后,总结了股价预测尚存的挑战并概述了其未来的研究方向。