量化预测 (量化模型的准确率)

有预感,量化即将快步进入寻常平常百姓家,不再是专业机构神秘的面纱。

掘金量化,目前开户都可以零门槛,只是费率高一点,赶紧去官网学习一下,看看能不能掘点金。

量化模型的准确率,量化预测

它的平台架构,跟QMT一样,需本地开机运行,灵活度高、但对小散不友好。

从操作文档上来看,感觉比QMT好用, 支持Python、C++、C#和Matlab四种语言,还可接入第三方IDE ,可以采用自己熟悉的工具开发,比如习惯了用JetBrains PyCharm开发Python的,可以继续使用,效率高很多。

直接看一个高大上的,用机器学习做量化交易,感受一下量化预测模型,看看是不是我想要的。

以下机器学习的介绍、代码、回测均来自掘金量化官方文档。

机器学习(股票)

1.策略介绍

什么是机器学习?

随着计算机技术的发展,投资者不再只局限于传统投资策略,机器学习在资本市场得到广泛应用。机器学习的核心是通过机器模仿人类的思考过程以及思维习惯,通过对现有数据的学习,对问题进行预测和决策。目前,机器学习已在人脸识别、智能投顾、自然语言处理等方面得到广泛应用。

机器学习可以分为两类,一类是无监督学习,另一类是监督学习。监督学习是指按照已有的标记进行学习,即已经有准确的分类信息。比如二分类问题,一类是“好”,另一类是“不好”,这种明确地指出分类基准的问题。这类模型包括:神经网络、决策树、支持向量机等。

无监督学习是指针对未标记过的数据集进行学习。比如聚类问题,没有准确的标准说明应该聚成几类,只有相对概念。这类模型包括:K_means 聚类、层次聚类法等。

什么是支持向量机?

支持向量机是最典型的一类机器学习模型,常用于解决二分类问题。支持向量机的原理是在一个样本空间内,找到一个平面,将样本数据分为两个部分,即两个分类,这个平面就叫做超平面。

怎样确定超平面?

假设有一个线性可分的二分类问题如图所示。

量化模型的准确率,量化预测

已知 A、B、C 三条线均可以将样本空间分为两类,那么问题来了,应该选择哪一个?

SVM 模型指出,如果超平面能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则把这个超平面称作最优超平面,即上图中的 B 平面。两类样本中距离最优超平面的点成为支持向量,支持向量机模型的名字由此得出。

量化模型的准确率,量化预测

支持向量机背后的数学原理十分优美,但由于推导过程过于复杂,这里不再赘述。总之,支持向量机的核心就是寻找最优超平面。

支持向量机不仅可以解决线性可分问题,也可以解决非线性可分问题。其核心思想是将原始样本点映射到高维空间上,将非线性转化为线性可分,在高维空间中找到满足条件的最优超平面,再映射到低维空间中。

利用支持向量机预测股票涨跌

在利用支持向量机进行预测之前,先将数据集分为训练集和测试集。常用的分类方法是将数据及进行 8:2 分解,0.8 部分是训练集,0.2 部分是测试集。用训练集训练模型,再用测试集评价模型的准确率等指标。

在利用支持向量机预测时,还有很重要的一步是进行参数优化。SVM 的参数包括以下几个。

参数符号

参数说明

C

罚函数,错误项的惩罚系数,默认为 1。C 越大,对错误样本的惩罚力度越大,准确度越高但泛化能力越低(泛化能力是指拓展到测试集中的准确率)。C 越小,允许样本增加一点错误,使泛化能力提高。

Kernel

核函数,包括 linear(线型核函数)、poly(多项式核函数)、rbf(高斯核函数)、sigmod(sigmod 核函数)。

degree

当核函数选成多项式核函数时对应的阶数。

Gamma

核函数系数。

还有一些其他的参数,因为本示例不对其进行优化,所以这里不再赘述了。

参数优化

本示例采用网格搜索算法优化参数,训练好的参数为 C = 0.6, gamma = 0.001,训练后的准确率为 0.50。(这个准确率虽然看起来很低,但在现实生活中准确率都处于较低水平,这里暂时用这个优化后的参数进行建模。)

2.策略逻辑

第一步:获取原始数据,这里获取 2016-04-01 到 2017-07-30 的数据。

第二步:计算 SVM 模型的输入变量。

x 表示输入的特征值,共 7 个,分别为:

参数符号

计算方法

x1

最新收盘价/15 日收盘价均值

x2

现量/15 日均量

x3

最新最高价/15 日均价

x4

最新最低价/15 日均价

x5

现量

x6

15 日区间收益率

x7

15 日区间标准差

y 表示 5 个交易日后收盘价是否上涨

参数符号

含义

y = 1

表示股价上涨

y = 0

表示股价下跌

第三步:利用训练好的模型预测股价未来走向。若上涨(y=1)则开仓。

第四步:设置止损止盈点。 若已经持有仓位则在盈利大于 10%的时候止盈,在星期五损失大于 2%的时候止损。

回测时间:2017-07-01 09:00:00 到 2017-10-01 09:00:00

回测初始资金:1000 万

回测标的:SHSE.600000

3.策略代码

# coding=utf-8
from __future__ import print_function, absolute_import, unicode_literals
from datetime import datetime
import numpy as np
from gm.api import *
import sys
try:
    from sklearn import svm
except:
    print('请安装scikit-learn库和带mkl的numpy')
    sys.exit(-1)
'''
本策略选取了七个特征变量组成了滑动窗口长度为15天的训练集,随后训练了一个二分类(上涨/下跌)的支持向量机模型.
若没有仓位则在每个星期一的时候输入标的股票近15个交易日的特征变量进行预测,并在预测结果为上涨的时候购买标的.
若已经持有仓位则在盈利大于10%的时候止盈,在星期五损失大于2%的时候止损.
特征变量为:1.收盘价/均值2.现量/均量3.最高价/均价4.最低价/均价5.现量6.区间收益率7.区间标准差
训练数据为:SHSE.600000浦发银行,时间从2016-04-01到2017-07-30
回测时间为:2017-07-01 09:00:00到2017-10-01 09:00:00
'''
def init(context):
    # 订阅浦发银行的分钟bar行情
    context.symbol = 'SHSE.600000'
    subscribe(symbols=context.symbol, frequency='60s')
    start_date = '2016-04-01'  # SVM训练起始时间
    end_date = '2017-07-30'  # SVM训练终止时间
    # 用于记录工作日
    # 获取目标股票的daily历史行情
    recent_data = history(context.symbol, frequency='1d', start_time=start_date, end_time=end_date, fill_missing='last',
                          df=True)
    days_value = recent_data['bob'].values
    days_close = recent_data['close'].values
    days = []
    # 获取行情日期列表
    print('准备数据训练SVM')
    for i in range(len(days_value)):
        days.append(str(days_value[i])[0:10])
    x_all = []
    y_all = []
    for index in range(15, (len(days) - 5)):
        # 计算三星期共15个交易日相关数据
        start_day = days[index - 15]
        end_day = days[index]
        data = history(context.symbol, frequency='1d', start_time=start_day, end_time=end_day, fill_missing='last',
                       df=True)
        close = data['close'].values
        max_x = data['high'].values
        min_n = data['low'].values
        amount = data['amount'].values
        volume = []
        for i in range(len(close)):
            volume_temp = amount[i] / close[i]
            volume.append(volume_temp)
        close_mean = close[-1] / np.mean(close)  # 收盘价/均值
        volume_mean = volume[-1] / np.mean(volume)  # 现量/均量
        max_mean = max_x[-1] / np.mean(max_x)  # 最高价/均价
        min_mean = min_n[-1] / np.mean(min_n)  # 最低价/均价
        vol = volume[-1]  # 现量
        return_now = close[-1] / close[0]  # 区间收益率
        std = np.std(np.array(close), axis=0)  # 区间标准差
        # 将计算出的指标添加到训练集X
        # features用于存放因子
        features = [close_mean, volume_mean, max_mean, min_mean, vol, return_now, std]
        x_all.append(features)
    # 准备算法需要用到的数据
    for i in range(len(days_close) - 20):
        if days_close[i + 20] > days_close[i + 15]:
            label = 1
        else:
            label = 0
        y_all.append(label)
    x_train = x_all[: -1]
    y_train = y_all[: -1]
    # 训练SVM
    context.clf = svm.SVC(C=0.6, kernel='rbf', gamma=0.001)
    context.clf.fit(x_train, y_train)
    print('训练完成!')
def on_bar(context, bars):
    bar = bars[0]
    # 获取当前年月日
    today = bar.bob.strftime('%Y-%m-%d')
    # 获取数据并计算相应的因子
    # 于星期一的09:31:00进行操作
    # 当前bar的工作日
    weekday = datetime.strptime(today, '%Y-%m-%d').isoweekday()
    # 获取模型相关的数据
    # 获取持仓
    position = context.account().position(symbol=context.symbol, side=PositionSide_Long)
    # 如果bar是新的星期一且没有仓位则开始预测
    if not position and weekday == 1:
        # 获取预测用的历史数据
        data = history_n(symbol=context.symbol, frequency='1d', end_time=today, count=15,
                         fill_missing='last', df=True)
        close = data['close'].values
        train_max_x = data['high'].values
        train_min_n = data['low'].values
        train_amount = data['amount'].values
        volume = []
        for i in range(len(close)):
            volume_temp = train_amount[i] / close[i]
            volume.append(volume_temp)
        close_mean = close[-1] / np.mean(close)
        volume_mean = volume[-1] / np.mean(volume)
        max_mean = train_max_x[-1] / np.mean(train_max_x)
        min_mean = train_min_n[-1] / np.mean(train_min_n)
        vol = volume[-1]
        return_now = close[-1] / close[0]
        std = np.std(np.array(close), axis=0)
        # 得到本次输入模型的因子
        features = [close_mean, volume_mean, max_mean, min_mean, vol, return_now, std]
        features = np.array(features).reshape(1, -1)
        prediction = context.clf.predict(features)[0]
        # 若预测值为上涨则开仓
        if prediction == 1:
            # 获取昨收盘价
            context.price = close[-1]
            # 把浦发银行的仓位调至95%
            order_target_percent(symbol=context.symbol, percent=0.95, order_type=OrderType_Market,
                                 position_side=PositionSide_Long)
            print('SHSE.600000以市价单开多仓到仓位0.95')
    # 当涨幅大于10%,平掉所有仓位止盈
    elif position and bar.close / context.price >= 1.10:
        order_close_all()
        print('SHSE.600000以市价单全平多仓止盈')
    # 当时间为周五并且跌幅大于2%时,平掉所有仓位止损
    elif position and bar.close / context.price < 1.02 and weekday == 5:
        order_close_all()
        print('SHSE.600000以市价单全平多仓止损')
if __name__ == '__main__':
    '''
    strategy_id策略ID,由系统生成
    filename文件名,请与本文件名保持一致
    mode实时模式:MODE_LIVE回测模式:MODE_BACKTEST
    token绑定计算机的ID,可在系统设置-密钥管理中生成
    backtest_start_time回测开始时间
    backtest_end_time回测结束时间
    backtest_adjust股票复权方式不复权:ADJUST_NONE前复权:ADJUST_PREV后复权:ADJUST_POST
    backtest_initial_cash回测初始资金
    backtest_commission_ratio回测佣金比例
    backtest_slippage_ratio回测滑点比例
    '''
    run(strategy_id='strategy_id',
        filename='main.py',
        mode=MODE_BACKTEST,
        token='token_id',
        backtest_start_time='2017-07-01 09:00:00',
        backtest_end_time='2017-10-01 09:00:00',
        backtest_adjust=ADJUST_PREV,
        backtest_initial_cash=10000000,
        backtest_commission_ratio=0.0001,
        backtest_slippage_ratio=0.0001)

 
        复制成功
    

4.回测结果与稳健性分析

设定初始资金 1000 万,手续费率为 0.01%,滑点比率为 0.01%。回测结果如下图所示。

量化模型的准确率,量化预测

回测期累计收益率为 9.30%,年化收益率为 38.13%,沪深 300 指数收益率为 5.09%,策略收益率跑输指数。策略最大回撤为 0.56%,胜率 50.0%。

为了检验策略的稳健性,改变回测时间,得到结果如下。

回测期

时长

年化收益率

最大回撤

2017.07.01-2017.10.01

3 个月

38.13%

0.56%

2017.07.01-2017.12.31

6 个月

18.85%

0.56%

2017.07.01-2018.07.01

12 个月

9.38%

0.56%

2017.07.01-2019.07.01

24 个月

2.84%

3.07%

2017.07.01-2020.07.01

36 个月

1.89%

3.07%

由上表可知,策略整体收益均小于 0,远远跑输基准水平。

#注:此策略只用于学习、交流、演示,不构成任何投资建议。

简单理解

这里的机器学习讲得挺好了,不像云里雾里的纯理论,还有演示代码,这对理解机器学习做量化的整个流程很有帮助。

核心思路让我们再简化一下,就更容易明白了。

量化模型的准确率,量化预测

一、选择7个特征变量

这些我们很熟悉,也容易计算。

1.收盘价

2.历史成交量

3.最高价

4.最低价

5.现成交量

6.区间收益率

7.区间标准差

二、训练数据

采用浦发银行,时间从2016-04-01到2017-07-30

所谓训练,就是给定一些数据、给定一个目标,这里是力求收益最大化,然后丢给机器学习去拟合(机器学习的算法不用自己写,理解就行), 最后输出一个模型,简单理解就是数学公式,这就是训练数据的目的

三、利用训练好的模型(公式)预测股价未来走向,如果预测未来涨就买入

仔细想想,机器学习量化的有效性,表面来看是特征变量的选择,也就是所谓的量化因子,比如用成交量去做决策靠不靠谱。

而实际上,它是根据已有历史数据的拟合,未来的走势是否依然一样、涨跌有多少成分还依靠成交量,都有很大的关系,市场的运行随机性太大,所以,回测下来,胜率是 50%,已经是一个标准答案了,真的很像猴子掷飞镖,全靠运气。

量化模型的准确率,量化预测

总之, 心里悬乎得很,要是真能稳定赚到钱,拼的确实是实力

是不是我想要的

不是,除非我能找到确定性高的特征变量,并在算法中应对各种突变。

我还是喜欢应对型的策略,寻找不死的品种,或左或右,或赚钱或吸筹,或游击战或大决战,不亦乐乎。

如黄金网格的回测,B10表示买10份、S10表示卖10份,震荡向下的行情,有收益、还有筹码赚,很幸福了。

量化模型的准确率,量化预测

量化投资交流,不沟通投资建议

聪明人,少讲空话,多做计划,

基中宝一定记得微信关注呀。