量化交易策略及思路 (量化策略指标解析)

数据的重要性 量化领域数据类别 量化领域数据来源 量化领域数据的清洗

数据的重要性

在数据科学领域我们经常听到这句话:Garbage in, Garbage out。翻译过来就是垃圾进,垃圾出,意思是说拿不好的数据去做分析,会产生糟糕或是无用的结论。

量化投资本质上是数据科学在量化投资领域的应用,同样会存在数据质量对其产生的重大影响。所以,把数据质量放在一个多高的位置都不为过。

量化领域数据类别

价格类数据

股票、期货的价格数据,有日线、分钟、tick等级别。

成交量类数据

股票、期货的成交量或持仓量。

基本面类数据

主要指反映股票财务状况的数据,包括财务报表、行业基本面等数据。

宏观类数据

反映国民经济整体状况的指标,也包括货币和财政政策,GDP、CPI、PMI等等。

另类数据

新闻舆情、股市贴吧等。

量化领域数据来源

免费领域

  • 交易所和信披平台。这些官方网站可以获取全部量价和财报数据。优点是权威及时,缺点是必须自己清洗整理。
  • 开源数据平台。例如Tushare等。

付费数据库

国内知名的数据库有很多,wind、聚源、choice等。无论哪一种,都少不了自己的进一步清洗。

量化领域数据的清洗

  • 缺失值。这个问题普遍存在,尤其非标数据。
  • 极端值。这个在数据进一步加工过程中,出现的概率更多。
  • 未来信息。影响巨大,不容易定位发现。
  • 错误的值。很多数据源都或多或少存在。需要多源对比,细致处理。