已有过去十多年所有A股的日线数据(数据大概也就几百兆大小),想对一些策略进行回测,看下其收益率,最大回撤等等。python正在自学,学了大概一个多月,会一些基本的编程。matlab没接触过。想问下策略回测用哪个工具效率更高?
--- --- ---
补充一下,下面有人提到几百兆数据不大,然而我在用python处理这些数据的时候经常提醒我memoeyError,请问应该怎么解决这个问题?
回复内容:
首先十年的日级别数据量的确不大,使用Python来说的话不应该出现memoryerror,应该是在编程方面需要再多留意,我们在Ricequant上使用的分钟数据大概是200-300个GB左右,也是Python和Java共同合作完成的。
语言只是一个语言,兴许会有各种语法的不同,但是在谈语言的时候我们需要了解背后的工具箱和社区,以及它为什么处理一些事情比另外的一些语言要好。
本身Python初期用来做金融回测等是应该被放弃的,用来开发策略也应该是被放弃的,因为相比matlab的矩阵运算来做开发,实在是太方便了。只不过后来Python推出了series、pandas等一系列的强悍library,pandas的语法基本在“无耻”地模仿matlab和R,而pandas的开发者正是美国大名鼎鼎的对冲基金AQR,因此使data crunching和对数据的一些操作大大便利,此外,又包装了海量的开源社区的数学和科学计算库,也能处理各种的machin learning等等的问题。
从科学计算的语言的发展来看,从最初的人们对浮点数计算的需求加入了fortran,再一路进行,让工具更加的让科学计算容易再容易(Python也封装了大量早期的数学家们用fortran写的数学计算基础库,这些经历了几十年的考验、加速等等):
我们来看下python目前的科学技术栈:
- numpy: basic array manipulation - 基础的数组处理
- scipy: scientific computing in python, including signal processing and optimization - 科学计算,包括信号处理和优化等
- matplotlib: visualization and plotting - 几行代码就可以做图形化显示了
- IPython: write and run python code interactively in a shell or a notebook - 互动式编程环境,这是能将来替代掉matlab的一个必备,即在一行一行代码的输入、显示过程中学习、改进
- pandas: data manipulation - 最重要的矩阵运算等
- scikit-learn: machine learning - 机器学习
但是随着以后的发展Python的开源属性就会体现的越来越强大,可以让更多的人享受到其便利和贡献进来,包括Quantopian也放出了zipline的python回测框架,只需要引入yahoo数据即可进行回测,并且Python的速度由于跟C的很好的结合可以达到非常快的速度,而且可以将来和其他系统很容易整合对接实盘交易接口。
由于欧美已经有很多的投行和对冲基金在往Python的技术栈靠拢,因此选择了Python即掌握了一门重要的工具,并且无需跟一家私有化公司进行捆绑。
当然,最后的最后,所有的python回测你都可以来Ricequant - Beta
上完成,我们支持海量的市场、财务数据,还有不断加入的和大数据公司合作的舆情数据等等,同时策略回测完还可以做实时模拟交易,享受到实时数据的计算。在云平台上已经支持了几乎所有的Python科学计算库,无需花时间安装、测试等等。
我没钱,支持免费开源
抛开版权不说,初期入手策略测试、数据分析用matlab非常方便
但是策略测试方法、框架弄清楚后,要做正规的回测,还是Python方便,这里的正规是指严格的事件流驱动,虽然速度慢,但是避免未来函数影响、接近实盘的逻辑。Python在这方面已经有很多库了,quantopian的zipline应该算鼻祖了,国内的优矿网和ricequant都跟zipline很像,另外还有知乎大神的vn.py,PyAlgoTrade等
语言就是用来干活的,中间文件用HDF5或者csv转存,需要时间序列分析的时候上R.毕竟Python的sm库还是很烂的,但是PCA和大量的多因子计算,Python R MATLAB都差不多。
回测讲究并发效率和一些多参数回测的参数调优以及一些MC方法的估计时,py运行效率(相对于MATLAB)会高一些
总体来说,别太把语言当回事,就跟吃饭用筷子还是勺子还是叉子,要根据食材来
几百兆数据算个锤锤啊……64位下的Python吃个几GB内存也不会咋地啊……如果真报错,记得检查一下代码和算法有没有什么问题。万一原始数据几百兆但是算法里来个空间复杂度指数级那也没救不是么……
同样的东西,如果matlab上跑得起,Python一般也跑得起;万一跑不起,拆分一下跑并行,两者也都能做到。建议对编程不了解同时也没打算怎么学编程的用matlab之类;反之对编程有兴趣想学的选Python。
随便用什么,几百G的数据很小了,当然你要是直接readfile之类读整个文件。。。
最简单的就是数据导入到数据库里,mysql,postgresql之类,然后就easy了。
我有两个员工用matlab,但我自己一般用python和R
如果有钱买授权可以选matlab,如果没钱建议不要用盗版,python非常好用
2个都可以,但是没有数据,所以用天软吧!
就题主的介绍,我建议选择python,
一、Python已经在学习了,matlab还没有学习
二、Python是开源的,并且也有很多量化交易平台使用python语言,比如我在使用的
https://www.joinquant.com,之前自己在本地做回测时也经常出现题主说的memoeyError ,现在我不再需要担心,JoinQuant的工程狮们已经帮我解决了,并且这里的回测不限制内存,而且还有我最喜欢的模拟交易微信提醒功能。
三、必须要说Python是量化投资利器,优点慢慢介绍。
题主主要目的是想对一些策略进行回测,看下其收益率,最大回撤等,其实这就是所谓的Quant Researcher,对他们来说,编程和量化策略缺一不可。和Quant dev不同,Researcher需要的更多是一种量化策略的解读、分析、开发新策略的能力。
题主还需要增加自己的python编程能力,最基础的是数据分析是必须的。一些参考资料分享给你
推荐一些量化投资学习资料(持续添加中...)
推荐一些Python入门学习资料(持续添加中...)
【资料分享】Python、研究报告、计量经济学、投资书籍、R语言等!(Book+Video)
【散沙】Python科学计算系列
我是从matlab转过来的初级Quant Researcher,斗胆总结分享一下自己的python学习路径
首先是python的基础知识:python的基本知识一定要熟练掌握,尤其是python中非常好用的迭代器和解析
【量化投资利器Python】基本语法-数据类型1之列表【量化投资利器Python】基本语法-数据类型2之字典
【量化投资利器Python】基本语法-数据类型3之元组、集合
【量化投资利器Python】条件与循环-if、while、for
【量化投资利器Python】神奇的迭代器和解析
【量化投资利器Python】基本语法-函数
接下来是常用的基本类库时间库常用的时间格式有三种,常用到其之间的互相转化
1)时间戳(timestamp)的方式:
通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。我们运行“type(time.time())”,返回的是float类型。返回时间戳方式的函数主要有time(),clock()等。
2)格式化的时间字符串,比如"%Y-%m-%d %H:%M:%S"
3)元组(struct_time)方式
【量化投资利器Python】基本类库-时间
NumPy NumPy系统是Python的一种开源的数值计算扩展。
NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。
NumPy — Numpy
1. NumPy Basics: Arrays and Vectorized Computation
可以参考书Python科学计算之numpy
SciPy SciPy是一款方便、易于使用、专为科学和工程设计的Python工具包。它包括统计,优化,整合,线性代数模块,傅里叶变换,信号和图像处理,常微分方程求解器等等。
SciPy.org — SciPy.org
可以参考书Python科学计算之scipy
PandasPython Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 可以参考书《python for 数据分析》,也可以到这里下载【资料分享】Python、研究报告、计量经济学、投资书籍、R语言等!(Book+Video)
【量化投资利器Python】基本类库-Pandas入门1之数据结构
【量化投资利器Python】基本类库-Pandas入门2之数据处理
【量化投资利器Python】基本类库-Pandas进阶
学完以上三篇教程,pandas的大部分功能已经可以使用,更多功能可以到官网pandas: powerful Python data analysis toolkitctrl+F搜索函数帮助
TA-LIBTA-Lib 用中文可以称作技术分析库,是一种广泛用在程序化交易中进行金融市场数据的技术分析的函数库,提供了多种技术分析的函数,可以大大方便我们量化投资中编程工作。
Ta-Lib用法介绍!
指标计算和形态识别的编程利器——TA-Lib
talib在量化投资中具体的使用例子
量化投资学习【TA-LIB】之MACD
量化投资学习【TA-LIB】之Bollinger Bands
量化投资学习【TA-LIB】之STOCH(KD指标)
量化投资学习【TA-LIB】之ATR
量化投资学习【TA-LIB】之RSI
Scikit-Learn是基于python的机器学习模块,基于BSD开源许可证。scikit-learn的基本功能主要被分为六个部分,分类,回归,聚类,数据降维,模型选择,数据预处理。Scikit-Learn中的机器学习模型非常丰富,包括SVM,决策树,GBDT,KNN等等,可以根据问题的类型选择合适的模型。
在量化投资中具体的使用例子
【机器学习】时间序列波动率估计
【机器学习】上证指数十年走势
交易策略中的参数优化问题
【机器学习】缠论中的线性回归
【机器学习】非参数型聚类分析
深度学习简介
SVR预测股票开盘价
【机器学习方法研究】——思路整理、支持向量机
其他一些以上提到的几个库的具体量化策略研究应用。【QLS】线性回归
【QLS】线性相关分析
【QLS】斯皮尔曼秩相关系数
【QLS-6】过拟合
【QLS7】参数估计的不稳定性
量化投资学习【QLS-8】之模型设定
【QLS9】回归模型假设的违背
【QLS10】回归分析
【QLS12】套利定价理论
【QLS15】最大似然法(MLE)
【QLS16】ARCH和GARCH
【QLS17】多空策略
【QLS19】动量交易策略
【QLS20】度量动量
配对交易策略
凸优化(Convex Optimization)介绍!
最后还是要说一句,python只是一种工具,重要的还是策略思想,前期可以通过阅读大量资料获取,然后自己实验、分析逐步总结。推荐一些经典书籍和研究报告,可到【资料分享】Python、研究报告、计量经济学、投资书籍、R语言等!(Book+Video)获取
Quant Interview Books
- 150 Most Frequently Asked Questions on Quant Interviews
- [Mark Joshi]Quant Job Interview Questions And Answers
- [Xinfeng Zhou]A practical Guide to quantitative finance interviews
- Frequently-Asked-Questions-Quant-Interview
- Heard on the Street Quantitative Questions from Wall Street Job Interviews
- The 200 Investment Banking Interview Questions & Answers You Need to Know
投资阅读书籍
- algorithmic trading winning strategies and their rationale
- barra handbook US
- Encyclopedia of Trading Strategies(交易策略百科全书)
- Inside the Black Box -A Simple Guide to Quantitative and High Frequency Trading(2nd.Edition)
- NASSIM Taleb-Dynamic Hedging
- Options Futures and Other Derivatives 8th - John Hull
- Quantative Trading Strategies
- Quantitative Equity Portfolio Management:Modern Techniques and Applications
- Quantitative Trading How to Build Your Own Algorithmic Trading Business
- Quantitative Trading How to Build Your Own Algorithmic Trading Business
- 《New Trading Systems and Methods》 Perry J.Kaufman 4th Edition.pdf
- 《专业投机原理》 完整版 (美).维可多·斯波朗迪
- 保本投资法 不跌的股票(高清)
- 打开量化投资的黑箱
- 股市趋势技术分析(原书第9版-珍藏版)
- 海龟交易法则
- 解读量化投资:西蒙斯用公式打败市场的故事
- 解密对冲基金指数与策略
- 精明交易者 - 考夫曼
- 量化交易 如何建立自己的算法交易(高清)
- 量化交易策略—利用量化分析技术创造盈利交易程序
- 量化数据分析 通过社会研究检验想法
- 量化投资策略-如何实现超额收益alpha
- 量化投资策略与技术修订版
- 期权投资策略 第4版(高清)
- 数量化投资:体系与策略
- 通往金融王国自由之路
- 统计套利(中文版)
- 网格交易法 数学+传统智慧战胜华尔街
- 我是高频交易工程师:知乎董可人自选集 (知乎「盐」系列)
- 主动投资组合管理 创造高收益并控制风险的量化投资方法(原书第2版)(高清)
- 走出幻觉走向成熟金融帝国文集
计量经济学
- 金融计量学从初级 到 高级建模技术
- 哈佛教材 应用计量经济学 stata
- 高等计量经济学 李子奈等编着
- 蔡瑞胸-Analysis of Financial Time Series- Financial Econometrics(2002)金融时序分析
- Phoebus J. Dhrymes, Mathematics for Econometrics, 4e
- Osborne,Rubinstein-A Course in Game Theory
- Model Building in Mathematical Programming(5e)
- Hayashi - Econometrics
- Gujarati-Essentials of Econometrics计量精要
- Akira Takayama - Mathematical Economics
- A Handbook of Time-Series Analysis, Signal Processing, and Dynamics - 1999
- 2013年金融数学
- Angel de la Fuente 经济数学方法与模型(上财版2003)
- 《经济学的结构--数学分析的方法(清华版)》Eugene Silberberg, Wing Suen
- Kamien & Schwartz, Dynamic Optimization(2ed,1991)
- CSZ - An Introduction to Mathematical Analysis for Economic Theory and Econometrics(草稿版)
研究报告
- 国信证券金融工程
- 大券商2016年年度投资策略报告
- 光大证券
- 海通证券
- 申万大师系列
- 他山之石系列
- 中信证券
- 广发证券
Matlab做矩阵计算超级方便,几乎就跟手写方程式一样简单,基本不用学习太多编程语言的东西,而且它画各种二维三维的曲线图也非常的简单,是算法研究的不二之选。
但是Matlab死贵,实际使用的人少,如果你想找开源的资源比较难。
Python用起来方便,开源的资源多,但是语法比Matlab复杂好多,要自己实现很多算法,画图更加是软肋。
实际上用 python + Matlab 可能会更好。
Python可以用于原始数据的采集和预处理。
Matlab用于数据分析和算法研究。