如何用加密数据为有效市场服务 (NMR, Numerai)
原文:https://medium.com/numerai/encrypted-data-for-efficient-markets-fffbe9743ba8
翻译: Niking
在本文结束的时候,你将会了解到Numerai如何利用先进的结构保护加密技术来让大众参与到股票市场的机器学习算法上。
在过去的几年,机器学习算法已经解决了电脑视觉的这个大问题。其中一个就是用算法来解决手写数字的识别问题(使用的是MNIST数据包)。因为每个人书写数字的方法是不一样的,所以这个问题对于电脑来说是个难以解决的问题。
当1998年,这个数据包放出来的时候,电脑视觉的算法还不是特别准确。而且当时的硬件运算能力也远比今天的落后,但是相关的研究依然不断的在进行并取得了持续的进展。到了2012年,相关研究者公布了“类人表现的手写数字识别算法”。
http://repository.supsi.ch/5145/1/IDSIA-04-12.pdf (神经网络算法)
MNIST取得的进展,主要归功于:
- 新的硬件 (更快的GPU)
- 新的机器学习算法 (卷积神经网络算法)
- 让更多数据专家参与到算法的改进上
MNIST的数据包是免费开放的,世界上的任何人都能免费的获得这个数据包,并参与到算法的改进中,他们可以很方便的用他们自己的算法对这些数据进行训练和测试,从而对算法的改进带来许多积极的作用。
申明:解决机器学习的问题,让众多不同的数据专家参与其中是至关重要的
在有效市场获得的进展
效率在股票市场上不是一个抽象的名词。对整个社会来说,低效率是很可怕的一件事情。如果资本在全球配置得当,这个世界就会因此获利。但是,如何正确的配置这些资本却是一个非常难以解决的问题。如果有一个股票市场的数据包,我们会怎么利用它呢?它现在是否如MNIST一样,是个已经被解决掉的问题呢?
在这个问题上,资产管理者以及对冲基金可以雇佣那些懂得机器学习的员工进行算法的研究,当然他们也负担的起GPU。但是他们缺少让众多不同数据专家参与的可能性。虽然现在公众可以通过类似Yahoo财经这样的渠道获得股票数据,但是这些数据的纬度太单一,用于机器学习还是远远不够的。这就像使用1个像素的图像来做手写识别一样。
高质量的股票数据一般都被机构所垄断及保密,因为垄断这些信息对他们是有利的,长期以往,这些数据就变得越来越稀少也越来越昂贵。因此,在股票市场,没有像MNIST一样的免费而且高质量的训练数据。
如果那些非华尔街的数据专家没有适合训练的数据,那么就无法参与到这些算法的改进之中。特别是现在有那么多免费的数据软件如Theano, TensorFlow、廉价的云计算资源、免费书籍如The Elements of Statistical Learning还有许多的优秀社区如Kaggle, MOOCs,如果在那么好的环境下,依然不能有机会参与其中,不能不说是一件令人遗憾的事情。所以我们需要找到一个方法来获取这样的数据并参与其中。
申明: 由于涉足股票市场的机器学习依然在很初级的阶段,所以我们认为这个市场依然是个非充分有效市场。
加密数据共享的突破
有什么办法可以另那些昂贵并保密市场数据可以被众多数据专家所使用呢?或者可以说,在保证内容不泄漏的情况下将它分享出去呢?
加密就是一个保护数据内容安全的方法。通常,如果你加密了一段数据,那么它对数据专家来说,就是没有利用价值的了。根据密码学的最新进展,使用保留数据结构的加密方法可以解决这一问题,数据专家可以对它进行分析的同时,需要保密的信息依然不会被泄漏。
现在有许多实用的同态加密方案(Homomorphic Encryption),如Fan and Vercauteren,允许对代数环中的高次多项式密文执行加法和乘法运算。这样,如果运算法则被保留下来了,那么数据结构也是被保留下来的。在机器学习的过程中,我们只需要数据结构,这样加密的信息就可以进行正常的机器学习了。
更简单的一些方案如 order-preserving symmetric encryption, 也可以在一定程度上提供安全性,在神经加密的一些新方法上,也有非常易用的现成方案可选。
重点: 股票市场的数据从此可以在加密的情况下,分享给众多的数据专家进行机器学习的训练。
Numerai
在过去的两年半时间里,我在一个管理着150亿美元资产的公司里,跟各种昂贵的财务数据打交道,我找到了一个方法,可以把数据转换成可跟踪的二进制分类问题。并且可以利用这些数据对我的算法进行训练。
随后,我们使用这个模型在,市场上投放了5000万美金,并持续了一年,它的表现显著的高于市场平均值。每个人都会有走运的时刻,但是要在统计学上走运,并不是一个容易的事情。我们知道机器学习不是靠的运气,Yann LeCun解决了MNIST问题靠的也不是运气。
一旦你获得了一个有效的市场获利模型,你会努力的把它保护起来,你不会披露你所运用的技术手段、获得的方法,你也不会披露你所采用的原始数据。
当我了解到同态加密方法的时候,我发现我可以把我的数据跟其他的专家分享,它们很可能做的比我更好。因此我创办了Numerai,第一个可以公开数据的对冲基金,可以让全球专家参与其中的基金。
我是从2015年12月1日开始发起这个项目的,我们一直都是Reddit r/machinelearning频道的头条,直到Elon Musk和Sam Altman发布了它们的亿万美金项目OpenAI。在发起后不到10天的日子里,一个来自班加罗尔有神经网络背景的毕业生,打败了我的模型。随后的几天,来自波兰的用户也发布了介绍Numerai的博客文章并分享了使用我们平台的免费代码。自从那以后,越来越多来自斯坦福、哈佛、UC Berkely等著名院校师生在我们平台创建他们的模型。同时也有许多来自其他量化交易基金、Google的数据专家,使用向量机, XGBoost,深度学习算法等各种各样的用户参与到我们的平台里。
就在第一个月,我们就收到了10,292个预测数据组,共计200,098,002个价格预测。
虽然Numerai还有很长的路要走,但是我们的用户在使用了我们的数据进行训练后,已经极大的帮助我们降低了预测的错误率
从上图可以看到,用户DEEPAI已经帮助我们显著的降低了错误率,随后DATAGEEK进一步把错误率降低,并创下12月份最低的记录。从那以后,错误率一直在下降,这个月一个最高等级的用户,已经开始采用了他今年在蒙特利尔神经信息处理会议上了解到的最新技术进行训练了。
用户生成出来的预测,现在已经被我们的Numerai Fund 1, LP基金开始实际运作了。
申明 Numerai应用了先进的加密技术,让更多的数据专家参与到了我们的关于股票市场的机器学习问题中。
想了解更多关于Numerai的资讯,请访问numer.ai,你也可以下载我们的原始数据开始你的训练!
Richard Craib
Numerai创始人
翻译: Niking
我的其他文章:
以太坊简介: https://steemit.com/cn/@niking/sgpce
关于币圈市值的那些猫腻: https://steemit.com/cn/@niking/2w96sa