中国财经之窗 - 财经信息聚合平台
中国财经之窗

百亿量化私募的数据中台:提炼存储痛点待解算法平台急需“统一”

栏目:金融    来源:东方财富    作者:李陈默    发布时间:2022-11-03 14:52   阅读量:16012   

伴随着量化投资策略的不断兴起,数百亿量化私募基金数量再创新高。

百亿量化私募的数据中台:提炼存储痛点待解算法平台急需“统一”

私募排排网最新数据显示,截至7月底,百亿量化私募机构数量达到30家,创历史新高。

在这背后,量化私募产品的投资策略也发生了明显的变化。

在他看来,量化私募机构要实现纯alpha策略的高超额收益预期,需要在数据,算法模型,交易执行等方面不断加大投入,从而推高量化投研数据的使用要求。

记者多方了解到,为了不断提升量化投研能力,越来越多的大型量化私募机构正在效仿券商和银行的做法,自建量化数据中心。

思协投资与交易运营总监孙指出,通过建设量化数据中心,实现业务数字化,数据资本化,投研智能化,构建数据驱动的量化资产管理体系,将是量化私募机构未来借助数据能力提升投资决策准确性的重要方向。

他直言要做好这份工作并不容易第一,很多量化私募机构面临着量化投研数据体量大,多源异构,数据质量低,自由度低的痛点,导致数据使用效率不一第二,如何通过数据清洗和提炼分析,进一步完善他们的算法投资模型,也是一个很大的挑战

在恒生聚源副总经理夏青看来,伴随着纯阿尔法等量化选股策略的资金容量越来越大,其对多因素选股策略的数据需求也越来越强烈——包括个股基本面,市场情绪,资金流动性,报价,财务,估值等各种数据和财务指标量化私募机构不仅要求数据完整,还要求实时更新,推送和快速清理提炼这带动了金融数据服务商提供数据服务,同时也需要输出涵盖规模因子,动量因子,技术因子,波动因子等多元化的因子库,从而为量化私募机构提供完善的投研数据服务,业绩归因分析和指数服务

他透露,恒生电子致力于通过数据质量规则验证体系,构建高质量的历史市场数据库,为量化投资机构打造集市场,信息,要素数据于一体的机构金融数据服务,并提供二次加工和统一便捷的对外服务,进一步满足其对量化投资研究数据的各种需求。

中泰证券R&D部总经理何波指出,伴随着监管的严格,量化交易不再纯粹专注于高频和高速除了低时延,AI等技术也得到了广泛应用系统开源和云原生也是值得量化交易投资机构深入探索的一大技术赋能方向,这也是量化交易规模化的必由之路但量化交易要想进入云原生的道路,还需要从统一的行业标准制定,完善的开源生态建设,合适的开发语言使用等方面进一步发展

量化百亿私募数据中的坎坷之路

记者多方了解到,与传统投资交易不同,量化交易投资主要是将股市波动的历史规律转化为数据,依靠统计和编程完成数据分析,制定相应的投资策略在实施之前,需要通过各种模拟测试来验证其投资策略的有效性以及其业绩是否能达到预期

所以很多量化策略的私募公司,一个重要的工作就是整天和各种财务数据打交道,这就导致了对量化投研数据的三个需求:一是数据完整性,即尽可能多的掌握财务数据,包括宏观经济,上市公司财务数据,股市数据,上市公司舆情数据等,二是数据准确性,这是保证投资策略净值可控退出的最大基础,第三,以足够快的速度获取各种数据,保证量化交易投资

一家正在开发纯阿尔法策略私募产品的百亿级私募机构的投研总监告诉记者,目前他们最感兴趣的是市场数据,但这类数据处理起来比较繁琐,因为数据量极大,需要繁重的数据校对,以保证数据具有较高的准确性。

另外,我们还有一个头疼的问题,下班后的统计数据分析对量化投资算法模型的优化起到关键作用,但我们经常会遇到数据不够全面,导致重新上市的建模效果不理想他指出

为了解决这些痛点,他的数百亿量化私募机构正在尝试搭建量化数据的中间平台,包括底层数据层,因素发现层,策略制定层,策略跟踪层和产品层,这些层都可以共享数据,从而全面还原各种量化投资模型的构建全过程和投资业绩的质量,这是他们持续优化纯阿尔法投资策略的重要基础。

他指出,在搭建量化数据平台的过程中,另一个困扰他们的问题是如何搭建一个完善的算法平台目前,他们除了在内部独立挖掘各类金融数据构建量化交易投资模型外,还会引入一些外部算法模型提供商的独特投资策略但在实际操作过程中,他们发现大多数算法模型提供商专注于投资算法模型的研发,忽略了量化私募机构的数据接口与风险控制模型的衔接,导致很多外部的算法投资模型只看不用,此外,当他们接入多家外部算法模型服务商时,也会发现他们缺乏统一的平台进行管理,导致他们迟迟没有建立统一的操作评价体系来判断孰优孰劣,这使得他们的量化交易投资策略面临额外的投资风险

我们正在尝试搭建一个统一的算法平台,实现算法管理,算法设计,算法测试流程,算法天花板流程,交易风控流程的统一,彻底解决上述痛点他指出

记者多方了解到,很多大型量化私募机构在构建量化数据的过程中,都会遇到数据存储问题目前,大多数结构化数据可以存储在数据库中,但许多非结构化数据很难存储在数据库中虽然越来越多的量化私募机构尝试基于大数据预处理的数据湖技术——先用NLP,机器学习等技术对非结构化数据进行清洗和提炼,再通过预处理模块存储到数据库中,但结果并未达到预期

技术授权解决方案有效性的几何

面对私募机构量化投研数据的强烈需求和痛点,券商和第三方金融数据服务商提供了新的技术赋能解决方案。

某券商信息技术部负责人向记者透露,他们研究发现,在数据存储层面,数据格式很大程度上决定了数据存储方式因此,他们正在尝试对时间序列数据采用一种特殊的优化存储模式,比如基于流处理和批处理的列存储或特殊存储模式,采用高速文件集群或对象存储集群技术存储海量结构化数据,以解决量化私募机构在量化投研数据存储方面的诸多痛点

在数据使用级别,数据内容决定了数据使用和逻辑分类因此,他们在收集庞大的量化投研数据时,也会设置数据访问层,提供API,DB和各种形式的文件接口,并向量化私募机构提供全量的数据访问服务,帮助他们收集众多外部数据,先实现业务数据,再依托自己的量化数据中心对数据进行清理和提炼,从而实现数据资本化,最终达到量化投研数据智能化使用的效果

在此期间,我们还协助他们优化了统一的算法平台,特别是统一了算法服务商和券商的数据使用和数据接口,帮助量化私募机构降低系统复杂度,同时让合规风控更有保障他指出

黄琦告诉记者,目前很多量化私募机构在提升量化投研能力和量化投研数据运用上遇到了三大痛点一是数据多源,量大,结构和格式分类不同,他们渴望更方便地进行多源数据清洗和处理分析,第二,很多数据质量低且更新快,甚至很难发现,这就使得他们也需要一套数据质量验证系统,通过多维度的对比,判断哪些数据有偏差,快速找到数据修复和补全路径,尽快提高数据质量,第三,越来越多的量化私募机构抱怨没有办法对数据进行二次加工,特别是将一些对投资决策有参考价值的中间指标或常用指标提前到数据加工环节,从而为后端的投研建模工作节省更多时间,甚至一些大型量化私募机构也希望能做好数据的便捷二次加工和离线计算,以及实时行情数据的低延迟计算和推送,让投研团队和交易风控团队对市场变化做出更快的反应

在他看来,要解决这些数据使用的痛点,金融数据服务商需要在构建量化投研数据服务领域做好四件事一是建立历史行情数据库,提高数据质量,第二,开放历史行情的数据二次处理平台,提供数据处理能力,第三,进一步对外开放服务,包括支持低代码封装API接口,第四,持续优化权限管理,支持量化私募公司按需申请数据使用权和可视化

黄琦直言,目前国内量化投研和量化投资对数据服务的需求在不断提升,是因为越来越多的量化私募机构在竞相追逐更高的纯alpha这无形中推动了金融数据服务商提供更加完善,省心,高性价比,标准化的量化投研数据服务,让量化投资领域的数据使用门槛不会跟着业绩目标走

热搜:私募,平台   
免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。
百亿量化私募的数据中台:提炼存储痛点待解算法平台急需“统一”