基于虚拟指数的另类增强策略|开源金工
(来源:建榕量化研究)
报告发布日期:2025-08-16
近年来,衡量主动权益投资能力的万得偏股混合基金指数(885001.WI)或主动股基(930890.CSI)在连续三年跑输主要宽基指数的背景下,指数型基金产品由于其清晰的投资策略,低廉的交易费用开始逐步受到广大投资者的认可。各基金公司在主动权益基金发行相对困难,投资者信任需要重建的环境下,开始积极布局指数型产品,从场内ETF的成立到场外指数型基金和ETF联接基金的发行,均在如火如荼的推进中。
在指数型产品大发展的过程中,通过量化思路构建的指数增强类产品亦开始逐渐出圈,进入广大投资者的视野。主因在于近几年相对偏弱的市场背景下,市值因子表现亮眼,使得部分指数增强类基金产品通过量化手段在市值因子上进行主动暴露,不仅相对指数本身产生了较高的超额收益,相比同期主动权益的表现更是体现出较强的竞争力。
相比海外成熟的资本市场,当前国内A股市场机构投资者占比仍有提升空间,市场定价有效性偏弱,指数增强类基金当前仍具备长期跑赢跟踪指数的能力。2023年我们在报告《偏股混合型基金指数(885001.WI)—优势、复制与超越》中,通过拟合主动偏股基金持仓力图跟上市场主动偏股基金的平均走势,拟合效果优异。现如今,我们是否可以移花接木,通过拟合跟踪不同指数的增强类基金的持仓来复刻他们的业绩表现呢?
本篇报告内容分为三个部分。第一部分,我们简单梳理了指数增强型基金的相关数据。第二部分,我们尝试根据指数增强型基金的合约条款对增强类基金的持仓进行复制,进而构建了与原始指数权重分布近似但集中度更低的虚拟指数(Virtual Index)。相比原始指数本身,虚拟指数能产生一定的超额收益,但相比市场中运行的指增类基金的平均超额表现稍显不足。第三部分,相比基于原始指数权重构建的增强组合,我们基于模拟持仓权重构建的增强策略在不同宽基下的表现均有所提升。一个重要的启示是,除了因子挖掘的方法之外,我们可以通过重构基准指数的成分股权重来提升增强策略的表现。
01
指数增强型基金数据概览
2021年的主动权益基金在经历连续多年亮眼的业绩表现后,在接下来的三年开始持续跑输主要宽基指数,主动权益基金产品迎来自身的黑暗时刻。与此同时,跟踪指数的被动基金产品开始迎来大发展。同时,以万得微盘股指数为代表的小市值个股持续跑赢市场,使得公募指数增强类量化产品开始体现出相对优势。在市场下跌时期,不仅跑赢了跟踪指数本身,相比主动权益基金产品更是有显著超额。
根据图1数据显示,2022年到2024年连续三年衡量主动权益投资能力的万得偏股混合基金指数(885001.WI)或主动股基(930890.CSI)表现不如同期的沪深300或中证500指数。而2020年以来,万得微盘股指数(868008.WI)每年均取得正收益。
截至2025年6月30日,公募基金指数增强类产品共有631只(含非初始基金),不同类型的跟踪指数有56种,范围涵盖从主要宽基指数到特定行业或风格指数。其中,跟踪沪深300指数和中证500指数的增强产品数量最多,分别为142只和141只,其次为跟踪中证1000指数的增强产品,有87只。
由于同一基金产品的不同份额投资策略相同,为了更精准地刻画跟踪不同指数的统计和拟合结果,后续我们仅考虑初始基金的数据。我们按季度分别统计了2010年以来跟踪主要宽基指数(沪深300、中证500和中证1000指数)的初始基金产品数量。可以看到,2017年以后,跟踪沪深300和中证500指数的增强类基金数量有着快速的发展,相关基金数量从10只左右提升到当前的近70只。2023年以来,中证1000指数增强类基金产品受到青睐,对外募集发行的产品数量在短期内有明显的跃升,基金产品数量在两年内从个位数提升到45只左右。
基于以上汇总的跟踪三类主要指数的增强类基金产品,我们统计了2017年以来它们超额收益的表现情况。我们将跟踪相同指数的指数增强类基金产品每日超额收益率进行取均值后按照收益再投资模式进行收益率累乘,最终得到平均超额收益的走势曲线。
2016年以来,公募发行运作的指数增强类基金相对所跟踪的基准指数具有稳定的超额收益率,但是跟踪沪深300和中证500指数的增强基金平均累计超额收益近些年有所放缓。跟踪中证1000指数的增强类产品表现持续亮眼,超额收益不改稳定向上的趋势。2017年以来,区间累计超额收益率近150%。
分年度来看的话,2021年以后跟踪沪深300和中证500指数的增强类基金产品超额收益率下滑比较明显,跟踪沪深300指数的增强类产品的平均超额收益率水平甚至在2024年阶段性转负。但整体而言,跟踪主要宽基指数的增强类基金产品长期来看还是能够稳稳跑赢基准本身。
02
指数增强型基金的持仓复制
2023年我们在报告《偏股混合型基金指数(885001.WI)—优势、复制与超越》中,根据万得偏股混合型基金指数(885001.WI)的编制方式,对其成分基金的持仓进行拟合,并通过对不同成分基金的拟合持仓进行等权合成,得到偏股基金指数的成分股权重信息。截至2025年6月30日,基于拟合持仓绘制的偏股基金收益率曲线和万得偏股基金指数走势十分接近,样本外跟踪误差仅2.47%,复制效果优异。
既然我们能通过拟合偏股基金指数的持仓进而跟上主动权益的平均投资收益水平,那么我们是否能够如法炮制,通过拟合指数增强基金的持仓来获取增强基金相对被跟踪指数的平均超额收益呢?
但这里可能存在至少两方面的因素导致指数增强类基金相比主动权益基金更难复制准确。第一,在换手率指标上指数增强类基金天然具有更高的水平,导致参考历史持仓进行拟合的模式有效性降低,最终生成的预测持仓置信度下降。第二,指数增强类基金由于对成分股权重的偏离有一定的隐含约束,导致前十大成分股持仓占比往往相对较低,进而使得待估算持仓个股的权重较高,也对预测精度产生了影响。两种因素的叠加,导致指数增强类基金产品的持仓模拟相比主动权益基金是相对棘手的问题。
虽然面临的困难显而易见,但我们依然试着按照报告《偏股混合型基金指数(885001.WI)—优势、复制与超越》的“两步走”预测框架进行持仓拟合的尝试。
2.1、基金持仓复制方案
指数增强基金属于Wind股票型基金分类下的子项,所以其股票资产占基金资产的比例不低于80%。同时指数增强类产品对于跟踪指数的成分股持仓也有额外限制,其中投资标的指数成份股及其备选成份股的比例不低于非现金基金资产的80%。最后是跟踪误差方面的约束,一般而言,指数增强类基金产品净值增长率与业绩比较基准之间的日均跟踪偏离度绝对值小于0.50%,年化跟踪误差不超过7.75%。
第一步,我们首先对季报持仓进行补全。由于我们的目标函数是最小化拟合持仓收益率和基金的真实收益率之间的偏差,近似等价于设定了跟踪误差的约束,同时为了加快求解效率,因此在约束条件中我们不再考虑跟踪误差的约束要求。
其中,表示个股i的权重,表示第只个股在第个交易日的收益率,表示基金在第个交易日的收益率,表示第只个股的真实权重,表示全部个股的持仓权重,表示备选个股对应的行业哑变量矩阵,表示备选个股的权重向量,表示实际披露的行业权重向量, 表示持仓中包含的指数成分股的数量。
第一个约束条件是对十大重仓股的权重进行固定。在实际进行计算的过程中,我们通过上市公司定期报告披露的十大流通股东信息获取到的基金隐形重仓股,也放到该约束条件下。
第二个约束条件要求剩余候选个股的权重小于第十大重仓股。
第三个约束条件为行业配置比例约束。需要注意的是,A股对应的是证监会行业配置比例,而港股对应的是GICS行业配置比例。
第四个约束条件为拟合持仓的股票权重之和等于基金披露的真实股票持仓占比值。
第五个约束条件为拟合持仓中所跟踪指数的成分股权重之和大于等于基金披露的真实股票持仓占比值的80%。
第二步,在季报持仓补全的基础上,我们以该持仓为基准,进行高频的持仓监测。高频持仓监测与季报持仓补全,虽然都涉及都对个股权重的估计,但不同的是,季报持仓补全涉及到备选股票池的确定,而高频监测沿用了前序模拟持仓的信息。高频持仓监测在最小化跟踪误差的基础上,添加了惩罚项来对权重偏离进行约束,避免个股权重在短期变化过大。
其中,表示惩罚项系数,默认为0.1,值越高,对权重偏离的忍耐度越低。表示备选个股基准权重向量,表示备选个股对应的待求解权重向量。
第一个约束条件主要是限定个股的权重上限不超过10%。
第二个约束条件则对投资组合的持仓权重进行限定。根据指数增强型基金的要求,其股票持仓占比应介于80%到95%之间。
第三个约束条件为拟合持仓中被跟踪指数的成分股权重之和大于等于基金披露的真实股票持仓占比值的80%。
在进行高频持仓监测时,需要确定每期持仓对应的基准权重。通常,季报填补后的持仓权重为基准持仓权重。但是,当基金有半年报或年报公布时,我们需要对基金的二季报和四季报的模拟持仓进行替换,以信息披露更完备的真实持仓作为基准权重。
根据上述“两步走”方案,我们分别对沪深300、中证500和中证1000指数的增强类基金进行了持仓模拟,并基于模拟后的持仓绘制了相对被跟踪指数的净值走势图。
根据测算结果,跟踪不同指数的增强基金的模拟组合均能战胜所跟踪指数的走势,且宽基指数平均持仓市值越小,跟踪该指数的模拟组合的超额收益越明显。在测试期内,沪深300指数模拟组合累计超额收益约22%,拟合跟踪误差为2.51%。
测试期内,中证500指数模拟组合累计超额收益约30%,跟踪误差为3.23%。表现最好的中证1000指数模拟组合累计超额收益则约49%,跟踪误差为3.57%。
基于指数增强基金拟合持仓构建的模拟组合净值虽然长期能够稳定跑赢被跟踪指数,但根据图9的对比结果,模拟组合无法达到市场中实际运行的指数增强类基金的平均超额收益表现。且随着被跟踪指数成分股市值逐渐减小,模拟组合超额收益跑输指数增强基金平均超额收益的幅度越来越高。
这可能意味着,基于基金历史持仓进行成分股拟合的过程中,我们总是无法避免新拟合的持仓相对真实持仓具有一定的滞后性。由于指数增强基金普遍高换手的特性,基金管理人很可能在我们进行持仓估算的间隙已经相对历史持仓成分股进行了大幅调仓,而非仅仅只是对既有持仓个股权重的微调。既然如此,或许我们应该放低通过拟合持仓达到市场指数增强基金平均超额水平的预期。
2.2、模拟持仓的特征分析
虽然,我们无法直接通过模拟的持仓组合跑赢指数增强基金的平均超额收益水平,但是换个角度思考,拟合操作本身相当于是重构了跟踪指数成分股的权重配比信息。根据拟合持仓构建的组合可以理解为是官方指数的替换版本,我们定义为虚拟指数(Virtual Index)或影子指数(Shadow Index)。
我们认为一个优秀的虚拟指数,至少需要满足两方面的要求:与原始指数权重分布近似,但集中度更低。虚拟指数与真实指数成分股权重分布的近似性,保证我们基于虚拟指数权重进行增强时,模拟组合净值不会大幅偏离原始指数的走势。而更低的行业或板块集中度,通常越有利于稳定战胜原始指数本身的走势。
满足上述两点要求的前提下,我们或许能够预期基于虚拟指数成分股权重来构建的指数增强策略表现会更加优异。但在此之前,我们先来检验当前构建的虚拟指数是否满足上述两点要求。
我们使用JS散度(Jensen-Shannon Divergence)和赫芬达尔-赫希曼指数(HHI)来分别刻画虚拟指数的拟合权重和原始指数的真实权重分布的近似性和虚拟指数的权重集中度水平。
JS散度(Jensen-Shannon Divergence)是一种基于KL散度、用于度量两个分布之间距离的指标 。JS散度值越小,两个分布越接近;值越大,则差异越显著。当JS散度值为0时,表明二者完全一致,而当JS散度值为ln2时,则表明分布完全不重叠。
其中,M 是P与Q的均值,KL是Kullback-Leibler散度。
根据测算,基于沪深300、中证500和中证1000指数增强基金拟合的虚拟权重分布与原始真实权重分布在测算周期内JS散度均值分别为0.0078、0.0062和0.0062,整体均与零值靠近,表明拟合的权重分布与原始权重分布近似。
赫芬达尔-赫希曼指数(HHI)是一种衡量产业集中度的常用指标,其通过计算同一产业的不同主体的份额占比平方和来刻画集中度大小。HHI值越趋向于1/N(完全平均),则集中度越低,HHI值越趋向于1(单一主体),则集中度越高。
其中,表示单个主体的权重占比。
我们使用赫芬达尔-赫希曼指数(HHI)分别统计了沪深300、中证500和中证1000虚拟指数和原始指数成分股权重在行业维度上的集中度情况。测试期内,沪深300虚拟指数成分股对应的行业权重集中度相比原始指数更低。
中证500和中证1000虚拟指数持仓成分股在行业上的权重集中度亦低于真实值。不过相比沪深300虚拟指数持仓成分股行业集中度始终相对较大幅度偏离原始值,中证500和中证1000虚拟指数持仓成分股的行业集中度偶尔与原始值接近,说明当指数成分股样本逐渐增多时,虚拟指数带来的集中度下滑幅度开始有所减弱。
综上所述,通过对指数增强基金进行持仓拟合得到的虚拟指数,在权重分布上与原始指数具有近似性,保证了基于新权重构建的指数增强策略不会和原始指数存在太大偏差,同时相对更低的行业集中度,又降低了未来获取稳定超额收益的难度。
03
重构指数成分股权重的增强方案
根据前文的推论,我们尝试通过真实的数据来进行验证。我们设计了两组指数增强策略组合,分别以不同的成分股权重作为基准,其中参照组以原始指数对应的真实权重信息为基准,测试组以虚拟指数拟合得到的权重信息为基准。二者均基于同一套多因子框架进行增强测试,选取相同的因子并设定相同的约束条件。
以沪深300指数为例,测试期内,基于虚拟指数模拟持仓权重的增强组合跑赢了基于原始指数真实权重的增强组合,二者累计净值分别为4.35和3.25,基于虚拟指数的增强组合优势显著。
我们分别对比了中证500和中证1000指数两组增强组合的超额收益走势。测试期内,中证500指数增强组合测试组稳定跑赢参照组的表现,测试组累计超额收益净值为5.38,同期参照组为4.02。但中证1000指数测试组和参照组的增强组合的表现走势趋近,仅2024年以来开始分化。可以预期的是,随着原始指数成分股数量增加,构建虚拟指数带来的收益提升幅度会逐渐弱化。
虽然我们基于模拟持仓构建的增强组合超额收益表现整体更加亮眼,但可能上述结果只是幸存者偏差,比如基于模拟持仓得到的更高超额收益率很可能主要是因为所选取的合成因子恰好适配当前的权重配比环境。若换一些因子进行重新合成,可能结果就迥然不同。为了消除这一顾虑,我们进行了补充测试。
为了评估各细分因子在不同组别的选股区分度,我们使用单因子分别在虚拟指数成分股和原始指数成分股中进行了因子RankIC和RankICIR检验,以测试不同因子在哪类成分股中具有更高的预测能力和稳定性表现。我们以沪深300指数为例,分别在模拟成分股和实际成分股中基于合成因子的细分因子进行了遍历测试,结果如图18所示。
大部分细分因子,在模拟持仓成分股中计算得到的RankIC值相对更高,预测效果更好,仅有少数因子例外,如long_momentum2、active_trading等。从因子稳定性角度来看,各细分因子均在模拟持仓成分股中具有更优的表现。
综上所述,一个重要的启示是,除了因子挖掘的方法之外,我们还可以通过重构基准指数的成分股权重来提升增强策略的表现。我们把这个思路概括为:“原始指数成分股权重—虚拟指数成分股权重—因子增强方案”。
04
模型基于历史数据测算,市场未来可能发生重大改变。
更多交流,欢迎联系:
开源证券金融工程团队 | 魏建榕 张翔 傅开波 高鹏 苏俊豪 胡亮勇 王志豪 盛少成 苏良 何申昊
最新资讯
- 2025-12-06成毅粉丝发言引发笑声,网友热议追星文化现象
- 2025-12-06沙溢做梦也没想到,年仅14岁的儿子,早已开始给自己长脸了
- 2025-12-06中国真正的敌人终于曝光,16年来首次衰退,却大买美债,继续支持美国
- 2025-12-06一百九十多个国家收到中方通知,高市早苗下定决心,只留给中国两个选项
- 2025-12-06深入朝鲜边境的一天,我看到了最真实的一幕
