|
核心思想
传统AI学的是“怎么做能赚钱”;这个AI学的是“成功交易员在加仓时脑子里隐含的风险偏好曲线”。
方法:逆强化学习——不直接模仿动作,而是反推出交易行为背后的奖励逻辑。 一、训练数据我们从多家经纪商脱敏日志中,提取了2000多个长期盈利的黄金手工交易员的匿名加仓记录(总样本量超50万笔订单)。重点不是他们赚了多少,而是:在浮亏X%时,他们选择加仓还是等待;在浮盈Y%时,他们选择平仓还是持有。 同时,用变分自编码器将这50万笔动作压缩成一个低维的“风险偏好潜码”。这么做的好处是:即使不同交易员风格迥异,VAE能找到他们共通的、适合加仓的底层行为模式。 二、逆强化学习训练步骤1:用VAE从数据中提取行为特征,生成一个“专家奖励函数”的初始猜测。 步骤2:让一个策略网络在模拟黄金行情中不断试错,同时不断调整奖励函数,直到策略网络的输出分布与VAE提取的专家特征分布无法区分。 结果:AI没有学死规则,而是学到了人类高手那种“浮亏时冷静评估、浮盈时不过度贪婪”的隐性权衡。
三、加仓行为特征没有固定间距、手数倍数。AI会输出一个0到1的加仓冲动指数和-1到1的手数调节因子。 浮亏扩大时,冲动指数会先升后降——前三层加仓信心较强,第四层开始迅速衰减。训练显示模型对“超过4层加仓”有天然排斥。 行情宽幅震荡时,模型倾向于更小的加仓间距和更温和的手数增量,窄幅震荡时则更谨慎出手。
四、平仓与风控 五、实测表现(黄金XAUUSD,样本外2024-2025)
|