关键概念
时间序列预测
RavaPush 分析按时间顺序排列的数据点(时间序列),识别其中的模式:
- 趋势 — 长期方向性变化
- 周期性 — 重复出现的模式
- 季节性 — 固定时间间隔的变化
- 异常 — 偏离正常模式的数据点
基于这些模式,系统生成未来值的概率分布,并提供置信区间。
零样本预测
由于在大规模多领域数据上预训练,RavaPush 可以立即应用于新的时间序列:
- 无需为每个新数据集训练模型
- 能识别跨领域共通的时间模式
- 随着数据积累自动改进
对于特定应用,可以选择在你的数据上微调模型以提高准确率(通常提升 20-40%)。
主动推送
RavaPush 不只是预测,还会在以下情况主动推送:
- 检测到偏离历史模式
- 预测显示未来风险
- 达到预设阈值
- 异常模式匹配已知风险特征
推送系统会学习你的响应模式,避免过度打扰。
典型应用
追踪和监测
个人习惯
"你通常每周运动 2 次,本周还未记录运动"
资源使用
"服务器 CPU 使用率过去 3 天持续上升,预测 48 小时内达到阈值"
客户行为
"客户 A 的订单频率从每月 2 次降至 0.5 次,流失概率 65%"
进度和规划
项目估算
"按当前速度完成需要 30 天,但截止日期是 25 天。建议调整范围或延长时间线"
容量规划
"按用户增长率(月均 15%),6 个月后需要扩容 40%"
库存管理
"按当前销售速度,SKU-A123 将在 5 天内售罄"
异常检测
质量监控
"错误率从 0.3% 上升至 1.2%,超过正常范围 4 倍标准差"
安全威胁
"登录失败率从 0.5% 上升至 8%,可能遭遇暴力破解"
供应链风险
"供应商 A 交货延迟从 2 天增至 5 天,持续 3 周"
数据要求
最小要求
至少 30 个数据点,推荐 100+
相对规律的时间间隔
缺失值少于 10%
数值型单变量序列
最佳条件
等间隔的时间点
一致的测量标准
有明显的模式
外部干扰因素较少
不适合的情况
数据点少于 20 个
高度不规则或稀疏
频繁改变测量方法
纯随机数据无模式
准确性和限制
影响准确性的因素
数据量和质量
更多数据 = 更好的模式识别。规律数据比不规律数据更可预测。
预测范围
短期(1-7 天)通常最准确,长期(30+ 天)不确定性显著增加。
模式稳定性
稳定模式容易预测,频繁变化的模式难以预测。
主要限制
无法预测前所未有的事件
系统基于历史模式。如果某事从未发生过,或者出现根本性改变,预测将失效。
你一直步行上班,系统无法预测你买车后的通勤变化。
相关性,非因果性
系统发现统计关联,但不理解因果关系。改变底层因素可能使预测失效。
系统知道"任务 A 通常需要 3 天",但不知道为什么。
需要充足历史数据
| 数据量 | 预测能力 |
|---|---|
| 少于 30 个点 | 不可靠 |
| 30 - 100 个点 | 基本趋势 |
| 100+ 个点 | 准确的模式识别 |
| 500+ 个点 | 可以考虑微调 |
对数据质量敏感
缺失值、不一致的间隔、测量方法变化都会降低准确性。
技术细节
模型架构
RavaPush 使用仅解码器的 Transformer 架构:
- 自回归生成 — 类似语言模型逐步预测下一个值
- 基于 patch — 将序列分成片段(32 个时间点)处理
- 因果注意力 — 只看过去的信息,防止数据泄漏
- 最大上下文 — 2048 个时间点
预训练
模型在超过千亿真实世界时间序列数据上预训练,涵盖多个行业和应用场景,包含各种时间粒度(小时到季度),识别跨领域的共通模式。这使得模型能够:
- 零样本预测新的时间序列
- 对噪声和异常值更鲁棒
- 快速适应新场景
置信区间
每个预测包含置信区间(第 10 到第 90 百分位数):
- 窄区间 — 高置信度,模式清晰
- 宽区间 — 低置信度,不确定性高
置信区间反映统计不确定性,不是对未来的保证。
微调(可选)
对于数据充足(500+ 点)且模式特殊的场景,可以微调模型:
- 在基础模型上精细调整
- 保留泛化能力,增强特定模式敏感度
- 准确率通常提升 20-40%
- 微调时间:数小时到一天
使用建议
数据收集
- 保持一致的测量方法和时间间隔
- 记录异常事件的原因
- 避免长时间的数据间隙
- 尽可能多地积累历史数据
解读预测
- 关注置信区间,不只是点预测
- 将预测与实际结果对比,了解系统可靠性
- 理解预测是建议,最终决策权在你
- 定期更新数据以改进预测
何时信任预测
高置信度
稳定的历史模式
100+ 数据点
短期预测(1-7 天)
低置信度
数据波动大
30-50 数据点
长期预测(30+ 天)
与其他方法的比较
| 优势 | 劣势 | 适用场景 | |
|---|---|---|---|
| vs 统计模型 (ARIMA, Prophet) | 跨场景泛化更好 无需手动调参 更长上下文 | 可解释性较弱 | 需要自动化预测多个不同类型的数据 |
| vs LLM | 更高效 数值准确性更好 计算成本低 | 无法结合文本上下文 | 纯数值时间序列预测 |
在 RavaAI 中的定位
RavaPush 是 RavaAI 的三个核心组件之一:
RavaCore
分析当前状态
"现在是什么情况"
RavaTimes
推演多个场景
"如果选择 A/B/C 会怎样"
RavaPush
预测未来趋势
"接下来可能发生什么"
协同示例
考虑是否加快项目进度:
① RavaCore 分析当前状态(剩余任务、团队配置、历史速度)
② RavaPush 预测:"按当前速度 30 天完成,截止日期 25 天,70% 延期概率"
③ RavaTimes 推演选项:保持现状、增加工时、增加人手
常见问题
需要多少数据?
最少 30 个点可以开始预测,100+ 个点获得可靠结果,500+ 个点考虑微调。
可以预测多远?
技术上任意长度,但准确性随时间递减。短期(1-7 天)最准,长期(30+ 天)不确定性高。
处理什么类型的数据?
数值型单变量时间序列,规律间隔。不支持文本、分类数据或多变量预测。
如何处理缺失数据?
前向填充、插值或排除。缺失超过 10% 会降低可靠性。
预测会自动更新吗?
是。新数据记录后,模型重新计算模式并更新预测。
推送频率如何控制?
系统通过置信度阈值、重要性评估、频率控制和学习你的响应模式来避免过度打扰。可以在设置中调整。
微调需要多久?
500-1000 个点需要几小时,1000+ 个点可能需要半天到一天。
隐私
- 你的数据用于生成个人预测
- 微调模型只服务于你
- 不与其他用户共享
- 可随时删除