11 KiB
SafeHome — CCF-A 升级版研究提案
CCF-A 定位修正
目标会议: ICLR 2027 / NeurIPS 2026 (Dec deadline) / AAAI 2027 核心定位: 不是"SimuHome 的安全版",而是提出一个新的研究问题 + 新的评估范式 + 新的训练方法论
1. 重新定义核心贡献(CCF-A 级别)
之前的问题
- 太像 "SimuHome for security" → incremental
- GRPO 是现有方法直接套用 → 方法论贡献弱
- 仿真器从头建但没有独特技术贡献 → 工程为主
CCF-A 级别的重新定位
核心研究问题(Novel Research Question):
现有 LLM Agent 擅长"执行用户指令"(proactive task execution),但能否"从被动观察中主动发现问题"(reactive anomaly reasoning)?这是两种本质不同的推理范式——前者是 goal-directed,后者是 evidence-driven。我们提出首个系统性研究框架来量化这个差距,并证明标准的 SFT/ICL 无法弥合这个差距,而我们提出的 XXX 方法可以。
为什么这不是 incremental:
- SimuHome 问的是 "LLM 能不能完成智能家居任务?"
- 我们问的是 "LLM 能不能像人类安防专家一样,从设备状态中 主动发现 安全威胁?"
- 这是 proactive execution vs. reactive reasoning 的对比,不是换个应用场景
2. 三大核心贡献(针对 CCF-A)
C1: SafeHome Benchmark — 首个 Reactive Anomaly Reasoning 评估框架
不只是安全场景的 Benchmark,而是提出一种新的 LLM 评估范式:
- 对比评估设计: 同一个家庭环境、同一个 LLM,分别测试 Proactive Execution(控制设备,类似 SimuHome QT1-QT4)和 Reactive Reasoning(从状态中发现异常,SQ1-SQ5),直接量化两种推理范式的能力差距
- 这个对比本身就是核心 finding: 预期发现 LLM 在 reactive reasoning 上的表现远低于 proactive execution → 揭示了 LLM 的一个系统性弱点
- 设计亮点:
- 基于 Matter 协议标准(不是自己编的设备模型)
- 时间序列推理(需要跨多个时间步的证据累积)
- 因果推理(需要区分相关性和因果性,如温度上升+无人操作→可能故障 vs 温度上升+空调制热→正常)
- 对抗性误导场景(designed to test false positive rejection)
规模:
- 1000+ episodes(比 SimuHome 的 600 更多)
- 横跨 3 个难度级别 × 5 种安全推理类型 × 正/负样本
- 多种家庭布局(1B/2B/3B/复式/老人独居/带儿童家庭)
C2: Evidence-Driven Reasoning Chain (EDRC) — 新的推理框架
不是直接用 ReAct,而是提出针对 reactive reasoning 优化的推理框架:
与 ReAct(Thought → Action → Observation 循环)不同,EDRC 的推理链是:
Evidence Collection → Anomaly Hypothesis → Verification Query →
Causal Analysis → Risk Assessment → Response Decision
关键创新:
- Evidence Accumulator: 不是每步做一个 action,而是先被动收集多步证据再做判断
- Hypothesis-Verification Loop: 提出安全假设 → 主动查询验证/否定 → 更新假设
- Causal Reasoning Prompt: 区分"相关但正常"和"因果且异常"
- Confidence-Gated Response: 只有当置信度超过阈值时才触发警报,减少误报
为什么这是方法论贡献:
- ReAct 是为 goal-directed 任务设计的,不适合 evidence-driven 任务
- EDRC 是首个专门为 LLM reactive reasoning 设计的推理框架
- 可泛化到其他 reactive reasoning 场景(网络安全、医疗监测、工业监控)
C3: SafeRL — 基于可验证奖励的安全推理 RL 训练
不是直接套用 GRPO,而是提出安全推理特有的 RL 设计:
-
Compositional Verifiable Reward:
- 不是简单的对/错奖励,而是将安全推理分解为可独立验证的子任务
- 每个子任务有明确的验证条件(证据收集完整性、假设合理性、因果链正确性、响应适当性)
- 奖励 = Σ(子任务奖励 × 权重),权重根据安全紧急程度动态调整
-
Asymmetric Risk Penalty:
- 创新的非对称惩罚设计:漏报(miss)的惩罚 >> 误报(false alarm)的惩罚
- 这反映了安全领域的核心原则:宁可多报也不能漏报
- 数学形式化:引入 risk-sensitive reward shaping
-
Curriculum Security Training:
- 从简单场景(单设备、单事件)逐步过渡到复杂场景(多设备、时序模式、对抗性误导)
- 自动难度调节:根据模型当前能力动态调整训练场景分布
- 这解决了 SimuHome 发现的问题——SFT 学到简单模式但无法泛化到复杂推理
-
对比实验矩阵:
- Zero-shot / Few-shot / SFT / DPO / GRPO / SafeRL (ours) 全面对比
- 在 SafeHome 和 SimuHome 上同时评估(证明不损害 proactive 能力)
- 模型规模 scaling law(1B → 4B → 8B → 32B)
3. 仿真器设计(CCF-A 级 Engineering Contribution)
关键问题:不是 fork SimuHome,那凭什么有可信度?
答案:直接基于 Matter 协议标准构建,不依赖 SimuHome 代码
- Matter 协议(CSA 标准)本身是公开的工业标准
- SimuHome 论文 Appendix 里的 Cluster 文档也来自 Matter 规范
- 我们独立实现仿真器,但同样遵循 Matter 协议标准 → 同等的 grounding
- 额外 grounding: 参考真实安防系统(如 Samsung SmartThings ADT, Ring Alarm)的设备组合和安全规则
仿真器独有的技术贡献
-
Fault Injection Engine: 在 Matter 协议设备模型中注入各类故障模式
- 基于真实 IoT 故障数据集的故障分布(引用 IoT 可靠性研究)
- 支持渐进式故障(传感器漂移)和突发故障(设备掉线)
-
Behavior Pattern Simulator: 生成居住者行为模式
- 基于已有的人类活动识别数据集(CASAS, ARAS, Aruba)校准行为模式
- 支持正常模式 + 异常模式的混合生成
-
Temporal Evidence Stream: 将设备状态组织为时间序列证据流
- LLM 不是一次看到所有信息,而是逐步接收证据
- 模拟真实安防系统的信息流动方式
4. 预期核心 Finding(CCF-A 级 Insight)
F1: Proactive-Reactive Gap
- LLM 在 proactive execution 上表现良好(80-90%),但 reactive reasoning 显著下降(30-50%)
- 这个 gap 在推理模型(GPT-5.1)上缩小但不消失 → 这不是 scale 能解决的问题
F2: Evidence Accumulation Bottleneck
- LLM 的主要失败模式不是"不理解安全",而是"无法有效累积和整合多步证据"
- 单步证据判断准确率高,但多步时序推理急剧下降
F3: SFT vs RL for Reactive Reasoning
- SFT 对 reactive reasoning 的提升远小于对 proactive execution 的提升
- SafeRL 通过 compositional reward + curriculum training 显著优于 SFT 和标准 GRPO
F4: False Positive-Negative Tradeoff
- 发现 LLM 在安全推理中存在系统性的 precision-recall tradeoff
- SafeRL 的 asymmetric risk penalty 有效缓解了这个问题
5. 与 SimuHome 的学术关系(CCF-A 审稿人视角)
不是竞争关系,而是互补和深化:
| 维度 | SimuHome (ICLR 2026) | SafeHome (ours) |
|---|---|---|
| 研究问题 | LLM 能完成智能家居任务吗? | LLM 能主动发现安全威胁吗? |
| 推理范式 | Proactive Execution | Reactive Reasoning |
| 信息流 | 用户指令 → Agent 行动 | 设备状态 → Agent 推理 |
| 评估 | 任务完成度 | 威胁检测准确性 + 推理质量 |
| 方法 | ReAct + SFT | EDRC + SafeRL |
| Finding | 工作流调度是瓶颈 | Reactive reasoning 是更根本的瓶颈 |
审稿人会问的关键问题及回答:
Q: "这跟 SimuHome 有什么本质区别?" A: SimuHome 测的是 goal-directed 能力(给定指令→执行),我们测的是 evidence-driven 能力(给定状态→发现问题)。这是两种本质不同的认知能力。我们在同一环境下证明了这个差距的存在。
Q: "为什么不直接在 SimuHome 上加安全场景?"
A: (1) SimuHome 许可证不允许衍生作品 (2) SimuHome 的架构不支持故障注入和行为模式模拟 (3) 我们需要完全不同的评估机制 — 不是"任务是否完成"而是"是否正确识别了威胁"
Q: "EDRC 框架是不是只是改了 prompt?" A: EDRC 不只是 prompt engineering — 它改变了推理的结构(从 action-oriented loop 到 evidence-accumulation loop),需要不同的 tool set 设计和评估方式。而且 SafeRL 的训练目标与 EDRC 的结构是配套设计的。
6. 实验清单(CCF-A 级别)
主实验 (Table 1-2)
- 18+ 模型在 SafeHome 上的全面评估(对标 SimuHome Table 1 的规格)
- 同一组模型在 SimuHome 上的对比评估(证明 proactive-reactive gap)
方法对比 (Table 3)
- Zero-shot / Few-shot / CoT / ReAct / EDRC (ours) 在推理框架上的对比
- SFT / DPO / GRPO / SafeRL (ours) 在训练方法上的对比
- 交叉组合:框架 × 训练方法
消融 (Table 4-5)
- EDRC 各组件消融(evidence accumulator / hypothesis verification / causal reasoning / confidence gating)
- SafeRL 各组件消融(compositional reward / asymmetric penalty / curriculum training)
- 场景复杂度 × 模型规模的交叉分析
错误分析 (Figure)
- 详细的错误分类学(类似 SimuHome 的 Table 3 + Figure 4)
- Proactive vs Reactive 的错误模式对比
- Case study: 成功/失败的推理链可视化
泛化性 (Table 6)
- 在不同家庭布局上的泛化
- 在未见过的安全场景类型上的泛化
- SafeRL 训练后是否损害 proactive 能力(在 SimuHome 上验证)
7. Timeline 和 Deadline 匹配
| 会议 | Deadline | 适合程度 |
|---|---|---|
| NeurIPS 2026 | 2026年5月中旬 | ❌ 太近了 |
| AAAI 2027 | 2026年8月中旬 | ⚠️ 紧张但可能(3.5个月) |
| ICLR 2027 | 2026年10月初 | ✅ 最佳(5个月) |
| ICML 2027 | 2027年1月底 | ✅ 充裕(9个月) |
推荐: ICLR 2027(10月初 deadline,5个月准备时间)
- 与 SimuHome (ICLR 2026 Oral) 在同一会议形成学术对话
- 时间充裕但不松散
8. 风险与 Plan B
| 风险 | 概率 | Plan B |
|---|---|---|
| SafeRL 提升不显著 | 中 | 聚焦 EDRC 框架贡献 + gap 分析 finding |
| 仿真器工程量太大 | 中 | 简化设备类型(只做 10 种),聚焦 5 种核心安全场景 |
| 审稿人认为 incremental | 中 | 强化 proactive-reactive gap 的 finding(这本身就是贡献) |
| 同期出现类似工作 | 低 | 我们的 EDRC + SafeRL 方法论是独特的差异化 |