# SafeHome — CCF-A 升级版研究提案 ## CCF-A 定位修正 **目标会议**: ICLR 2027 / NeurIPS 2026 (Dec deadline) / AAAI 2027 **核心定位**: 不是"SimuHome 的安全版",而是**提出一个新的研究问题 + 新的评估范式 + 新的训练方法论** --- ## 1. 重新定义核心贡献(CCF-A 级别) ### 之前的问题 - 太像 "SimuHome for security" → incremental - GRPO 是现有方法直接套用 → 方法论贡献弱 - 仿真器从头建但没有独特技术贡献 → 工程为主 ### CCF-A 级别的重新定位 **核心研究问题(Novel Research Question)**: > 现有 LLM Agent 擅长"执行用户指令"(proactive task execution),但能否"从被动观察中主动发现问题"(reactive anomaly reasoning)?这是两种本质不同的推理范式——前者是 goal-directed,后者是 evidence-driven。我们提出首个系统性研究框架来量化这个差距,并证明标准的 SFT/ICL 无法弥合这个差距,而我们提出的 XXX 方法可以。 **为什么这不是 incremental**: - SimuHome 问的是 "LLM 能不能完成智能家居任务?" - 我们问的是 "LLM 能不能像人类安防专家一样,从设备状态中 **主动发现** 安全威胁?" - 这是 **proactive execution vs. reactive reasoning** 的对比,不是换个应用场景 --- ## 2. 三大核心贡献(针对 CCF-A) ### C1: SafeHome Benchmark — 首个 Reactive Anomaly Reasoning 评估框架 **不只是安全场景的 Benchmark,而是提出一种新的 LLM 评估范式:** - **对比评估设计**: 同一个家庭环境、同一个 LLM,分别测试 Proactive Execution(控制设备,类似 SimuHome QT1-QT4)和 Reactive Reasoning(从状态中发现异常,SQ1-SQ5),直接量化两种推理范式的能力差距 - **这个对比本身就是核心 finding**: 预期发现 LLM 在 reactive reasoning 上的表现远低于 proactive execution → 揭示了 LLM 的一个系统性弱点 - **设计亮点**: - 基于 Matter 协议标准(不是自己编的设备模型) - 时间序列推理(需要跨多个时间步的证据累积) - 因果推理(需要区分相关性和因果性,如温度上升+无人操作→可能故障 vs 温度上升+空调制热→正常) - 对抗性误导场景(designed to test false positive rejection) **规模**: - 1000+ episodes(比 SimuHome 的 600 更多) - 横跨 3 个难度级别 × 5 种安全推理类型 × 正/负样本 - 多种家庭布局(1B/2B/3B/复式/老人独居/带儿童家庭) ### C2: Evidence-Driven Reasoning Chain (EDRC) — 新的推理框架 **不是直接用 ReAct,而是提出针对 reactive reasoning 优化的推理框架:** 与 ReAct(Thought → Action → Observation 循环)不同,EDRC 的推理链是: ``` Evidence Collection → Anomaly Hypothesis → Verification Query → Causal Analysis → Risk Assessment → Response Decision ``` 关键创新: 1. **Evidence Accumulator**: 不是每步做一个 action,而是先被动收集多步证据再做判断 2. **Hypothesis-Verification Loop**: 提出安全假设 → 主动查询验证/否定 → 更新假设 3. **Causal Reasoning Prompt**: 区分"相关但正常"和"因果且异常" 4. **Confidence-Gated Response**: 只有当置信度超过阈值时才触发警报,减少误报 **为什么这是方法论贡献**: - ReAct 是为 goal-directed 任务设计的,不适合 evidence-driven 任务 - EDRC 是首个专门为 LLM reactive reasoning 设计的推理框架 - 可泛化到其他 reactive reasoning 场景(网络安全、医疗监测、工业监控) ### C3: SafeRL — 基于可验证奖励的安全推理 RL 训练 **不是直接套用 GRPO,而是提出安全推理特有的 RL 设计:** 1. **Compositional Verifiable Reward**: - 不是简单的对/错奖励,而是将安全推理分解为可独立验证的子任务 - 每个子任务有明确的验证条件(证据收集完整性、假设合理性、因果链正确性、响应适当性) - 奖励 = Σ(子任务奖励 × 权重),权重根据安全紧急程度动态调整 2. **Asymmetric Risk Penalty**: - 创新的非对称惩罚设计:漏报(miss)的惩罚 >> 误报(false alarm)的惩罚 - 这反映了安全领域的核心原则:宁可多报也不能漏报 - 数学形式化:引入 risk-sensitive reward shaping 3. **Curriculum Security Training**: - 从简单场景(单设备、单事件)逐步过渡到复杂场景(多设备、时序模式、对抗性误导) - 自动难度调节:根据模型当前能力动态调整训练场景分布 - 这解决了 SimuHome 发现的问题——SFT 学到简单模式但无法泛化到复杂推理 4. **对比实验矩阵**: - Zero-shot / Few-shot / SFT / DPO / GRPO / **SafeRL (ours)** 全面对比 - 在 SafeHome **和** SimuHome 上同时评估(证明不损害 proactive 能力) - 模型规模 scaling law(1B → 4B → 8B → 32B) --- ## 3. 仿真器设计(CCF-A 级 Engineering Contribution) ### 关键问题:不是 fork SimuHome,那凭什么有可信度? **答案:直接基于 Matter 协议标准构建,不依赖 SimuHome 代码** - Matter 协议(CSA 标准)本身是公开的工业标准 - SimuHome 论文 Appendix 里的 Cluster 文档也来自 Matter 规范 - 我们独立实现仿真器,但同样遵循 Matter 协议标准 → 同等的 grounding - 额外 grounding: 参考真实安防系统(如 Samsung SmartThings ADT, Ring Alarm)的设备组合和安全规则 ### 仿真器独有的技术贡献 1. **Fault Injection Engine**: 在 Matter 协议设备模型中注入各类故障模式 - 基于真实 IoT 故障数据集的故障分布(引用 IoT 可靠性研究) - 支持渐进式故障(传感器漂移)和突发故障(设备掉线) 2. **Behavior Pattern Simulator**: 生成居住者行为模式 - 基于已有的人类活动识别数据集(CASAS, ARAS, Aruba)校准行为模式 - 支持正常模式 + 异常模式的混合生成 3. **Temporal Evidence Stream**: 将设备状态组织为时间序列证据流 - LLM 不是一次看到所有信息,而是逐步接收证据 - 模拟真实安防系统的信息流动方式 --- ## 4. 预期核心 Finding(CCF-A 级 Insight) **F1: Proactive-Reactive Gap** - LLM 在 proactive execution 上表现良好(80-90%),但 reactive reasoning 显著下降(30-50%) - 这个 gap 在推理模型(GPT-5.1)上缩小但不消失 → 这不是 scale 能解决的问题 **F2: Evidence Accumulation Bottleneck** - LLM 的主要失败模式不是"不理解安全",而是"无法有效累积和整合多步证据" - 单步证据判断准确率高,但多步时序推理急剧下降 **F3: SFT vs RL for Reactive Reasoning** - SFT 对 reactive reasoning 的提升远小于对 proactive execution 的提升 - SafeRL 通过 compositional reward + curriculum training 显著优于 SFT 和标准 GRPO **F4: False Positive-Negative Tradeoff** - 发现 LLM 在安全推理中存在系统性的 precision-recall tradeoff - SafeRL 的 asymmetric risk penalty 有效缓解了这个问题 --- ## 5. 与 SimuHome 的学术关系(CCF-A 审稿人视角) **不是竞争关系,而是互补和深化**: | 维度 | SimuHome (ICLR 2026) | SafeHome (ours) | |------|---------------------|-----------------| | 研究问题 | LLM 能完成智能家居任务吗? | LLM 能主动发现安全威胁吗? | | 推理范式 | Proactive Execution | Reactive Reasoning | | 信息流 | 用户指令 → Agent 行动 | 设备状态 → Agent 推理 | | 评估 | 任务完成度 | 威胁检测准确性 + 推理质量 | | 方法 | ReAct + SFT | EDRC + SafeRL | | Finding | 工作流调度是瓶颈 | Reactive reasoning 是更根本的瓶颈 | **审稿人会问的关键问题及回答**: Q: "这跟 SimuHome 有什么本质区别?" A: SimuHome 测的是 goal-directed 能力(给定指令→执行),我们测的是 evidence-driven 能力(给定状态→发现问题)。这是两种本质不同的认知能力。我们在同一环境下证明了这个差距的存在。 Q: "为什么不直接在 SimuHome 上加安全场景?" A: (1) SimuHome 许可证不允许衍生作品 (2) SimuHome 的架构不支持故障注入和行为模式模拟 (3) 我们需要完全不同的评估机制 — 不是"任务是否完成"而是"是否正确识别了威胁" Q: "EDRC 框架是不是只是改了 prompt?" A: EDRC 不只是 prompt engineering — 它改变了推理的结构(从 action-oriented loop 到 evidence-accumulation loop),需要不同的 tool set 设计和评估方式。而且 SafeRL 的训练目标与 EDRC 的结构是配套设计的。 --- ## 6. 实验清单(CCF-A 级别) ### 主实验 (Table 1-2) - 18+ 模型在 SafeHome 上的全面评估(对标 SimuHome Table 1 的规格) - 同一组模型在 SimuHome 上的对比评估(证明 proactive-reactive gap) ### 方法对比 (Table 3) - Zero-shot / Few-shot / CoT / ReAct / EDRC (ours) 在推理框架上的对比 - SFT / DPO / GRPO / SafeRL (ours) 在训练方法上的对比 - 交叉组合:框架 × 训练方法 ### 消融 (Table 4-5) - EDRC 各组件消融(evidence accumulator / hypothesis verification / causal reasoning / confidence gating) - SafeRL 各组件消融(compositional reward / asymmetric penalty / curriculum training) - 场景复杂度 × 模型规模的交叉分析 ### 错误分析 (Figure) - 详细的错误分类学(类似 SimuHome 的 Table 3 + Figure 4) - Proactive vs Reactive 的错误模式对比 - Case study: 成功/失败的推理链可视化 ### 泛化性 (Table 6) - 在不同家庭布局上的泛化 - 在未见过的安全场景类型上的泛化 - SafeRL 训练后是否损害 proactive 能力(在 SimuHome 上验证) --- ## 7. Timeline 和 Deadline 匹配 | 会议 | Deadline | 适合程度 | |------|----------|---------| | NeurIPS 2026 | 2026年5月中旬 | ❌ 太近了 | | AAAI 2027 | 2026年8月中旬 | ⚠️ 紧张但可能(3.5个月) | | ICLR 2027 | 2026年10月初 | ✅ 最佳(5个月) | | ICML 2027 | 2027年1月底 | ✅ 充裕(9个月) | **推荐: ICLR 2027(10月初 deadline,5个月准备时间)** - 与 SimuHome (ICLR 2026 Oral) 在同一会议形成学术对话 - 时间充裕但不松散 --- ## 8. 风险与 Plan B | 风险 | 概率 | Plan B | |------|------|--------| | SafeRL 提升不显著 | 中 | 聚焦 EDRC 框架贡献 + gap 分析 finding | | 仿真器工程量太大 | 中 | 简化设备类型(只做 10 种),聚焦 5 种核心安全场景 | | 审稿人认为 incremental | 中 | 强化 proactive-reactive gap 的 finding(这本身就是贡献) | | 同期出现类似工作 | 低 | 我们的 EDRC + SafeRL 方法论是独特的差异化 |