llmiotsafe/refine-logs/FINAL_PROPOSAL.md

# SafeHome — CCF-A 升级版研究提案

## CCF-A 定位修正

**目标会议**: ICLR 2027 / NeurIPS 2026 (Dec deadline) / AAAI 2027
**核心定位**: 不是"SimuHome 的安全版"，而是**提出一个新的研究问题 + 新的评估范式 + 新的训练方法论**

---

## 1. 重新定义核心贡献（CCF-A 级别）

### 之前的问题
- 太像 "SimuHome for security" → incremental
- GRPO 是现有方法直接套用 → 方法论贡献弱
- 仿真器从头建但没有独特技术贡献 → 工程为主

### CCF-A 级别的重新定位

**核心研究问题（Novel Research Question）**:

> 现有 LLM Agent 擅长"执行用户指令"（proactive task execution），但能否"从被动观察中主动发现问题"（reactive anomaly reasoning）？这是两种本质不同的推理范式——前者是 goal-directed，后者是 evidence-driven。我们提出首个系统性研究框架来量化这个差距，并证明标准的 SFT/ICL 无法弥合这个差距，而我们提出的 XXX 方法可以。

**为什么这不是 incremental**:
- SimuHome 问的是 "LLM 能不能完成智能家居任务？"
- 我们问的是 "LLM 能不能像人类安防专家一样，从设备状态中 **主动发现** 安全威胁？"
- 这是 **proactive execution vs. reactive reasoning** 的对比，不是换个应用场景

---

## 2. 三大核心贡献（针对 CCF-A）

### C1: SafeHome Benchmark — 首个 Reactive Anomaly Reasoning 评估框架

**不只是安全场景的 Benchmark，而是提出一种新的 LLM 评估范式：**

- **对比评估设计**: 同一个家庭环境、同一个 LLM，分别测试 Proactive Execution（控制设备，类似 SimuHome QT1-QT4）和 Reactive Reasoning（从状态中发现异常，SQ1-SQ5），直接量化两种推理范式的能力差距
- **这个对比本身就是核心 finding**: 预期发现 LLM 在 reactive reasoning 上的表现远低于 proactive execution → 揭示了 LLM 的一个系统性弱点
- **设计亮点**:
  - 基于 Matter 协议标准（不是自己编的设备模型）
  - 时间序列推理（需要跨多个时间步的证据累积）
  - 因果推理（需要区分相关性和因果性，如温度上升+无人操作→可能故障 vs 温度上升+空调制热→正常）
  - 对抗性误导场景（designed to test false positive rejection）

**规模**:
- 1000+ episodes（比 SimuHome 的 600 更多）
- 横跨 3 个难度级别 × 5 种安全推理类型 × 正/负样本
- 多种家庭布局（1B/2B/3B/复式/老人独居/带儿童家庭）

### C2: Evidence-Driven Reasoning Chain (EDRC) — 新的推理框架

**不是直接用 ReAct，而是提出针对 reactive reasoning 优化的推理框架：**

与 ReAct（Thought → Action → Observation 循环）不同，EDRC 的推理链是：

```
Evidence Collection → Anomaly Hypothesis → Verification Query →
Causal Analysis → Risk Assessment → Response Decision
```

关键创新：
1. **Evidence Accumulator**: 不是每步做一个 action，而是先被动收集多步证据再做判断
2. **Hypothesis-Verification Loop**: 提出安全假设 → 主动查询验证/否定 → 更新假设
3. **Causal Reasoning Prompt**: 区分"相关但正常"和"因果且异常"
4. **Confidence-Gated Response**: 只有当置信度超过阈值时才触发警报，减少误报

**为什么这是方法论贡献**:
- ReAct 是为 goal-directed 任务设计的，不适合 evidence-driven 任务
- EDRC 是首个专门为 LLM reactive reasoning 设计的推理框架
- 可泛化到其他 reactive reasoning 场景（网络安全、医疗监测、工业监控）

### C3: SafeRL — 基于可验证奖励的安全推理 RL 训练

**不是直接套用 GRPO，而是提出安全推理特有的 RL 设计：**

1. **Compositional Verifiable Reward**:
   - 不是简单的对/错奖励，而是将安全推理分解为可独立验证的子任务
   - 每个子任务有明确的验证条件（证据收集完整性、假设合理性、因果链正确性、响应适当性）
   - 奖励 = Σ(子任务奖励 × 权重)，权重根据安全紧急程度动态调整

2. **Asymmetric Risk Penalty**:
   - 创新的非对称惩罚设计：漏报（miss）的惩罚 >> 误报（false alarm）的惩罚
   - 这反映了安全领域的核心原则：宁可多报也不能漏报
   - 数学形式化：引入 risk-sensitive reward shaping

3. **Curriculum Security Training**:
   - 从简单场景（单设备、单事件）逐步过渡到复杂场景（多设备、时序模式、对抗性误导）
   - 自动难度调节：根据模型当前能力动态调整训练场景分布
   - 这解决了 SimuHome 发现的问题——SFT 学到简单模式但无法泛化到复杂推理

4. **对比实验矩阵**:
   - Zero-shot / Few-shot / SFT / DPO / GRPO / **SafeRL (ours)** 全面对比
   - 在 SafeHome **和** SimuHome 上同时评估（证明不损害 proactive 能力）
   - 模型规模 scaling law（1B → 4B → 8B → 32B）

---

## 3. 仿真器设计（CCF-A 级 Engineering Contribution）

### 关键问题：不是 fork SimuHome，那凭什么有可信度？

**答案：直接基于 Matter 协议标准构建，不依赖 SimuHome 代码**

- Matter 协议（CSA 标准）本身是公开的工业标准
- SimuHome 论文 Appendix 里的 Cluster 文档也来自 Matter 规范
- 我们独立实现仿真器，但同样遵循 Matter 协议标准 → 同等的 grounding
- 额外 grounding: 参考真实安防系统（如 Samsung SmartThings ADT, Ring Alarm）的设备组合和安全规则

### 仿真器独有的技术贡献

1. **Fault Injection Engine**: 在 Matter 协议设备模型中注入各类故障模式
   - 基于真实 IoT 故障数据集的故障分布（引用 IoT 可靠性研究）
   - 支持渐进式故障（传感器漂移）和突发故障（设备掉线）

2. **Behavior Pattern Simulator**: 生成居住者行为模式
   - 基于已有的人类活动识别数据集（CASAS, ARAS, Aruba）校准行为模式
   - 支持正常模式 + 异常模式的混合生成

3. **Temporal Evidence Stream**: 将设备状态组织为时间序列证据流
   - LLM 不是一次看到所有信息，而是逐步接收证据
   - 模拟真实安防系统的信息流动方式

---

## 4. 预期核心 Finding（CCF-A 级 Insight）

**F1: Proactive-Reactive Gap**
- LLM 在 proactive execution 上表现良好（80-90%），但 reactive reasoning 显著下降（30-50%）
- 这个 gap 在推理模型（GPT-5.1）上缩小但不消失 → 这不是 scale 能解决的问题

**F2: Evidence Accumulation Bottleneck**
- LLM 的主要失败模式不是"不理解安全"，而是"无法有效累积和整合多步证据"
- 单步证据判断准确率高，但多步时序推理急剧下降

**F3: SFT vs RL for Reactive Reasoning**
- SFT 对 reactive reasoning 的提升远小于对 proactive execution 的提升
- SafeRL 通过 compositional reward + curriculum training 显著优于 SFT 和标准 GRPO

**F4: False Positive-Negative Tradeoff**
- 发现 LLM 在安全推理中存在系统性的 precision-recall tradeoff
- SafeRL 的 asymmetric risk penalty 有效缓解了这个问题

---

## 5. 与 SimuHome 的学术关系（CCF-A 审稿人视角）

**不是竞争关系，而是互补和深化**:

| 维度 | SimuHome (ICLR 2026) | SafeHome (ours) |
|------|---------------------|-----------------|
| 研究问题 | LLM 能完成智能家居任务吗？ | LLM 能主动发现安全威胁吗？ |
| 推理范式 | Proactive Execution | Reactive Reasoning |
| 信息流 | 用户指令 → Agent 行动 | 设备状态 → Agent 推理 |
| 评估 | 任务完成度 | 威胁检测准确性 + 推理质量 |
| 方法 | ReAct + SFT | EDRC + SafeRL |
| Finding | 工作流调度是瓶颈 | Reactive reasoning 是更根本的瓶颈 |

**审稿人会问的关键问题及回答**:

Q: "这跟 SimuHome 有什么本质区别？"
A: SimuHome 测的是 goal-directed 能力（给定指令→执行），我们测的是 evidence-driven 能力（给定状态→发现问题）。这是两种本质不同的认知能力。我们在同一环境下证明了这个差距的存在。

Q: "为什么不直接在 SimuHome 上加安全场景？"
A: (1) SimuHome 许可证不允许衍生作品 (2) SimuHome 的架构不支持故障注入和行为模式模拟 (3) 我们需要完全不同的评估机制 — 不是"任务是否完成"而是"是否正确识别了威胁"

Q: "EDRC 框架是不是只是改了 prompt？"
A: EDRC 不只是 prompt engineering — 它改变了推理的结构（从 action-oriented loop 到 evidence-accumulation loop），需要不同的 tool set 设计和评估方式。而且 SafeRL 的训练目标与 EDRC 的结构是配套设计的。

---

## 6. 实验清单（CCF-A 级别）

### 主实验 (Table 1-2)
- 18+ 模型在 SafeHome 上的全面评估（对标 SimuHome Table 1 的规格）
- 同一组模型在 SimuHome 上的对比评估（证明 proactive-reactive gap）

### 方法对比 (Table 3)
- Zero-shot / Few-shot / CoT / ReAct / EDRC (ours) 在推理框架上的对比
- SFT / DPO / GRPO / SafeRL (ours) 在训练方法上的对比
- 交叉组合：框架 × 训练方法

### 消融 (Table 4-5)
- EDRC 各组件消融（evidence accumulator / hypothesis verification / causal reasoning / confidence gating）
- SafeRL 各组件消融（compositional reward / asymmetric penalty / curriculum training）
- 场景复杂度 × 模型规模的交叉分析

### 错误分析 (Figure)
- 详细的错误分类学（类似 SimuHome 的 Table 3 + Figure 4）
- Proactive vs Reactive 的错误模式对比
- Case study: 成功/失败的推理链可视化

### 泛化性 (Table 6)
- 在不同家庭布局上的泛化
- 在未见过的安全场景类型上的泛化
- SafeRL 训练后是否损害 proactive 能力（在 SimuHome 上验证）

---

## 7. Timeline 和 Deadline 匹配

| 会议 | Deadline | 适合程度 |
|------|----------|---------|
| NeurIPS 2026 | 2026年5月中旬 | ❌ 太近了 |
| AAAI 2027 | 2026年8月中旬 | ⚠️ 紧张但可能（3.5个月） |
| ICLR 2027 | 2026年10月初 | ✅ 最佳（5个月） |
| ICML 2027 | 2027年1月底 | ✅ 充裕（9个月） |

**推荐: ICLR 2027（10月初 deadline，5个月准备时间）**
- 与 SimuHome (ICLR 2026 Oral) 在同一会议形成学术对话
- 时间充裕但不松散

---

## 8. 风险与 Plan B

| 风险 | 概率 | Plan B |
|------|------|--------|
| SafeRL 提升不显著 | 中 | 聚焦 EDRC 框架贡献 + gap 分析 finding |
| 仿真器工程量太大 | 中 | 简化设备类型（只做 10 种），聚焦 5 种核心安全场景 |
| 审稿人认为 incremental | 中 | 强化 proactive-reactive gap 的 finding（这本身就是贡献） |
| 同期出现类似工作 | 低 | 我们的 EDRC + SafeRL 方法论是独特的差异化 |