Files
llmiotsafe/refine-logs/FINAL_PROPOSAL.md
2026-05-12 17:01:39 +08:00

221 lines
11 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# SafeHome — CCF-A 升级版研究提案
## CCF-A 定位修正
**目标会议**: ICLR 2027 / NeurIPS 2026 (Dec deadline) / AAAI 2027
**核心定位**: 不是"SimuHome 的安全版",而是**提出一个新的研究问题 + 新的评估范式 + 新的训练方法论**
---
## 1. 重新定义核心贡献CCF-A 级别)
### 之前的问题
- 太像 "SimuHome for security" → incremental
- GRPO 是现有方法直接套用 → 方法论贡献弱
- 仿真器从头建但没有独特技术贡献 → 工程为主
### CCF-A 级别的重新定位
**核心研究问题Novel Research Question**:
> 现有 LLM Agent 擅长"执行用户指令"proactive task execution但能否"从被动观察中主动发现问题"reactive anomaly reasoning这是两种本质不同的推理范式——前者是 goal-directed后者是 evidence-driven。我们提出首个系统性研究框架来量化这个差距并证明标准的 SFT/ICL 无法弥合这个差距,而我们提出的 XXX 方法可以。
**为什么这不是 incremental**:
- SimuHome 问的是 "LLM 能不能完成智能家居任务?"
- 我们问的是 "LLM 能不能像人类安防专家一样,从设备状态中 **主动发现** 安全威胁?"
- 这是 **proactive execution vs. reactive reasoning** 的对比,不是换个应用场景
---
## 2. 三大核心贡献(针对 CCF-A
### C1: SafeHome Benchmark — 首个 Reactive Anomaly Reasoning 评估框架
**不只是安全场景的 Benchmark而是提出一种新的 LLM 评估范式:**
- **对比评估设计**: 同一个家庭环境、同一个 LLM分别测试 Proactive Execution控制设备类似 SimuHome QT1-QT4和 Reactive Reasoning从状态中发现异常SQ1-SQ5直接量化两种推理范式的能力差距
- **这个对比本身就是核心 finding**: 预期发现 LLM 在 reactive reasoning 上的表现远低于 proactive execution → 揭示了 LLM 的一个系统性弱点
- **设计亮点**:
- 基于 Matter 协议标准(不是自己编的设备模型)
- 时间序列推理(需要跨多个时间步的证据累积)
- 因果推理(需要区分相关性和因果性,如温度上升+无人操作→可能故障 vs 温度上升+空调制热→正常)
- 对抗性误导场景designed to test false positive rejection
**规模**:
- 1000+ episodes比 SimuHome 的 600 更多)
- 横跨 3 个难度级别 × 5 种安全推理类型 × 正/负样本
- 多种家庭布局1B/2B/3B/复式/老人独居/带儿童家庭)
### C2: Evidence-Driven Reasoning Chain (EDRC) — 新的推理框架
**不是直接用 ReAct而是提出针对 reactive reasoning 优化的推理框架:**
与 ReActThought → Action → Observation 循环不同EDRC 的推理链是:
```
Evidence Collection → Anomaly Hypothesis → Verification Query →
Causal Analysis → Risk Assessment → Response Decision
```
关键创新:
1. **Evidence Accumulator**: 不是每步做一个 action而是先被动收集多步证据再做判断
2. **Hypothesis-Verification Loop**: 提出安全假设 → 主动查询验证/否定 → 更新假设
3. **Causal Reasoning Prompt**: 区分"相关但正常"和"因果且异常"
4. **Confidence-Gated Response**: 只有当置信度超过阈值时才触发警报,减少误报
**为什么这是方法论贡献**:
- ReAct 是为 goal-directed 任务设计的,不适合 evidence-driven 任务
- EDRC 是首个专门为 LLM reactive reasoning 设计的推理框架
- 可泛化到其他 reactive reasoning 场景(网络安全、医疗监测、工业监控)
### C3: SafeRL — 基于可验证奖励的安全推理 RL 训练
**不是直接套用 GRPO而是提出安全推理特有的 RL 设计:**
1. **Compositional Verifiable Reward**:
- 不是简单的对/错奖励,而是将安全推理分解为可独立验证的子任务
- 每个子任务有明确的验证条件(证据收集完整性、假设合理性、因果链正确性、响应适当性)
- 奖励 = Σ(子任务奖励 × 权重),权重根据安全紧急程度动态调整
2. **Asymmetric Risk Penalty**:
- 创新的非对称惩罚设计漏报miss的惩罚 >> 误报false alarm的惩罚
- 这反映了安全领域的核心原则:宁可多报也不能漏报
- 数学形式化:引入 risk-sensitive reward shaping
3. **Curriculum Security Training**:
- 从简单场景(单设备、单事件)逐步过渡到复杂场景(多设备、时序模式、对抗性误导)
- 自动难度调节:根据模型当前能力动态调整训练场景分布
- 这解决了 SimuHome 发现的问题——SFT 学到简单模式但无法泛化到复杂推理
4. **对比实验矩阵**:
- Zero-shot / Few-shot / SFT / DPO / GRPO / **SafeRL (ours)** 全面对比
- 在 SafeHome **和** SimuHome 上同时评估(证明不损害 proactive 能力)
- 模型规模 scaling law1B → 4B → 8B → 32B
---
## 3. 仿真器设计CCF-A 级 Engineering Contribution
### 关键问题:不是 fork SimuHome那凭什么有可信度
**答案:直接基于 Matter 协议标准构建,不依赖 SimuHome 代码**
- Matter 协议CSA 标准)本身是公开的工业标准
- SimuHome 论文 Appendix 里的 Cluster 文档也来自 Matter 规范
- 我们独立实现仿真器,但同样遵循 Matter 协议标准 → 同等的 grounding
- 额外 grounding: 参考真实安防系统(如 Samsung SmartThings ADT, Ring Alarm的设备组合和安全规则
### 仿真器独有的技术贡献
1. **Fault Injection Engine**: 在 Matter 协议设备模型中注入各类故障模式
- 基于真实 IoT 故障数据集的故障分布(引用 IoT 可靠性研究)
- 支持渐进式故障(传感器漂移)和突发故障(设备掉线)
2. **Behavior Pattern Simulator**: 生成居住者行为模式
- 基于已有的人类活动识别数据集CASAS, ARAS, Aruba校准行为模式
- 支持正常模式 + 异常模式的混合生成
3. **Temporal Evidence Stream**: 将设备状态组织为时间序列证据流
- LLM 不是一次看到所有信息,而是逐步接收证据
- 模拟真实安防系统的信息流动方式
---
## 4. 预期核心 FindingCCF-A 级 Insight
**F1: Proactive-Reactive Gap**
- LLM 在 proactive execution 上表现良好80-90%),但 reactive reasoning 显著下降30-50%
- 这个 gap 在推理模型GPT-5.1)上缩小但不消失 → 这不是 scale 能解决的问题
**F2: Evidence Accumulation Bottleneck**
- LLM 的主要失败模式不是"不理解安全",而是"无法有效累积和整合多步证据"
- 单步证据判断准确率高,但多步时序推理急剧下降
**F3: SFT vs RL for Reactive Reasoning**
- SFT 对 reactive reasoning 的提升远小于对 proactive execution 的提升
- SafeRL 通过 compositional reward + curriculum training 显著优于 SFT 和标准 GRPO
**F4: False Positive-Negative Tradeoff**
- 发现 LLM 在安全推理中存在系统性的 precision-recall tradeoff
- SafeRL 的 asymmetric risk penalty 有效缓解了这个问题
---
## 5. 与 SimuHome 的学术关系CCF-A 审稿人视角)
**不是竞争关系,而是互补和深化**:
| 维度 | SimuHome (ICLR 2026) | SafeHome (ours) |
|------|---------------------|-----------------|
| 研究问题 | LLM 能完成智能家居任务吗? | LLM 能主动发现安全威胁吗? |
| 推理范式 | Proactive Execution | Reactive Reasoning |
| 信息流 | 用户指令 → Agent 行动 | 设备状态 → Agent 推理 |
| 评估 | 任务完成度 | 威胁检测准确性 + 推理质量 |
| 方法 | ReAct + SFT | EDRC + SafeRL |
| Finding | 工作流调度是瓶颈 | Reactive reasoning 是更根本的瓶颈 |
**审稿人会问的关键问题及回答**:
Q: "这跟 SimuHome 有什么本质区别?"
A: SimuHome 测的是 goal-directed 能力(给定指令→执行),我们测的是 evidence-driven 能力(给定状态→发现问题)。这是两种本质不同的认知能力。我们在同一环境下证明了这个差距的存在。
Q: "为什么不直接在 SimuHome 上加安全场景?"
A: (1) SimuHome 许可证不允许衍生作品 (2) SimuHome 的架构不支持故障注入和行为模式模拟 (3) 我们需要完全不同的评估机制 — 不是"任务是否完成"而是"是否正确识别了威胁"
Q: "EDRC 框架是不是只是改了 prompt"
A: EDRC 不只是 prompt engineering — 它改变了推理的结构(从 action-oriented loop 到 evidence-accumulation loop需要不同的 tool set 设计和评估方式。而且 SafeRL 的训练目标与 EDRC 的结构是配套设计的。
---
## 6. 实验清单CCF-A 级别)
### 主实验 (Table 1-2)
- 18+ 模型在 SafeHome 上的全面评估(对标 SimuHome Table 1 的规格)
- 同一组模型在 SimuHome 上的对比评估(证明 proactive-reactive gap
### 方法对比 (Table 3)
- Zero-shot / Few-shot / CoT / ReAct / EDRC (ours) 在推理框架上的对比
- SFT / DPO / GRPO / SafeRL (ours) 在训练方法上的对比
- 交叉组合:框架 × 训练方法
### 消融 (Table 4-5)
- EDRC 各组件消融evidence accumulator / hypothesis verification / causal reasoning / confidence gating
- SafeRL 各组件消融compositional reward / asymmetric penalty / curriculum training
- 场景复杂度 × 模型规模的交叉分析
### 错误分析 (Figure)
- 详细的错误分类学(类似 SimuHome 的 Table 3 + Figure 4
- Proactive vs Reactive 的错误模式对比
- Case study: 成功/失败的推理链可视化
### 泛化性 (Table 6)
- 在不同家庭布局上的泛化
- 在未见过的安全场景类型上的泛化
- SafeRL 训练后是否损害 proactive 能力(在 SimuHome 上验证)
---
## 7. Timeline 和 Deadline 匹配
| 会议 | Deadline | 适合程度 |
|------|----------|---------|
| NeurIPS 2026 | 2026年5月中旬 | ❌ 太近了 |
| AAAI 2027 | 2026年8月中旬 | ⚠️ 紧张但可能3.5个月) |
| ICLR 2027 | 2026年10月初 | ✅ 最佳5个月 |
| ICML 2027 | 2027年1月底 | ✅ 充裕9个月 |
**推荐: ICLR 202710月初 deadline5个月准备时间**
- 与 SimuHome (ICLR 2026 Oral) 在同一会议形成学术对话
- 时间充裕但不松散
---
## 8. 风险与 Plan B
| 风险 | 概率 | Plan B |
|------|------|--------|
| SafeRL 提升不显著 | 中 | 聚焦 EDRC 框架贡献 + gap 分析 finding |
| 仿真器工程量太大 | 中 | 简化设备类型(只做 10 种),聚焦 5 种核心安全场景 |
| 审稿人认为 incremental | 中 | 强化 proactive-reactive gap 的 finding这本身就是贡献 |
| 同期出现类似工作 | 低 | 我们的 EDRC + SafeRL 方法论是独特的差异化 |