Files
llmiotsafe/refine-logs/FINAL_PROPOSAL.md
2026-05-12 17:01:39 +08:00

11 KiB
Raw Permalink Blame History

SafeHome — CCF-A 升级版研究提案

CCF-A 定位修正

目标会议: ICLR 2027 / NeurIPS 2026 (Dec deadline) / AAAI 2027 核心定位: 不是"SimuHome 的安全版",而是提出一个新的研究问题 + 新的评估范式 + 新的训练方法论


1. 重新定义核心贡献CCF-A 级别)

之前的问题

  • 太像 "SimuHome for security" → incremental
  • GRPO 是现有方法直接套用 → 方法论贡献弱
  • 仿真器从头建但没有独特技术贡献 → 工程为主

CCF-A 级别的重新定位

核心研究问题Novel Research Question:

现有 LLM Agent 擅长"执行用户指令"proactive task execution但能否"从被动观察中主动发现问题"reactive anomaly reasoning这是两种本质不同的推理范式——前者是 goal-directed后者是 evidence-driven。我们提出首个系统性研究框架来量化这个差距并证明标准的 SFT/ICL 无法弥合这个差距,而我们提出的 XXX 方法可以。

为什么这不是 incremental:

  • SimuHome 问的是 "LLM 能不能完成智能家居任务?"
  • 我们问的是 "LLM 能不能像人类安防专家一样,从设备状态中 主动发现 安全威胁?"
  • 这是 proactive execution vs. reactive reasoning 的对比,不是换个应用场景

2. 三大核心贡献(针对 CCF-A

C1: SafeHome Benchmark — 首个 Reactive Anomaly Reasoning 评估框架

不只是安全场景的 Benchmark而是提出一种新的 LLM 评估范式:

  • 对比评估设计: 同一个家庭环境、同一个 LLM分别测试 Proactive Execution控制设备类似 SimuHome QT1-QT4和 Reactive Reasoning从状态中发现异常SQ1-SQ5直接量化两种推理范式的能力差距
  • 这个对比本身就是核心 finding: 预期发现 LLM 在 reactive reasoning 上的表现远低于 proactive execution → 揭示了 LLM 的一个系统性弱点
  • 设计亮点:
    • 基于 Matter 协议标准(不是自己编的设备模型)
    • 时间序列推理(需要跨多个时间步的证据累积)
    • 因果推理(需要区分相关性和因果性,如温度上升+无人操作→可能故障 vs 温度上升+空调制热→正常)
    • 对抗性误导场景designed to test false positive rejection

规模:

  • 1000+ episodes比 SimuHome 的 600 更多)
  • 横跨 3 个难度级别 × 5 种安全推理类型 × 正/负样本
  • 多种家庭布局1B/2B/3B/复式/老人独居/带儿童家庭)

C2: Evidence-Driven Reasoning Chain (EDRC) — 新的推理框架

不是直接用 ReAct而是提出针对 reactive reasoning 优化的推理框架:

与 ReActThought → Action → Observation 循环不同EDRC 的推理链是:

Evidence Collection → Anomaly Hypothesis → Verification Query → 
Causal Analysis → Risk Assessment → Response Decision

关键创新:

  1. Evidence Accumulator: 不是每步做一个 action而是先被动收集多步证据再做判断
  2. Hypothesis-Verification Loop: 提出安全假设 → 主动查询验证/否定 → 更新假设
  3. Causal Reasoning Prompt: 区分"相关但正常"和"因果且异常"
  4. Confidence-Gated Response: 只有当置信度超过阈值时才触发警报,减少误报

为什么这是方法论贡献:

  • ReAct 是为 goal-directed 任务设计的,不适合 evidence-driven 任务
  • EDRC 是首个专门为 LLM reactive reasoning 设计的推理框架
  • 可泛化到其他 reactive reasoning 场景(网络安全、医疗监测、工业监控)

C3: SafeRL — 基于可验证奖励的安全推理 RL 训练

不是直接套用 GRPO而是提出安全推理特有的 RL 设计:

  1. Compositional Verifiable Reward:

    • 不是简单的对/错奖励,而是将安全推理分解为可独立验证的子任务
    • 每个子任务有明确的验证条件(证据收集完整性、假设合理性、因果链正确性、响应适当性)
    • 奖励 = Σ(子任务奖励 × 权重),权重根据安全紧急程度动态调整
  2. Asymmetric Risk Penalty:

    • 创新的非对称惩罚设计漏报miss的惩罚 >> 误报false alarm的惩罚
    • 这反映了安全领域的核心原则:宁可多报也不能漏报
    • 数学形式化:引入 risk-sensitive reward shaping
  3. Curriculum Security Training:

    • 从简单场景(单设备、单事件)逐步过渡到复杂场景(多设备、时序模式、对抗性误导)
    • 自动难度调节:根据模型当前能力动态调整训练场景分布
    • 这解决了 SimuHome 发现的问题——SFT 学到简单模式但无法泛化到复杂推理
  4. 对比实验矩阵:

    • Zero-shot / Few-shot / SFT / DPO / GRPO / SafeRL (ours) 全面对比
    • 在 SafeHome SimuHome 上同时评估(证明不损害 proactive 能力)
    • 模型规模 scaling law1B → 4B → 8B → 32B

3. 仿真器设计CCF-A 级 Engineering Contribution

关键问题:不是 fork SimuHome那凭什么有可信度

答案:直接基于 Matter 协议标准构建,不依赖 SimuHome 代码

  • Matter 协议CSA 标准)本身是公开的工业标准
  • SimuHome 论文 Appendix 里的 Cluster 文档也来自 Matter 规范
  • 我们独立实现仿真器,但同样遵循 Matter 协议标准 → 同等的 grounding
  • 额外 grounding: 参考真实安防系统(如 Samsung SmartThings ADT, Ring Alarm的设备组合和安全规则

仿真器独有的技术贡献

  1. Fault Injection Engine: 在 Matter 协议设备模型中注入各类故障模式

    • 基于真实 IoT 故障数据集的故障分布(引用 IoT 可靠性研究)
    • 支持渐进式故障(传感器漂移)和突发故障(设备掉线)
  2. Behavior Pattern Simulator: 生成居住者行为模式

    • 基于已有的人类活动识别数据集CASAS, ARAS, Aruba校准行为模式
    • 支持正常模式 + 异常模式的混合生成
  3. Temporal Evidence Stream: 将设备状态组织为时间序列证据流

    • LLM 不是一次看到所有信息,而是逐步接收证据
    • 模拟真实安防系统的信息流动方式

4. 预期核心 FindingCCF-A 级 Insight

F1: Proactive-Reactive Gap

  • LLM 在 proactive execution 上表现良好80-90%),但 reactive reasoning 显著下降30-50%
  • 这个 gap 在推理模型GPT-5.1)上缩小但不消失 → 这不是 scale 能解决的问题

F2: Evidence Accumulation Bottleneck

  • LLM 的主要失败模式不是"不理解安全",而是"无法有效累积和整合多步证据"
  • 单步证据判断准确率高,但多步时序推理急剧下降

F3: SFT vs RL for Reactive Reasoning

  • SFT 对 reactive reasoning 的提升远小于对 proactive execution 的提升
  • SafeRL 通过 compositional reward + curriculum training 显著优于 SFT 和标准 GRPO

F4: False Positive-Negative Tradeoff

  • 发现 LLM 在安全推理中存在系统性的 precision-recall tradeoff
  • SafeRL 的 asymmetric risk penalty 有效缓解了这个问题

5. 与 SimuHome 的学术关系CCF-A 审稿人视角)

不是竞争关系,而是互补和深化:

维度 SimuHome (ICLR 2026) SafeHome (ours)
研究问题 LLM 能完成智能家居任务吗? LLM 能主动发现安全威胁吗?
推理范式 Proactive Execution Reactive Reasoning
信息流 用户指令 → Agent 行动 设备状态 → Agent 推理
评估 任务完成度 威胁检测准确性 + 推理质量
方法 ReAct + SFT EDRC + SafeRL
Finding 工作流调度是瓶颈 Reactive reasoning 是更根本的瓶颈

审稿人会问的关键问题及回答:

Q: "这跟 SimuHome 有什么本质区别?" A: SimuHome 测的是 goal-directed 能力(给定指令→执行),我们测的是 evidence-driven 能力(给定状态→发现问题)。这是两种本质不同的认知能力。我们在同一环境下证明了这个差距的存在。

Q: "为什么不直接在 SimuHome 上加安全场景?"
A: (1) SimuHome 许可证不允许衍生作品 (2) SimuHome 的架构不支持故障注入和行为模式模拟 (3) 我们需要完全不同的评估机制 — 不是"任务是否完成"而是"是否正确识别了威胁"

Q: "EDRC 框架是不是只是改了 prompt" A: EDRC 不只是 prompt engineering — 它改变了推理的结构(从 action-oriented loop 到 evidence-accumulation loop需要不同的 tool set 设计和评估方式。而且 SafeRL 的训练目标与 EDRC 的结构是配套设计的。


6. 实验清单CCF-A 级别)

主实验 (Table 1-2)

  • 18+ 模型在 SafeHome 上的全面评估(对标 SimuHome Table 1 的规格)
  • 同一组模型在 SimuHome 上的对比评估(证明 proactive-reactive gap

方法对比 (Table 3)

  • Zero-shot / Few-shot / CoT / ReAct / EDRC (ours) 在推理框架上的对比
  • SFT / DPO / GRPO / SafeRL (ours) 在训练方法上的对比
  • 交叉组合:框架 × 训练方法

消融 (Table 4-5)

  • EDRC 各组件消融evidence accumulator / hypothesis verification / causal reasoning / confidence gating
  • SafeRL 各组件消融compositional reward / asymmetric penalty / curriculum training
  • 场景复杂度 × 模型规模的交叉分析

错误分析 (Figure)

  • 详细的错误分类学(类似 SimuHome 的 Table 3 + Figure 4
  • Proactive vs Reactive 的错误模式对比
  • Case study: 成功/失败的推理链可视化

泛化性 (Table 6)

  • 在不同家庭布局上的泛化
  • 在未见过的安全场景类型上的泛化
  • SafeRL 训练后是否损害 proactive 能力(在 SimuHome 上验证)

7. Timeline 和 Deadline 匹配

会议 Deadline 适合程度
NeurIPS 2026 2026年5月中旬 太近了
AAAI 2027 2026年8月中旬 ⚠️ 紧张但可能3.5个月)
ICLR 2027 2026年10月初 最佳5个月
ICML 2027 2027年1月底 充裕9个月

推荐: ICLR 202710月初 deadline5个月准备时间

  • 与 SimuHome (ICLR 2026 Oral) 在同一会议形成学术对话
  • 时间充裕但不松散

8. 风险与 Plan B

风险 概率 Plan B
SafeRL 提升不显著 聚焦 EDRC 框架贡献 + gap 分析 finding
仿真器工程量太大 简化设备类型(只做 10 种),聚焦 5 种核心安全场景
审稿人认为 incremental 强化 proactive-reactive gap 的 finding这本身就是贡献
同期出现类似工作 我们的 EDRC + SafeRL 方法论是独特的差异化