Files

2026-05-12 17:01:39 +08:00

11 KiB

Raw Permalink Blame History

SafeHome — CCF-A 升级版研究提案

CCF-A 定位修正

目标会议: ICLR 2027 / NeurIPS 2026 (Dec deadline) / AAAI 2027 核心定位: 不是"SimuHome 的安全版"，而是提出一个新的研究问题 + 新的评估范式 + 新的训练方法论

1. 重新定义核心贡献（CCF-A 级别）

之前的问题

太像 "SimuHome for security" → incremental
GRPO 是现有方法直接套用 → 方法论贡献弱
仿真器从头建但没有独特技术贡献 → 工程为主

CCF-A 级别的重新定位

核心研究问题（Novel Research Question）:

现有 LLM Agent 擅长"执行用户指令"（proactive task execution），但能否"从被动观察中主动发现问题"（reactive anomaly reasoning）？这是两种本质不同的推理范式——前者是 goal-directed，后者是 evidence-driven。我们提出首个系统性研究框架来量化这个差距，并证明标准的 SFT/ICL 无法弥合这个差距，而我们提出的 XXX 方法可以。

为什么这不是 incremental:

SimuHome 问的是 "LLM 能不能完成智能家居任务？"
我们问的是 "LLM 能不能像人类安防专家一样，从设备状态中 主动发现 安全威胁？"
这是 proactive execution vs. reactive reasoning 的对比，不是换个应用场景

2. 三大核心贡献（针对 CCF-A）

C1: SafeHome Benchmark — 首个 Reactive Anomaly Reasoning 评估框架

不只是安全场景的 Benchmark，而是提出一种新的 LLM 评估范式：

对比评估设计: 同一个家庭环境、同一个 LLM，分别测试 Proactive Execution（控制设备，类似 SimuHome QT1-QT4）和 Reactive Reasoning（从状态中发现异常，SQ1-SQ5），直接量化两种推理范式的能力差距
这个对比本身就是核心 finding: 预期发现 LLM 在 reactive reasoning 上的表现远低于 proactive execution → 揭示了 LLM 的一个系统性弱点
设计亮点:
- 基于 Matter 协议标准（不是自己编的设备模型）
- 时间序列推理（需要跨多个时间步的证据累积）
- 因果推理（需要区分相关性和因果性，如温度上升+无人操作→可能故障 vs 温度上升+空调制热→正常）
- 对抗性误导场景（designed to test false positive rejection）

规模:

1000+ episodes（比 SimuHome 的 600 更多）
横跨 3 个难度级别 × 5 种安全推理类型 × 正/负样本
多种家庭布局（1B/2B/3B/复式/老人独居/带儿童家庭）

C2: Evidence-Driven Reasoning Chain (EDRC) — 新的推理框架

不是直接用 ReAct，而是提出针对 reactive reasoning 优化的推理框架：

与 ReAct（Thought → Action → Observation 循环）不同，EDRC 的推理链是：

Evidence Collection → Anomaly Hypothesis → Verification Query → 
Causal Analysis → Risk Assessment → Response Decision

关键创新：

Evidence Accumulator: 不是每步做一个 action，而是先被动收集多步证据再做判断
Hypothesis-Verification Loop: 提出安全假设 → 主动查询验证/否定 → 更新假设
Causal Reasoning Prompt: 区分"相关但正常"和"因果且异常"
Confidence-Gated Response: 只有当置信度超过阈值时才触发警报，减少误报

为什么这是方法论贡献:

ReAct 是为 goal-directed 任务设计的，不适合 evidence-driven 任务
EDRC 是首个专门为 LLM reactive reasoning 设计的推理框架
可泛化到其他 reactive reasoning 场景（网络安全、医疗监测、工业监控）

C3: SafeRL — 基于可验证奖励的安全推理 RL 训练

不是直接套用 GRPO，而是提出安全推理特有的 RL 设计：

Compositional Verifiable Reward:
- 不是简单的对/错奖励，而是将安全推理分解为可独立验证的子任务
- 每个子任务有明确的验证条件（证据收集完整性、假设合理性、因果链正确性、响应适当性）
- 奖励 = Σ(子任务奖励 × 权重)，权重根据安全紧急程度动态调整
Asymmetric Risk Penalty:
- 创新的非对称惩罚设计：漏报（miss）的惩罚 >> 误报（false alarm）的惩罚
- 这反映了安全领域的核心原则：宁可多报也不能漏报
- 数学形式化：引入 risk-sensitive reward shaping
Curriculum Security Training:
- 从简单场景（单设备、单事件）逐步过渡到复杂场景（多设备、时序模式、对抗性误导）
- 自动难度调节：根据模型当前能力动态调整训练场景分布
- 这解决了 SimuHome 发现的问题——SFT 学到简单模式但无法泛化到复杂推理
对比实验矩阵:
- Zero-shot / Few-shot / SFT / DPO / GRPO / SafeRL (ours) 全面对比
- 在 SafeHome 和 SimuHome 上同时评估（证明不损害 proactive 能力）
- 模型规模 scaling law（1B → 4B → 8B → 32B）

3. 仿真器设计（CCF-A 级 Engineering Contribution）

关键问题：不是 fork SimuHome，那凭什么有可信度？

答案：直接基于 Matter 协议标准构建，不依赖 SimuHome 代码

Matter 协议（CSA 标准）本身是公开的工业标准
SimuHome 论文 Appendix 里的 Cluster 文档也来自 Matter 规范
我们独立实现仿真器，但同样遵循 Matter 协议标准 → 同等的 grounding
额外 grounding: 参考真实安防系统（如 Samsung SmartThings ADT, Ring Alarm）的设备组合和安全规则

仿真器独有的技术贡献

Fault Injection Engine: 在 Matter 协议设备模型中注入各类故障模式
- 基于真实 IoT 故障数据集的故障分布（引用 IoT 可靠性研究）
- 支持渐进式故障（传感器漂移）和突发故障（设备掉线）
Behavior Pattern Simulator: 生成居住者行为模式
- 基于已有的人类活动识别数据集（CASAS, ARAS, Aruba）校准行为模式
- 支持正常模式 + 异常模式的混合生成
Temporal Evidence Stream: 将设备状态组织为时间序列证据流
- LLM 不是一次看到所有信息，而是逐步接收证据
- 模拟真实安防系统的信息流动方式

4. 预期核心 Finding（CCF-A 级 Insight）

F1: Proactive-Reactive Gap

LLM 在 proactive execution 上表现良好（80-90%），但 reactive reasoning 显著下降（30-50%）
这个 gap 在推理模型（GPT-5.1）上缩小但不消失 → 这不是 scale 能解决的问题

F2: Evidence Accumulation Bottleneck

LLM 的主要失败模式不是"不理解安全"，而是"无法有效累积和整合多步证据"
单步证据判断准确率高，但多步时序推理急剧下降

F3: SFT vs RL for Reactive Reasoning

SFT 对 reactive reasoning 的提升远小于对 proactive execution 的提升
SafeRL 通过 compositional reward + curriculum training 显著优于 SFT 和标准 GRPO

F4: False Positive-Negative Tradeoff

发现 LLM 在安全推理中存在系统性的 precision-recall tradeoff
SafeRL 的 asymmetric risk penalty 有效缓解了这个问题

5. 与 SimuHome 的学术关系（CCF-A 审稿人视角）

不是竞争关系，而是互补和深化:

维度	SimuHome (ICLR 2026)	SafeHome (ours)
研究问题	LLM 能完成智能家居任务吗？	LLM 能主动发现安全威胁吗？
推理范式	Proactive Execution	Reactive Reasoning
信息流	用户指令 → Agent 行动	设备状态 → Agent 推理
评估	任务完成度	威胁检测准确性 + 推理质量
方法	ReAct + SFT	EDRC + SafeRL
Finding	工作流调度是瓶颈	Reactive reasoning 是更根本的瓶颈

审稿人会问的关键问题及回答:

Q: "这跟 SimuHome 有什么本质区别？" A: SimuHome 测的是 goal-directed 能力（给定指令→执行），我们测的是 evidence-driven 能力（给定状态→发现问题）。这是两种本质不同的认知能力。我们在同一环境下证明了这个差距的存在。

Q: "为什么不直接在 SimuHome 上加安全场景？"
A: (1) SimuHome 许可证不允许衍生作品 (2) SimuHome 的架构不支持故障注入和行为模式模拟 (3) 我们需要完全不同的评估机制 — 不是"任务是否完成"而是"是否正确识别了威胁"

Q: "EDRC 框架是不是只是改了 prompt？" A: EDRC 不只是 prompt engineering — 它改变了推理的结构（从 action-oriented loop 到 evidence-accumulation loop），需要不同的 tool set 设计和评估方式。而且 SafeRL 的训练目标与 EDRC 的结构是配套设计的。

6. 实验清单（CCF-A 级别）

主实验 (Table 1-2)

18+ 模型在 SafeHome 上的全面评估（对标 SimuHome Table 1 的规格）
同一组模型在 SimuHome 上的对比评估（证明 proactive-reactive gap）

方法对比 (Table 3)

Zero-shot / Few-shot / CoT / ReAct / EDRC (ours) 在推理框架上的对比
SFT / DPO / GRPO / SafeRL (ours) 在训练方法上的对比
交叉组合：框架 × 训练方法

消融 (Table 4-5)

EDRC 各组件消融（evidence accumulator / hypothesis verification / causal reasoning / confidence gating）
SafeRL 各组件消融（compositional reward / asymmetric penalty / curriculum training）
场景复杂度 × 模型规模的交叉分析

错误分析 (Figure)

详细的错误分类学（类似 SimuHome 的 Table 3 + Figure 4）
Proactive vs Reactive 的错误模式对比
Case study: 成功/失败的推理链可视化

泛化性 (Table 6)

在不同家庭布局上的泛化
在未见过的安全场景类型上的泛化
SafeRL 训练后是否损害 proactive 能力（在 SimuHome 上验证）

7. Timeline 和 Deadline 匹配

会议	Deadline	适合程度
NeurIPS 2026	2026年5月中旬	❌ 太近了
AAAI 2027	2026年8月中旬	⚠️ 紧张但可能（3.5个月）
ICLR 2027	2026年10月初	✅ 最佳（5个月）
ICML 2027	2027年1月底	✅ 充裕（9个月）

推荐: ICLR 2027（10月初 deadline，5个月准备时间）

与 SimuHome (ICLR 2026 Oral) 在同一会议形成学术对话
时间充裕但不松散

8. 风险与 Plan B

风险	概率	Plan B
SafeRL 提升不显著	中	聚焦 EDRC 框架贡献 + gap 分析 finding
仿真器工程量太大	中	简化设备类型（只做 10 种），聚焦 5 种核心安全场景
审稿人认为 incremental	中	强化 proactive-reactive gap 的 finding（这本身就是贡献）
同期出现类似工作	低	我们的 EDRC + SafeRL 方法论是独特的差异化

11 KiB Raw Permalink Blame History Unescape Escape