llmiotsafe/results/ANALYSIS_REPORT.md

# SafeHome Benchmark 基线评测报告

**评测日期**: 2026-04-30
**Benchmark**: 1200 episodes (SQ1-SQ5, TP/FP/TN)
**评测模型**: Qwen2.5-7B-Instruct (本地), Claude Opus 4.6 (API)

---

## 一、总体对比

| 指标 | Qwen2.5-7B | Claude Opus 4.6 |
|------|-----------|----------------|
| **Detection Accuracy** | **60.3%** | 48.6% |
| **TP Recall (检出率)** | 14.0% | **93.3%** |
| **FP+TN 误报率** | **0.3%** | 87.5% |
| **Precision** | **97.5%** | 47.4% |
| **F1-Security** | 0.245 | **0.629** |
| **Threat Type Accuracy** | **55.8%** | 25.1% |
| **Parse Failure Rate** | 8.4% | **2.9%** |
| **Avg Latency** | **5.1s** | 25.5s |
| **API Errors** | **0** | 15 |

## 二、核心发现

### Finding 1: 两种极端失败模式

Qwen2.5-7B 和 Claude Opus 代表了 LLM 在安全推理中的两个极端：

- **Qwen (保守型)**: 几乎永远回答"正常"。FP/TN 准确率 99.5%/99.6%，但 TP 检出率仅 14%。宁可漏报也不误报。
- **Claude (敏感型)**: 倾向于报告异常。TP 检出率 93.3%，但 FP 误报率 87.5%。宁可误报也不漏报。

**两者的 Overall Accuracy 都不到 61%**——虽然原因完全相反。

### Finding 2: 按异常类别的检出率差异巨大

| 异常类别 | Qwen 检出率 | Claude 检出率 | 差距 |
|---------|-----------|-------------|------|
| 入侵类 | 19% | **92%** | 73pp |
| 火灾/燃气类 | 23% | **98%** | 75pp |
| 水损类 | 25% | **98%** | 73pp |
| 设备故障类 | **4%** | 86% | 82pp |
| 老人特有类 | **0%** | 100% | 100pp |
| 儿童特有类 | **0%** | 93% | 93pp |
| 行为异常类 | **0%** | 95% | 95pp |

Qwen 在老人/儿童/行为异常三个类别上**零检出**，这些场景需要结合住户画像和行为模式进行推理，7B 模型完全无法胜任。

### Finding 3: 场景难度分层

**两个模型都能检测的场景（"简单场景"）**:
- DF-05 (烟雾报警器硬件故障): 有直接的 HardwareFaultAlert 信号
- WD-03 (无人在家漏水): 漏水传感器直接触发
- FG-04 (报警器低电量+烟雾): Claude 100%检出，Qwen 20%

**Claude 能检测但 Qwen 不能的场景（"推理场景"）**:
- DF-01 (温度 stuck-at): 需要发现读数固定不变 — Claude 100%, Qwen 0%
- DF-04 (门锁故障): 需要发现命令后状态不变 — Claude 100%, Qwen 0%
- EL-01~07 (全部老人场景): 需要行为模式推理 — Claude 100%, Qwen 0%
- BA-01~05 (全部行为异常): 需要模式识别 — Claude ~95%, Qwen 0%

**两个模型都困难的场景**:
- DF-02 (温度漂移): Claude 30%, Qwen 0% — 需要识别缓慢的单向偏移
- DF-06 (窗帘电机卡住): Claude 78%, Qwen 0% — 需要发现状态与位置的矛盾
- INS-03 (尾随入室): Claude 82%, Qwen 53% — 需要分析进门后的异常人数

### Finding 4: 按 SQ 类型的表现

| SQ类型 | Qwen Acc | Claude Acc | Qwen Miss | Claude FA |
|--------|----------|-----------|-----------|-----------|
| SQ1 (设备诊断) | **60.0%** | 45.8% | 75 | 81 |
| SQ2 (单事件判断) | **56.7%** | 46.2% | 104 | 124 |
| SQ3 (行为序列) | **55.5%** | 46.2% | 129 | 148 |
| SQ4 (复合推理) | **54.5%** | 48.3% | 130 | 145 |
| SQ5 (应急响应) | **81.6%** | 58.4% | 35 | 71 |

Qwen 在每种 SQ 上的 Accuracy 都高于 Claude——但这完全是因为 Qwen 不误报（而 TP 在每种 SQ 中只占约 1/3）。Claude 的误报率在所有 SQ 上都极高。

SQ5 两者都最高，因为 SQ5 的 query 已经提示了"检测到安全事件"，相当于给了提示。

### Finding 5: Claude 的误报模式

Claude 几乎对所有 FP 场景都误报：
- INS-01-FP (住户开窗通风) → Claude 30/30 误报为入侵
- FG-01-FP (正常煲汤) → Claude 39/40 误报为忘关火
- DF-01-FP (空调恒温导致温度稳定) → Claude 47/57 误报为传感器故障
- WD-01-FP (洗澡溅水) → Claude 48/52 误报为漏水

Claude 的推理很细致但**过度解读**——看到任何偏离"完美正常"的信号就报警。

### Finding 6: 威胁类型分类

- Qwen: 少数检出的场景中 55.8% 类型正确
- Claude: 检出率高但类型准确率仅 25.1%（大量场景被笼统标为 device_fault 而非精确子类型）

---

## 三、对论文的支撑

### 支撑核心假设 "Proactive-Reactive Gap"

这两个模型在 SimuHome 类 proactive 任务上表现良好（SimuHome 论文中 GPT-4.1 在 QT3 达到 84%），但在我们的 reactive reasoning 任务上：
- 小模型 Recall 仅 14%
- 强模型 Recall 93% 但 Precision 仅 47%
- **没有模型能同时做到高检出+低误报**

### 支撑 EDRC 框架的必要性

当前两个模型的失败模式说明：
- ReAct 式推理不适合 evidence-driven 任务（Qwen 不会主动找异常）
- 直接分析也不行（Claude 过度敏感，缺乏"确认正常"的能力）
- 需要 EDRC 的 Hypothesis-Verification 机制来平衡敏感度和特异度

### 支撑 SafeRL 训练的必要性

- SFT 可能让模型学会 Claude 的敏感风格 → 高 Recall 但高误报
- 需要 SafeRL 的 asymmetric reward（漏报惩罚 > 误报惩罚，但误报也要惩罚）来找到平衡点

---

## 四、数据完整性

| 项目 | Qwen | Claude |
|------|------|--------|
| 评测 episodes | 1200 | 1200 |
| API 错误 | 0 | 15 (1.25%) |
| Parse 失败 | 101 (8.4%) | 35 (2.9%) |
| 有效结果 | 1099 | 1150 |