128 lines
5.2 KiB
Markdown
128 lines
5.2 KiB
Markdown
# SafeHome Benchmark 基线评测报告
|
||
|
||
**评测日期**: 2026-04-30
|
||
**Benchmark**: 1200 episodes (SQ1-SQ5, TP/FP/TN)
|
||
**评测模型**: Qwen2.5-7B-Instruct (本地), Claude Opus 4.6 (API)
|
||
|
||
---
|
||
|
||
## 一、总体对比
|
||
|
||
| 指标 | Qwen2.5-7B | Claude Opus 4.6 |
|
||
|------|-----------|----------------|
|
||
| **Detection Accuracy** | **60.3%** | 48.6% |
|
||
| **TP Recall (检出率)** | 14.0% | **93.3%** |
|
||
| **FP+TN 误报率** | **0.3%** | 87.5% |
|
||
| **Precision** | **97.5%** | 47.4% |
|
||
| **F1-Security** | 0.245 | **0.629** |
|
||
| **Threat Type Accuracy** | **55.8%** | 25.1% |
|
||
| **Parse Failure Rate** | 8.4% | **2.9%** |
|
||
| **Avg Latency** | **5.1s** | 25.5s |
|
||
| **API Errors** | **0** | 15 |
|
||
|
||
## 二、核心发现
|
||
|
||
### Finding 1: 两种极端失败模式
|
||
|
||
Qwen2.5-7B 和 Claude Opus 代表了 LLM 在安全推理中的两个极端:
|
||
|
||
- **Qwen (保守型)**: 几乎永远回答"正常"。FP/TN 准确率 99.5%/99.6%,但 TP 检出率仅 14%。宁可漏报也不误报。
|
||
- **Claude (敏感型)**: 倾向于报告异常。TP 检出率 93.3%,但 FP 误报率 87.5%。宁可误报也不漏报。
|
||
|
||
**两者的 Overall Accuracy 都不到 61%**——虽然原因完全相反。
|
||
|
||
### Finding 2: 按异常类别的检出率差异巨大
|
||
|
||
| 异常类别 | Qwen 检出率 | Claude 检出率 | 差距 |
|
||
|---------|-----------|-------------|------|
|
||
| 入侵类 | 19% | **92%** | 73pp |
|
||
| 火灾/燃气类 | 23% | **98%** | 75pp |
|
||
| 水损类 | 25% | **98%** | 73pp |
|
||
| 设备故障类 | **4%** | 86% | 82pp |
|
||
| 老人特有类 | **0%** | 100% | 100pp |
|
||
| 儿童特有类 | **0%** | 93% | 93pp |
|
||
| 行为异常类 | **0%** | 95% | 95pp |
|
||
|
||
Qwen 在老人/儿童/行为异常三个类别上**零检出**,这些场景需要结合住户画像和行为模式进行推理,7B 模型完全无法胜任。
|
||
|
||
### Finding 3: 场景难度分层
|
||
|
||
**两个模型都能检测的场景("简单场景")**:
|
||
- DF-05 (烟雾报警器硬件故障): 有直接的 HardwareFaultAlert 信号
|
||
- WD-03 (无人在家漏水): 漏水传感器直接触发
|
||
- FG-04 (报警器低电量+烟雾): Claude 100%检出,Qwen 20%
|
||
|
||
**Claude 能检测但 Qwen 不能的场景("推理场景")**:
|
||
- DF-01 (温度 stuck-at): 需要发现读数固定不变 — Claude 100%, Qwen 0%
|
||
- DF-04 (门锁故障): 需要发现命令后状态不变 — Claude 100%, Qwen 0%
|
||
- EL-01~07 (全部老人场景): 需要行为模式推理 — Claude 100%, Qwen 0%
|
||
- BA-01~05 (全部行为异常): 需要模式识别 — Claude ~95%, Qwen 0%
|
||
|
||
**两个模型都困难的场景**:
|
||
- DF-02 (温度漂移): Claude 30%, Qwen 0% — 需要识别缓慢的单向偏移
|
||
- DF-06 (窗帘电机卡住): Claude 78%, Qwen 0% — 需要发现状态与位置的矛盾
|
||
- INS-03 (尾随入室): Claude 82%, Qwen 53% — 需要分析进门后的异常人数
|
||
|
||
### Finding 4: 按 SQ 类型的表现
|
||
|
||
| SQ类型 | Qwen Acc | Claude Acc | Qwen Miss | Claude FA |
|
||
|--------|----------|-----------|-----------|-----------|
|
||
| SQ1 (设备诊断) | **60.0%** | 45.8% | 75 | 81 |
|
||
| SQ2 (单事件判断) | **56.7%** | 46.2% | 104 | 124 |
|
||
| SQ3 (行为序列) | **55.5%** | 46.2% | 129 | 148 |
|
||
| SQ4 (复合推理) | **54.5%** | 48.3% | 130 | 145 |
|
||
| SQ5 (应急响应) | **81.6%** | 58.4% | 35 | 71 |
|
||
|
||
Qwen 在每种 SQ 上的 Accuracy 都高于 Claude——但这完全是因为 Qwen 不误报(而 TP 在每种 SQ 中只占约 1/3)。Claude 的误报率在所有 SQ 上都极高。
|
||
|
||
SQ5 两者都最高,因为 SQ5 的 query 已经提示了"检测到安全事件",相当于给了提示。
|
||
|
||
### Finding 5: Claude 的误报模式
|
||
|
||
Claude 几乎对所有 FP 场景都误报:
|
||
- INS-01-FP (住户开窗通风) → Claude 30/30 误报为入侵
|
||
- FG-01-FP (正常煲汤) → Claude 39/40 误报为忘关火
|
||
- DF-01-FP (空调恒温导致温度稳定) → Claude 47/57 误报为传感器故障
|
||
- WD-01-FP (洗澡溅水) → Claude 48/52 误报为漏水
|
||
|
||
Claude 的推理很细致但**过度解读**——看到任何偏离"完美正常"的信号就报警。
|
||
|
||
### Finding 6: 威胁类型分类
|
||
|
||
- Qwen: 少数检出的场景中 55.8% 类型正确
|
||
- Claude: 检出率高但类型准确率仅 25.1%(大量场景被笼统标为 device_fault 而非精确子类型)
|
||
|
||
---
|
||
|
||
## 三、对论文的支撑
|
||
|
||
### 支撑核心假设 "Proactive-Reactive Gap"
|
||
|
||
这两个模型在 SimuHome 类 proactive 任务上表现良好(SimuHome 论文中 GPT-4.1 在 QT3 达到 84%),但在我们的 reactive reasoning 任务上:
|
||
- 小模型 Recall 仅 14%
|
||
- 强模型 Recall 93% 但 Precision 仅 47%
|
||
- **没有模型能同时做到高检出+低误报**
|
||
|
||
### 支撑 EDRC 框架的必要性
|
||
|
||
当前两个模型的失败模式说明:
|
||
- ReAct 式推理不适合 evidence-driven 任务(Qwen 不会主动找异常)
|
||
- 直接分析也不行(Claude 过度敏感,缺乏"确认正常"的能力)
|
||
- 需要 EDRC 的 Hypothesis-Verification 机制来平衡敏感度和特异度
|
||
|
||
### 支撑 SafeRL 训练的必要性
|
||
|
||
- SFT 可能让模型学会 Claude 的敏感风格 → 高 Recall 但高误报
|
||
- 需要 SafeRL 的 asymmetric reward(漏报惩罚 > 误报惩罚,但误报也要惩罚)来找到平衡点
|
||
|
||
---
|
||
|
||
## 四、数据完整性
|
||
|
||
| 项目 | Qwen | Claude |
|
||
|------|------|--------|
|
||
| 评测 episodes | 1200 | 1200 |
|
||
| API 错误 | 0 | 15 (1.25%) |
|
||
| Parse 失败 | 101 (8.4%) | 35 (2.9%) |
|
||
| 有效结果 | 1099 | 1150 |
|