Files
llmiotsafe/results/ANALYSIS_REPORT.md
2026-05-12 17:01:39 +08:00

128 lines
5.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# SafeHome Benchmark 基线评测报告
**评测日期**: 2026-04-30
**Benchmark**: 1200 episodes (SQ1-SQ5, TP/FP/TN)
**评测模型**: Qwen2.5-7B-Instruct (本地), Claude Opus 4.6 (API)
---
## 一、总体对比
| 指标 | Qwen2.5-7B | Claude Opus 4.6 |
|------|-----------|----------------|
| **Detection Accuracy** | **60.3%** | 48.6% |
| **TP Recall (检出率)** | 14.0% | **93.3%** |
| **FP+TN 误报率** | **0.3%** | 87.5% |
| **Precision** | **97.5%** | 47.4% |
| **F1-Security** | 0.245 | **0.629** |
| **Threat Type Accuracy** | **55.8%** | 25.1% |
| **Parse Failure Rate** | 8.4% | **2.9%** |
| **Avg Latency** | **5.1s** | 25.5s |
| **API Errors** | **0** | 15 |
## 二、核心发现
### Finding 1: 两种极端失败模式
Qwen2.5-7B 和 Claude Opus 代表了 LLM 在安全推理中的两个极端:
- **Qwen (保守型)**: 几乎永远回答"正常"。FP/TN 准确率 99.5%/99.6%,但 TP 检出率仅 14%。宁可漏报也不误报。
- **Claude (敏感型)**: 倾向于报告异常。TP 检出率 93.3%,但 FP 误报率 87.5%。宁可误报也不漏报。
**两者的 Overall Accuracy 都不到 61%**——虽然原因完全相反。
### Finding 2: 按异常类别的检出率差异巨大
| 异常类别 | Qwen 检出率 | Claude 检出率 | 差距 |
|---------|-----------|-------------|------|
| 入侵类 | 19% | **92%** | 73pp |
| 火灾/燃气类 | 23% | **98%** | 75pp |
| 水损类 | 25% | **98%** | 73pp |
| 设备故障类 | **4%** | 86% | 82pp |
| 老人特有类 | **0%** | 100% | 100pp |
| 儿童特有类 | **0%** | 93% | 93pp |
| 行为异常类 | **0%** | 95% | 95pp |
Qwen 在老人/儿童/行为异常三个类别上**零检出**这些场景需要结合住户画像和行为模式进行推理7B 模型完全无法胜任。
### Finding 3: 场景难度分层
**两个模型都能检测的场景("简单场景"**:
- DF-05 (烟雾报警器硬件故障): 有直接的 HardwareFaultAlert 信号
- WD-03 (无人在家漏水): 漏水传感器直接触发
- FG-04 (报警器低电量+烟雾): Claude 100%检出Qwen 20%
**Claude 能检测但 Qwen 不能的场景("推理场景"**:
- DF-01 (温度 stuck-at): 需要发现读数固定不变 — Claude 100%, Qwen 0%
- DF-04 (门锁故障): 需要发现命令后状态不变 — Claude 100%, Qwen 0%
- EL-01~07 (全部老人场景): 需要行为模式推理 — Claude 100%, Qwen 0%
- BA-01~05 (全部行为异常): 需要模式识别 — Claude ~95%, Qwen 0%
**两个模型都困难的场景**:
- DF-02 (温度漂移): Claude 30%, Qwen 0% — 需要识别缓慢的单向偏移
- DF-06 (窗帘电机卡住): Claude 78%, Qwen 0% — 需要发现状态与位置的矛盾
- INS-03 (尾随入室): Claude 82%, Qwen 53% — 需要分析进门后的异常人数
### Finding 4: 按 SQ 类型的表现
| SQ类型 | Qwen Acc | Claude Acc | Qwen Miss | Claude FA |
|--------|----------|-----------|-----------|-----------|
| SQ1 (设备诊断) | **60.0%** | 45.8% | 75 | 81 |
| SQ2 (单事件判断) | **56.7%** | 46.2% | 104 | 124 |
| SQ3 (行为序列) | **55.5%** | 46.2% | 129 | 148 |
| SQ4 (复合推理) | **54.5%** | 48.3% | 130 | 145 |
| SQ5 (应急响应) | **81.6%** | 58.4% | 35 | 71 |
Qwen 在每种 SQ 上的 Accuracy 都高于 Claude——但这完全是因为 Qwen 不误报(而 TP 在每种 SQ 中只占约 1/3。Claude 的误报率在所有 SQ 上都极高。
SQ5 两者都最高,因为 SQ5 的 query 已经提示了"检测到安全事件",相当于给了提示。
### Finding 5: Claude 的误报模式
Claude 几乎对所有 FP 场景都误报:
- INS-01-FP (住户开窗通风) → Claude 30/30 误报为入侵
- FG-01-FP (正常煲汤) → Claude 39/40 误报为忘关火
- DF-01-FP (空调恒温导致温度稳定) → Claude 47/57 误报为传感器故障
- WD-01-FP (洗澡溅水) → Claude 48/52 误报为漏水
Claude 的推理很细致但**过度解读**——看到任何偏离"完美正常"的信号就报警。
### Finding 6: 威胁类型分类
- Qwen: 少数检出的场景中 55.8% 类型正确
- Claude: 检出率高但类型准确率仅 25.1%(大量场景被笼统标为 device_fault 而非精确子类型)
---
## 三、对论文的支撑
### 支撑核心假设 "Proactive-Reactive Gap"
这两个模型在 SimuHome 类 proactive 任务上表现良好SimuHome 论文中 GPT-4.1 在 QT3 达到 84%),但在我们的 reactive reasoning 任务上:
- 小模型 Recall 仅 14%
- 强模型 Recall 93% 但 Precision 仅 47%
- **没有模型能同时做到高检出+低误报**
### 支撑 EDRC 框架的必要性
当前两个模型的失败模式说明:
- ReAct 式推理不适合 evidence-driven 任务Qwen 不会主动找异常)
- 直接分析也不行Claude 过度敏感,缺乏"确认正常"的能力)
- 需要 EDRC 的 Hypothesis-Verification 机制来平衡敏感度和特异度
### 支撑 SafeRL 训练的必要性
- SFT 可能让模型学会 Claude 的敏感风格 → 高 Recall 但高误报
- 需要 SafeRL 的 asymmetric reward漏报惩罚 > 误报惩罚,但误报也要惩罚)来找到平衡点
---
## 四、数据完整性
| 项目 | Qwen | Claude |
|------|------|--------|
| 评测 episodes | 1200 | 1200 |
| API 错误 | 0 | 15 (1.25%) |
| Parse 失败 | 101 (8.4%) | 35 (2.9%) |
| 有效结果 | 1099 | 1150 |