Files
llmiotsafe/results/ANALYSIS_REPORT.md
2026-05-12 17:01:39 +08:00

5.2 KiB
Raw Permalink Blame History

SafeHome Benchmark 基线评测报告

评测日期: 2026-04-30 Benchmark: 1200 episodes (SQ1-SQ5, TP/FP/TN) 评测模型: Qwen2.5-7B-Instruct (本地), Claude Opus 4.6 (API)


一、总体对比

指标 Qwen2.5-7B Claude Opus 4.6
Detection Accuracy 60.3% 48.6%
TP Recall (检出率) 14.0% 93.3%
FP+TN 误报率 0.3% 87.5%
Precision 97.5% 47.4%
F1-Security 0.245 0.629
Threat Type Accuracy 55.8% 25.1%
Parse Failure Rate 8.4% 2.9%
Avg Latency 5.1s 25.5s
API Errors 0 15

二、核心发现

Finding 1: 两种极端失败模式

Qwen2.5-7B 和 Claude Opus 代表了 LLM 在安全推理中的两个极端:

  • Qwen (保守型): 几乎永远回答"正常"。FP/TN 准确率 99.5%/99.6%,但 TP 检出率仅 14%。宁可漏报也不误报。
  • Claude (敏感型): 倾向于报告异常。TP 检出率 93.3%,但 FP 误报率 87.5%。宁可误报也不漏报。

两者的 Overall Accuracy 都不到 61%——虽然原因完全相反。

Finding 2: 按异常类别的检出率差异巨大

异常类别 Qwen 检出率 Claude 检出率 差距
入侵类 19% 92% 73pp
火灾/燃气类 23% 98% 75pp
水损类 25% 98% 73pp
设备故障类 4% 86% 82pp
老人特有类 0% 100% 100pp
儿童特有类 0% 93% 93pp
行为异常类 0% 95% 95pp

Qwen 在老人/儿童/行为异常三个类别上零检出这些场景需要结合住户画像和行为模式进行推理7B 模型完全无法胜任。

Finding 3: 场景难度分层

两个模型都能检测的场景("简单场景":

  • DF-05 (烟雾报警器硬件故障): 有直接的 HardwareFaultAlert 信号
  • WD-03 (无人在家漏水): 漏水传感器直接触发
  • FG-04 (报警器低电量+烟雾): Claude 100%检出Qwen 20%

Claude 能检测但 Qwen 不能的场景("推理场景":

  • DF-01 (温度 stuck-at): 需要发现读数固定不变 — Claude 100%, Qwen 0%
  • DF-04 (门锁故障): 需要发现命令后状态不变 — Claude 100%, Qwen 0%
  • EL-01~07 (全部老人场景): 需要行为模式推理 — Claude 100%, Qwen 0%
  • BA-01~05 (全部行为异常): 需要模式识别 — Claude ~95%, Qwen 0%

两个模型都困难的场景:

  • DF-02 (温度漂移): Claude 30%, Qwen 0% — 需要识别缓慢的单向偏移
  • DF-06 (窗帘电机卡住): Claude 78%, Qwen 0% — 需要发现状态与位置的矛盾
  • INS-03 (尾随入室): Claude 82%, Qwen 53% — 需要分析进门后的异常人数

Finding 4: 按 SQ 类型的表现

SQ类型 Qwen Acc Claude Acc Qwen Miss Claude FA
SQ1 (设备诊断) 60.0% 45.8% 75 81
SQ2 (单事件判断) 56.7% 46.2% 104 124
SQ3 (行为序列) 55.5% 46.2% 129 148
SQ4 (复合推理) 54.5% 48.3% 130 145
SQ5 (应急响应) 81.6% 58.4% 35 71

Qwen 在每种 SQ 上的 Accuracy 都高于 Claude——但这完全是因为 Qwen 不误报(而 TP 在每种 SQ 中只占约 1/3。Claude 的误报率在所有 SQ 上都极高。

SQ5 两者都最高,因为 SQ5 的 query 已经提示了"检测到安全事件",相当于给了提示。

Finding 5: Claude 的误报模式

Claude 几乎对所有 FP 场景都误报:

  • INS-01-FP (住户开窗通风) → Claude 30/30 误报为入侵
  • FG-01-FP (正常煲汤) → Claude 39/40 误报为忘关火
  • DF-01-FP (空调恒温导致温度稳定) → Claude 47/57 误报为传感器故障
  • WD-01-FP (洗澡溅水) → Claude 48/52 误报为漏水

Claude 的推理很细致但过度解读——看到任何偏离"完美正常"的信号就报警。

Finding 6: 威胁类型分类

  • Qwen: 少数检出的场景中 55.8% 类型正确
  • Claude: 检出率高但类型准确率仅 25.1%(大量场景被笼统标为 device_fault 而非精确子类型)

三、对论文的支撑

支撑核心假设 "Proactive-Reactive Gap"

这两个模型在 SimuHome 类 proactive 任务上表现良好SimuHome 论文中 GPT-4.1 在 QT3 达到 84%),但在我们的 reactive reasoning 任务上:

  • 小模型 Recall 仅 14%
  • 强模型 Recall 93% 但 Precision 仅 47%
  • 没有模型能同时做到高检出+低误报

支撑 EDRC 框架的必要性

当前两个模型的失败模式说明:

  • ReAct 式推理不适合 evidence-driven 任务Qwen 不会主动找异常)
  • 直接分析也不行Claude 过度敏感,缺乏"确认正常"的能力)
  • 需要 EDRC 的 Hypothesis-Verification 机制来平衡敏感度和特异度

支撑 SafeRL 训练的必要性

  • SFT 可能让模型学会 Claude 的敏感风格 → 高 Recall 但高误报
  • 需要 SafeRL 的 asymmetric reward漏报惩罚 > 误报惩罚,但误报也要惩罚)来找到平衡点

四、数据完整性

项目 Qwen Claude
评测 episodes 1200 1200
API 错误 0 15 (1.25%)
Parse 失败 101 (8.4%) 35 (2.9%)
有效结果 1099 1150