Files

2026-05-12 17:01:39 +08:00

5.2 KiB

Raw Permalink Blame History

SafeHome Benchmark 基线评测报告

评测日期: 2026-04-30 Benchmark: 1200 episodes (SQ1-SQ5, TP/FP/TN) 评测模型: Qwen2.5-7B-Instruct (本地), Claude Opus 4.6 (API)

一、总体对比

指标	Qwen2.5-7B	Claude Opus 4.6
Detection Accuracy	60.3%	48.6%
TP Recall (检出率)	14.0%	93.3%
FP+TN 误报率	0.3%	87.5%
Precision	97.5%	47.4%
F1-Security	0.245	0.629
Threat Type Accuracy	55.8%	25.1%
Parse Failure Rate	8.4%	2.9%
Avg Latency	5.1s	25.5s
API Errors	0	15

二、核心发现

Finding 1: 两种极端失败模式

Qwen2.5-7B 和 Claude Opus 代表了 LLM 在安全推理中的两个极端：

Qwen (保守型): 几乎永远回答"正常"。FP/TN 准确率 99.5%/99.6%，但 TP 检出率仅 14%。宁可漏报也不误报。
Claude (敏感型): 倾向于报告异常。TP 检出率 93.3%，但 FP 误报率 87.5%。宁可误报也不漏报。

两者的 Overall Accuracy 都不到 61%——虽然原因完全相反。

Finding 2: 按异常类别的检出率差异巨大

异常类别	Qwen 检出率	Claude 检出率	差距
入侵类	19%	92%	73pp
火灾/燃气类	23%	98%	75pp
水损类	25%	98%	73pp
设备故障类	4%	86%	82pp
老人特有类	0%	100%	100pp
儿童特有类	0%	93%	93pp
行为异常类	0%	95%	95pp

Qwen 在老人/儿童/行为异常三个类别上零检出，这些场景需要结合住户画像和行为模式进行推理，7B 模型完全无法胜任。

Finding 3: 场景难度分层

两个模型都能检测的场景（"简单场景"）:

DF-05 (烟雾报警器硬件故障): 有直接的 HardwareFaultAlert 信号
WD-03 (无人在家漏水): 漏水传感器直接触发
FG-04 (报警器低电量+烟雾): Claude 100%检出，Qwen 20%

Claude 能检测但 Qwen 不能的场景（"推理场景"）:

DF-01 (温度 stuck-at): 需要发现读数固定不变 — Claude 100%, Qwen 0%
DF-04 (门锁故障): 需要发现命令后状态不变 — Claude 100%, Qwen 0%
EL-01~07 (全部老人场景): 需要行为模式推理 — Claude 100%, Qwen 0%
BA-01~05 (全部行为异常): 需要模式识别 — Claude ~95%, Qwen 0%

两个模型都困难的场景:

DF-02 (温度漂移): Claude 30%, Qwen 0% — 需要识别缓慢的单向偏移
DF-06 (窗帘电机卡住): Claude 78%, Qwen 0% — 需要发现状态与位置的矛盾
INS-03 (尾随入室): Claude 82%, Qwen 53% — 需要分析进门后的异常人数

Finding 4: 按 SQ 类型的表现

SQ类型	Qwen Acc	Claude Acc	Qwen Miss	Claude FA
SQ1 (设备诊断)	60.0%	45.8%	75	81
SQ2 (单事件判断)	56.7%	46.2%	104	124
SQ3 (行为序列)	55.5%	46.2%	129	148
SQ4 (复合推理)	54.5%	48.3%	130	145
SQ5 (应急响应)	81.6%	58.4%	35	71

Qwen 在每种 SQ 上的 Accuracy 都高于 Claude——但这完全是因为 Qwen 不误报（而 TP 在每种 SQ 中只占约 1/3）。Claude 的误报率在所有 SQ 上都极高。

SQ5 两者都最高，因为 SQ5 的 query 已经提示了"检测到安全事件"，相当于给了提示。

Finding 5: Claude 的误报模式

Claude 几乎对所有 FP 场景都误报：

INS-01-FP (住户开窗通风) → Claude 30/30 误报为入侵
FG-01-FP (正常煲汤) → Claude 39/40 误报为忘关火
DF-01-FP (空调恒温导致温度稳定) → Claude 47/57 误报为传感器故障
WD-01-FP (洗澡溅水) → Claude 48/52 误报为漏水

Claude 的推理很细致但过度解读——看到任何偏离"完美正常"的信号就报警。

Finding 6: 威胁类型分类

Qwen: 少数检出的场景中 55.8% 类型正确
Claude: 检出率高但类型准确率仅 25.1%（大量场景被笼统标为 device_fault 而非精确子类型）

三、对论文的支撑

支撑核心假设 "Proactive-Reactive Gap"

这两个模型在 SimuHome 类 proactive 任务上表现良好（SimuHome 论文中 GPT-4.1 在 QT3 达到 84%），但在我们的 reactive reasoning 任务上：

小模型 Recall 仅 14%
强模型 Recall 93% 但 Precision 仅 47%
没有模型能同时做到高检出+低误报

支撑 EDRC 框架的必要性

当前两个模型的失败模式说明：

ReAct 式推理不适合 evidence-driven 任务（Qwen 不会主动找异常）
直接分析也不行（Claude 过度敏感，缺乏"确认正常"的能力）
需要 EDRC 的 Hypothesis-Verification 机制来平衡敏感度和特异度

支撑 SafeRL 训练的必要性

SFT 可能让模型学会 Claude 的敏感风格 → 高 Recall 但高误报
需要 SafeRL 的 asymmetric reward（漏报惩罚 > 误报惩罚，但误报也要惩罚）来找到平衡点

四、数据完整性

项目	Qwen	Claude
评测 episodes	1200	1200
API 错误	0	15 (1.25%)
Parse 失败	101 (8.4%)	35 (2.9%)
有效结果	1099	1150

5.2 KiB Raw Permalink Blame History Unescape Escape