# SafeHome Benchmark 基线评测报告 **评测日期**: 2026-04-30 **Benchmark**: 1200 episodes (SQ1-SQ5, TP/FP/TN) **评测模型**: Qwen2.5-7B-Instruct (本地), Claude Opus 4.6 (API) --- ## 一、总体对比 | 指标 | Qwen2.5-7B | Claude Opus 4.6 | |------|-----------|----------------| | **Detection Accuracy** | **60.3%** | 48.6% | | **TP Recall (检出率)** | 14.0% | **93.3%** | | **FP+TN 误报率** | **0.3%** | 87.5% | | **Precision** | **97.5%** | 47.4% | | **F1-Security** | 0.245 | **0.629** | | **Threat Type Accuracy** | **55.8%** | 25.1% | | **Parse Failure Rate** | 8.4% | **2.9%** | | **Avg Latency** | **5.1s** | 25.5s | | **API Errors** | **0** | 15 | ## 二、核心发现 ### Finding 1: 两种极端失败模式 Qwen2.5-7B 和 Claude Opus 代表了 LLM 在安全推理中的两个极端: - **Qwen (保守型)**: 几乎永远回答"正常"。FP/TN 准确率 99.5%/99.6%,但 TP 检出率仅 14%。宁可漏报也不误报。 - **Claude (敏感型)**: 倾向于报告异常。TP 检出率 93.3%,但 FP 误报率 87.5%。宁可误报也不漏报。 **两者的 Overall Accuracy 都不到 61%**——虽然原因完全相反。 ### Finding 2: 按异常类别的检出率差异巨大 | 异常类别 | Qwen 检出率 | Claude 检出率 | 差距 | |---------|-----------|-------------|------| | 入侵类 | 19% | **92%** | 73pp | | 火灾/燃气类 | 23% | **98%** | 75pp | | 水损类 | 25% | **98%** | 73pp | | 设备故障类 | **4%** | 86% | 82pp | | 老人特有类 | **0%** | 100% | 100pp | | 儿童特有类 | **0%** | 93% | 93pp | | 行为异常类 | **0%** | 95% | 95pp | Qwen 在老人/儿童/行为异常三个类别上**零检出**,这些场景需要结合住户画像和行为模式进行推理,7B 模型完全无法胜任。 ### Finding 3: 场景难度分层 **两个模型都能检测的场景("简单场景")**: - DF-05 (烟雾报警器硬件故障): 有直接的 HardwareFaultAlert 信号 - WD-03 (无人在家漏水): 漏水传感器直接触发 - FG-04 (报警器低电量+烟雾): Claude 100%检出,Qwen 20% **Claude 能检测但 Qwen 不能的场景("推理场景")**: - DF-01 (温度 stuck-at): 需要发现读数固定不变 — Claude 100%, Qwen 0% - DF-04 (门锁故障): 需要发现命令后状态不变 — Claude 100%, Qwen 0% - EL-01~07 (全部老人场景): 需要行为模式推理 — Claude 100%, Qwen 0% - BA-01~05 (全部行为异常): 需要模式识别 — Claude ~95%, Qwen 0% **两个模型都困难的场景**: - DF-02 (温度漂移): Claude 30%, Qwen 0% — 需要识别缓慢的单向偏移 - DF-06 (窗帘电机卡住): Claude 78%, Qwen 0% — 需要发现状态与位置的矛盾 - INS-03 (尾随入室): Claude 82%, Qwen 53% — 需要分析进门后的异常人数 ### Finding 4: 按 SQ 类型的表现 | SQ类型 | Qwen Acc | Claude Acc | Qwen Miss | Claude FA | |--------|----------|-----------|-----------|-----------| | SQ1 (设备诊断) | **60.0%** | 45.8% | 75 | 81 | | SQ2 (单事件判断) | **56.7%** | 46.2% | 104 | 124 | | SQ3 (行为序列) | **55.5%** | 46.2% | 129 | 148 | | SQ4 (复合推理) | **54.5%** | 48.3% | 130 | 145 | | SQ5 (应急响应) | **81.6%** | 58.4% | 35 | 71 | Qwen 在每种 SQ 上的 Accuracy 都高于 Claude——但这完全是因为 Qwen 不误报(而 TP 在每种 SQ 中只占约 1/3)。Claude 的误报率在所有 SQ 上都极高。 SQ5 两者都最高,因为 SQ5 的 query 已经提示了"检测到安全事件",相当于给了提示。 ### Finding 5: Claude 的误报模式 Claude 几乎对所有 FP 场景都误报: - INS-01-FP (住户开窗通风) → Claude 30/30 误报为入侵 - FG-01-FP (正常煲汤) → Claude 39/40 误报为忘关火 - DF-01-FP (空调恒温导致温度稳定) → Claude 47/57 误报为传感器故障 - WD-01-FP (洗澡溅水) → Claude 48/52 误报为漏水 Claude 的推理很细致但**过度解读**——看到任何偏离"完美正常"的信号就报警。 ### Finding 6: 威胁类型分类 - Qwen: 少数检出的场景中 55.8% 类型正确 - Claude: 检出率高但类型准确率仅 25.1%(大量场景被笼统标为 device_fault 而非精确子类型) --- ## 三、对论文的支撑 ### 支撑核心假设 "Proactive-Reactive Gap" 这两个模型在 SimuHome 类 proactive 任务上表现良好(SimuHome 论文中 GPT-4.1 在 QT3 达到 84%),但在我们的 reactive reasoning 任务上: - 小模型 Recall 仅 14% - 强模型 Recall 93% 但 Precision 仅 47% - **没有模型能同时做到高检出+低误报** ### 支撑 EDRC 框架的必要性 当前两个模型的失败模式说明: - ReAct 式推理不适合 evidence-driven 任务(Qwen 不会主动找异常) - 直接分析也不行(Claude 过度敏感,缺乏"确认正常"的能力) - 需要 EDRC 的 Hypothesis-Verification 机制来平衡敏感度和特异度 ### 支撑 SafeRL 训练的必要性 - SFT 可能让模型学会 Claude 的敏感风格 → 高 Recall 但高误报 - 需要 SafeRL 的 asymmetric reward(漏报惩罚 > 误报惩罚,但误报也要惩罚)来找到平衡点 --- ## 四、数据完整性 | 项目 | Qwen | Claude | |------|------|--------| | 评测 episodes | 1200 | 1200 | | API 错误 | 0 | 15 (1.25%) | | Parse 失败 | 101 (8.4%) | 35 (2.9%) | | 有效结果 | 1099 | 1150 |