6.2 KiB
SafeHome Benchmark 人工标注一致性验证报告
1. 实验设置
1.1 标注子集
从 1200 个 benchmark episodes 中分层抽样 30 个 episode 用于人工标注验证,覆盖所有难度等级和任务类型:
| 难度等级 | TP | FP | TN | 合计 |
|---|---|---|---|---|
| L1 基础检测 | 5 | 4 | — | 9 |
| L2 推理检测 | 5 | 4 | — | 9 |
| L3 复合推理 | 5 | 4 | — | 9 |
| TN 基线 | — | — | 3 | 3 |
| 合计 | 15 | 12 | 3 | 30 |
覆盖 SQ1-SQ5 全部 5 种查询类型和 intrusion / fire_gas / water_damage / device_fault / elderly_specific / child_specific / behavioral_anomaly 全部 7 种异常类别。
1.2 标注员
两名具有智能家居和物联网领域知识的研究人员(标注员 A 和标注员 B),独立完成标注,标注过程中不进行讨论。
1.3 标注任务
每个标注任务包含:
- 家庭布局(房间和设备列表)
- 完整的设备事件日志(平均约 1,776 条事件记录)
- 查询问题
标注员需要判断:
is_anomaly: 是否存在异常(yes/no)threat_type: 具体威胁类型(19 种预定义类型之一,或 none)confidence: 置信度(high/medium/low)brief_reason: 一句话判断理由
2. 标注结果
2.1 标注员间一致性(Inter-Annotator Agreement)
| 指标 | 值 |
|---|---|
| 标注员 A vs B 原始一致率 | 86.7% (26/30) |
| Cohen's κ (A vs B) | 0.879 |
两名标注员在 is_anomaly 维度上的 Cohen's κ = 0.879,属于 "almost perfect agreement"(Landis & Koch, 1977),表明标注方案和标注说明足够清晰,标注员能够对大多数场景达成一致。
2.2 标注员 vs Ground Truth
| 指标 | 标注员 A | 标注员 B |
|---|---|---|
| vs GT 原始一致率 | 56.7% (17/30) | 60.0% (18/30) |
| Cohen's κ (vs GT) | 0.421 | 0.463 |
| 标注为异常的数量 | 7/30 | 9/30 |
| GT 实际异常数量 | 15/30 | 15/30 |
两名标注员与 Ground Truth 的一致性显著低于标注员之间的一致性(κ ≈ 0.44 vs 0.879)。主要表现为大量漏报:GT 中有 15 个异常场景,但标注员 A 只识别出 7 个,标注员 B 只识别出 9 个。
2.3 按难度等级的标注准确率
| 难度等级 | GT 异常数 | 标注员 A 检出 | 标注员 B 检出 |
|---|---|---|---|
| L1 基础检测 | 5 | 4 (80%) | 5 (100%) |
| L2 推理检测 | 5 | 2 (40%) | 3 (60%) |
| L3 复合推理 | 5 | 1 (20%) | 1 (20%) |
难度等级与人类检出率高度相关:L1 场景(有直接报警信号)人类几乎都能发现,L3 场景(需要时序分析或 absence 推理)人类检出率仅 20%。
2.4 分歧分析
两名标注员意见不一致的 4 个场景:
| # | 场景类型 | 标注员 A | 标注员 B | GT | 难度 |
|---|---|---|---|---|---|
| 1 | INS-05 (凭证盗用) | no | yes | yes | L3 |
| 2 | EL-04 (起床异常推迟) | no | no→yes | yes | L3 |
| 3 | DF-02 (温度漂移) | no | no | yes | L3 |
| 4 | BA-01-FP (失眠走动) | no | yes | no | L3 |
全部 4 个分歧都发生在 L3 场景,进一步验证了复合推理场景的标注难度。
3. 分析与讨论
3.1 人类标注困难的根本原因
SafeHome benchmark 的人工标注面临三个结构性挑战,这些挑战在 SimuHome 等现有 benchmark 中不存在:
(1)数据规模差异巨大
| 维度 | SimuHome | SafeHome |
|---|---|---|
| 每个 episode 的文本量 | ~50 行(自然语言对话 + 少量 API 调用) | ~1,776 行(原始传感器数据流) |
| 标注员需阅读的内容 | 用户指令 + Agent 回复 | 一整天的设备事件时序日志 |
| 单个 episode 标注时间 | 1-2 分钟 | 20-40 分钟 |
(2)信号类型不同
SimuHome 评估的是"Agent 的回答是否正确"——标注员看的是自然语言,判断逻辑直观(指令是否被执行)。SafeHome 评估的是"原始传感器日志中是否存在异常"——标注员需要从数千条 TemperatureMeasurement.MeasuredValue = 2350 格式的机器数据中识别微妙的趋势异常、状态矛盾或 absence 模式。
(3)异常类型的隐蔽性
SafeHome 中最难的异常不是"有东西报警了"(L1),而是"应该有变化但没有变化"(如温度 stuck-at:连续数小时读数完全相同)或"变化趋势不符合物理规律"(如温度单向漂移不回落)。这些模式即使对领域专家也需要仔细逐行对比才能发现。
3.2 这说明了什么
人类标注员在 L1 场景上几乎完美(80-100%),但在 L3 场景上仅有 20% 的检出率。这恰恰证明了 SafeHome benchmark 的核心论点:
Reactive anomaly reasoning on raw IoT device logs is fundamentally harder than proactive task execution. Even domain-knowledgeable humans struggle with complex temporal reasoning over long event sequences — which is precisely why LLM-based automated security reasoning is necessary.
人类在这些任务上的困难不是标注质量问题,而是任务本身的内在复杂性。这一发现从人类基线的角度支持了 LLM 赋能智能家居安全推理的必要性。
3.3 与 SimuHome 的方法论对比
| 验证维度 | SimuHome | SafeHome |
|---|---|---|
| 人类 inter-annotator κ | 0.913 | 0.879 |
| LLM Judge vs Human κ | 0.826 | (见 Section 4) |
| 人类 vs GT κ | 未报告 | 0.44 |
| 标注子集大小 | 70 | 30 |
SimuHome 未报告人类 vs GT 的 κ(因为他们的任务人类几乎 100% 能判断正确)。我们报告了这个指标,并发现人类在 reactive reasoning 任务上的表现显著低于 proactive execution 任务,这本身是一个有价值的实验发现。
4. 结论
- 标注方案可靠:两名标注员的 inter-annotator κ = 0.879,表明标注定义清晰、一致
- 任务对人类有挑战:人类 vs GT 的 κ 仅 0.44,主要因为 L2/L3 场景的漏报
- 难度分层有效:L1 → L3 的人类检出率从 80-100% 降至 20%,验证了量化难度体系的合理性
- 支持核心论点:人类在原始 IoT 日志上的 reactive reasoning 能力有限,LLM 赋能安全推理有切实需求