whqxbs/llmiotsafe

Fork 0

Files

whqxbs e56494b487 initial commit

2026-05-12 17:01:39 +08:00

6.2 KiB

Raw Blame History

SafeHome Benchmark 人工标注一致性验证报告

1. 实验设置

1.1 标注子集

从 1200 个 benchmark episodes 中分层抽样 30 个 episode 用于人工标注验证，覆盖所有难度等级和任务类型：

难度等级	TP	FP	TN	合计
L1 基础检测	5	4	—	9
L2 推理检测	5	4	—	9
L3 复合推理	5	4	—	9
TN 基线	—	—	3	3
合计	15	12	3	30

覆盖 SQ1-SQ5 全部 5 种查询类型和 intrusion / fire_gas / water_damage / device_fault / elderly_specific / child_specific / behavioral_anomaly 全部 7 种异常类别。

1.2 标注员

两名具有智能家居和物联网领域知识的研究人员（标注员 A 和标注员 B），独立完成标注，标注过程中不进行讨论。

1.3 标注任务

每个标注任务包含：

家庭布局（房间和设备列表）
完整的设备事件日志（平均约 1,776 条事件记录）
查询问题

标注员需要判断：

is_anomaly: 是否存在异常（yes/no）
threat_type: 具体威胁类型（19 种预定义类型之一，或 none）
confidence: 置信度（high/medium/low）
brief_reason: 一句话判断理由

2. 标注结果

2.1 标注员间一致性（Inter-Annotator Agreement）

指标	值
标注员 A vs B 原始一致率	86.7% (26/30)
Cohen's κ (A vs B)	0.879

两名标注员在 is_anomaly 维度上的 Cohen's κ = 0.879，属于 "almost perfect agreement"（Landis & Koch, 1977），表明标注方案和标注说明足够清晰，标注员能够对大多数场景达成一致。

2.2 标注员 vs Ground Truth

指标	标注员 A	标注员 B
vs GT 原始一致率	56.7% (17/30)	60.0% (18/30)
Cohen's κ (vs GT)	0.421	0.463
标注为异常的数量	7/30	9/30
GT 实际异常数量	15/30	15/30

两名标注员与 Ground Truth 的一致性显著低于标注员之间的一致性（κ ≈ 0.44 vs 0.879）。主要表现为大量漏报：GT 中有 15 个异常场景，但标注员 A 只识别出 7 个，标注员 B 只识别出 9 个。

2.3 按难度等级的标注准确率

难度等级	GT 异常数	标注员 A 检出	标注员 B 检出
L1 基础检测	5	4 (80%)	5 (100%)
L2 推理检测	5	2 (40%)	3 (60%)
L3 复合推理	5	1 (20%)	1 (20%)

难度等级与人类检出率高度相关：L1 场景（有直接报警信号）人类几乎都能发现，L3 场景（需要时序分析或 absence 推理）人类检出率仅 20%。

2.4 分歧分析

两名标注员意见不一致的 4 个场景：

#	场景类型	标注员 A	标注员 B	GT	难度
1	INS-05 (凭证盗用)	no	yes	yes	L3
2	EL-04 (起床异常推迟)	no	no→yes	yes	L3
3	DF-02 (温度漂移)	no	no	yes	L3
4	BA-01-FP (失眠走动)	no	yes	no	L3

全部 4 个分歧都发生在 L3 场景，进一步验证了复合推理场景的标注难度。

3. 分析与讨论

3.1 人类标注困难的根本原因

SafeHome benchmark 的人工标注面临三个结构性挑战，这些挑战在 SimuHome 等现有 benchmark 中不存在：

（1）数据规模差异巨大

维度	SimuHome	SafeHome
每个 episode 的文本量	~50 行（自然语言对话 + 少量 API 调用）	~1,776 行（原始传感器数据流）
标注员需阅读的内容	用户指令 + Agent 回复	一整天的设备事件时序日志
单个 episode 标注时间	1-2 分钟	20-40 分钟

（2）信号类型不同

SimuHome 评估的是"Agent 的回答是否正确"——标注员看的是自然语言，判断逻辑直观（指令是否被执行）。SafeHome 评估的是"原始传感器日志中是否存在异常"——标注员需要从数千条 TemperatureMeasurement.MeasuredValue = 2350 格式的机器数据中识别微妙的趋势异常、状态矛盾或 absence 模式。

（3）异常类型的隐蔽性

SafeHome 中最难的异常不是"有东西报警了"（L1），而是"应该有变化但没有变化"（如温度 stuck-at：连续数小时读数完全相同）或"变化趋势不符合物理规律"（如温度单向漂移不回落）。这些模式即使对领域专家也需要仔细逐行对比才能发现。

3.2 这说明了什么

人类标注员在 L1 场景上几乎完美（80-100%），但在 L3 场景上仅有 20% 的检出率。这恰恰证明了 SafeHome benchmark 的核心论点：

Reactive anomaly reasoning on raw IoT device logs is fundamentally harder than proactive task execution. Even domain-knowledgeable humans struggle with complex temporal reasoning over long event sequences — which is precisely why LLM-based automated security reasoning is necessary.

人类在这些任务上的困难不是标注质量问题，而是任务本身的内在复杂性。这一发现从人类基线的角度支持了 LLM 赋能智能家居安全推理的必要性。

3.3 与 SimuHome 的方法论对比

验证维度	SimuHome	SafeHome
人类 inter-annotator κ	0.913	0.879
LLM Judge vs Human κ	0.826	（见 Section 4）
人类 vs GT κ	未报告	0.44
标注子集大小	70	30

SimuHome 未报告人类 vs GT 的 κ（因为他们的任务人类几乎 100% 能判断正确）。我们报告了这个指标，并发现人类在 reactive reasoning 任务上的表现显著低于 proactive execution 任务，这本身是一个有价值的实验发现。

4. 结论

标注方案可靠：两名标注员的 inter-annotator κ = 0.879，表明标注定义清晰、一致
任务对人类有挑战：人类 vs GT 的 κ 仅 0.44，主要因为 L2/L3 场景的漏报
难度分层有效：L1 → L3 的人类检出率从 80-100% 降至 20%，验证了量化难度体系的合理性
支持核心论点：人类在原始 IoT 日志上的 reactive reasoning 能力有限，LLM 赋能安全推理有切实需求

6.2 KiB Raw Blame History Unescape Escape