Files
llmiotsafe/idea-stage/LITERATURE_LANDSCAPE.md
2026-05-12 17:01:39 +08:00

4.5 KiB
Raw Permalink Blame History

文献调研全景图LLM × IoT 智能家居安防

调研日期: 2026-04-28 研究方向: LLM + IoT 智能家居安防异常行为检测、设备故障诊断、RL 增强推理)


一、智能家居 LLM Agent Benchmark 现状

1.1 SimuHome (ICLR 2026) — 基准论文

  • 基于 Matter 协议的高保真仿真器 + 600 episode benchmark
  • 涵盖:状态查询、隐式意图推断、显式设备控制、工作流调度
  • 关键发现工作流调度是最难的类别GPT-5.1 也仅达 56-72%
  • 局限:完全聚焦任务执行,不涉及安全/异常检测

1.2 HomeBench (ACL 2025, Li et al.)

  • 大规模 LLM 智能家居指令跟随评估
  • 通过对比生成的 API 调用与标准序列来评估
  • 局限:静态数据集,无环境交互,无安全场景

1.3 SAGE (UbiComp 2024, Rivkin et al.)

  • 智能家居 Agent 的接地执行框架
  • 支持 SmartThings API 动态交互
  • 局限:不模拟环境变量随时间变化,无安全评估

1.4 DS-IA Framework (arXiv 2603.16207, 2026, Jin et al.)

  • 最相关的竞品:面向安全 AIoT 智能家居的双阶段意图分析
  • Stage 1: 语义防火墙过滤无效指令
  • Stage 2: 确定性级联验证器
  • 与本研究的区别DS-IA 关注的是"过滤用户无效指令",而非"检测环境异常和安全威胁"

二、LLM + IoT 安全

2.1 Think Fast (arXiv 2511.18230, 2025)

  • 边缘网关上的实时 IoT 入侵推理
  • 结合 IDS 和 LLM在资源受限环境下运行
  • 区别:关注网络层入侵检测,非应用层行为分析

2.2 L2M-AID (arXiv 2510.07363, 2025)

  • LLM + 多智能体强化学习的自主网络物理防御
  • 融合 LLM 语义推理与 MARL 实时决策
  • 相关性高:验证了 LLM+RL 在安全领域的可行性,但面向工业 IIoT

2.3 LLM-Enhanced IoT Anomaly Detection (arXiv 2510.03859, 2025)

  • LLM 增强的上下文推理用于关键 IoT 基础设施异常检测
  • 自适应和可解释的 AI Agent
  • 区别:通用 IoT 异常检测,非智能家居特定

2.4 IoT Traffic Interpretation Agent (arXiv 2510.13925, 2025)

  • LLM 驱动的整体 IoT 流量解读框架
  • 跨层解读行为、协议和上下文
  • 区别:网络流量层面,非设备状态和用户行为层面

三、IoT 异常检测(非 LLM

3.1 VAN-AD (arXiv 2603.26842, 2026)

  • 视觉掩码自编码器 + 正则化流的时序异常检测
  • 面向 IoT 服务系统可靠性

3.2 Self-Evolving Multi-Agent IoT (arXiv 2602.16738, 2026)

  • 自进化多智能体网络用于工业 IoT 预测性维护
  • 实时异常检测 + 可解释性

3.3 A-THENA (arXiv 2604.21623, 2026)

  • 时间感知混合编码的早期 IoT 入侵检测
  • 轻量级,面向边缘部署

四、Agent 安全与 RL

4.1 PilotBench (arXiv 2604.08987, 2026)

  • 带安全约束的通用 Agent Benchmark
  • 验证了"LLM Agent + 安全推理 + Benchmark"的研究模式

4.2 Safe RL for Language Agents (arXiv 2504.03185, 2025)

  • 学习自然语言约束实现安全 RL
  • 证明了 RL 可用于增强 LLM 的约束遵守能力

4.3 Sovereign Agentic Loops (arXiv 2604.22136, 2026)

  • 将 AI 推理与执行解耦,提升安全性
  • 相关的架构设计思路

五、结构性空白Research Gaps

# Gap 现有工作覆盖情况 机会
G1 无 LLM 智能家居安全推理 Benchmark SimuHome 只评估任务执行 首个安全推理 Benchmark
G2 无基于 Matter 协议的设备故障检测评估 现有工作假设设备正常工作 故障注入 + 诊断评估
G3 无 LLM 的居住行为异常检测 现有异常检测面向网络层/工业IoT 家居场景行为序列推理
G4 无 RL 训练 LLM 的家居安全推理 L2M-AID 面向工业CPS非家居 家居安全场景 RL 训练
G5 设备健康 + 行为异常的联合推理 两个方向完全分离 统一框架
G6 时间序列行为模式的 LLM 推理评估 现有 Benchmark 只测单步推理 长序列时序推理

六、研究方向评估

最有前景的方向:在 SimuHome 的 Matter 协议框架上,构建面向智能家居安全的 LLM Agent Benchmark + RL 训练框架。这个方向:

  • 填补了 G1-G6 的所有空白
  • 可直接复用 SimuHome 的仿真器基础设施
  • 结合了 LLM Agent、安全推理、RL 三个热点方向
  • 对标 PilotBench安全约束 Agent和 L2M-AIDLLM+RL 安全)的研究范式