whqxbs/llmiotsafe

Files

whqxbs e56494b487 initial commit

2026-05-12 17:01:39 +08:00

4.5 KiB

Raw Blame History

文献调研全景图：LLM × IoT 智能家居安防

调研日期: 2026-04-28 研究方向: LLM + IoT 智能家居安防（异常行为检测、设备故障诊断、RL 增强推理）

一、智能家居 LLM Agent Benchmark 现状

1.1 SimuHome (ICLR 2026) — 基准论文

基于 Matter 协议的高保真仿真器 + 600 episode benchmark
涵盖：状态查询、隐式意图推断、显式设备控制、工作流调度
关键发现：工作流调度是最难的类别，GPT-5.1 也仅达 56-72%
局限：完全聚焦任务执行，不涉及安全/异常检测

1.2 HomeBench (ACL 2025, Li et al.)

大规模 LLM 智能家居指令跟随评估
通过对比生成的 API 调用与标准序列来评估
局限：静态数据集，无环境交互，无安全场景

1.3 SAGE (UbiComp 2024, Rivkin et al.)

智能家居 Agent 的接地执行框架
支持 SmartThings API 动态交互
局限：不模拟环境变量随时间变化，无安全评估

1.4 DS-IA Framework (arXiv 2603.16207, 2026, Jin et al.)

最相关的竞品：面向安全 AIoT 智能家居的双阶段意图分析
Stage 1: 语义防火墙过滤无效指令
Stage 2: 确定性级联验证器
与本研究的区别：DS-IA 关注的是"过滤用户无效指令"，而非"检测环境异常和安全威胁"

二、LLM + IoT 安全

2.1 Think Fast (arXiv 2511.18230, 2025)

边缘网关上的实时 IoT 入侵推理
结合 IDS 和 LLM，在资源受限环境下运行
区别：关注网络层入侵检测，非应用层行为分析

2.2 L2M-AID (arXiv 2510.07363, 2025)

LLM + 多智能体强化学习的自主网络物理防御
融合 LLM 语义推理与 MARL 实时决策
相关性高：验证了 LLM+RL 在安全领域的可行性，但面向工业 IIoT

2.3 LLM-Enhanced IoT Anomaly Detection (arXiv 2510.03859, 2025)

LLM 增强的上下文推理用于关键 IoT 基础设施异常检测
自适应和可解释的 AI Agent
区别：通用 IoT 异常检测，非智能家居特定

2.4 IoT Traffic Interpretation Agent (arXiv 2510.13925, 2025)

LLM 驱动的整体 IoT 流量解读框架
跨层解读行为、协议和上下文
区别：网络流量层面，非设备状态和用户行为层面

三、IoT 异常检测（非 LLM）

3.1 VAN-AD (arXiv 2603.26842, 2026)

视觉掩码自编码器 + 正则化流的时序异常检测
面向 IoT 服务系统可靠性

3.2 Self-Evolving Multi-Agent IoT (arXiv 2602.16738, 2026)

自进化多智能体网络用于工业 IoT 预测性维护
实时异常检测 + 可解释性

3.3 A-THENA (arXiv 2604.21623, 2026)

时间感知混合编码的早期 IoT 入侵检测
轻量级，面向边缘部署

四、Agent 安全与 RL

4.1 PilotBench (arXiv 2604.08987, 2026)

带安全约束的通用 Agent Benchmark
验证了"LLM Agent + 安全推理 + Benchmark"的研究模式

4.2 Safe RL for Language Agents (arXiv 2504.03185, 2025)

学习自然语言约束实现安全 RL
证明了 RL 可用于增强 LLM 的约束遵守能力

4.3 Sovereign Agentic Loops (arXiv 2604.22136, 2026)

将 AI 推理与执行解耦，提升安全性
相关的架构设计思路

五、结构性空白（Research Gaps）

#	Gap	现有工作覆盖情况	机会
G1	无 LLM 智能家居安全推理 Benchmark	SimuHome 只评估任务执行	首个安全推理 Benchmark
G2	无基于 Matter 协议的设备故障检测评估	现有工作假设设备正常工作	故障注入 + 诊断评估
G3	无 LLM 的居住行为异常检测	现有异常检测面向网络层/工业IoT	家居场景行为序列推理
G4	无 RL 训练 LLM 的家居安全推理	L2M-AID 面向工业CPS，非家居	家居安全场景 RL 训练
G5	设备健康 + 行为异常的联合推理	两个方向完全分离	统一框架
G6	无时间序列行为模式的 LLM 推理评估	现有 Benchmark 只测单步推理	长序列时序推理

六、研究方向评估

最有前景的方向：在 SimuHome 的 Matter 协议框架上，构建面向智能家居安全的 LLM Agent Benchmark + RL 训练框架。这个方向：

填补了 G1-G6 的所有空白
可直接复用 SimuHome 的仿真器基础设施
结合了 LLM Agent、安全推理、RL 三个热点方向
对标 PilotBench（安全约束 Agent）和 L2M-AID（LLM+RL 安全）的研究范式