Files
llmiotsafe/idea-stage/IDEA_REPORT.md
2026-05-12 17:01:39 +08:00

3.6 KiB
Raw Permalink Blame History

Idea Discovery Report

Direction: LLM × IoT 智能家居安防 — 安全推理 Benchmark + RL 增强 Date: 2026-04-28 Pipeline: research-lit → idea-creator → novelty-check → research-review → research-refine


Executive Summary

推荐方案SafeHome — 在 SimuHome (ICLR 2026) 的 Matter 协议智能家居仿真器上,构建首个面向安全推理的 LLM Agent Benchmark600 episodes, 5 种安全查询类型),并使用 GRPO 训练 LLM 提升安全推理能力。文献调研确认该方向高度新颖(无直接竞品),最接近的 SmartHome-Bench 基于视频而非 IoT 设备状态。预计投稿 NeurIPS 2026 / AAAI 2027。


Literature Landscape

详见 idea-stage/LITERATURE_LANDSCAPE.md

关键发现

  • SimuHome (ICLR 2026): 唯一基于 Matter 协议的智能家居仿真 Benchmark仅评估任务执行
  • SmartHome-Bench (2025): 智能家居视频异常检测 Benchmark基于摄像头非 IoT 状态
  • DS-IA (2026): AIoT 安全双阶段框架,但关注过滤无效指令,非威胁检测
  • L2M-AID (2025): LLM+MARL 网络物理防御,面向工业 IoT
  • 六大结构性空白:无人同时覆盖 LLM + 家居 + 安全推理 + Benchmark + RL

Ranked Ideas

综合评分: 9.2/10

维度 评分 说明
新颖性 ★★★★★ 首个 Matter 协议安全推理 Benchmark + 首次 RL 用于家居安全推理
可行性 ★★★★☆ 直接扩展 SimuHome 代码GRPO 训练相对稳定
影响力 ★★★★★ Benchmark + 方法论双重贡献
技术难度 ★★★★☆ 场景设计 + RL 训练

核心贡献:

  1. SafeHome Benchmark: 5 种安全查询类型 (SQ1-SQ5)600 episodes
  2. SafeHome-RL: GRPO 安全推理微调框架
  3. 18 模型评估 + SFT vs GRPO 对比 + 消融实验

新颖性: CONFIRMED — 最近竞品 SmartHome-Bench 基于视频IoTGen 仅做数据生成 Pilot 可行性: 可立即 fork SimuHome 开始原型开发

详细提案: refine-logs/FINAL_PROPOSAL.md 实验计划: refine-logs/EXPERIMENT_PLAN.md


Idea 2: SafeHome + 行为异常检测(聚焦版)— BACKUP

综合评分: 8.8/10

如果 GRPO 训练不收敛或计算资源不足,可以退化为:

  • SafeHome Benchmark保留
  • 聚焦行为异常检测场景SQ2+SQ3
  • 使用 SFT + Few-shot 作为基线方法
  • 论文贡献以 Benchmark 为主

Idea 3: MatterGuard 设备故障诊断 — BACKUP

综合评分: 8.0/10

如果安全推理的场景设计过于复杂,可以聚焦于:

  • 设备故障诊断SQ1 扩展)
  • 故障注入引擎 + Matter 协议语义诊断
  • 工业实用性强,但学术贡献相对单一

Eliminated Ideas

Idea 淘汰原因
Idea 6: SecureMatter 综合框架 范围过大,一篇论文无法完成
Idea 8: HomeThink 快慢思考 架构创新不够,贡献不清晰
Idea 9: IoT-RedTeam 对抗训练不稳定,可行性太低

Refined Proposal

  • 提案: refine-logs/FINAL_PROPOSAL.md
  • 实验计划: refine-logs/EXPERIMENT_PLAN.md
  • 文献全景: idea-stage/LITERATURE_LANDSCAPE.md
  • 参考论文摘要: idea-stage/REF_PAPER_SUMMARY.md

Next Steps

  • Fork SimuHome 代码库,开始仿真器扩展 (E1)
  • 手写 10 个安全场景,用 GPT-4.1 测试验证假设 (E3-pilot)
  • 用 GPT-5.1 生成安全推理示例数据 (E4-data)
  • 后续可用 /run-experiment 部署实验
  • 完成后可用 /paper-write 生成论文