3.6 KiB
3.6 KiB
Idea Discovery Report
Direction: LLM × IoT 智能家居安防 — 安全推理 Benchmark + RL 增强 Date: 2026-04-28 Pipeline: research-lit → idea-creator → novelty-check → research-review → research-refine
Executive Summary
推荐方案:SafeHome — 在 SimuHome (ICLR 2026) 的 Matter 协议智能家居仿真器上,构建首个面向安全推理的 LLM Agent Benchmark(600 episodes, 5 种安全查询类型),并使用 GRPO 训练 LLM 提升安全推理能力。文献调研确认该方向高度新颖(无直接竞品),最接近的 SmartHome-Bench 基于视频而非 IoT 设备状态。预计投稿 NeurIPS 2026 / AAAI 2027。
Literature Landscape
详见 idea-stage/LITERATURE_LANDSCAPE.md
关键发现
- SimuHome (ICLR 2026): 唯一基于 Matter 协议的智能家居仿真 Benchmark,仅评估任务执行
- SmartHome-Bench (2025): 智能家居视频异常检测 Benchmark,基于摄像头,非 IoT 状态
- DS-IA (2026): AIoT 安全双阶段框架,但关注过滤无效指令,非威胁检测
- L2M-AID (2025): LLM+MARL 网络物理防御,面向工业 IoT
- 六大结构性空白:无人同时覆盖 LLM + 家居 + 安全推理 + Benchmark + RL
Ranked Ideas
🏆 Idea 1: SafeHome Benchmark + GRPO 安全推理增强 — RECOMMENDED
综合评分: 9.2/10
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ★★★★★ | 首个 Matter 协议安全推理 Benchmark + 首次 RL 用于家居安全推理 |
| 可行性 | ★★★★☆ | 直接扩展 SimuHome 代码,GRPO 训练相对稳定 |
| 影响力 | ★★★★★ | Benchmark + 方法论双重贡献 |
| 技术难度 | ★★★★☆ | 场景设计 + RL 训练 |
核心贡献:
- SafeHome Benchmark: 5 种安全查询类型 (SQ1-SQ5),600 episodes
- SafeHome-RL: GRPO 安全推理微调框架
- 18 模型评估 + SFT vs GRPO 对比 + 消融实验
新颖性: CONFIRMED — 最近竞品 SmartHome-Bench 基于视频,IoTGen 仅做数据生成 Pilot 可行性: 可立即 fork SimuHome 开始原型开发
详细提案: refine-logs/FINAL_PROPOSAL.md
实验计划: refine-logs/EXPERIMENT_PLAN.md
Idea 2: SafeHome + 行为异常检测(聚焦版)— BACKUP
综合评分: 8.8/10
如果 GRPO 训练不收敛或计算资源不足,可以退化为:
- SafeHome Benchmark(保留)
- 聚焦行为异常检测场景(SQ2+SQ3)
- 使用 SFT + Few-shot 作为基线方法
- 论文贡献以 Benchmark 为主
Idea 3: MatterGuard 设备故障诊断 — BACKUP
综合评分: 8.0/10
如果安全推理的场景设计过于复杂,可以聚焦于:
- 设备故障诊断(SQ1 扩展)
- 故障注入引擎 + Matter 协议语义诊断
- 工业实用性强,但学术贡献相对单一
Eliminated Ideas
| Idea | 淘汰原因 |
|---|---|
| Idea 6: SecureMatter 综合框架 | 范围过大,一篇论文无法完成 |
| Idea 8: HomeThink 快慢思考 | 架构创新不够,贡献不清晰 |
| Idea 9: IoT-RedTeam | 对抗训练不稳定,可行性太低 |
Refined Proposal
- 提案:
refine-logs/FINAL_PROPOSAL.md - 实验计划:
refine-logs/EXPERIMENT_PLAN.md - 文献全景:
idea-stage/LITERATURE_LANDSCAPE.md - 参考论文摘要:
idea-stage/REF_PAPER_SUMMARY.md
Next Steps
- Fork SimuHome 代码库,开始仿真器扩展 (E1)
- 手写 10 个安全场景,用 GPT-4.1 测试验证假设 (E3-pilot)
- 用 GPT-5.1 生成安全推理示例数据 (E4-data)
- 后续可用
/run-experiment部署实验 - 完成后可用
/paper-write生成论文