消费品创新机会捕捉智能体从12万条嘈杂混乱的电商差评与社媒评论到可执行的产品设计这是一个面向企业产品团队的 AI 社媒聆听与需求分析智能体。它基于京东评论和小红书笔记/评论中采集真实用户反馈,经过多阶段 NLP 管线处理,自动聚类消费者痛点并标注情感极性——让企业直接拿到「续航不能短于6天」「表带材质必须避免含镍合金」这样的可执行举措。应用场景举例场景举例: 一家计划进入智能可穿戴领域的企业,想要知道什么样的产品在市场中“能打”传统做法: 借助大量行业研究报告和耗时耗力的潜在用户调研,得到纯定性的初步创意消费品创新机会捕捉智能体的做法: 12万条真实用户评论 → 每品类30+有证据支撑的聚类 × 9个品类 → 量化严重程度(提及量+负向比例) → 可执行的创新方向 → 每品类5min实际产出举例:「材质过敏售后推诿 —— 聚类#21,56条提及,96%负向」「维修后仍无法连接 —— 聚类#17,66条提及,97%负向」流程管线12万条原始评论 ──→ NLP清洗 ──→ 向量化 ──→ 主题聚类 ──→ 情感标注 ──→ 产品设计建议
(京东+小红书) (去重/去噪/ (句向量 (BERTopic + (方面级 (LLM生成
模板识别) 嵌入) KMeans混合) 情感极性) 可执行输出)系统架构┌──────────────────────────────────────────────────────────┐
│ 前端展示层 (Vanilla JS) │
│ • 气泡图(UMAP 二维投影) │
│ • 品类侧边栏 + 产品线下钻 │
│ • 评论证据卡片 + 情感高亮 │
│ • LLM报告查看器(含质量评分) │
├──────────────────────────────────────────────────────────┤
│ 后端接口层 (FastAPI) │
│ • /api/nlp/run —— 触发聚类管线 │
│ • /api/nlp/result —— 获取聚类结果 │
│ • /api/nlp/cluster/auto-name —— LLM自动命名聚类 │
│ • /api/nlp/cluster/merge —— 手动合并聚类 │
│ • /api/llm/opportunity/run —— 生成产品设计建议 │
│ • /api/jd-reviews, /api/xhs-notes —— 原始数据浏览 │
├──────────────────────────────────────────────────────────┤
│ NLP 引擎层(私有部署) │
│ • 文本清洗:去重、模板评论过滤、表情/方言/缩写归一化 │
│ • 向量化:句嵌入模型 │
│ • 聚类:BERTopic + KMeans 混合,自适应 min_cluster_size │
│ • 情感分析:方面级极性判断(本地规则+子句级分析,无LLM依赖)│
│ • 离群值再分配:可配置阈值 │
├──────────────────────────────────────────────────────────┤
│ 数据层 (SQLite) │
│ • workbench.db —— 原始评论、产品目录 │
│ • state.db —— NLP结果、LLM缓存、用户会话 │
│ • 按品类独立的参数配置文件 (JSON) │
└──────────────────────────────────────────────────────────┘仓库结构dreamday/
├── web/ # 前端应用
│ ├── index.html # 主入口
│ ├── app.js # UI逻辑、可视化、API对接
│ ├── style.css # 样式与响应式布局
│ └── assets/ # 图标、品类图片
├── app/
│ ├── main.py # FastAPI 应用 + 路由定义
│ ├── need_lexicon.json # 领域关键词词表(仅schema)
│ └── aspect_lexicon.json # 方面抽取配置(仅schema)
├── demo/ # 截图与示例输出
│ ├── cluster_bubble.png # 气泡图可视化截图
│ └── sample_clusters.json # 示例聚类输出(5个聚类脱敏数据)
├── Dockerfile # 容器部署配置
├── requirements.txt # Python依赖
└── README.md说明: 核心 NLP 引擎(聚类参数、情感规则、BERTopic 调优配置、Prompt 模板)以私有微服务方式部署,通过内部 API 调用。本仓库包含应用层与前端可视化代码。技术栈后端: Python 3.11+、FastAPI、scikit-learn、NumPyNLP: BERTopic(主题建模)、KMeans(备选聚类)、PCA/UMAP(降维投影)、自研方面级情感分析LLM集成: DeepSeek API + 百度千帆 API,用于聚类自动命名和机会报告生成,支持多Key轮转、限流、响应质量评分前端: 原生 JavaScript(无框架)、自研气泡图渲染器、WebAudio API 交互反馈音效存储: SQLite 双库架构(源数据库 + 状态/结果库)、JSON 参数配置部署: Docker、FastAPI ASGI快速启动bash# 克隆仓库
git clone https://github.com/yourname/dreamday.git
cd dreamday
# 安装依赖
pip install -r requirements.txt
# 以示例数据启动
python -m uvicorn app.main:app --host 0.0.0.0 --port 8000
# 打开 http://localhost:8000Demo模式下展示预计算的聚类结果,无需配置API Key即可体验可视化界面