一、项目背景与理念在 AI 技术爆发的今天,声音越来越容易被复制、被生成、被工具化。但我们相信:声音不只是一种输出工具,而是一个人存在过的证明。HUM(人声余温)由此而生。"Where voices are not just heard, but remembered."声音,不只是被听见,而是被记住。HUM 是一个 AI 语音克隆与个性化交互平台,让每一个人的声音成为可以被反复倾听、被尊重、被留存的数字存在。二、核心功能1. 声音角色创建上传一段 10–15 秒的清晰语音,系统自动完成三步处理:Embedding 生成 — 使用 CODEC 模型将音频编码为 256 维特征向量音色克隆 — 调用 AI 模型复刻你的音色样本生成 — 输出一段试听音频供确认每个声音角色拥有唯一的 Voice ID 和 Embedding Hash,是你声音的数字指纹。2. 发现页 · 本周之声首页展示本周被真实倾听最多的声音角色,包含:声音名称与个性描述倾听次数与使用场景标签优雅卡片布局,可直接选用3. TTS 文字转语音选择任意角色,输入文本,即可生成该声音朗读的音频:使用 cosyvoice-v2 模型支持试听与下载接入支付系统,按需付费使用4. 声音上链将你的声音角色的核心数据(Voice ID + Embedding Hash)永久保存在区块链上:遵循 ERC-721 标准数据不可篡改,永久留存支持所有权转移与数据恢复5. 角色管理查看我的所有声音角色重命名、删除、查看详情查看角色被使用的次数与历史三、技术架构用户上传音频
↓
文件服务 → 存储原始文件
↓
Embedding 服务 → CODEC 模型 → 256维向量
↓
AI 模型 → 音色克隆 → 生成样本音频
↓
数据库保存 Voice 记录
↓
用户可以:
├── 浏览发现页
├── 选择角色 + 输入文本 → 支付 → TTS 生成
└── 声音上链 → 合约调用 → 链上永久存储
前端技术用途React 18 + TypeScript主框架Ant DesignUI 组件库ethers.js v6钱包与合约交互Vite构建工具后端技术用途Node.js + Express + TypeScript服务框架PostgreSQL数据持久化cosyvoice-v2AI 音色克隆 & TTS支付中间件按需计费智能合约contract VoiceNFT is ERC721URIStorage {
struct VoiceData {
string voiceId;
string embeddingHash;
}
function mint(address to, string voiceId, string embeddingHash) external;
function getVoiceData(uint256 tokenId) external view returns (string, string);
}
四、用户流程创作者上传语音 → 创建声音角色分享角色到发现页查看倾听次数选择将声音上链,永久留存使用者浏览发现页,选择声音角色输入文字,按次付费获得音频,试听与下载五、商业模式按次收费:每次 TTS 生成自动结算,按需使用创作者分成:声音被使用时,创作者获得收益分成(规划中)链上资产:上链后声音可作为数字资产流转六、项目亮点亮点说明情感化设计不是冷冰冰的工具,而是有温度的陪伴链上持久化声音成为链上可追溯的永久资产按需付费极低成本,灵活使用多钱包支持主流 Web3 钱包均可使用AI + Web3 融合AI 生成能力与区块链确权完整闭环七、当前进度已完成✅ 音频上传 / 录音✅ AI 音色克隆✅ TTS 文字转语音(cosyvoice-v2)✅ 声音角色管理✅ 声音上链✅ 按次付费规划中情绪识别与动态响应创作者激励体系声音市场移动端适配八、一句话总结HUM 是一个让声音被记住的平台 —— 用 AI 克隆你的声音,用区块链留存你的存在。