Baby Story Engine

故事引擎

从家庭故事切入,验证一套可复制、可迁移的 Agent 内容自动化流水线。

状态驱动的多模态内容系统。
它把碎片输入沉淀为长期状态,再持续生成文本、图像与推送内容;家庭场景只是第一个落地实例。
8 层触发到投递的完整系统架构
11:00每日无人值守的内容流水线
13 条角色一致性的生成约束
50+图像迭代沉淀的视觉规则
Cron 驱动定时触发内容生成与插图任务。
宝宝故事引擎推送到手机的故事与插图展示
QQ Bot 分发图文结果自动投递到手机端。
01 · Background

背景与问题定义

把碎片化的灵感,做成可持续的连续内容。

睡前故事的真实需求并不是一次性生成一段文本,而是持续产出一个孩子愿意反复回到其中的故事世界。这个世界需要有熟悉的角色、连续的剧情,也需要保留家庭共同创造出来的语气和细节。

现成的故事内容通常缺少个人语境,单次 AI 生成也容易变成彼此孤立的片段。真正难的是让每天零散出现的灵感被记录、理解和延续,逐步沉淀为一个可持续生长的叙事系统。

因此,这个项目的核心问题不是「如何生成一篇故事」,而是如何把真实输入转化为长期记忆,再让系统基于这份记忆稳定地产出新的剧情、角色资产和多模态内容。

02 · OpenClaw Agent Pipeline

端到端的 OpenClaw Agent 自动化流水线

从原始录音输入,到图文内容生成与手机端投递的自动化闭环。

这套系统不是一次性的对话生成,而是一条端到端的 Agent 内容流水线。用户侧只需要提供原始录音,系统会在后台完成素材获取、文本清洗、状态读取、剧情生成、插图生成和消息投递。

它的关键价值在于把「创作」从一次提示词请求,变成一个可重复执行的自动化流程:每一轮都读取既有世界状态,在规则约束下生成候选内容,并把结果推送到固定渠道等待确认。

宝宝故事引擎端到端故事生成系统总流程图

每次触发后,系统会按同一套流程完成一轮内容生产:

  1. 01创建隔离的 Agent 会话,读取执行规则 trigger.md 以及世界观、角色、剧情线等长期状态。
  2. 02通过飞书 lark-cli 获取并清洗最新录音文本,把口语化素材整理为可处理的结构化输入。
  3. 03基于剧情约束和风格轮换,生成新一期候选剧情,先进入灵感区而非直接写入正史。
  4. 04为关键场景生成配套插图,结合角色参考图与视觉约束,保持人物和画风的连续性。
  5. 05将文字、插图和候选方向组装为推送消息,通过 QQ Bot 投递到手机端。
  6. 06人工确认后,将被采纳的剧情追加进长期记忆,作为下一轮生成的上下文基础。
03 · Engineering Architecture

分层的 Agent 工程架构

从触发、隔离执行,到生成与推送的完整分层。

为了让流水线能够长期无人值守运行,系统被拆成了清晰的工程分层:触发器负责启动任务,路由层决定会话与投递方式,Agent 执行层读取规则和状态,工具层完成获取、清洗、生成、写回与推送。

这种分层设计让每个环节都有明确边界:自动任务在隔离会话中运行,生成规则以 Markdown 配置维护,灵感与正史分开存储,插图生成也保留云端 API 与本地 ComfyUI 两条路径。系统因此不依赖单次手工操作,而是可以被调度、复用、降级和持续迭代。

宝宝故事引擎 OpenClaw Agent 自动流水线架构图
宝宝故事引擎录音素材与角色生成资产
04 · Real Input & Character Assets

真实输入与角色资产

原始录音素材 + 系统沉淀出的稳定角色阵容。

系统的核心资产分为两类:一类是每日持续进入的真实输入,另一类是从这些输入中逐步沉淀出的角色与设定资产。

原始素材来自睡前录音,内容往往是跳跃、口语化、不完整的,但它保留了真实的亲子共创语境。系统需要做的不是抹掉这些特征,而是从中提取可延续的设定、角色关系和剧情线索。

经过多轮生成与确认后,这些素材逐步沉淀为稳定的角色阵容。角色不再是每次生成时临时出现的新形象,而是可以被持续引用、复用和视觉化的叙事资产。这也是「连续生长的故事世界」和「一次性内容生成」之间的关键区别。

05 · Character Consistency

多角色一致性:一场工程取舍

成本 / 速度 / 内存约束下,如何让同一角色稳定复现。

绘本生成的核心挑战不是单张图片质量,而是角色在连续场景中的可识别性。同一个角色需要在不同动作、表情、服装和构图里保持稳定,否则故事会从「连续世界」退化成一组彼此无关的插画。

在实现上,我没有把问题简单交给模型自由发挥,而是设计了一套可控的生成链路:为每个角色沉淀固定定妆照,使用结构化 prompt 约束发型、服装、年龄、画风和画面比例;云端 Seedream 负责高频快速生成,本地 ComfyUI 作为多角色同框和复杂场景的备用方案。

这是一组在成本、速度和一致性之间的工程取舍。最终标准不是追求训练级别的完美复刻,而是在每日自动生成的前提下,让主要角色能被稳定识别,并服务于连续叙事的阅读体验。

宝宝故事引擎多角色一致性 before after 对比
记忆系统plotline / characters / world
人类可读、只追加不覆盖。
工作流系统cron → trigger → 隔离会话
工具链 → 输出。
Agent 行为读规则、读状态
执行工具链、写回状态。
多模态层文字 / 插图 / 绘本 / 未来视频
共用同一份状态。
06 · Four Subsystems

系统设计:四个子系统

记忆 / 工作流 / Agent 行为 / 多模态。

从系统视角看,故事引擎可以拆成四个相互独立又彼此协作的子系统:记忆、工作流、Agent 行为和多模态表达。

记忆系统负责维护可读、可追踪、可追加的长期状态;工作流系统把触发、隔离会话、工具链和输出串成可重复执行的流程;Agent 行为不是自由发挥,而是 rule-driven executor + memory updater;多模态层则把同一份状态表达成文字、插图、绘本和未来视频。

07 · Transferable Pattern

可复用 · 可迁移的内容自动化范式

把领域换掉,这套骨架依然成立。

故事引擎只是这个系统在家庭场景里的一个实例。它真正可迁移的部分,不是「会写故事」,而是把内容生产拆成了一组稳定接口:输入可以是语音、会议纪要、UGC 或日记;状态可以是剧情线、项目知识库、用户洞察或品牌资产;输出可以是故事、简报、物料或视频脚本

只要一个场景同时具备「碎片输入很多、需要长期记忆、产出要持续更新」这三个特征,这套骨架就能成立:先把原始材料结构化沉淀,再让 Agent 按规则读取、更新和调度工具链,最后把同一份状态表达成不同模态。家庭故事只是第一个落地形态,背后是一类可复制的内容自动化系统。

团队会议 / 周报讨论记录 → 项目状态库 → 周报、决策追踪与风险提醒。
个人灵感 / 日记闪念碎片 → 个人知识状态 → 文章、选题与创作素材。
品牌内容用户反馈与 UGC → 品牌资产库 → 多平台内容与营销物料。
08 · Live Output

线上运行与成品展示

每天真实运转的推送与产出。

下面是系统在线上真实推送过的结果:有当天的剧情方向、世界观更新、场景插图,也有被采纳后继续进入下一轮的故事进度。

这里展示的不是一次性演示截图,而是一条内容流水线的运行状态:它能读取前一天的输入,延续既有设定,生成可选择的下一步,并把图文结果自动送到手机上。对这个项目来说,「持续稳定地跑起来」本身就是最重要的成品。

宝宝故事引擎故事宇宙更新手机截图
宝宝故事引擎次日故事方向手机截图
宝宝故事引擎故事插图推送手机截图
宝宝故事引擎绘本图文推送手机截图
OpenClawlark-cliSeedream 5.0ComfyUIQQ BotPrompt-as-Config