Baby Story Engine

故事引擎

从家庭故事切入，验证一套可复制、可迁移的 Agent 内容自动化流水线。

状态驱动的多模态内容系统。
它把碎片输入沉淀为长期状态，再持续生成文本、图像与推送内容；家庭场景只是第一个落地实例。

8 层触发到投递的完整系统架构

11:00每日无人值守的内容流水线

13 条角色一致性的生成约束

50+图像迭代沉淀的视觉规则

Cron 驱动定时触发内容生成与插图任务。

QQ Bot 分发图文结果自动投递到手机端。

01 · Background

背景与问题定义

把碎片化的灵感，做成可持续的连续内容。

睡前故事的真实需求并不是一次性生成一段文本，而是持续产出一个孩子愿意反复回到其中的故事世界。这个世界需要有熟悉的角色、连续的剧情，也需要保留家庭共同创造出来的语气和细节。

现成的故事内容通常缺少个人语境，单次 AI 生成也容易变成彼此孤立的片段。真正难的是让每天零散出现的灵感被记录、理解和延续，逐步沉淀为一个可持续生长的叙事系统。

因此，这个项目的核心问题不是「如何生成一篇故事」，而是如何把真实输入转化为长期记忆，再让系统基于这份记忆稳定地产出新的剧情、角色资产和多模态内容。

02 · OpenClaw Agent Pipeline

端到端的 OpenClaw Agent 自动化流水线

从原始录音输入，到图文内容生成与手机端投递的自动化闭环。

这套系统不是一次性的对话生成，而是一条端到端的 Agent 内容流水线。用户侧只需要提供原始录音，系统会在后台完成素材获取、文本清洗、状态读取、剧情生成、插图生成和消息投递。

它的关键价值在于把「创作」从一次提示词请求，变成一个可重复执行的自动化流程：每一轮都读取既有世界状态，在规则约束下生成候选内容，并把结果推送到固定渠道等待确认。

每次触发后，系统会按同一套流程完成一轮内容生产：

01创建隔离的 Agent 会话，读取执行规则 trigger.md 以及世界观、角色、剧情线等长期状态。
02通过飞书 lark-cli 获取并清洗最新录音文本，把口语化素材整理为可处理的结构化输入。
03基于剧情约束和风格轮换，生成新一期候选剧情，先进入灵感区而非直接写入正史。
04为关键场景生成配套插图，结合角色参考图与视觉约束，保持人物和画风的连续性。
05将文字、插图和候选方向组装为推送消息，通过 QQ Bot 投递到手机端。
06人工确认后，将被采纳的剧情追加进长期记忆，作为下一轮生成的上下文基础。

03 · Engineering Architecture

分层的 Agent 工程架构

从触发、隔离执行，到生成与推送的完整分层。

为了让流水线能够长期无人值守运行，系统被拆成了清晰的工程分层：触发器负责启动任务，路由层决定会话与投递方式，Agent 执行层读取规则和状态，工具层完成获取、清洗、生成、写回与推送。

这种分层设计让每个环节都有明确边界：自动任务在隔离会话中运行，生成规则以 Markdown 配置维护，灵感与正史分开存储，插图生成也保留云端 API 与本地 ComfyUI 两条路径。系统因此不依赖单次手工操作，而是可以被调度、复用、降级和持续迭代。

04 · Real Input & Character Assets

真实输入与角色资产

原始录音素材 + 系统沉淀出的稳定角色阵容。

系统的核心资产分为两类：一类是每日持续进入的真实输入，另一类是从这些输入中逐步沉淀出的角色与设定资产。

原始素材来自睡前录音，内容往往是跳跃、口语化、不完整的，但它保留了真实的亲子共创语境。系统需要做的不是抹掉这些特征，而是从中提取可延续的设定、角色关系和剧情线索。

经过多轮生成与确认后，这些素材逐步沉淀为稳定的角色阵容。角色不再是每次生成时临时出现的新形象，而是可以被持续引用、复用和视觉化的叙事资产。这也是「连续生长的故事世界」和「一次性内容生成」之间的关键区别。

05 · Character Consistency

多角色一致性：一场工程取舍

成本 / 速度 / 内存约束下，如何让同一角色稳定复现。

绘本生成的核心挑战不是单张图片质量，而是角色在连续场景中的可识别性。同一个角色需要在不同动作、表情、服装和构图里保持稳定，否则故事会从「连续世界」退化成一组彼此无关的插画。

在实现上，我没有把问题简单交给模型自由发挥，而是设计了一套可控的生成链路：为每个角色沉淀固定定妆照，使用结构化 prompt 约束发型、服装、年龄、画风和画面比例；云端 Seedream 负责高频快速生成，本地 ComfyUI 作为多角色同框和复杂场景的备用方案。

这是一组在成本、速度和一致性之间的工程取舍。最终标准不是追求训练级别的完美复刻，而是在每日自动生成的前提下，让主要角色能被稳定识别，并服务于连续叙事的阅读体验。

记忆系统plotline / characters / world
人类可读、只追加不覆盖。

工作流系统cron → trigger → 隔离会话
工具链 → 输出。

Agent 行为读规则、读状态
执行工具链、写回状态。

多模态层文字 / 插图 / 绘本 / 未来视频
共用同一份状态。

06 · Four Subsystems

系统设计：四个子系统

记忆 / 工作流 / Agent 行为 / 多模态。

从系统视角看，故事引擎可以拆成四个相互独立又彼此协作的子系统：记忆、工作流、Agent 行为和多模态表达。

记忆系统负责维护可读、可追踪、可追加的长期状态；工作流系统把触发、隔离会话、工具链和输出串成可重复执行的流程；Agent 行为不是自由发挥，而是 rule-driven executor + memory updater；多模态层则把同一份状态表达成文字、插图、绘本和未来视频。

07 · Transferable Pattern

可复用 · 可迁移的内容自动化范式

把领域换掉，这套骨架依然成立。

故事引擎只是这个系统在家庭场景里的一个实例。它真正可迁移的部分，不是「会写故事」，而是把内容生产拆成了一组稳定接口：输入可以是语音、会议纪要、UGC 或日记；状态可以是剧情线、项目知识库、用户洞察或品牌资产；输出可以是故事、简报、物料或视频脚本。

只要一个场景同时具备「碎片输入很多、需要长期记忆、产出要持续更新」这三个特征，这套骨架就能成立：先把原始材料结构化沉淀，再让 Agent 按规则读取、更新和调度工具链，最后把同一份状态表达成不同模态。家庭故事只是第一个落地形态，背后是一类可复制的内容自动化系统。

团队会议 / 周报讨论记录 → 项目状态库 → 周报、决策追踪与风险提醒。

个人灵感 / 日记闪念碎片 → 个人知识状态 → 文章、选题与创作素材。

品牌内容用户反馈与 UGC → 品牌资产库 → 多平台内容与营销物料。

08 · Live Output

线上运行与成品展示

每天真实运转的推送与产出。

下面是系统在线上真实推送过的结果：有当天的剧情方向、世界观更新、场景插图，也有被采纳后继续进入下一轮的故事进度。

这里展示的不是一次性演示截图，而是一条内容流水线的运行状态：它能读取前一天的输入，延续既有设定，生成可选择的下一步，并把图文结果自动送到手机上。对这个项目来说，「持续稳定地跑起来」本身就是最重要的成品。

OpenClawlark-cliSeedream 5.0ComfyUIQQ BotPrompt-as-Config