蓝戒博客

  • 首页
  • 研发说
  • 架构论
  • 效能录
  • AI谈
  • 随笔集
智构苍穹
融合 AI、架构与工程实践,沉淀方法论,构建可持续的技术价值。
  1. 首页
  2. AI谈
  3. 正文

别再死磕提示词了!Google Flow Agent 彻底颠覆 AI 视频,有手就能当导演

2026年6月25日 3点热度 0人点赞 0条评论

大家好,我是蓝戒。本篇我们来聊聊:Google Flow Agent颠覆视频创作。

如果你对 AI 的印象还停留在“输入一段几百字的小说,然后祈祷它别生成一个六根手指的怪胎”,那你可以收起这种老古董思想了。

就在 2026 年 5 月 19 日,谷歌在 I/O 大会上扔下了一枚深水炸弹:全面升级旗下的 AI 创作工作室——Google Flow,并全球上线了其核心王牌:Google Flow Agent(Flow 智能体)。更绝的是,这个由 Gemini 驱动、能规划推理、批量编辑、自动整理资产的 AI 创作伙伴,对所有 Flow 用户(包括免费版)全球开放!

今天,咱们就聊聊这个让无数独立导演和视频博主夜不能寐的“Flow Agent”,到底是个什么狠角色,普通人又该如何零门槛上手。

先放一段浅尝生成的视频片段

角色 + 场景 可以添加到提示词中

角色设计:土拨鼠-墩墩、小浣熊-饭团

角色一:墩墩(Dun Dun)—— 土拨鼠

名字由来:​ "墩"本意是矮胖结实的石块,叠音"墩墩"念起来又憨又萌,一听就是个圆滚滚、慢半拍的胖家伙。

外观特征:​体型圆润胖墩,肚子鼓鼓的,短粗小短腿,走路一摇一晃 毛色为暖琥珀棕,腹部略浅 标志性大门牙两颗,微微露出 眼睛小而圆,永远带着一种"刚睡醒、没搞清楚状况"的迷糊表情 脸颊鼓鼓的,受惊时会 puff 起来

服饰(极简):​ 脖子上系一条小红方巾,仅此一件。红色在棕色毛皮上辨识度极高,Flow 生成时容易保持一致。 性格关键词:​ 憨厚、迟钝、善良、容易受惊、反应慢半拍

角色二:饭团(Fan Tuan)—— 小浣熊

名字由来:​ 饭团(onigiri)——小浣熊脸上的黑色眼罩像海苔包裹饭团的那一圈,圆脸配"眼罩"的造型和饭团如出一辙。名字自带食物的软萌感,又憨又馋。

外观特征:​体型比墩墩小一圈,但同样圆乎乎的 毛色为柔软灰,经典黑色"强盗眼罩"环绕双眼 眼睛明亮好奇,总带着一丝"发现了好东西"的狡黠 尾巴蓬松,黑白相间的环纹 小尖耳,鼻头小小的黑色三角

服饰(极简):​ 脖子上绕一条浅蓝色围巾,随意搭一圈。蓝灰色调与灰色毛皮有微妙对比,简洁不抢戏。 性格关键词:​ 机灵、好奇、贪吃、爱捣蛋、嘴硬心软

一问一答的“傻瓜模式”结束了!它治好了 AI 的“健忘症”

要理解 Flow Agent 的分量,得先回到它诞生前那个让创作者抓狂的旧世界。

在 2026 年 5 月 19 日之前,Google Flow 的工作方式和其他所有 AI 创作工具一样:一问一答,单次生成。你输入提示词,它吐出结果,你审视、不满意、再输入、再生成。每一次请求都从零开始,工具对你正在构建的项目毫无记忆,更谈不上主动行动。

这种模式处理简单任务尚可,一旦项目复杂化——多场景、反复出现的角色、统一的视觉风格、几十上百个生成资产——单次提示模型就会彻底崩塌。想象你在做一部五幕短片,已经生成了 40 个片段,突然决定整体色调要更暖。在旧版 Flow 里,你得逐个片段打开、描述修改、重新生成、审核、再下一个。四十个片段,意味着四十次重复劳动。又或者你做到第三幕才发现主角的服装要换,你根本无法告诉系统“记住这个改动,往后都照此执行”。

Google Labs 产品副总裁 Elias Roman 直言:创作者长期困在“一个昂贵、割裂的单用途工具生态”里,创作流程不断被管理工具本身的机械劳动所打断。

而 Flow Agent 正是 Google 对这个痛点的回答。与旧的单次提示模型不同,Flow Agent 在整个会话期间维护着项目的完整记忆。它知道你已经生成了什么,知道场景里有哪些角色,知道你一直在构建的视觉风格,知道哪些资产属于项目的哪个部分。正是这份记忆,让后面的一切成为可能——Agent 不是在回应单个请求,而是在对你整个项目进行推理,并基于这种理解采取有意义的行动。

八大逆天能力:从“生成器”直接晋升“制片人”

基于 Google 的 Gemini 模型,Flow Agent 拥有两重能力:既能理解叙事和角色问题所需的创意推理力,又能跨工作区执行复杂多步任务的技术执行力。截至 2026 年 6 月的版本,官方已确认它具备以下八大能力:

  1. 多步任务执行:最根本的转变。你可以一句话下达一串连贯指令,比如“为这个开场戏生成三个版本——一个戏剧化、一个轻松、一个电影感——然后把它们整理进一个叫'开场变体'的合集”。Agent 理解这是一个连贯请求,逐部分执行,并自动完成整理步骤。
  2. 头脑风暴与对白开发:你描述角色是谁、情境如何、想传达什么,Agent 会建议对白选项、指出哪里不对、与你迭代对话。
  3. 剧情与故事建议:你描述已建好的场景和卡壳之处,Agent 能提出符合现有基调和方向的情节发展、场景过渡和叙事走向。
  4. 同时生成多个场景变体:省去了“生成一个、审核、再迭代”的循环。Google 在演示中让创作者一次性要求 16 个不同角度、光线、构图的产品镜头变体,全部并行生成。
  5. 跨项目批量编辑:实际影响最大的一项。一条指令即可同时修改多个资产,例如“给所有标记为 DAYTIME 的片段套上暖色调”或“把所有外景的背景改成阴天”——一句话,几十个片段同步更新。
  6. 自动资产整理:按场景、角色、地点或主题把资产自动归入逻辑合集,免去手动翻找文件的痛苦。
  7. 智能资产重命名:把 output_0047.mp4 这类无意义文件名,自动替换成能告诉你内容是什么的名字(如“第二幕日落场景”)。
  8. 项目规划与流程协调:在大型项目里化身制片协调人,拆解工作阶段、建议创作顺序、跨场景和资产类型追踪进度。

Gemini Omni Flash 与 Flow Tools:给 AI 注入灵魂

与 Flow Agent 同步登场的,还有面向付费订阅者的全新多模态模型——Gemini Omni Flash。官方将其精妙地比喻为“Nano Banana 的视频版”。它在世界理解(生成的视频更符合物理直觉)、多模态输入(可同时接收文本、图像、视频的任意组合)、对话式创作(通过自然对话而非离散提示来精修视频)、角色与声音一致性(跨场景锁定身份)以及精准视频编辑(支持局部外科手术式修改)这五个维度实现了大跨越。

不仅如此,Google 还推出了 Google Flow Tools。这是一套让创作者用大白话就能构建自定义创意工具和工作流的系统,被业内称为创意工具领域的 “vibe coding”(氛围编程)。你造的工具还可以一键分享到社区,或者把别人的工具 remix 成新版本。即使你不会写代码,也能白嫖社区里各种奇奇怪怪、极具美学的后期特效工具。

保姆级上手指南:5步开启你的导演之路

别被这些高大上的技术名词吓到了,Flow Agent 的上手门槛极低,任何人都能立刻体验。请收好这份保姆级实操指南:

第一步:登录平台

打开浏览器,访问官方入口:https://labs.google/fx/zh/tools/flow,直接使用你的现有 Google 账号即可进入工作区。

第二步:创建项目

在主界面,点击“新建项目(New Project)”创建一个全新的空白画布,或者直接打开你之前未能完成的已有项目。

第三步:召唤你的 Flow Agent

环顾工作区,在左侧边栏或者专用的控制面板中,你会看到一个全新的 Flow Agent 图标。点击它,就会弹出一个对话框。这就是你的“AI 副导演”。

第四步:进行头脑风暴与规划

别急着去死磕复杂的画面提示词,先用大白话跟它聊聊。你可以从最简单的输入入手,例如:

“Agent,我在做一个关于‘未来科幻世界里赛博捕虾人’的短片,请帮我规划前三个场景的脚本,并给出视觉基调建议。”

Agent 会迅速根据你的叙事语境,为你拆解镜头、甚至帮你自动生成好最适合 AI 理解的高级提示词。

第五步:下达批量与高级指令

当项目开始有了雏形后,你可以尽情使唤它。比如直接对它说:“把刚才生成的第二幕所有片段的背景都换成下雨天,然后把这些资产自动归类到一个叫‘雨天场景’的合集里。” 它会像一个强迫症晚期的后期助理一样,默默帮你把多步任务执行完毕,并智能重命名文件。

提示: 全球推送目前仍在滚动进行中。如果你登录后暂时没有看到 Agent 入口,别慌,Google 已确认该功能面向所有用户开放,过一两天再查即可。

免费党还是氪金派?一张表带你看清

好消息是,Flow Agent 本身是对所有人免费开放的!但如果你想追求极致画质和最新模型,可以参考官方的定价矩阵:

能力维度免费账户AI Plus ($9.99/月)AI Pro ($19.99/月)AI Ultra ($100/月)
Flow Agent 全功能✅ 开放✅ 开放✅ 开放✅ 开放
多步任务 / 批量编辑✅ 支持✅ 支持✅ 支持✅ 支持
使用社区现有 Tools✅ 支持✅ 支持✅ 支持✅ 支持
创建 / 混改自定义工具❌ 不支持✅ 支持✅ 支持✅ 支持
Gemini Omni Flash 模型❌ 不支持✅ 支持✅ 支持✅ 支持
Veo 3.1 视频生成❌ 不支持✅ 支持✅ 支持✅ 支持
每月 AI 积分额度有限200 积分1,000 积分12,500 积分
生成与渲染速度标准标准优先最高速

大实话: 如果你只用 Flow 来做图像生成、日常打杂或剧本头脑风暴,免费版已经完全够用。但如果你想染指好莱坞级别的 Veo 3.1 视频生成以及绝不换脸的 Omni Flash 模型,付费计划是绕不开的。

别高兴太早!早期用户的真实反馈非常犀利

大多数科技媒体只负责吹捧大厂的画饼演示,但蓝戒一向喜欢说实话。上线后,第一批真实用户的反馈并不全是赞美,甚至可以说相当辛辣:

有创作者暴躁直言:“Flow 上十分之九的提示都失败,我什么都做不出来。”

也有人理性观察到:“它确实能反映出你想要的 85% 的效果,但剩下 15% 的时间你全在痛苦地纠错,对专业创作者来说还是有些折腾。”

更有独立导演一针见血地指出批量生成变体功能的本质:“一次性生成 16 个场景变体并没有真正省掉我的工作,它只是把工作‘搬了家’。创意的瓶颈从来不是产出更多选项,而是决定哪一个选项能够最终上线。”

这些真实的挫败感值得被正视。Flow Agent 绝非十全十美,它目前在项目的早期和中期最有用——也就是头脑风暴、探索方向、生成变体、管理成百上千个乱七八糟的资产时;但在需要对最终成片进行“外科手术式”像素级精准控制的后期,它的用处依然有限。

把它想象成一个能力很强、但偶尔过于积极的实习生助理:能帮你干完 85% 的脏活累活,但也需要你时常盯着、帮它擦屁股和纠错。你的指令越具体、逻辑越清晰,它的产出就越好。

这不仅是功能的更新,更是 Agent 时代的降临

把 Flow Agent 放回整个 AI 行业坐标系来看,它的意义远不止一个产品的更新。

过去两年,“AI Agent(智能体)”是科技圈最热也最虚的概念之一——人人都在谈,但真正能让 Agent 在具体工作流里自主规划、推理、多步执行的产品寥寥无几。从 OpenAI 的 Operator 到 Anthropic 的 Claude,大厂共同押注的方向已经非常清晰:Agent 正在全面接管多步骤工作流,AI 正在从“回答问题”进化为“完成任务”。

Google 聪明地选择了创意生产作为切入点,因为视频创作天然就是一个多步骤、多资产、强依赖上下文连贯性的领域。当 AI 开始理解你的整个项目,而非只是你发给它的最后那句话时,创作的重心终将从“怎么折腾提示词”回归到“你想表达什么”。

别去买那些割韭菜的“万能提示词大法”了,未来的时代,拼的是你的想象力,以及你指挥“AI 助手”的能力。

标签: AI视频生成 Gemini Omni Flash Google Flow Google Flow Agent
最后更新:2026年6月23日

cywcd

我始终相信,技术不仅是解决问题的工具,更是推动思维进化和创造价值的方式。从研发到架构,追求极致效能;在随笔中沉淀思考,于 AI 中对话未来。

打赏 点赞
< 上一篇

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

cywcd

我始终相信,技术不仅是解决问题的工具,更是推动思维进化和创造价值的方式。从研发到架构,追求极致效能;在随笔中沉淀思考,于 AI 中对话未来。

最新 热点 随机
最新 热点 随机
别再死磕提示词了!Google Flow Agent 彻底颠覆 AI 视频,有手就能当导演 别再迷信传统 RAG 了!知识库新物种 SAG 强势登场,实时干掉大模型“幻觉”! 开发者集体起立!cc-switch更新:原生干掉外挂,协议、会话、技能全包圆了! 手撕 503 道底层硬菜,这才是 2026 年 AI 工程师的唯一活路 别再瞎做RAG了!谷歌刚开源的OKF,直接撕掉了AI Agent的“遮羞布” 阿里Qwen-Robot引爆具身智能!机器人被装上“手脚和大脑”,创业公司慌不慌?
本地电脑能跑多大AI模型?2026本地大模型配置选型实践参考盘点三大头部厂商AI智能体的一键托管神操作,谁才是真正的摸鱼神器?AI写代码又贵又慢?这款开源神器,一招终结Cursor与Claude的“百元账单”!刚接手老项目,面对20万行代码没文档?这个AI神器帮你把代码变成“高清地图”!别再被重度AI工具绑架了!这款纯命令行AI Agent,才是骨灰级黑客的终极浪漫告别原生难用痛点!EchoBird + Codex++ 强强联手,解锁AI客户端的“终极白嫖与完美体验”
echarts.js多图表数据展示使用小结 免费开源托管服务全解析:手把手教你用 Vercel + GitHub 一键部署前端项目 新增HTML5标签cssReset 前端文本测量的三十年之痛,终于被一个 15KB 的库终结了 基于 Lit 框架开发 Web Component 组件的完整实践 WebAssembly(WASM)技术全景解析:从浏览器加速到云原生基石
最近评论
渔夫 发布于 8 个月前(11月05日) 学到了,感谢博主分享
沙拉小王子 发布于 9 年前(11月30日) 适合vue入门者学习,赞一个
沙拉小王子 发布于 9 年前(11月30日) 适合vue入门者学习,赞一个
cywcd 发布于 9 年前(04月27日) 请参考一下这篇文章http://www.jianshu.com/p/fa4460e75cd8
cywcd 发布于 9 年前(04月27日) 请参考一下这篇文章http://www.jianshu.com/p/fa4460e75cd8

COPYRIGHT © 2025 蓝戒博客_智构苍穹-专注于大前端领域技术生态. ALL RIGHTS RESERVED.

京ICP备12026697号-2