AI

在 Gemini 里玩 Gem:一次意外发现的网页应用生成体验

前几天在 Gemini 里随便点着玩的时候,发现谷歌把 Gem 这个功能悄悄更新了。

这个东西你如果之前用过,大概印象都不太好——
本质上就是存一段提示词,再给它起个名字,能力非常有限,基本没什么存在感。

但这次不一样了。

现在的 Gem,已经可以直接帮你生成带界面的网页应用,支持上传各种图片、文档作为输入,也能生成网页形式的输出结果。更关键的是,它可以调用几乎所有的谷歌模型,整体能力一下子拉高了不少。

Image


用 Gem 做了一个屏幕使用时间分析工具

我第一个测试的例子,是一个屏幕使用时间分析工具

只需要上传你的屏幕使用时间截图或数据,它就会帮你生成一个完整的网页,用来展示和分析你的使用情况。

输出内容还挺丰富的:

  • 一个视觉做得很完整的可视化海报
  • 一段文字版的使用分析
  • 以及一个基于你使用情况生成的音频博客

整体看下来,不像是“拼出来的 demo”,更像是一个已经包装好的小应用。

Image


Gem 背后,其实是 Opal 被整合进来了

稍微多点了几下之后,就能感觉出来:

Gem 现在的能力,基本就是把前几天谷歌发布的、类似 n8n 的 Agent 构建工具 Opal,直接内嵌进了 Gemini,而且做得更傻瓜一点。

入口也很简单。

进入 Gemini 之后,在左侧边栏里找到 「探索 Gem」,点进去就行。

Image

进去之后,除了你以前见过的 Gem 列表和设置,上面会多出来一个新的实验入口。

点击 「New Gem」,就能创建一个新的应用。

Image


创建一个 Gem,其实只要一句话

创建页面本身非常简单,就是一个输入框。

你只需要直接告诉它:
你想做什么。

比如我这里让它基于我上传的力量训练表格,分析训练数据并给出报告和建议。

Image

回车之后,它就开始自动构建整个 Gem 应用了。
右侧会显示进度,一般都挺快,完成后你可以直接在右侧测试刚生成的结果。

Image


输入类型支持得比想象中多

虽然我这个例子用的是 CSV 文件,但新的 Gem 支持的输入类型其实非常多:

  • 常见文档
  • 图片
  • YouTube 视频
  • 甚至还能录制网页操作视频、涂鸦

这一点让我挺意外的,基本把“数据来源”这件事放得很宽。

Image

我把自己的训练数据传上去测试,结果比预期详细很多:

  • 上面是整体数据看板
  • 中间是各类表格
  • 最下面是针对个人情况给出的训练建议

Image


不满意结果?直接改就行

第一个问题也很明显:
全是英文。

这种情况下不需要重新建,直接在左侧用一句话告诉它“把报告改成中文”,它就会重新生成。

Image

改完之后,整个分析就都变成中文了,而且结构也更清晰:

  • 整体训练分析
  • 各个部位的数据
  • 进步和退步的项目
  • 最后是个性化建议

Image


当你嫌“用提示词改太烦”的时候

如果你对结果不太满意,比如:

  • 页面全是字,没有图片
  • 缺少可视化,看起来很吃力
  • 想精调某一部分逻辑

这时候就可以点右上角的 「Open Advanced Editor」,进入真正的 Opal 编辑界面。

Image


Opal 编辑界面,其实很直观

进来之后,这个界面应该会让很多人觉得眼熟。

所有用到的模型、输入、输出、处理步骤,都被拆成了一张张卡片,完整展示出来。

Image

整个界面大致可以分成四块:

  • 黄色区域:添加输入或模型卡片
  • 红色区域:预览区,不点卡片就是整体应用预览
  • 紫色区域:仍然可以用自然语言修改应用
  • 绿色区域:真正的工作流卡片,用来连接和调整各个步骤

什么时候用提示词,什么时候改卡片

我自己的习惯是这样的:

  • 涉及流程变化、结构调整的,直接用文字告诉它改
  • 涉及具体效果、模型选择、提示词质量的,就点进卡片手动调

比如我这里选中“生成建议”的卡片,右侧红色区域就会变成这个卡片的详细设置。

Image


模型选择,比想象中全得多

这里能选的模型非常多,基本覆盖了所有常见场景:

  • 文本、音频、视频、表格、图片处理
  • 便宜快速的 Gemini 2.5 Flash
  • 顶级效果的 Gemini 3 Pro
  • 图片生成的 Imagen 4
  • 改图用的 Nano Banana / Nano Banana Pro
  • 视频生成 Veo
  • 文本转语音 AudioLM
  • 甚至还有音乐生成的 Lyria 2

如果你发现它自动选的模型不合适,这里都可以手动改回来。

Image

下面还能直接修改这个卡片用的提示词。
不管是自己写,还是点右侧的“魔法棒”让它帮你改,都只会影响当前卡片,不会误伤其他部分。

Image


一个实际踩坑的例子

之前那个“屏幕使用时间生成可视化海报”的案例里,因为图片提示词比较复杂,它老是生成不好。

我最后干脆直接在图片生成卡片里,把提示词换成我原本用来画图的那一版,问题立刻就解决了。

Image


看一眼完整的工作流结构

以屏幕使用时间分析这个应用为例:

  • 左侧黄色卡片:用户上传的截图
  • 中间三块:
    • 文本分析
    • 可视化海报生成
    • 口播稿生成 + AudioLM 转音频
  • 右侧绿色卡片:把这些素材拼成一个网页展示和播放器

Image


分享和 Remix

最后就是分享了。

点右上角 「Share App」,可以拿到一个应用链接。
别人只要用 Google 账号登录,就能直接用这个应用,模型消耗走的是他们自己的 Gemini 额度。

Image

如果你想直接体验,也可以玩我这个屏幕使用时间分析工具,点右上角 Remix 就能直接改:

Share