手机谷歌怎么改为中文(截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图)


手机谷歌怎么改为中文(截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图)

【新智元导读】谷歌全新全模态图像生成器Gemini 2.0 Flash亮相,引发动漫和漫画圈的沸腾!

刚刚,谷歌带来了一重大消息:其全新的全模态图像生成器Gemini 2.0 Flash正式上线,支持原生图像生成功能!这是谷歌首个向公众发布的具备此项功能的强大工具。

现在,所有开发者都可以通过Gemini API和Google AI Studio中的实验版本,轻松使用Gemini 2.0 Flash进行原生图像生成。

全模态图像生成器的最大亮点在于其强大的推理能力。它能够结合现实世界的知识,生成与上下文紧密相关的图像,理解更多的细节,并遵循文化背景特征。这一切,都是由Gemini模型独立完成,无需调用其他模型,只需通过自然语言提示即可实现。

与传统的AI生图器不同,这款工具能够同时输出文本和插图,保持惊人的一致性。

真正的多模态能力:同时理解文字、图像,以及二者之间的联系。

理解世界知识:具备智能推理能力,结合现实世界知识生成准确内容。

下面这张图,就是用Gemini 2.0 Flash生成的,包括黑板上的文字。

此前,许多图像生成模型在渲染长序列文本上都存在缺陷,而这个致命弱点现在已被Gemini 2.0 Flash克服。

有趣的是,虽然第一个展示全模态图像生成的是OpenAI,但谷歌却抢先一步,成功发布了第一个版本。

谷歌的这个新功能可以根据上下文生成相关图像,支持对话式编辑,还能在图像中生成长文本。例如,你只需通过语音指令,告诉模型为牛角面包添加巧克力边,它就能立即为你生成满意的图像。

网友纷纷表示惊叹:

这个模型的真正厉害之处,在于它真正能够理解多模态的信息。

在实测中,它甚至可以直接从URL解析YouTube视频,给出内容摘要,基于时间戳进行分析。

更令人惊掉下巴的是,Gemini 2.0 Flash还可以根据一个提示,完成图像多处编辑。例如,沃顿商学院教授Ethan Mollick表示,他使用其他LLM图像生成器时遇到过困难:需要向独立的图像生成工具发送提示词而不是直接生成图像。但Gemini是首个公开发布的“完全多模态”LLM,能够直接生成图像。

关于Gemini 2.0 Flash的原生图像生成功能,有四大亮点:

1. 文本与图像结合:只需用文字描述情节,Gemini 2.0 Flash就能自动生成与故事配套的插图,并保持角色和场景的一致性。

2. 对话式图像编辑:通过自然语言对话,就能完成图像编辑,无需专业软件和复杂操作。

3. 世界知识理解:融合世界知识和增强推理能力,生成的图像更符合现实逻辑。

4. 文本渲染:清晰、准确呈现文字内容,解决长短文本的呈现难题。

现在,开发者可以通过Gemini API测试Gemini 2.0 Flash图像生成模型了。对于想要快速上手的开发者来说,这是一个好消息。谷歌团队的研究人员还为此专门制作了一个适用于广大开发者的图像示例。大家不妨尝试一下这个强大的新工具!


手机谷歌怎么改为中文(截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图)