發布時間:2024-12-24 00:05:08 來源:本站 作者:admin
谷歌最新的人工智能工具“Whisk”允許人們上傳照片,以返回由 AI 生成的合成圖像 - 甚至無需用戶輸入任何文本來解
釋他們想要什么。
用戶可以輸入描繪主題、設置和風格的圖像,然后 Whisk 會將所有內容組合成一張圖像。
谷歌在一篇博客文章中表示,Whisk 是一種用于快速激發靈感的“創意工具”,而不是“傳統的圖像編輯器”。從本質
上講,Whisk 旨在成為一種有趣的 AI 功能,而不是一種精致的專業工作。
盡管反對者警告說,人工智能發展缺乏護欄會給人類帶來危險,但谷歌和 OpenAI 等大型科技公司正在競相推出可以展
示時髦新技術用途的消費產品。
自 OpenAI 于 2021 年首次推出其文本轉圖像創作工具 Dall-E 以來,人工智能生成藝術作品的概念已席卷社交媒體,并
成為消費產品的焦點。谷歌的 Whisk 是一款圖像轉圖像生成器,它建立在流行的文本轉圖像生成器概念之上。
使用 Whisk 的人可以通過編輯輸入和混合類別來“重新混合”最終圖像,以制作不同的圖像,如毛絨玩具、琺瑯別針或
貼紙。如果用戶想要指導某些細節,他們可以添加文本,但這不是創建圖像的必要條件。
“Whisk 旨在讓用戶以新穎而富有創意的方式重新混合主題、場景和風格,提供快速的視覺探索,而不是像素完美的編
輯,”谷歌實驗室產品管理總監 Thomas Iljic 在一份聲明中表示。
谷歌的 Whisk 是基于 DeepMind 開發的生成式人工智能而構建的,DeepMind 是谷歌于 2014 年收購的人工智能實驗
室。
Whisk 的工作原理是使用谷歌的核心人工智能產品 Gemini(于 2023 年 12 月首次亮相),并將其與 DeepMind 于
12 月發布的最新文本轉圖像生成器 Imagen 3 配對。
當用戶上傳他們的圖像時,Gemini 會生成一個標題,并將其輸入到 Imagen 3 中。該過程捕捉了主題的“本質”,而不
是精確的復制品,這允許重新混合最終圖像,但也意味著最終產品可能會偏離提示。
例如,谷歌在一篇博文中表示,生成的圖像可能與提示圖像具有不同的身高、發型或膚色。
當谷歌于 2 月首次推出 Gemini 的文本轉圖像創建器時,該公司最初面臨強烈反對,因為該工具生成的圖像在歷史上是
不準確的。
該公司表示,Whisk 最初以 Google Labs 網站的形式向美國用戶開放,目前處于早期開發階段。
OpenAI 最近還發布了一款名為 Sora 的文本轉視頻生成器,凸顯了消費產品的競爭。
Wedbush Securities 董事總經理兼高級股票分析師 Dan Ives 告訴 CNN,Whisk 是谷歌在人工智能和科技競賽中又一
次“展示實力的時刻”。
“DeepMind 是谷歌的重要資產,”Ives 表示,并指出人工智能產品是谷歌 2025 年新產品“寶庫”的一部分,其中還
包括與三星和高通合作開發的新 Android 操作系統。