久久丁香一区二区,91在线蜜桃

誰能想到，一夜之間，人們對于谷歌 Gemini 的看法竟發(fā)生了 180° 轉(zhuǎn)變。

昨天，谷歌在 X 上展示 Gemini 原生多模態(tài)能力的 6 分半鐘視頻下，幾乎是清一色的贊揚：

而到了今天，Gemini 還是那個 Gemini，但網(wǎng)友已經(jīng)不買賬了：

發(fā)生了什么，才會讓人們的態(tài)度一夜轉(zhuǎn)變？原因在于那個 6 分半的 Gemini 演示視頻：它是假的，是經(jīng)過剪輯的，甚至在被質(zhì)疑后，谷歌還承認(rèn)了！

1、Gemini 的視頻演示效果，是假的

相信看過 Gemini 演示視頻的人，多數(shù)都對它的“多模態(tài)能力”印象深刻。例如，Gemini 看到一只鴨子從草圖到填色的整個過程，可實時給出解釋和反饋，還能在換杯游戲中追蹤紙團、辨別各種手勢、重新排列行星草圖等——短短 6 分半的視頻，Gemini 給人的感覺是：仿佛可以實時觀察周圍世界并及時做出反應(yīng)，還能與人類進行流暢的語音對話。

對于 Gemini 如此強大的能力，谷歌給出的解釋是：Gemini 是 AI 的新品種，即“原生多模態(tài)”。

“我們將 Gemini 設(shè)計為原生多模態(tài)，從一開始就針對不同模式進行了預(yù)訓(xùn)練。然后我們使用額外的多模態(tài)數(shù)據(jù)對其進行微調(diào)，以進一步完善其有效性，這有助于 Gemini 從頭開始無縫地理解和推理各種輸入，因此遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模式模型。此外，Gemini 的多模態(tài)功能幾乎在每個領(lǐng)域都是最先進的?！?/p>

聽起來似乎有理有據(jù)，于是當(dāng)一眾網(wǎng)友都沉浸于 Gemini 的強大、好奇它能否真正超越 GPT-4 的時候，彭博社作家 Parmy Olsen 突然發(fā)出了一個“不太和諧”的聲音：Gemini 的視頻演示效果，是假的。

一石激起千層浪！好在 Parmy Olsen 并沒有吊人胃口，很干脆地將谷歌的作假手法和證據(jù)全部公開：Gemini 并不能像視頻中那樣實時語音回答——它看到的只是視頻片段中的靜態(tài)圖像，其語音也只是在讀出人類給它的文本提示，且響應(yīng)時間比視頻中展示的要長。

2、背后的人工提示過程，全部省略

舉個例子，Gemini 演示視頻中有一段識別動態(tài)手勢的片段：通過觀察左邊不斷變化的手勢，Gemini 回答道，“我知道你在干嘛！你在玩石頭剪刀布！”

這段視頻乍看之下，你是不是以為可以實時向 Gemini 展示不同的東西，并與它交流？但事實并非如此：Gemini 僅支持文本交流，并不能進行語音對話。

根據(jù)谷歌公布的文檔內(nèi)容顯示，這段視頻顯然是經(jīng)過“加工”的：

（1）先給 Gemini 陸續(xù)展示三張單個手勢的圖片，問它分別看到了什么；

（2）再把三張手勢圖片一起發(fā)給 Gemini，問它這是在干什么，并提示是一個“游戲”；

（3）通過以上一步步的提示和引導(dǎo)，Gemini 最終給出了答案：你在玩石頭剪刀布。

針對以上步驟，一位谷歌發(fā)言人解釋道：“為了測試 Gemini 在各種挑戰(zhàn)中的能力，我們通過捕捉錄像來制作演示。然后我們使用錄像中的靜態(tài)圖像幀提示 Gemini，并通過文本進行提示?！?/p>

Parmy Olsen 將其簡單翻譯了一下：“谷歌拍下了那雙手做很多事情的畫面，然后一張一張地向 Gemini 展示了這些鏡頭的照片。所以根本沒有語音對話，而是跟 ChatGPT 和 Bard 一樣的文本交流?！?/p>

此外，谷歌發(fā)言人還補充稱，用戶的配音都是從實際提示中摘錄的真實內(nèi)容，用于生成隨后的Gemini輸出結(jié)果——對此，Parmy Olsen 的翻譯是：“你在視頻中聽到的聲音，只是在朗讀文字提示?！?/p>

也就是說，谷歌所展示的 Gemini 演示視頻，是省略了所有引導(dǎo)提示、跳過了等待響應(yīng)的時間、并用配音合成的最終結(jié)果。

3、都是真實的，只是“為了簡潔”剪輯視頻

當(dāng)然，Gemini 可能也真的做到了在視頻中展示的所有事情，但這兩種表現(xiàn)形式完全不同：

以文字形式，通過人工提示分步驟直接展示其多模態(tài)效果，對于 Gemini 的能力沒有過多修飾；

以視頻形式，經(jīng)過剪輯、省略其背后大量引導(dǎo)過程的視頻來呈現(xiàn)，極大暗示了 Gemini 的實時高效。

由于 Parmy Olsen 的曝光，網(wǎng)友對于 Gemini 的態(tài)度瞬間改變，并發(fā)出了無數(shù)質(zhì)疑。而對于被質(zhì)疑造假的這個視頻，谷歌 DeepMind 研究副總裁 Oriol Vinyals 今天給出了回應(yīng)：

“視頻中的所有用戶提示和輸出都是真實的，只是為了簡潔起見進行了縮短。該視頻展示了使用 Gemini 構(gòu)建的多模態(tài)用戶體驗可能是什么樣子，我們制作該視頻是為了激發(fā)開發(fā)人員的靈感?！?/p>

換句話說，Oriol Vinyals 承認(rèn) Gemini 演示視頻經(jīng)過了剪輯，原因是“為了簡潔”。不論其剪輯初衷是否真的只是為了“簡潔”，但不得不說：在谷歌沒明確說明視頻經(jīng)過剪輯之前，多數(shù)人對于 Gemini 的速度、準(zhǔn)確性以及與交互的基本模式，都產(chǎn)生了誤解。

如果在這個視頻開頭，谷歌就說“這是我們研究人員測試過的 Gemini 交互的理想化表現(xiàn)”，那網(wǎng)友就會有心理預(yù)期：哦，那這個視頻一半是現(xiàn)實，一半是理想化——但事實上，該視頻的開頭是，“本視頻重點介紹了我們與 Gemini 的一些有趣互動”，因此人們很難意識到這個視頻中 Gemini 的表現(xiàn)是經(jīng)過“加工”的。

4、網(wǎng)友：“這就是虛假和誤導(dǎo)”

于是意料之中，Oriol Vinyals 的回應(yīng)并沒有受到網(wǎng)友的理解，其 X 帖子下多是譴責(zé)谷歌虛假、夸大營銷：

“如果你想激勵開發(fā)者，那為什么不發(fā)布真實的內(nèi)容呢？提示不可能既‘真實’又‘縮短’，這就是虛假和誤導(dǎo)?！?/p>

如今的 AI 初創(chuàng)公司，不就是像你們這樣夸張的演示來騙取資金的嗎？

“‘真實，縮短’，真的嗎？只是營銷罷了?！?/p>

另外值得一提的是，還有網(wǎng)友指出，谷歌Gemini 對比GPT-4 的測試基準(zhǔn)也并不相同：“在MMLU測試中，Gemini下面有個灰色小字標(biāo)CoT@32，即使用了思維鏈提示技巧、選取了32次中的最好結(jié)果，GSM8K 的性能也是用 Maj1@32 與 GPT-4 的 5-Shot CoT 進行對比的?！?/p>

那么對于谷歌聲稱Gemini 超越GPT-4 的說法，你又有何看法呢？

本文轉(zhuǎn)自公眾號“CSDN”，ID：CSDNnews

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴