五大AI聊天機器人盲測 冠軍不是ChatGPT!

(本報訊)《華爾街日報》對五大AI聊天機器人進行一次全面性盲測,包括OpenAI的ChatGPT、前Open AI工程師出走後成立的Anthropic所出品的Claude、微軟的Copilot、Google的Gemini、和美國AI搜尋獨角獸Perplexity AI打造的Perplexity。最終結果,Perplexity綜合排名第一,ChatGPT緊跟在後,微軟的Copilot表現墊底。

Perplexity:黃仁勳最常用的AI工具!

Perplexity在九項測試中的三項(總結、程式碼和時事類問題)取得最佳成績,在大部分單項測驗上都取得前三名的成績。值得一提的是,這是輝達創始人兼CEO黃仁勳最常用的AI工具。憑藉在生成式AI搜尋產品上的創新,Perplexity AI喜提「Google殺手」稱號,今年月活用戶數突破1000萬大關。根據數據研究分析平台Pitchbook,Perplexity AI團隊規模不到50人。

Google第三、Anthropic第四、微軟第五

來自Google的Gemini和來自微軟的Copilot在本次測試中表現不佳,分居第三和第五。Anthropic的Claude在部分問題上表現不錯,但由於無法訪問網頁且響應速度較慢,最終名列第四。微軟Copilot更是在五項測試中墊底,多次忽略提示詞中的關鍵訊息,是這次測試中表現最差的AI聊天機器人。

ChatGPT落敗:大量算力≠最強AI

讓人意外的是,儘管ChatGPT進行了大規模的更新,名氣也很大,而且測試時使用的還是20美元付費版,但它並沒有領先。相反,知名度較低的Perplexity成為了本次測試的冠軍。

Perplexity在本次測試中的勝利,證明了坐擁大量算力本身並不能保證企業可以開發出表現最佳的AI聊天機器人產品,在特定方向上的優化也能產生出其不意的效果。Perplexity AI的首席商務官謝維連科說,「我們針對答案的簡潔性做了特別強化,這讓模型能夠辨別出回答中最關鍵的訊息」。

本次測試的重點為AI聊天機器人解決實際問題和完成日常任務的能力,反映了它們在真實場景中的表現。《華爾街日報》的測試人員設計了一系列提示詞來測試流行的使用案例,包括程式碼能力測試、健康諮詢和理財問題等,評判的標準包括準確性、有用性和整體品質,並邀請了相關領域的專家以盲測的形式進行測試。

  • 關鍵字
  • AI

延伸閱讀

馬斯克:無人機與AI是戰爭未來

「星鏈是烏克蘭軍事通訊系統的支柱。在前線,唯一沒有被干擾的是星鏈。」

DeepSeek大浪來襲 新投資機會在路上

無論如何有一件事絕對肯定:AI不死,只會越來越強。

老高妙喻DeepSeek改變世界AI格局

這個和ChatGPT差不多的東西,為什麼能超越ChatGPT?就4個字:「物美價廉」。

阮蕙慈:往下就是找買點,AI應用端為主

機器人、軟體、災後重建

黃仁勳來台好話連連:AI、機器人、台灣讚!

旋風來台、萬人空巷,夜市都逛不成了
訂閱168電子報

專欄文章

黃仁勳來台好話連連:AI、機器人、台灣讚!

旋風來台、萬人空巷,夜市都逛不成了

台積電法說會五大重點一次看

創高、創高、大成長…外資:買進、加碼、目標1388-1540元