(本報訊)《華爾街日報》對五大AI聊天機器人進行一次全面性盲測,包括OpenAI的ChatGPT、前Open AI工程師出走後成立的Anthropic所出品的Claude、微軟的Copilot、Google的Gemini、和美國AI搜尋獨角獸Perplexity AI打造的Perplexity。最終結果,Perplexity綜合排名第一,ChatGPT緊跟在後,微軟的Copilot表現墊底。

Perplexity:黃仁勳最常用的AI工具!
Perplexity在九項測試中的三項(總結、程式碼和時事類問題)取得最佳成績,在大部分單項測驗上都取得前三名的成績。值得一提的是,這是輝達創始人兼CEO黃仁勳最常用的AI工具。憑藉在生成式AI搜尋產品上的創新,Perplexity AI喜提「Google殺手」稱號,今年月活用戶數突破1000萬大關。根據數據研究分析平台Pitchbook,Perplexity AI團隊規模不到50人。
Google第三、Anthropic第四、微軟第五
來自Google的Gemini和來自微軟的Copilot在本次測試中表現不佳,分居第三和第五。Anthropic的Claude在部分問題上表現不錯,但由於無法訪問網頁且響應速度較慢,最終名列第四。微軟Copilot更是在五項測試中墊底,多次忽略提示詞中的關鍵訊息,是這次測試中表現最差的AI聊天機器人。
ChatGPT落敗:大量算力≠最強AI
讓人意外的是,儘管ChatGPT進行了大規模的更新,名氣也很大,而且測試時使用的還是20美元付費版,但它並沒有領先。相反,知名度較低的Perplexity成為了本次測試的冠軍。
Perplexity在本次測試中的勝利,證明了坐擁大量算力本身並不能保證企業可以開發出表現最佳的AI聊天機器人產品,在特定方向上的優化也能產生出其不意的效果。Perplexity AI的首席商務官謝維連科說,「我們針對答案的簡潔性做了特別強化,這讓模型能夠辨別出回答中最關鍵的訊息」。
本次測試的重點為AI聊天機器人解決實際問題和完成日常任務的能力,反映了它們在真實場景中的表現。《華爾街日報》的測試人員設計了一系列提示詞來測試流行的使用案例,包括程式碼能力測試、健康諮詢和理財問題等,評判的標準包括準確性、有用性和整體品質,並邀請了相關領域的專家以盲測的形式進行測試。