Agentic AI 深度實測筆記

為什麼 Perplexity 能寫出好報告？Claude Code 在建構時哪裡翻車？

關於這份筆記

原文出處
Perplexity Computer vs Claude Code vs Cowork vs Manus: Tested Side by Side
原文作者
Daria Cupareanu (AI blew my mind 電子報)
內容摘要
本文詳細評測四款當紅 Agentic AI (代理型 AI) 工具在「收集不動產資料」與「自動建構新聞App」兩大實際商業場景上的表現與成本差異。
實測原因
市面上充斥許多 AI 代理工具。與其看原廠的新聞稿，作者決定直接派發相同的高難度任務給它們並紀錄花費，用真實產出評估效能。
最終結果
Perplexity 在查證深度上無懸念稱王；Claude 在建構與介面設計上最親民實用；而 Manus (Lite版) 產生了嚴重的資料幻覺與失效連結，排名墊底。
你的收穫
閱讀這份筆記，你將看懂 Agentic AI 的運作邏輯、避開會編造數據的工具地雷，並學會選擇最適合你團隊工作流與預算的 AI 代理工具。

資料研究首選：
Perplexity Computer
不只會說話，還會給真正的來源連結。唯一成功抓對法規與真實房價的工具，適合高精度研究。

開發與自動化能手：
Claude (Code/Cowork)
能寫出流暢介面、自動幫你把應用程式部署上線。適合日常工作流自動化，訂閱制性價比極高。

嚴重資料幻覺：
Manus AI (Lite版)
最嚴重的是憑空捏造了根本不存在的資訊與假新聞。目前的產出版本在商業任務上並不推薦。

什麼是「Agentic AI（代理型 AI）」？為何它如此重要？

在看實測前，需要先了解這跟平常在用的一般型 ChatGPT 有何不同：

普通聊天 AI (Chatbot)： 就像「發簡訊問一個聰明的同事」，一問一答，不會主動規劃後續延伸動作。
代理型 AI (Agentic AI)： 你給定一個最終大目標。它會像一個外包工程師一樣，自動拆解任務清單、上網查閱資料、撰寫程式、甚至自己操作終端機執行測試，直到產出最終成果。

筆記：從對話框聊天，進化到了自動行動的數位勞工！

本次實測的四款工具定位圖

mindmap
  root((本次評測工具))
    perplexity(Perplexity Computer)
      p1[主打 深度研究與網頁實證]
      p2[核心價值 給出有根據的真相]
    claude(Claude 生態系)
      cowork(Cowork)
        cw1[主打品牌風格與日常工作]
      code(Claude Code)
        cc1[終端機開發 自動發佈部署]
    manus(Manus AI)
      m1[免費 Lite 版測試]
      m2[嚴重幻覺與假連結]

核心實測全記錄

實驗如何做到客觀公平？

打造盲測擂台！

盲測機制：LLM Council (大模型委員會)

為避免偏見，作者打造了專屬評分系統：

將四個工具的產出結果完全匿名化。
交給四個頂尖模型（GPT-5.1、Gemini 3 Pro、Claude 4.5、Grok 4）各自盲測給分。
最後由一個主席模型彙整共識，判定最終名次。

任務一：
不動產研究報告

給 AI 的難題：
調查紐約 409 Eastern Pkwy 的物件。需搜集周遭可比房價、繁瑣的法規分區、學區與潛在危機。

為什麼 Perplexity 是無懸念的第一名？

勝因： 在處理絕對不能錯的法規與商業數據時，Perplexity 展現了分析師水準。唯一正確查到了當地精細的分區代碼 (R6A)，並附上政府深度來源網址。

Claude 與 Manus 在哪裡跌倒了？

Claude Code (第 2)： 架構設計好看，但在找分區法規時出錯，且沒給出具體的對比房價與成交日。
Claude Cowork (第 3)： 在專業報告中居然使用「大概 (Likely) 是...」來猜測法律規範。直接摧毀了報告的公信力。
Manus AI (第 4)： 最嚴重的問題是模型幻覺。它無中生有瞎掰該房子附近有一個滿載風險的海洋碼頭，完全捏造。

任務二：
個人化新聞自動化抓取

給 AI 的難題：
寫一個有 3 個輸入框的應用程式，根據使用者「行業、職位、目前最在乎的事」，自動去抓取最新相關 AI 新聞並說明衝擊原因。

Perplexity 再次奪冠？

勝因：邏輯深度與新聞真實性。 雖然 Perplexity 的介面陽春，但它找到的全是實時的真實新聞。它能像顧問一樣，解釋這新聞為何對這個職位有衝擊，而非產出沒有意義的文字。

Claude 介面設計極佳，為何被扣分？

Claude Cowork (第 2)： 結合品牌指令，做出來的視覺最漂亮，但洞察力不如 Perplexity 深刻。
Claude Code (第 3)： 雖然超強地自動把網站部署上線了，但發生了嚴重的資料幻覺。它編造了 2026 年尚未發生的假新聞日期。
Manus AI (第 4)： 產出籠統廢話，附上的許多新聞都是已經失效的網址連結。

深度摘要：我們很容易被精美的 UI 與自動化開發能力蒙蔽雙眼。但在商業實戰中，一旦 AI 生成了錯誤的時間與法規（模型幻覺），工作成果的價值立即歸零。這就是為何擁有真實世界即時搜索驗證能力的 Perplexity 能稱霸測試的原因。

四大工具的優劣與成本決策比較

工具名稱	單次任務成本	推薦使用的情境	需要避開的痛點
Perplexity Computer	極高 ($200 Max 版每月約只能跑十幾次大型任務)	最精準的事實驗證能力。提供深度引用連結，分析邏輯最貼近人類顧問。	費用燃燒太快。任務單價過高，較適合用於高價值的核心研究專案。
Claude 生態系 (Code & Cowork)	划算 ($20/月專業版訂閱無限次數)	排版審美極高、自動寫程式碼與部署能力強大，完全勝任建立內部自動化工坊。	缺乏即時網頁深度爬蟲能力。在面對需要絕對真實數字與法規時容易產生幻覺。
Manus AI (Lite版測評)	極低	最早引起熱議的操作型代理 AI 工具。	全面性的嚴重幻覺。假資料、假連結過度頻繁，現階段無法安心投入商用。

結論：如何選擇適合你的 AI 外包兵器

如果你預算有限，或是需要開發自動化程式： 買 Claude Pro ($20)。你可以同時使用 Cowork 和 Code。拿它來寫重複性的腳本、設計內部的獨立系統，性價比極高。若擔心幻覺，請手動餵入完整的網頁資料給它。
如果你是分析師，或需要無法接受錯誤的硬核數據： 買 Perplexity Computer。當你需要查證土地法規、競爭對手財報、精準定價時，目前它是最值得信賴的選擇，但請隨時注意帳單花費。

讓 Claude 成為你的專屬軟體工程師，
讓 Perplexity 成為你的高級資料調查員。