Agentic AI 深度實測筆記

為什麼 Perplexity 能寫出好報告?Claude Code 在建構時哪裡翻車?

關於這份筆記

資料研究首選:
Perplexity Computer

不只會說話,還會給真正的來源連結。唯一成功抓對法規與真實房價的工具,適合高精度研究。
開發與自動化能手:
Claude (Code/Cowork)

能寫出流暢介面、自動幫你把應用程式部署上線。適合日常工作流自動化,訂閱制性價比極高。
嚴重資料幻覺:
Manus AI (Lite版)

最嚴重的是憑空捏造了根本不存在的資訊與假新聞。目前的產出版本在商業任務上並不推薦。

什麼是「Agentic AI(代理型 AI)」?為何它如此重要?

在看實測前,需要先了解這跟平常在用的一般型 ChatGPT 有何不同:

筆記:從對話框聊天,進化到了自動行動的數位勞工!

本次實測的四款工具定位圖

mindmap
  root((本次評測工具))
    perplexity(Perplexity Computer)
      p1[主打 深度研究與網頁實證]
      p2[核心價值 給出有根據的真相]
    claude(Claude 生態系)
      cowork(Cowork)
        cw1[主打品牌風格與日常工作]
      code(Claude Code)
        cc1[終端機開發 自動發佈部署]
    manus(Manus AI)
      m1[免費 Lite 版測試]
      m2[嚴重幻覺與假連結]
        

核心實測全記錄

實驗如何做到客觀公平?

打造盲測擂台!

盲測機制:LLM Council (大模型委員會)

為避免偏見,作者打造了專屬評分系統:

任務一:
不動產研究報告

給 AI 的難題:
調查紐約 409 Eastern Pkwy 的物件。需搜集周遭可比房價、繁瑣的法規分區、學區與潛在危機。

為什麼 Perplexity 是無懸念的第一名?

Claude 與 Manus 在哪裡跌倒了?

任務二:
個人化新聞自動化抓取

給 AI 的難題:
寫一個有 3 個輸入框的應用程式,根據使用者「行業、職位、目前最在乎的事」,自動去抓取最新相關 AI 新聞並說明衝擊原因。

Perplexity 再次奪冠?

Claude 介面設計極佳,為何被扣分?

深度摘要:我們很容易被精美的 UI 與自動化開發能力蒙蔽雙眼。但在商業實戰中,一旦 AI 生成了錯誤的時間與法規(模型幻覺),工作成果的價值立即歸零。這就是為何擁有真實世界即時搜索驗證能力的 Perplexity 能稱霸測試的原因。

四大工具的優劣與成本決策比較

工具名稱 單次任務成本 推薦使用的情境 需要避開的痛點
Perplexity Computer 極高
($200 Max 版每月約只能跑十幾次大型任務)
最精準的事實驗證能力。提供深度引用連結,分析邏輯最貼近人類顧問。 費用燃燒太快。任務單價過高,較適合用於高價值的核心研究專案。
Claude 生態系
(Code & Cowork)
划算
($20/月 專業版訂閱無限次數)
排版審美極高、自動寫程式碼與部署能力強大,完全勝任建立內部自動化工坊。 缺乏即時網頁深度爬蟲能力。在面對需要絕對真實數字與法規時容易產生幻覺。
Manus AI
(Lite版測評)
極低 最早引起熱議的操作型代理 AI 工具。 全面性的嚴重幻覺。假資料、假連結過度頻繁,現階段無法安心投入商用。

結論:如何選擇適合你的 AI 外包兵器

讓 Claude 成為你的專屬軟體工程師,
讓 Perplexity 成為你的高級資料調查員。