AI Agent 簡介
19 February 2026
Reference
什麼是AI Agent
一般的AI: 給定一個明確的任務,AI根據這個任務去把事情達成,如翻譯、圖片辨識、智慧問答
AI Agent: 使用者給定AI一個目標,並定義好reward function(什麼結果是好的什麼結果是不好的),AI透過觀察環境以及reward狀況來決定行動,自己透過不斷的observation, Action的迭代來達成目標。
AlphaGo就是一個AI Agent的例子,目標就是要贏棋局,而我們給他的reward function就是他一連串的下棋決定最終是贏還是輸。而這個就是透過Reinforcement learning達成。
AI Agent And LLM
在Before LLM時期, AI Agent是透過Reinforcement learning方式,讓研究人員調整reward function來訓練AI Agent來完成指定的目標。但這會衍生出一個大問題:
對於每個目標都需要研究人員設定、調整reward function來訓練一個專們的AI Agent,這件事很不scalable
但LLM的出現很大部分解決這問題,研究人員目前研究目標為LLM As AI Agent,透過LLM可以產生一個generic的AI Agent來達成各個目標而不是為每個目標自己制定Reward function來訓練專門Model。
以上數AlphaGo為例,用LLM方式將變成我們把圍棋規則輸入並告訴LLM根據這個規則目標是要贏,定義什麼叫做贏,接著就讓LLM自己去觀察棋局自己去做Action。又或者用LLM作為AI Agent來寫code,我們不用定義reward function只要提供compile log就可以讓LLM觀察知道下一步行為、是否有compile error/warning要修,而不用像早期reinforcement learning需要定義reward function。

以一個寫程式的AI Agent,他的流程會如下:

AI Agent Memory
就如上述AI Agent不斷透過feedback來更新模型進行新的action。這方法會有一個問題:
當整的AI Agent / LLM 收到的問答過長,這會導致AI Agent / LLM有過多的資料要讀取來為之後的Query / observation做反應,因此會有類似遺忘的功能或者資料庫功能,LLM每次的Query / Observation 只根據過去數個問答經驗來做出反應而不是瀏覽以前的所有問答來做出反應,這會減少反應時間外也會減少很多雜訊(很多問答或者觀察與這次觀察無關,因此不需要拿該次經驗來處理這次問題)。
AI Agent如何使用工具
LLM本質上就是一個對話機器人,因此很多問題如果我們需要串工具就必須教LLM如何使用工具,而這部分的串接以及工具開發,就會仰賴工程師的幫忙搭建好。以下面例子要LLM幫忙查詢天氣、氣候,工程師先利用AI / 自己開發好工具,並且在system prompt中教LLM這個工具使用方法 (e.g. input格式、地點、時間等等),然後跟LLM說當找不到答案時可以呼叫這個工具來找到答案,接著利用串接好的工具來得到答案並回傳給使用者。

目前最廣泛運用的做法就是搜尋引擎、做圖軟體、以及使用語音辨識來讓LLM變成可以透過語音對話機器人。以及NotebookLM, 透過工具去讀pdf檔案來找答案。
一個挑戰是AI Agent可能會使用很多工具,要如何讓AI挑選適當的工具來解決問題是不容易的,解決方法就會像上述AI Agent Memory的方式,與其讀取每個工具並判斷要用哪個,不如用一個memory,讓AI Agent不用每次都讀取所有工具來判段要用哪個,而是一個功能判斷現在問題要用哪些工具並給LLM使用。

LLM 做計劃
使用LLM做計劃時,一個增加可性度的做法是請LLM產生多個Plan 並且分析並切詳細敘述這幾個plan要怎麼執行,透過這樣更能夠有更好的結果