🧠 PHẦN I – GIỚI THIỆU (INTRODUCTION)

1. Nguồn gốc của AI Agents

Trước năm 2022, các hệ thống agent tự chủ đã tồn tại dưới dạng:

  • Multi-Agent Systems (MAS)
  • Expert Systems

🔹 Dựa trên nghiên cứu của Castelfranchi và Ferber: tập trung vào trí tuệ phân tán, hành vi xã hội, phối hợp giữa nhiều thực thể.

Tuy nhiên:

  • Chủ yếu là hệ thống phản ứng (reactive), dựa trên luật cố định.
  • Thiếu khả năng sinh nội dung, không học được từ kết quả.
  • Không có tính thích nghi theo thời gian.

2. Bước ngoặt: Sự xuất hiện của Generative AI

🔥 ChatGPT (ra mắt tháng 11/2022) là cột mốc lớn:

Mở ra kỷ nguyên của 3 nhánh phát triển mới:

Loại hệ thống Mô tả nhanh
Generative Agents Sinh ra văn bản, hình ảnh, code từ prompt
AI Agents Dùng LLM để điều khiển công cụ bên ngoài, thực thi tác vụ
Agentic AI Tập hợp nhiều agent, phối hợp để hoàn thành mục tiêu lớn

3. Vì sao cần phân biệt AI Agent và Agentic AI?

Cả hai đều sử dụng LLM, nhưng khác biệt lớn:

Đặc điểm AI Agent Agentic AI
Cấu trúc Một agent duy nhất Nhiều agent phối hợp
Phạm vi Tác vụ cụ thể Workflow phức tạp
Khả năng Gọi tool, phản ứng Chia việc, phối hợp, nhớ lâu

📌 Phân biệt rõ giúp:

  • Thiết kế hệ thống đúng với độ phức tạp cần thiết
  • Ước lượng chi phí và nguồn lực chính xác
  • Tránh việc “overengineering” hoặc “underdesign”

✅ Tóm tắt chốt lại:

  • AI Agent là bước tiến tự nhiên sau Generative AI.
  • Agentic AI là đỉnh cao tiếp theo: hệ thống linh hoạt, thông minh tập thể, phối hợp nhiều agent cùng mục tiêu.

🧠 PHẦN II – KIẾN THỨC NỀN TẢNG VỀ AI AGENTS

II.1 – Đặc điểm cốt lõi của AI Agents

Đặc điểm Giải thích
Autonomy (Tự chủ) Agent hoạt động độc lập sau khi khởi tạo, không cần con người can thiệp.
Task-specificity Tập trung vào một tác vụ rõ ràng như sắp lịch, trả lời email, đọc dữ liệu.
Reactivity & Adaptation Phản hồi theo thời gian thực (input người dùng, API, trạng thái hệ thống). Một số có khả năng thích nghi, cải thiện hành vi.

📌 Ghi chú:
Khác với các script tự động hóa truyền thống, AI Agent không chỉ làm theo kịch bản cố định, mà có khả năng ra quyết định dựa vào ngữ cảnh.


II.2 – Mô hình nền tảng: LLMs & LIMs

🔸 LLM (Large Language Models)

  • Ví dụ: GPT-4, Claude, PaLM
  • Đóng vai trò “bộ não suy luận” của agent
  • Có thể:
    • Hiểu ngữ cảnh
    • Lập kế hoạch nhiều bước
    • Tạo phản hồi có mục tiêu

🔸 LIM (Large Image Models)

  • Ví dụ: CLIP, BLIP-2
  • Cho phép agent cảm nhận hình ảnh
  • Ứng dụng: drone giám sát, xe tự lái, phân tích hình ảnh y tế

📌 Ví dụ ứng dụng LIM:
Một drone AI Agent sử dụng LIM để nhận diện cây bệnh, tự gửi cảnh báo → không cần người điều khiển.


II.3 – Khả năng tích hợp cao

  • LLMs và LIMs thường được truy cập thông qua API (OpenAI, Hugging Face…)
  • Dễ dàng tích hợp vào framework như:
    • LangChain (xây chain logic)
    • AutoGen (multi-agent)

➡️ Giúp xây dựng agent biết quan sát – suy luận – hành động.


✅ Tóm tắt phần II:

AI Agent = LLM + (có thể có LIM) + Autonomy + Reactive Loop

→ Cho phép xây dựng hệ thống:

  • Biết quan sát ngữ cảnh
  • Phản ứng với thay đổi
  • Hành động theo mục tiêu rõ ràng
  • Có thể thích nghi với môi trường thật

🧠 PHẦN III – SỰ TIẾN HÓA KIẾN TRÚC: TỪ AI AGENT → AGENTIC AI SYSTEM

Mục tiêu:

Làm rõ sự khác biệt giữa:

  • AI Agent: 1 agent làm 1 việc cụ thể
  • Agentic AI System: nhiều agent phối hợp → làm được việc phức tạp, có trí nhớ, biết phối hợp chiến lược

III.1 – Kiến trúc cơ bản của AI Agent

Một AI Agent truyền thống gồm 4 phần chính theo chu trình “Hiểu → Suy luận → Hành động → Học”:

Thành phần Vai trò chính
Perception Nhận đầu vào (prompt, API, file, sensor…), xử lý dữ liệu (chunk, embed…)
Reasoning Dùng logic (rule-based, CoT, planning…) để đưa ra quyết định
Action Gọi API, sinh nội dung, gửi output → do một agent executor điều phối
Basic Learning Học đơn giản từ history (buffer, feedback, scoring để chọn tool hiệu quả hơn)

📌 Hạn chế:

  • Không có trí nhớ dài hạn
  • Không chia task
  • Không tự điều chỉnh nếu workflow lỗi

III.2 – Kiến trúc nâng cao của Agentic AI System

Agentic AI là bước tiến của AI Agent:
Không chỉ là 1 agent, mà là mạng lưới nhiều agent làm việc phối hợp. Các nâng cấp chính:

Thành phần Mô tả
Specialized Agents Nhiều agent có vai trò riêng: planner, retriever, summarizer… (giống phòng ban công ty)
Advanced Reasoning Dùng ReAct, Tree of Thought để chia task → đánh giá từng bước → điều chỉnh kế hoạch
Persistent Memory Có trí nhớ theo thời gian:
  - Episodic (lịch sử 1 task), Semantic (kiến thức lâu dài), Vector (retrieval dùng RAG)
Orchestration Layer Meta-agent điều phối subtasks, giao việc, gom kết quả (giống PM/CEO ảo)

📌 Ví dụ thật:

  • MetaGPT mô phỏng phòng ban: CEO (ra quyết định), CTO (chỉ đạo kỹ thuật), Engineer (code)
  • AutoGen dùng scratchpad lưu kết quả trung gian
  • ChatDev có CEO ảo chia task, tổng hợp output

III.3 – Lợi ích chiến lược

So sánh AI Agent Agentic AI System
Mức độ tự chủ Thấp – chờ prompt Cao – tự tạo, tự điều phối
Giao tiếp Không có hoặc giới hạn Có kênh giao tiếp, chia task, phối hợp
Tái hoạch định (Replan) Không Có – phản hồi theo bước, điều chỉnh mục tiêu nếu cần
Xử lý tác vụ phức tạp Không phù hợp Phù hợp – đặc biệt khi có nhiều bước hoặc nhiều đầu mối

✅ Kết luận

Agentic AI đánh dấu bước tiến lớn về kiến trúc:

  • Thay vì chỉ “trả lời prompt”, hệ thống này có thể:
    • Tự đặt mục tiêu
    • Tự chia nhỏ tác vụ
    • Phối hợp qua lại giữa nhiều agent
    • Lưu lại kinh nghiệm
    • Tự sửa sai

→ Đây là hướng đi phù hợp cho các bài toán phức tạp, cần liên kết nhiều hệ thống, cần phản ứng linh hoạt theo ngữ cảnh, như:

  • Phân tích báo cáo tài chính theo yêu cầu người dùng
  • Hỗ trợ khách hàng đa kênh (email, chat, gọi API)
  • Theo dõi tiến độ đơn hàng & cập nhật tự động

📘 TỔNG HỢP TOÀN BỘ: Generative AI vs AI Agent vs Agentic AI vs Generative Agent

Tiêu chí Generative AI AI Agent Agentic AI Generative Agent (Suy luận)
Mục tiêu chính Sinh nội dung từ prompt Thực hiện nhiệm vụ cụ thể bằng công cụ Điều phối quy trình phức tạp để đạt mục tiêu cấp cao Sinh nội dung cho tác vụ con cụ thể
Chức năng cốt lõi Sinh nội dung (văn bản, hình ảnh, âm thanh,…) Thực thi tác vụ + tương tác với API/tool Điều phối workflow gồm nhiều agent thực thi nhiệm vụ con Sinh nội dung trong sub-task thuộc quy trình lớn hơn
Công cụ/Tool hỗ trợ Không Có (thiết yếu) Có (chia sẻ giữa các agent) Có thể có nếu sub-task cần
Số lượng agent Một mô hình duy nhất Một agent đơn lẻ Nhiều agent (cộng tác, chia vai trò) Một agent thực hiện 1 bước
Cách khởi tạo Người dùng nhập prompt Prompt hoặc mục tiêu rõ ràng Mục tiêu cấp hệ thống khởi tạo → phân phối tới các agent Prompt từ hệ thống hoặc agent
Khả năng linh hoạt mục tiêu Không (cố định theo prompt) Thấp (theo mục tiêu cố định) Cao (biết phân rã mục tiêu và thích nghi) Thấp (thực hiện mục tiêu con)
Quá trình học Không học thêm, dùng mô hình đã huấn luyện Có thể tiến hóa cách chọn tool trong tương lai Học từ phản hồi, tái cấu trúc tác vụ, có khả năng thích nghi đa nhiệm Hạn chế (ít khả năng thích nghi)
Bộ nhớ/ngữ cảnh Không có hoặc rất ngắn Có thể có (cache hoặc memory tạm) Có bộ nhớ tác vụ dài hạn (episodic/task memory), chia sẻ giữa các agent Memory cục bộ theo sub-task
Cách tương tác Người dùng → LLM Người dùng → Agent → Tool Người dùng → Hệ thống → Các Agent phối hợp (qua Orchestrator) Hệ thống/Agent → Agent → Output
Cách xử lý luồng công việc 1 bước duy nhất (prompt → output) 1 task cụ thể → kết quả Nhiều bước, nhiều agent → chia nhỏ → tái phân phối → tổng hợp 1 bước con trong quy trình lớn
Độ phức tạp Thấp Trung bình (có tool) Cao (đa agent, có giao tiếp, phối hợp phức tạp, memory dài hạn) Thấp đến Trung bình
Tính chủ động (autonomy) Rất thấp (bị động, chờ prompt) Trung bình (có thể gọi tool, nhưng chỉ làm 1 task) Rất cao (tự tái cấu trúc, giao tiếp, thích nghi mục tiêu dài hạn, phân vai trò động) Thấp đến trung bình
Tương tác bên ngoài Không Có qua API, plugin, browser Cao (multi-agent dùng nhiều công cụ, tự điều phối và ra quyết định hợp tác) Có thể có nếu cần
Tương tác nội bộ Không áp dụng Không áp dụng Có – chia sẻ memory, giao tiếp agent-agent, chia vai trò (planner, retriever, writer…) Nhận input từ hệ thống hoặc agent
Cách ra quyết định Chọn mẫu phản hồi phù hợp Quyết định dùng công cụ nào Tự phân rã mục tiêu, phân công tác vụ, điều phối agent, cập nhật kế hoạch Tự quyết định cách sinh nội dung cho sub-task
Ví dụ minh họa ChatGPT viết email, DALL·E vẽ hình từ prompt Tavily search agent, assistant dùng LangChain AutoGen, ChatDev – hệ thống có Planner, Retriever, Critic, Writer phối hợp Agent viết title/description/video summary trong pipeline

Ghi chú tổng quát:

  • Generative AI là bước khởi đầu — hệ thống sinh nội dung đơn giản, không có trí nhớ hay tính thích nghi.
  • AI Agent là lớp kế tiếp — có thể gọi công cụ, giải quyết tác vụ cụ thể, nhưng thiếu phối hợp với agent khác.
  • Agentic AI là cấp độ cao nhất hiện tại — có orchestrator, nhiều agent phối hợp, memory dài hạn, học từ phản hồi, giải quyết các mục tiêu phức tạp.
  • Generative Agent là một lớp con thiên về sinh nội dung trong subtask nhỏ của hệ thống lớn hơn (không độc lập).

Refer: https://arxiv.org/html/2505.10468v1#S3


Tiếp theo:

  • http://mikesholic.com/knowledgeai/2025/10/12/LLM-based-Multi-Agents(LLM-MA).html
  • http://mikesholic.com/knowledgeai/2025/10/12/Challenges-Agentic-AI.html
  • http://mikesholic.com/knowledgeai/2025/10/12/Challenges-AI-Agent.html
  • http://mikesholic.com/knowledgeai/2025/10/12/Solution-AI-Agent-Agentic.html