Prompt engineering không chết — nó chỉ không còn là công việc của một mình nữa
Tôi làm trong tech gần 20 năm. Tôi đã chứng kiến nhiều lần người ta tuyên bố thứ này "chết", thứ kia "lỗi thời". SQL chết vì NoSQL. Backend chết vì no-code. Senior dev chết vì AI. Tất cả đều sai.
Thứ thực sự xảy ra là: những kỹ năng cơ bản không biến mất, chúng được nâng lên một cấp độ mới và trở nên quan trọng hơn.
Prompt engineering năm 2022 là tìm một câu prompt hoàn hảo để ra được output tốt nhất. Năm 2026, nó là thiết kế cả một hệ thống tư duy — nhiều luồng, nhiều góc nhìn, nhiều vòng phản biện. Cái core concept không thay đổi. Cái thay đổi là quy mô và độ phức tạp.
Hãy để tôi kể bạn nghe chuyện gì thực sự đang xảy ra.
Chain of Thought 2022: Một người nghĩ
Nếu bạn đã dùng AI từ 2022-2023, hẳn bạn quen với Chain of Thought (CoT): thay vì hỏi thẳng đáp án, bạn yêu cầu AI "suy nghĩ từng bước" — Let's think step by step.
Đơn giản, hiệu quả. Accuracy tăng rõ rệt trên các bài toán cần reasoning. Tôi nhớ lần đầu thử nó với một bài toán phân tích architecture phức tạp, kết quả khác hẳn so với hỏi thẳng. Cảm giác như AI được "bật" cái gì đó trong não.
Nhưng vấn đề của 1 luồng CoT là gì?
Nó vẫn chỉ là một góc nhìn. Một hướng suy nghĩ. Nếu AI bước đầu đi sai hướng — "bị bias" ngay từ token đầu tiên — cả chuỗi reasoning đó sẽ sai theo một cách rất tự tin. Confident errors, tôi gọi vậy. Nguy hiểm hơn cả lỗi không biết.
Tiến hóa đầu tiên: Self-Consistency — chạy nhiều luồng, chọn đa số
Năm 2023, nhóm nghiên cứu của Google đề xuất Self-Consistency: thay vì chạy 1 luồng CoT, hãy chạy 5-40 luồng song song với cùng câu hỏi, mỗi luồng có thể đi theo hướng khác nhau, rồi lấy câu trả lời xuất hiện nhiều nhất.
Nghe đơn giản. Kết quả không đơn giản: accuracy tăng 15-20% trên benchmark toán học và reasoning. Tại sao?
Vì AI, giống con người, có thể đi lạc theo một hướng ngẫu nhiên. Nhưng nếu bạn hỏi 20 lần với cùng câu hỏi, câu trả lời đúng có xu hướng xuất hiện nhiều lần hơn câu trả lời sai. Sai thì sai theo nhiều kiểu khác nhau. Đúng thì đúng theo một kiểu.
Đây là bước đầu tiên của cái tôi gọi là "tư duy đa luồng".
Tiến hóa thứ hai: Tree of Thoughts — không chỉ song song, mà còn phân nhánh
Self-Consistency vẫn chạy tuyến tính từ đầu đến cuối. Tree of Thoughts (ToT) đi xa hơn: AI có thể phân nhánh tại mỗi bước reasoning, tạo ra một cây quyết định, rồi quay lại và thử nhánh khác nếu nhánh hiện tại dẫn đến ngõ cụt.
Hình dung như thế này: thay vì một con đường mòn từ A đến B, bạn có một mạng lưới đường với các ngã rẽ, có thể lùi lại, thử đường khác. Giống cách con người thực sự giải quyết vấn đề phức tạp hơn là một con đường thẳng đơn giản.
Trong thực tế, tôi dùng cái này khi thiết kế architecture phức tạp. Thay vì hỏi AI một câu lớn, tôi để nó phân tích theo từng nhánh: nhánh performance, nhánh cost, nhánh maintainability — rồi tổng hợp lại. Output khác hẳn.
Tiến hóa thứ ba: Multi-Agent Debate — không phải 1 người, mà cả hội đồng
Đây mới là thứ tôi muốn nói đến khi đề cập tới "40 góc nhìn".
Multi-Agent Debate (MAD): thay vì một AI trả lời, bạn có nhiều AI agents — mỗi agent được giao một vai trò khác nhau, góc nhìn khác nhau. Chúng độc lập đưa ra câu trả lời ban đầu, sau đó tranh luận với nhau, phản biện lập luận của nhau, tinh chỉnh qua nhiều vòng, rồi mới đi đến consensus.
Ví dụ tôi hay dùng: khi đánh giá một technical decision, tôi có thể tạo 5 agents với 5 vai trò:
- Agent A (Skeptic): luôn tìm lý do tại sao quyết định này sẽ thất bại
- Agent B (Optimizer): luôn tìm cách tối ưu performance
- Agent C (Security Engineer): nhìn mọi thứ qua lens bảo mật
- Agent D (Junior Dev): đặt câu hỏi "tôi không hiểu chỗ này, tại sao?"
- Agent E (Business Analyst): tính toán cost và ROI
Năm 2022, tôi phải thủ công "đóng giả" từng role này trong đầu. Năm 2026, tôi có thể chạy chúng song song thật sự.
Nghiên cứu từ MIT (2024) cho thấy MAD framework cải thiện factual accuracy lên tới 10-15% so với single-agent, đặc biệt trong các domain đòi hỏi cross-checking thông tin. Framework A-HMAD (Adaptive Heterogeneous Multi-Agent Debate) còn đi xa hơn với dynamic debate routing — agent nào mạnh nhất ở từng khía cạnh sẽ được weight cao hơn trong vòng đó.
Và Flipping Roles lên một tầm mới
Năm 2022, flipping roles nghĩa là: thay vì hỏi AI "hãy giải thích X", bạn bảo nó "hãy đóng vai expert về X và giải thích cho tôi nghe".
Năm 2026, có một kỹ thuật tôi thấy cực kỳ thực dụng: Role Reversal / Self-Critique.
Sau khi AI đưa ra câu trả lời, bạn yêu cầu chính nó chuyển sang vai "devil's advocate" và tìm những điểm yếu trong câu trả lời vừa đưa. Rồi yêu cầu nó tổng hợp và cải thiện.
Forrester Research báo cáo rằng đến 2026, 40% các AI deployment trong enterprise đã adopt kỹ thuật này. Accuracy improvement đo được: 15-25%. Không phải vì AI "thông minh hơn" — mà vì bạn đang tận dụng sự đa dạng của góc nhìn trong cùng một model.
Nhưng khoan — "40 góc nhìn" có thực sự là con số tốt không?
Đây là phần tôi muốn nói thật với các bạn.
Concept "40 luồng CoT song song" nghe rất hay. Và về mặt lý thuyết, nhiều góc nhìn hơn = tốt hơn. Nhưng trong thực tế production, con số optimal không phải 40.
Theo data từ nhiều nghiên cứu 2025-2026, 5-7 agents/perspectives là điểm ngọt ngào. Vì sao?
- Sublinear scaling: Lợi ích từ perspective thứ 8 trở đi nhỏ hơn nhiều so với 1-7. Law of diminishing returns.
- Cost: 40 agents = 40x inference cost. ROI giảm nhanh.
- Groupthink risk: Nếu tất cả 40 agents được khởi tạo từ cùng một model với prompt gần giống nhau, chúng sẽ bị "groupthink" — đồng thuận với nhau nhưng đồng thuận sai. Diversity là quan trọng hơn số lượng.
Vậy "40 góc nhìn" là một ẩn dụ đẹp cho mindset — đừng nhìn vấn đề từ một hướng — hơn là một con số kỹ thuật literal.
Khi tôi nói với ông bạn Khoa rằng "prompt engineering không chết", tôi muốn nói: khả năng thiết kế cách AI suy nghĩ — bao nhiêu góc nhìn, ai phản biện ai, khi nào convergence — vẫn là kỹ năng của con người. Agents chỉ là cơ chế thực thi.
Prompt engineering 2026 = Orchestration, không phải chỉ là viết câu hỏi
Đây là cái thay đổi lớn nhất.
Năm 2022: "Làm sao viết prompt này cho hay?"
Năm 2026: "Thiết kế hệ thống multi-agent này như thế nào để nó giải quyết được bài toán?"
Chain of Thought vẫn còn đó — nhưng thay vì là một kỹ thuật đơn lẻ, nó là một module trong orchestration lớn hơn. Flipping roles vẫn còn đó — nhưng giờ bạn assign roles cho nhiều agents thật sự thay vì giả vờ trong một prompt.
Marvin Minsky viết về "Society of Mind" từ những năm 1980 — ý tưởng rằng trí tuệ xuất hiện từ sự cộng tác của nhiều "agents" nhỏ chuyên biệt. Vô tình, chúng ta đang implement đúng điều đó với LLMs.
Gửi các bạn trẻ đang học AI engineering: đừng bỏ qua Chain of Thought vì nghĩ nó "cũ". Hãy học nó thật kỹ, vì đó là nền tảng để bạn thiết kế 40 luồng CoT song song sau này. Người hiểu sâu CoT sẽ biết orchestrate multi-agent tốt hơn người chỉ biết copy-paste agent framework.
Một ví dụ thực tế để kết
Tháng trước tôi dùng kỹ thuật này để review một architecture document phức tạp. Thay vì hỏi AI một lần "review cái này cho tôi", tôi chạy:
- Luồng 1: "Bạn là security engineer, tìm điểm yếu bảo mật trong design này"
- Luồng 2: "Bạn là DBA, đánh giá phần database schema và query patterns"
- Luồng 3: "Bạn là DevOps engineer, review khả năng deploy và observability"
- Luồng 4: "Bạn là junior developer mới join team, tìm những chỗ khó hiểu"
- Luồng 5: "Bạn là devil's advocate, tìm lý do tại sao design này sẽ thất bại"
Sau đó tổng hợp 5 outputs lại. Kết quả: tôi tìm ra 3 vấn đề quan trọng mà nếu chỉ hỏi một câu thì AI sẽ bỏ qua.
Không phải AI thông minh hơn. Tôi đã prompting thông minh hơn.
Chain of Thought không chết — nó chỉ ngừng là công việc của một người.
Và đó, với tôi, là sự tiến hóa đẹp nhất của prompt engineering.
/Son Do - believe in basic
#1percentbetter #promptengineering #AIarchitecture #llm #techlead