Học tăng cường cơ bản cung cấp những kiến thức, khái niệm, và các công thức toán học về Học tăng cường. Series Học tăng cường bao gồm các bài sau:
- Thuật ngữ trong học tăng cường
- Học tăng cường
- Học tăng cường 2
- Giải thuật tối ưu trong RL
- Phương pháp Dual Gradient Descent
- Phương pháp Importance Sampling
- Phương pháp Conjugate Gradient
- Học giá trị
- Phương pháp duyệt cây Monte Carlo
- Deep Q-Network (DQN)
- Phương pháp Policy Gradient
- Phương pháp Policy Gradient 2
- Natural Policy Gradient
- TRPO – Tối ưu chiến thuật trong vùng tin cậy
- TRPO 2 – Tối ưu chiến thuật trong vùng tin cậy
- PPO – Tối ưu chiến thuật vùng lân cận
- Các phép toán trong TRPO và PPO
- TRPO và PPO – Chứng minh toán học
- Actor-Critic sử dụng Kronecker-Factored Trust Region
- Phương pháp LQR và iLQR
- Học tăng cường dựa trên mô hình
- Học bắt chước
- Học tăng cường ngược
- Meta Learning
Với mong muốn mang đến cho bạn đọc, những ai muốn tìm hiểu về Học tăng cường. Hiện tại, tek4 đã xây dựng series bài viết về Học tăng cường cơ bản. Hi vọng đây sẽ trở thành một tài liệu hữu ích cho những bạn muốn tìm hiểu về chủ đề này và là cơ sở tiền đề cho các bạn muốn tìm hiểu sâu hơn về lĩnh vực AI nói chung và Học tăng cường nói riêng sau này.