Ảnh chụp bởi iam_os
Phương pháp Policy Gradient (PG) được dùng phổ biến trong học tăng cường (RL). Nguyên tắc cơ bản là sử dụng Gradient Ascent để tuân theo các chiến thuật với phần thưởng có xu hướng tăng cao nhất. Tuy nhiên, phép tối ưu hóa bậc một là không chính xác đối với các vùng có dạng đường cong. Do đó chúng ta có thể sẽ mắc phải những sai lầm trong quá trình đào tạo. Và phương pháp TRPO là một trong những phương pháp được đưa ra nhiều nhất trong việc giải quyết vấn đề này. Phương pháp TRPO tương tự giống với Natural Policy Gradient nhưng nó hiệu quả trong việc tối ưu các chiến thuật lớn và phi tuyến tính như mạng nơ-ron. Tuy nhiên, TRPO thường được giải thích mà không đưa ra các khái niệm cơ bản.
Trong phần này, chúng ta sẽ tập trung vào những thách thức của PG và đưa ra ba khái niệm cơ bản bao gồm thuật toán MM, vùng tin cậy và Importance Sampling.
Những thách thức của phương pháp Policy Gradient
Trong RL, chúng ta tối ưu hóa một chiến thuật θ để có phần thưởng khấu hao kỳ vọng tối đa. Tuy nhiên, có một số thách thức ảnh hưởng đến hiệu suất của PG.
Ban đầu, PG sẽ tính toán hướng đi lên cao nhất cho phần thưởng (Policy Gradient g) và thực hiện cập nhật cho chiến thuật theo hướng đó.
Tuy nhiên, phương pháp này sử dụng đạo hàm bậc nhất và các phép tính cho bề mặt là mặt phẳng. Nếu bề mặt có độ cong cao, chúng ta có thể sẽ gây ra các bước đi sai lầm.
Chỉ cần một bước đi quá dài sẽ dẫn đến sai lầm nghiêm trọng. Nhưng, nếu bước đi quá nhỏ, mô hình sẽ học quá chậm. Hãy hình dung hàm phần thưởng giống như ngọn núi ở trên. Nếu chiến thuật mới đi quá xa, sẽ có những hành động làm chúng ta rơi khỏi vách đá. Khi chúng ta tiếp tục thăm dò, chúng ta sẽ bắt đầu từ một trạng thái hoạt động kém với một chiến thuật cục bộ kém. Hiệu suất sẽ bị giảm và sẽ mất nhiều thời gian để khôi phục lại hiệu suất.
Thứ hai, sẽ là rất khó để có một tỷ lệ học tập thích hợp trong học tăng cường (RL). Giả sử tỷ lệ học tập được điều chỉnh cụ thể cho điểm vàng ở trên. Khu vực này tương đối bằng phẳng nên tỷ lệ học tập này phải cao hơn mức trung bình để có tốc độ học tập tốt. Nhưng chỉ cần một lần di chuyển không tốt, chúng ta sẽ rơi xuống vực đến điểm đỏ. Gradient tại chấm đỏ là cao và tốc độ học hiện tại sẽ kích hoạt việc thay đổi cho chiến thuật theo chiều hướng tăng đột ngột. Do tỷ lệ học tập không dễ bị ảnh hưởng bởi vùng địa hình nên PG sẽ gặp phải vấn đề về hội tụ là vô cùng lớn.
Thứ ba, chúng ta có nên ràng buộc các thay đổi về chiến thuật để chúng ta không thực hiện các hành động quá liều lĩnh như vậy? Trên thực tế, đây là những gì TRPO làm. Nó sẽ ràng buộc những thay đổi tham số dễ bị ảnh hưởng với vùng địa hình. Nhưng việc đưa ra giải pháp này không hề rõ ràng. Chúng ta điều chỉnh chiến thuật bằng các tham số mô hình ở mức thấp. Để hạn chế thay đổi chiến thuật, ngưỡng giới hạn tương ứng cho các tham số mô hình là gì? Làm thế nào chúng ta có thể chuyển đổi các sự thay đổi trong vùng không gian của chiến thuật sang vùng không gian của tham số trong mô hình?
Thứ tư, chúng ta sẽ lấy mẫu toàn bộ đường quỹ đạo chỉ cho một lần cập nhật cho chiến thuật. Chúng ta không thể cập nhật chiến thuật tại mỗi bước di chuyển.
Tại sao lại như vậy? Hãy hình dung mô hình chiến thuật như một cái lưới. Việc tăng xác suất của π(s) tại một điểm cũng sẽ kéo các điểm xung quanh tăng lên. Các trạng thái trong quỹ đạo là giống nhau. Nếu chúng ta nâng cấp chiến thuật trong từng bước, chúng ta sẽ kéo cùng một lúc lên nhiều lần tại các điểm giống nhau. Những thay đổi sẽ tác động lẫn nhau và làm cho quá trình đào tạo trở nên rất dễ bị ảnh hưởng và không ổn định.
Giả sử có thể có hàng trăm hoặc hàng nghìn bước trong một đường quỹ đạo, việc cập nhật cho mỗi quỹ đạo không phải là cách lấy mẫu hiệu quả. PG cần hơn 10 triệu bước đào tạo trở lên cho các thí nghiệm mô phỏng. Do đó, điều này là sẽ rất tốn kém.
Tóm lại, những thách thức của PG như sau:
- Sự thay đổi lớn về chiến thuật sẽ phá hỏng quá trình đào tạo.
- Không thể dễ dàng ánh xạ các thay đổi giữa vùng không gian của chiến thuật và vùng không gian của tham số
- Tỷ lệ học không phù hợp gây ra tình trạng giá trị của Gradient bị biến mất hoặc tăng đột ngột.
- Hiệu quả lấy mẫu là rất kém.
Lưu ý: Chúng ta muốn hạn chế các thay đổi về chiến thuật và muốn mọi thứ tốt hơn, bất kỳ thay đổi nào cũng cần phải đảm bảo việc gia tăng số lượng phần thưởng. Chúng ta cần một phương pháp tối ưu hóa tốt hơn và chính xác hơn để đưa ra các chiến thuật cần thiết.
Để hiểu về TRPO, chúng ta sẽ thảo luận về ba khái niệm chính.
Giải thuật Minorize-Maximization (MM)
Liệu chúng ta có thể đảm bảo rằng mỗi lần cập nhật cho chiến thuật sẽ luôn cải thiện phần thưởng kỳ vọng không? Về mặt lý thuyết là có thể. Thuật toán MM đạt được điều này nhiều lần bằng cách tối đa hóa hàm giới hạn dưới (đường màu xanh lam bên dưới) mà tính toán xấp xỉ phần thưởng kỳ vọng cục bộ.
Chúng ta bắt đầu với một phỏng đoán cho chiến thuật ban đầu. Chúng ta nhận thấy giới hạn dưới M xấp xỉ gần bằng phần thưởng dự kiến η cục bộ với phỏng đoán hiện tại. Chúng ta xác định vị trí điểm tối ưu cho M và sử dụng nó làm dự đoán tiếp theo. Chúng ta ước lượng giới hạn dưới một lần nữa và thực hiện quá trình lặp lại. Cuối cùng, dự đoán chiến thuật của chúng ta sẽ đạt tới điểm mà chiến thuật tối ưu nhất. Để làm được điều này, M phải dễ dàng tối ưu hóa hơn η và M là một phương trình bậc hai
Tuy nhiên, đối với dạng véc tơ thì nó có công thức như sau:
Tại sao thuật toán MM hội tụ tới điểm mà chiến thuật tối ưu? Nếu M là giới hạn dưới, nó sẽ không bao giờ vượt qua đường màu đỏ η. Nhưng giả sử rằng phần thưởng kỳ vọng cho chiến thuật mới thấp hơn η. Khi đó, đường màu xanh lam phải cắt ngang η (hình bên phải bên dưới) và phủ nhận việc nó là giới hạn dưới.
Vì chúng ta có số lượng chiến thuật là hữu hạn nên khi chúng ta tiếp tục lặp lại, nó sẽ dẫn chúng ta đến một chiến thuật tối ưu cục bộ hoặc toàn cục. Bằng cách tối ưu hóa hàm giới hạn dưới xấp xỉ η cục bộ, nó sẽ đảm bảo việc cải thiện chiến thuật trong mỗi lần và cuối cùng đưa chúng ta đến chiến thuật tối ưu.
Vùng tin cậy
Có hai phương pháp tối ưu hóa chính: tìm kiếm theo một hướng đường thẳng (Line Search) và Vùng tin cậy. Gradient Descent là một phương phá tìm kiếm theo một hướng đường thẳng. Chúng ta xác định hướng giảm dần trước rồi thực hiện từng bước theo hướng đó.
Chỉnh sửa từ Nguồn
Trong vùng tin cậy, chúng ta xác định kích thước của bước đi tối đa mà chúng ta muốn thăm dò và sau đó chúng ta xác định điểm tối ưu trong vùng tin cậy này. Hãy bắt đầu với kích thước của bước đi tối đa ban đầu δ là bán kính của vùng tin cậy (vòng tròn màu vàng).
m là phép tính xấp xỉ cho hàm mục tiêu ban đầu f. Mục tiêu của chúng ta bây giờ là tìm điểm tối ưu của m trong bán kính δ. Chúng ta lặp đi lặp lại quá trình cho đến khi lên đến đỉnh cao nhất.
Để kiểm soát tốc độ học tốt hơn, chúng ta có thể mở rộng hoặc thu nhỏ δ trong thời gian thực hiện với độ cong của bề mặt. Trong phương pháp vùng tin cậy truyền thống, chúng ta tính xấp xỉ hàm mục tiêu f với m, có thể có khả năng xảy ra sẽ là thu hẹp vùng tin cậy nếu m là phép tính xấp xỉ kém của f tại điểm tối ưu. Ngược lại, nếu phép tính xấp xỉ tốt, chúng ta sẽ triển khai nó. Nhưng việc tính toán f có thể không đơn giản trong Học tăng cường. Ngoài ra, chúng ta có thể thu hẹp vùng tin cậy nếu sự chênh lệch giữa chiến thuật mới và chiến thuật hiện tại ngày càng lớn. Ví dụ: Chúng ta có thể thu hẹp vùng tin cậy nếu chiến thuật thay đổi quá nhiều.
Importance Sampling
Importance Sampling tính toán giá trị kỳ vọng của f(x), trong đó x có phân phối dữ liệu p
Trong Importance Sampling, chúng ta sẽ không lấy mẫu giá trị của từ p. Thay vào đó, chúng ta sẽ lấy mẫu dữ liệu từ q và sử dụng tỷ lệ xác suất giữa p và q để hiệu chỉnh kết quả.
Trong PG, chúng ta sử dụng chiến thuật hiện tại để tính toán Policy Gradient.
Bất cứ khi nào chiến thuật được thay đổi, chúng ta sẽ thu thập các mẫu mới. Mẫu cũ sẽ không được sử dụng lại. Vì vậy PG có hiệu suất lấy mẫu kém. Với Importance Sampling, mục tiêu của chúng ta có thể được xây dựng lại và chúng ta có thể sử dụng các mẫu từ một chiến thuật cũ để tính toán Policy Gradient.
Tuy nhiên, phép tính sử dụng q:
Có phương sai là:
Nếu tỷ lệ cao, phương sai của phép tính có thể tăng đột ngột. Vì vậy, nếu hai chiến thuật rất khác nhau, thì phương sai (còn gọi là sai số) sẽ rất cao. Vì vậy, chúng ta không thể sử dụng các mẫu cũ quá lâu. Chúng ta vẫn cần lấy mẫu lại cho đường quỹ đạo thường xuyên khi sử dụng chiến thuật hiện tại (cứ 4 lần vòng lặp 1 lần).
Hàm mục tiêu sử dụng Importance Sampling
Hãy đi vào chi tiết về việc áp dụng khái niệm Importance Sampling trong PG. Các phương trình trong phương pháp Policy Gradient là:
Chúng ta có thể tính ngược lại đạo hàm này và xác định hàm mục tiêu như sau (để minh họa cho đơn giản, γ thường được đặt thành 1):
Điều này có thể được biểu diễn với Importance Sampling (IS) như sau:
Như hình dưới đây, các đạo hàm cho cả hai hàm mục tiêu đều giống nhau. tức là chúng có cùng một giải pháp tối ưu.
Trong đó và
Sự xuất hiện của hai chiến thuật trong mục tiêu tối ưu hóa chỉ ra cho chúng ta thấy một cách để hạn chế thay đổi cho chiến thuật. Đây là nền tảng quan trọng của nhiều phương pháp Policy Gradient nâng cao. Ngoài ra, nó có thể đưa ra một cách để chúng ta đánh giá các chiến thuật có tính khả thi trước khi chúng ta thực hiện các thay đổi.
Như vậy chúng ta đã nói về các thách thức của phương pháp Policy Gradient và 3 khái niệm cơ bản trong TRPO bao gồm thuật toán MM, vùng tin cậy và Importance Sampling.
Đến đây là kết thúc của bài này. Mọi người hãy theo dõi các bài tiếp theo trong series học tăng cường cùng tek4 nhé!
P/s: Mong mọi người luôn ủng hộ tek4 nhé!
« Trước | Mục lục | Sau » |