tek4

Học Tăng Cường Phần 2

by - September. 21, 2021
Kiến thức
<h1 style="text-align: justify;"><img class="aligncenter wp-image-6412 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/a-7.jpg" alt="Hoc-tang-cuong" width="1000" height="667" /></h1> <p style="text-align: center;">Ảnh chụp bởi <a href="https://unsplash.com/@lenin33">Lenin Estrada</a></p> <h1 style="text-align: justify;">L&agrave;m thế n&agrave;o để m&aacute;y học hiệu quả giống như con người?</h1> <p style="text-align: justify;">Học tăng cường, tiếng anh l&agrave; Reinforcement Learning v&agrave; viết tắt l&agrave; RL, l&agrave; việc thực hiện những h&agrave;nh động tốt nhất từ ​​những g&igrave; ch&uacute;ng ta c&oacute; thể thấy v&agrave; nghe được. Trong b&agrave;i viết n&agrave;y, ch&uacute;ng ta sẽ tr&igrave;nh b&agrave;y s&acirc;u hơn về việc học tăng cường. C&aacute;c bạn c&oacute; thể xem lại phần 1 n&oacute;i qua phần tổng quan của học tăng cường.</p> <p style="text-align: justify;">Alan Turing,&nbsp;l&agrave; một&nbsp;nh&agrave; to&aacute;n học,&nbsp;logic học&nbsp;v&agrave;&nbsp;mật m&atilde; học&nbsp;người&nbsp;Anh, được xem l&agrave; cha đẻ của ng&agrave;nh&nbsp;khoa học m&aacute;y t&iacute;nh đ&atilde; từng n&oacute;i:</p> <blockquote> <p><em>Thay v&igrave; cố gắng tạo ra một chương tr&igrave;nh để m&ocirc; phỏng suy nghĩ của người lớn, tại sao kh&ocirc;ng thử tạo một chương tr&igrave;nh m&ocirc; phỏng lại suy nghĩ của một đứa trẻ?</em></p> </blockquote> <p style="text-align: justify;">Với sức mạnh của GPU v&agrave; sự hiểu biết về AI, ch&uacute;ng ta đ&atilde; đ&aacute;nh bại c&aacute;c nh&agrave; v&ocirc; địch GO v&agrave; Face ID c&ugrave;ng với c&aacute;c d&ograve;ng iPhone mới. Nhưng trong thế giới robot, việc đ&agrave;o tạo một robot để tự nấu ăn được mới l&agrave; điều đ&aacute;ng quan t&acirc;m. Ngay cả khi c&oacute; lợi thế rất nhiều về tốc độ t&iacute;nh to&aacute;n, m&aacute;y t&iacute;nh vẫn kh&ocirc;ng thể thực hiện c&aacute;c nhiệm vụ m&agrave; ch&uacute;ng ta cho rằng đ&oacute; l&agrave; điều hiển nhi&ecirc;n. Vấn đề nan giải l&agrave; AI kh&ocirc;ng học được một c&aacute;ch hiệu quả như con người. Trong b&agrave;i viết n&agrave;y, ch&uacute;ng ta sẽ b&agrave;n luận để giải quyết những thiếu s&oacute;t n&agrave;y. Ch&uacute;ng ta cũng sẽ xem x&eacute;t c&aacute;c lĩnh vực nghi&ecirc;n cứu chủ yếu v&agrave; những th&aacute;ch thức m&agrave; RL đang phải đối mặt.</p> <h2 style="text-align: justify;">Học bắt chước</h2> <p style="text-align: justify;">Học bắt chước, tiếng anh l&agrave; Imitation Learning, l&agrave; một phương ph&aacute;p học hiệu quả đối với cả con người v&agrave; cả trong học m&aacute;y. Trẻ con c&oacute; th&oacute;i quen l&agrave; bắt chước. Bắt chước đ&oacute;ng một vai tr&ograve; quan trọng v&agrave; n&oacute; l&agrave; bước đầu ti&ecirc;n của qu&aacute; tr&igrave;nh học tập một điều g&igrave; đ&oacute; mới mẻ. Trong nhiều phương ph&aacute;p RL, ch&uacute;ng ta ph&acirc;n t&iacute;ch c&aacute;c quyết định sẽ thay đổi phần thưởng m&agrave; ch&uacute;ng ta nhận được l&agrave; như thế n&agrave;o. Điều n&agrave;y c&oacute; thể được thực hiện bằng c&aacute;ch hiểu r&otilde; hơn về m&ocirc; h&igrave;nh h&oacute;a tổng thể hoặc th&ocirc;ng qua c&aacute;c thử nghiệm v&agrave; c&aacute;c sai s&oacute;t để t&igrave;m ra quyết định n&agrave;o mang lại phần thưởng tốt hơn. Tuy nhi&ecirc;n, với sự th&agrave;nh c&ocirc;ng của việc học c&oacute; gi&aacute;m s&aacute;t (Supervised learning) trong học s&acirc;u (Deep learning), ch&uacute;ng ta ho&agrave;n to&agrave;n c&oacute; thể bỏ qua ch&uacute;ng v&agrave; đ&agrave;o tạo một c&aacute;ch trực tiếp c&aacute;c chiến thuật bắt chước c&aacute;c quyết định của những người c&oacute; chuy&ecirc;n m&ocirc;n.</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6276 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/a-2.jpeg" alt="" width="1000" height="176" /></p> <p style="text-align: center;"><a href="https://jonathan-hui.medium.com/rl-deep-reinforcement-learning-learn-effectively-like-a-human-5b94bf279853">Nguồn</a></p> <p style="text-align: justify;">Kh&ocirc;ng giống như c&aacute;c phương ph&aacute;p RL học tăng cường kh&aacute;c, ch&uacute;ng ta kh&ocirc;ng l&atilde;ng ph&iacute; thời gian để t&igrave;m ra những thứ cảm thấy c&oacute; khả năng triển vọng. Ch&uacute;ng ta sẽ sử dụng c&aacute;c h&agrave;nh động c&oacute; sự tham gia của con người để lấy l&agrave;m c&aacute;c chỉ dẫn trong việc t&igrave;m kiếm một giải ph&aacute;p ph&ugrave; hợp.</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6277 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/a-3.jpeg" alt="Hoc-tang-cuong" width="840" height="270" /></p> <p style="text-align: justify;">Quyết định c&oacute; kỹ thuật dựa theo bối cảnh</p> <p style="text-align: center;"><a href="https://jonathan-hui.medium.com/rl-deep-reinforcement-learning-learn-effectively-like-a-human-5b94bf279853">Nguồn</a></p> <p style="text-align: justify;"><img class="aligncenter wp-image-6278 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-129.png" alt="Hoc-tang-cuong" width="1098" height="501" /></p> <p style="text-align: justify;">Quyết định được bắt chước bởi học m&aacute;y</p> <p style="text-align: center;">Được thay đổi từ <a href="https://jonathan-hui.medium.com/rl-deep-reinforcement-learning-learn-effectively-like-a-human-5b94bf279853">nguồn</a></p> <h2 style="text-align: justify;">C&aacute;c th&aacute;ch thức</h2> <p style="text-align: justify;">Ch&uacute;ng ta sẽ kh&ocirc;ng bao giờ c&oacute; thể bắt chước được mọi thứ một c&aacute;ch ch&iacute;nh x&aacute;c. Dần dần c&aacute;c lỗi sai s&oacute;t hay mất m&aacute;t sai s&oacute;t sẽ c&agrave;ng ng&agrave;y c&agrave;ng nhiều v&agrave; điều n&agrave;y sẽ đẩy ch&uacute;ng ta v&agrave;o những t&igrave;nh huống sai lầm v&igrave; ch&uacute;ng ta sẽ kh&ocirc;ng c&oacute; c&aacute;c mẫu ho&agrave;n chỉnh để bắt chước v&agrave; c&oacute; thể l&agrave;m theo một c&aacute;ch đ&uacute;ng nhất.</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6279 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-130.png" alt="Hoc-tang-cuong" width="742" height="333" /></p> <p style="text-align: center;">Được thay đổi từ <a href="http://rail.eecs.berkeley.edu/deeprlcourse-fa17/f17docs/lecture_2_behavior_cloning.pdf">nguồn</a></p> <p style="text-align: justify;">Đối với con người, ch&uacute;ng ta thường sẽ sửa chữa khi ch&uacute;ng ta đi chệch hướng hoặc l&agrave;m sai một điều g&igrave; đ&oacute;. Nhưng việc học bắt chước sẽ phải học từ c&aacute;c mẫu c&oacute; sẵn để đ&agrave;o tạo. Để giải quyết vấn đề đ&oacute;, ch&uacute;ng ta c&oacute; thể thu thập th&ecirc;m c&aacute;c mẫu bổ sung cho những t&igrave;nh huống bị đi chệch hướng đ&oacute;. Ch&uacute;ng ta sẽ triển khai c&aacute;c giải ph&aacute;p v&agrave; kiểm tra những g&igrave; c&ograve;n thiếu. Ch&uacute;ng ta sẽ quay lại gặp c&aacute;c chuy&ecirc;n gia để gắn nh&atilde;n cho c&aacute;c h&agrave;nh động ch&iacute;nh x&aacute;c một lần nữa. Ngo&agrave;i ra, ch&uacute;ng ta cố t&igrave;nh th&ecirc;m c&aacute;c thứ g&acirc;y nhiễu v&agrave;o trong h&agrave;nh động của m&igrave;nh trong qu&aacute; tr&igrave;nh đ&agrave;o tạo v&agrave; quan s&aacute;t c&aacute;c chuy&ecirc;n gia c&oacute; thể phản ứng ra sao. Ngo&agrave;i ra, đối với một số nhiệm vụ cụ thể, ch&uacute;ng ta c&oacute; thể g&aacute;n (hardcode) c&aacute;c giải ph&aacute;p lại cho c&aacute;c sự cố đ&atilde; biết hoặc t&igrave;m ra được. Ch&uacute;ng ta chỉ cần x&aacute;c định c&aacute;c giải ph&aacute;p đ&oacute; trong qu&aacute; tr&igrave;nh đ&agrave;o tạo.</p> <h2 style="text-align: justify;">Con người vs m&aacute;y m&oacute;c</h2> <p style="text-align: justify;">Sử dụng c&aacute;c biểu diễn c&oacute; sẵn của con người sẽ l&agrave; tốn k&eacute;m v&agrave; ch&uacute;ng ta cần c&oacute; sự tham gia của chuy&ecirc;n gia để c&oacute; thể lấp đầy c&aacute;c lỗ hổng. C&oacute; những t&igrave;nh huống m&agrave; m&aacute;y t&iacute;nh c&oacute; thể lập kế hoạch h&agrave;nh động tốt hơn. Bằng c&aacute;ch lấy mẫu dữ liệu cục bộ, th&ocirc;ng tin sẽ bổ sung cho m&aacute;y t&iacute;nh x&aacute;c định m&ocirc; h&igrave;nh cục bộ v&agrave; vấn đề được tốt hơn. N&oacute; c&oacute; thể tạo ra c&aacute;c quyết định cục bộ thậm ch&iacute; c&oacute; thể tốt hơn con người. Nhưng c&aacute;c giải ph&aacute;p n&agrave;y kh&ocirc;ng đem lại t&iacute;nh tổng qu&aacute;t h&oacute;a một c&aacute;ch tốt nhất v&agrave; dễ bị ảnh hưởng bởi những thay đổi của c&aacute;c yếu tố kh&aacute;ch quan v&agrave; kh&ocirc;ng mang lại kết quả một c&aacute;ch thống nhất. Ngo&agrave;i ra, c&aacute;c quyết định cục bộ c&oacute; thể bị sai lệch, bị thi&ecirc;n vị hơn v&agrave; những sai s&oacute;t ng&agrave;y c&agrave;ng nhiều. C&aacute;ch khắc phục c&oacute; thể l&agrave; nằm ở giải ph&aacute;p học s&acirc;u (DL). Với việc đ&agrave;o tạo ph&ugrave; hợp, DL l&agrave;m rất tốt trong việc tr&iacute;ch xuất c&aacute;c m&ocirc; h&igrave;nh mẫu chung v&agrave; loại bỏ c&aacute;c th&ocirc;ng tin nhiễu hay kh&ocirc;ng c&oacute; &yacute; nghĩa g&igrave; cả. Nếu ch&uacute;ng ta c&oacute; thể lập chiến lược đ&agrave;o tạo tốt, ch&uacute;ng ta c&oacute; thể c&oacute; một chiến thuật tốt bằng c&aacute;ch bắt chước c&aacute;c thao t&aacute;c điều khiển do m&aacute;y t&iacute;nh lập tr&igrave;nh ra. Ngay cả h&agrave;nh động được lấy mẫu ri&ecirc;ng lẻ c&oacute; thể kh&ocirc;ng ho&agrave;n hảo, th&ocirc;ng qua DL, ch&uacute;ng ta c&oacute; thể t&igrave;m thấy m&ocirc; h&igrave;nh chung trong việc giải quyết c&aacute;c vấn đề một c&aacute;ch tổng thể.</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6280 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-131.png" alt="Hoc-tang-cuong" width="975" height="554" /></p> <p style="text-align: center;"><a href="https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html">Nguồn</a></p> <p style="text-align: justify;">Một trong những phương ph&aacute;p đ&oacute; l&agrave; tự đ&agrave;o tạo hay tự học. Với sự tương t&aacute;c của con người, việc thu thập một số lượng lớn c&aacute;c mẫu trở n&ecirc;n tiết kiệm hơn. Với khối lượng mẫu khổng lồ n&agrave;y, ch&uacute;ng ta c&oacute; thể kh&aacute;m ph&aacute; ra c&aacute;c quy tắc cơ bản trong việc thực hiện nhiệm vụ. Khi tr&igrave;nh b&agrave;y c&aacute;c mục ti&ecirc;u, ch&uacute;ng ta sẽ sử dụng kiến ​​thức c&ugrave;ng với việc lập kế hoạch để ho&agrave;n th&agrave;nh c&aacute;c nhiệm vụ.</p> <p style="text-align: justify;">Trong qu&aacute; tr&igrave;nh đ&agrave;o tạo, ch&uacute;ng ta c&oacute; thể t&ugrave;y &yacute; đưa ra mục ti&ecirc;u cho c&aacute;c c&aacute;nh tay robot c&oacute; thể thực hiện được. Mục ti&ecirc;u n&agrave;y kh&ocirc;ng nhất thiết phải giống với mục ti&ecirc;u cuối c&ugrave;ng của ch&uacute;ng ta, mục ti&ecirc;u m&agrave; đ&ograve;i hỏi cần c&oacute; sự tham gia của con người để thực hiện bởi điều n&agrave;y sẽ l&agrave;m ảnh hưởng đến tiến độ tự đ&agrave;o tạo v&agrave; giảm lượng dữ liệu c&oacute; thể thu thập được. Do đ&oacute;, ch&uacute;ng ta c&oacute; thể đưa ra c&aacute;c mục ti&ecirc;u dễ hơn cho c&aacute;c c&aacute;nh tay tự đ&agrave;o tạo hay tự học. Hoặc đơn giản l&agrave; thử c&aacute;c h&agrave;nh động b&aacute;n ngẫu nhi&ecirc;n đ&atilde; được lập tr&igrave;nh trước. Khi trẻ em học đủ c&aacute;c kỹ năng cơ bản, ch&uacute;ng c&oacute; thể sử dụng c&aacute;c kỹ năng đ&atilde; được học v&agrave; th&ocirc;ng qua việc lập kế hoạch để giải quyết c&aacute;c vấn đề phức tạp hơn.</p> <p style="text-align: justify;">Một phương ph&aacute;p kh&aacute;c l&agrave; đ&agrave;o tạo robot với sự biểu diễn c&oacute; sự tham gia của con người một c&aacute;ch cụ thể v&agrave; c&oacute; t&iacute;nh kỹ thuật ở mức tối thiểu. Quan trọng hơn, điều n&agrave;y đưa ra c&aacute;c minh chứng c&oacute; sự tương t&aacute;c của con người m&agrave; ch&uacute;ng ta c&oacute; thể sử dụng để ph&aacute;t triển m&ocirc; h&igrave;nh trong phương ph&aacute;p học dựa tr&ecirc;n m&ocirc; h&igrave;nh (Model-based learning) hoặc c&aacute;c h&agrave;m phần thưởng (Reward function) trong học tăng cường ngược (Inverse reinforcement learning).</p> <h2 style="text-align: justify;">Học tăng cường ngược</h2> <p style="text-align: justify;">Việc đặt ra mục ti&ecirc;u l&agrave; rất quan trọng đối với bất kỳ c&ocirc;ng việc n&agrave;o. Nhưng nếu đặt ra mục ti&ecirc;u vượt qu&aacute; giới hạn th&igrave; sẽ kh&ocirc;ng thể thực hiện được. Nếu dưới mức khả năng c&oacute; thể, th&igrave; sẽ kh&ocirc;ng c&oacute; được tầm nh&igrave;n bao qu&aacute;t. H&atilde;y sử dụng tr&ograve; chơi GO l&agrave;m v&iacute; dụ. Trong học tăng cường, ch&uacute;ng ta sử dụng kết quả cuối c&ugrave;ng của tr&ograve; chơi l&agrave;m phần thưởng duy nhất. Sẽ cực kỳ kh&oacute; để t&igrave;m được th&ocirc;ng tin v&agrave; t&igrave;m ra c&aacute;c chuỗi h&agrave;nh động n&agrave;o c&oacute; lợi nhất cho ch&uacute;ng ta. Đối với c&aacute;c nh&agrave; v&ocirc; địch GO, họ thiết lập c&aacute;c vị tr&iacute; trung gian để c&oacute; thể đạt được. Kh&ocirc;ng chỉ trong học tăng cường m&agrave; c&ograve;n trong cuộc sống cũng vậy, th&agrave;nh c&ocirc;ng hay kh&ocirc;ng sẽ phụ thuộc v&agrave;o việc ch&uacute;ng ta ph&acirc;n chia mục ti&ecirc;u của m&igrave;nh th&agrave;nh những mục ti&ecirc;u cụ thể v&agrave; nhỏ hơn như thế n&agrave;o để c&oacute; thể đo lường được sự tiến bộ một c&aacute;ch ch&iacute;nh x&aacute;c.</p> <p style="text-align: justify;">Về mặt kỹ thuật m&agrave; n&oacute;i, n&oacute; c&oacute; nghĩa l&agrave; h&igrave;nh dạng của h&agrave;m phần thưởng l&agrave; rất quan trọng. H&atilde;y xem x&eacute;t hai h&agrave;m chi ph&iacute; b&ecirc;n dưới, h&agrave;m b&ecirc;n tr&ecirc;n kh&ocirc;ng c&oacute; hướng để c&oacute; thể t&igrave;m kiếm. Trừ khi ch&uacute;ng ta ở gần điểm tối ưu, bất kỳ bước đi n&agrave;o cũng sẽ kh&ocirc;ng l&agrave;m thay đổi gi&aacute; trị chi ph&iacute; hoặc mất m&aacute;t. Trong trường hợp n&agrave;y, kh&ocirc;ng c&oacute; phương ph&aacute;p tối ưu n&agrave;o tốt hơn l&agrave; việc t&igrave;m kiếm hướng đi một c&aacute;ch ngẫu nhi&ecirc;n.</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6283 size-medium" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-132-300x91.png" alt="Hoc-tang-cuong" width="300" height="91" /><img class="aligncenter wp-image-6284 size-medium" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-133-300x124.png" alt="Hoc-tang-cuong" width="300" height="124" /></p> <p style="text-align: justify;">H&agrave;m chi ph&iacute; ở b&ecirc;n dưới c&oacute; đưa ra c&aacute;c chỉ dẫn c&oacute; &iacute;ch cho ch&uacute;ng ta t&igrave;m kiếm điểm tối ưu. Ch&uacute;ng ta sẽ phải t&igrave;m ra một m&ocirc; h&igrave;nh hoặc tối ưu được một chiến thuật sao cho đạt được mục ti&ecirc;u tr&ecirc;n. Ngo&agrave;i ra, ch&uacute;ng ta sẽ phải thực hiện việc tạo thủ c&ocirc;ng c&aacute;c đặc điểm để t&iacute;nh to&aacute;n c&aacute;c h&agrave;m phần thưởng đ&atilde; được t&ugrave;y chỉnh. Tuy nhi&ecirc;n, giải ph&aacute;p n&agrave;y sẽ kh&ocirc;ng c&oacute; khả năng mở rộng th&ecirc;m được.</p> <p style="text-align: justify;">Giải ph&aacute;p của ch&uacute;ng ta c&oacute; thể lại phải l&agrave; sử dụng học s&acirc;u. Ch&uacute;ng ta c&oacute; thể sử dụng n&oacute; để t&igrave;m hiểu c&aacute;c h&agrave;m phần thưởng th&ocirc;ng qua sự biểu diễn c&oacute; sự tham gia của con người. Ch&uacute;ng ta hy vọng rằng c&aacute;c hệ thống mạng học s&acirc;u c&oacute; thể nắm bắt được c&aacute;c quy tắc phức tạp một c&aacute;ch tốt hơn.</p> <p style="text-align: justify;">Trong Inverse RL, ch&uacute;ng ta sử dụng phần thưởng để t&iacute;nh to&aacute;n khả năng xảy ra của một chuỗi h&agrave;nh động. Khả năng xảy ra của một chuỗi h&agrave;nh động được định nghĩa như sau:</p> <p style="text-align: justify;">[latexpage]\[p(\tau)=\frac{exp(R_{\psi }(\tau))}{\int exp(R_{\psi }(\tau))d\tau}\]</p> <p style="text-align: justify;">Trong đ&oacute;:</p> <ul style="text-align: justify;"> <li>[latexpage]$exp(R_{\psi }(\tau))$ l&agrave; khả năng xảy ra của một đường quỹ đạo</li> <li>[latexpage]$R_{\psi }(\tau)$ l&agrave; phần thưởng đo&aacute;n trước từ mạng học s&acirc;u</li> <li>[latexpage]$\int exp(R_{\psi }(\tau))d\tau$ l&agrave; khả năng xảy ra của tất cả đường quỹ đạo</li> </ul> <p style="text-align: justify;">Phần thưởng c&agrave;ng cao th&igrave; khả năng ra quyết định đ&oacute; c&agrave;ng cao. Để m&ocirc; h&igrave;nh h&oacute;a h&agrave;m phần thưởng, ch&uacute;ng ta đ&agrave;o tạo một m&ocirc; h&igrave;nh mạng học s&acirc;u như b&ecirc;n dưới để dự đo&aacute;n n&oacute;. Để đ&agrave;o tạo m&ocirc; h&igrave;nh, ch&uacute;ng ta sẽ x&aacute;c định mục ti&ecirc;u trong việc tối đa h&oacute;a c&aacute;c khả năng xảy ra của c&aacute;c h&agrave;nh động biểu diễn c&oacute; sự tham gia của con người.</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6285 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-134.png" alt="Hoc-tang-cuong" width="946" height="384" /></p> <p style="text-align: justify;">Nhưng việc t&iacute;nh to&aacute;n khả năng xảy ra của tất cả c&aacute;c quỹ đạo trong mẫu số dưới đ&acirc;y l&agrave; rất kh&oacute;.</p> <p style="text-align: justify;">[latexpage]\[p(\tau)=\frac{exp(R_{\psi }(\tau))}{\int exp(R_{\psi }(\tau))d\tau}\]</p> <p style="text-align: justify;">Nhưng hầu hết c&aacute;c quỹ đạo đều c&oacute; phần thưởng l&agrave; kh&ocirc;ng đ&aacute;ng kể. V&igrave; vậy, mẫu số c&oacute; thể được t&iacute;nh gần đ&uacute;ng bằng c&aacute;ch sử dụng c&aacute;c quỹ đạo c&oacute; khả năng xảy ra nhiều nhất. (C&aacute;c bạn c&oacute; thể xem th&ecirc;m về ph&acirc;n phối chuẩn hay ph&acirc;n phối Gaussian tại <a href="https://vi.wikipedia.org/wiki/Ph%C3%A2n_ph%E1%BB%91i_chu%E1%BA%A9n#:~:text=Ph%C3%A2n%20ph%E1%BB%91i%20chu%E1%BA%A9n%2C%20c%C3%B2n%20g%E1%BB%8Di,(ph%C6%B0%C6%A1ng%20sai%20%CF%832).">đ&acirc;y</a>)</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6286 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-135.png" alt="" width="1000" height="388" /></p> <p style="text-align: justify;">H&atilde;y xem c&aacute;ch m&agrave; ch&uacute;ng ta đ&agrave;o tạo chiến thuật v&agrave; h&agrave;m phần thưởng trong từng c&aacute;c bước sau:</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6287 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-136.png" alt="" width="1060" height="423" /></p> <p style="text-align: justify;">Với một h&agrave;m phần thưởng cho trước (tr&ecirc;n c&ugrave;ng b&ecirc;n tr&aacute;i), ch&uacute;ng ta c&oacute; thể tinh chỉnh một chiến thuật bằng c&aacute;ch sử dụng phương ph&aacute;p policy gradient. Sau đ&oacute;, ch&uacute;ng ta sử dụng chiến thuật mới để tạo ra c&aacute;c đường đi quỹ đạo mới v&agrave; sử dụng ch&uacute;ng để ước lượng mẫu số tốt hơn. Tiếp theo, ch&uacute;ng ta t&iacute;nh to&aacute;n gradient của khả năng xảy ra c&aacute;c h&agrave;nh động c&oacute; sự tương t&aacute;c của con người.</p> <p style="text-align: justify;">[latexpage]\[\triangledown _{\psi }p(\tau)\]</p> <p style="text-align: justify;">Với h&agrave;m Gradient cho phần thưởng, ch&uacute;ng ta sẽ cập nhật h&agrave;m phần thưởng được tham số h&oacute;a bởi &psi; để tăng khả năng h&agrave;nh động c&oacute; sự tương t&aacute;c của con người bằng c&aacute;ch sử dụng Gradient ascent. Ch&uacute;ng ta thực hiện quy tr&igrave;nh n&agrave;y lặp đi lặp lại để cải thiện m&ocirc; h&igrave;nh phần thưởng v&agrave; chiến thuật theo từng bước một. T&oacute;m lại, với h&agrave;m phần thưởng tốt hơn, ch&uacute;ng ta sẽ c&oacute; được chiến thuật tốt hơn. Với chiến thuật tốt hơn, ch&uacute;ng ta sẽ t&iacute;nh to&aacute;n được Gradient ch&iacute;nh x&aacute;c hơn để cải thiện h&agrave;m phần thưởng.</p> <h2 style="text-align: justify;">Mạng GAN</h2> <p style="text-align: justify;">Tr&ecirc;n thực tế, ch&uacute;ng ta c&oacute; thể xem học tăng cường ngược từ g&oacute;c nh&igrave;n của mạng GAN. Chiến thuật của ch&uacute;ng ta tạo ra c&aacute;c đường quỹ đạo. Đ&acirc;y ch&iacute;nh l&agrave; bộ phận khởi tạo GAN (GAN Generator). H&agrave;m phần thưởng hoạt động như một bộ ph&acirc;n biệt sử dụng ph&eacute;p đo phần thưởng để ph&acirc;n biệt giữa c&aacute;c h&agrave;nh động c&oacute; sự tương t&aacute;c của con người v&agrave; c&aacute;c quỹ đạo được tạo từ chiến thuật.</p> <p style="text-align: justify;">Trong GAN, ch&uacute;ng ta đ&agrave;o tạo cả bộ phận ph&acirc;n biệt v&agrave; bộ khởi tạo theo từng bước một. Với GAN, ch&uacute;ng ta học c&aacute;ch tạo quỹ đạo gần giống với c&aacute;c biểu diễn c&oacute; sự tham gia của con người.</p> <h2 style="text-align: justify;">C&aacute;c phương ph&aacute;p cải tiến</h2> <p style="text-align: justify;">Ch&uacute;ng ta đ&atilde; n&oacute;i rằng ch&uacute;ng ta muốn học hiệu quả như con người. C&oacute; lẽ ch&uacute;ng ta n&ecirc;n kiểm tra liệu rằng RL c&oacute; n&ecirc;n tập trung v&agrave;o t&iacute;nh ưu việt của tốc độ t&iacute;nh to&aacute;n của n&oacute; hay kh&ocirc;ng. C&aacute;c phương ph&aacute;p Policy Gradient dễ d&agrave;ng thực hiện 10 triệu lần lặp lại qu&aacute; tr&igrave;nh đ&agrave;o tạo. Tại một điểm n&agrave;o đ&oacute;, ch&uacute;ng ta n&ecirc;n tự hỏi xem sự kh&aacute;c biệt sẽ như n&agrave;o so với việc dự đo&aacute;n ngẫu nhi&ecirc;n.Nếu ch&uacute;ng ta c&oacute; thể thu hẹp khoảng c&aacute;ch bằng c&aacute;ch dự đo&aacute;n một c&aacute;ch th&ocirc;ng minh. V&iacute; dụ, ch&uacute;ng ta c&oacute; thể bắt đầu với một chiến thuật ngẫu nhi&ecirc;n. Ch&uacute;ng ta phỏng đo&aacute;n nhiều lần v&agrave; quan s&aacute;t phần thưởng thu thập được. Ch&uacute;ng ta chọn ra 20% h&agrave;nh động tốt nhất v&agrave; cải thiện c&aacute;c dự đo&aacute;n của ch&uacute;ng ta từ những h&agrave;nh động n&agrave;y. Ch&uacute;ng ta tiếp tục phỏng đo&aacute;n v&agrave; s&agrave;ng lọc. Hy vọng rằng, ch&uacute;ng ta c&oacute; thể t&igrave;m ra chiến thuật tối ưu th&ocirc;ng qua những dự đo&aacute;n th&ocirc;ng minh n&agrave;y. C&aacute;c phương ph&aacute;p n&agrave;y thường c&oacute; c&aacute;c ph&eacute;p t&iacute;nh to&aacute;n cực kỳ đơn giản v&agrave; ch&uacute;ng ta c&oacute; thể thực thi song song c&aacute;c dự đo&aacute;n của m&igrave;nh một c&aacute;ch dễ d&agrave;ng. T&iacute;nh đơn giản v&agrave; t&iacute;nh song song tốt l&agrave;m cho c&aacute;ch tiếp cận n&agrave;y trở n&ecirc;n dễ d&agrave;ng hơn so với c&aacute;c phương ph&aacute;p RL kh&aacute;c.</p> <h1 style="text-align: justify;">T&oacute;m tắt</h1> <p style="text-align: justify;">Đ&acirc;y l&agrave; ảnh t&oacute;m tắt về điểm nhấn của c&aacute;c phương ph&aacute;p học tăng cường kh&aacute;c nhau.</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6288 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-137.png" alt="" width="835" height="416" /></p> <p style="text-align: justify;">Đ&acirc;y l&agrave; h&igrave;nh tương tự với phương ph&aacute;p học bắt chước, học tăng cường ngược v&agrave; c&aacute;c phương ph&aacute;p cải tiến.</p> <p style="text-align: justify;"><img class="aligncenter wp-image-6289 size-full" src="https://tek4.vn/wp-content/uploads/2020/11/Capture-138.png" alt="" width="1010" height="380" /></p> <p style="text-align: justify;">Như đ&atilde; đề cập, c&aacute;c phương ph&aacute;p RL sẽ kh&ocirc;ng loại trừ lẫn nhau. Ch&uacute;ng ta c&oacute; thể kết hợp ch&uacute;ng lại với nhau. V&iacute; dụ: Actor-critic kết hợp với Policy Gradient với Value-learning v&agrave; Guided Policy Search kết hợp với Model-based c&ugrave;ng Value-learning.</p> <p style="text-align: justify;">Như vậy, ch&uacute;ng ta đ&atilde; đi qua c&aacute;c phương ph&aacute;p học bắt chước, học tăng cường ngược v&agrave; c&aacute;c phương ph&aacute;p cải tiến. Trong phần sau, ch&uacute;ng ta sẽ n&oacute;i chi tiết về một số th&aacute;ch thức, giải ph&aacute;p khả thi v&agrave; xu hướng trong học tăng cường, RL. Đặc biệt, ch&uacute;ng ta sẽ thảo luận về c&aacute;ch kh&aacute;m ph&aacute; tốt hơn, c&aacute;ch học tốt hơn v&agrave; c&aacute;ch dự đo&aacute;n.</p> <p style="text-align: justify;">P/s: Mong mọi người lu&ocirc;n ủng hộ <a href="http://tek4.vn">tek4</a> nh&eacute;!</p> <hr /> <p style="text-align: center;"><em><strong>Fanpage Facebook:</strong>&nbsp;<a href="https://www.facebook.com/tek4.vn/">TEK4.VN</a></em>&nbsp;</p> <p style="text-align: center;"><em><strong>Tham gia cộng đồng để chia sẻ, trao đổi v&agrave; thảo luận:</strong>&nbsp;<a href="https://www.facebook.com/groups/tek4.vn/">TEK4.VN - Học Lập Tr&igrave;nh Miễn Ph&iacute;</a></em></p>