tek4

Thuật Ngữ Trong Học Tăng Cường

by - September. 21, 2021
Kiến thức
<p>Thuật ngữ trong học tăng cường đ&atilde; được đề cập rất nhiều trong c&aacute;c b&agrave;i trước, tuy nhi&ecirc;n vẫn c&ograve;n một số thuật ngữ chưa được hiểu r&otilde; r&agrave;ng. Do đ&oacute;, trong b&agrave;i viết n&agrave;y, ta sẽ c&ugrave;ng đề cập đến một số thuật ngữ trong học tăng cường (RL).</p> <p>Học tăng cường l&agrave; một qu&aacute; tr&igrave;nh quan s&aacute;t m&ocirc;i trường v&agrave; thực hiện c&aacute;c h&agrave;nh động để nhằm tối đa h&oacute;a phần thưởng. N&oacute; li&ecirc;n quan đến c&aacute;c thuật ngữ như thăm d&ograve;, khai th&aacute;c, thử nghiệm, thực hiện v&agrave; sửa lỗi, phần thưởng tr&igrave; ho&atilde;n, m&ocirc; h&igrave;nh hệ thống v&agrave; x&aacute;c định mục ti&ecirc;u.</p> <h1>Thực thể</h1> <p>Thực thể, hay Agent, l&agrave; một hệ thống (V&iacute; dụ như Robot) tương t&aacute;c với m&ocirc;i trường v&agrave; thực hiện h&agrave;nh động dựa tr&ecirc;n c&aacute;c quan s&aacute;t từ m&ocirc;i trường đ&oacute;.</p> <h1>Bộ điều khiển</h1> <p>Bộ điều khiển, hay Controller, c&oacute; t&iacute;nh chất giống với thực thể.</p> <h1>Chiến thuật</h1> <p>Một chiến thuật, Policy, định nghĩa c&aacute;ch thức m&agrave; một thực thể thực hiện h&agrave;nh động dựa tr&ecirc;n một trạng th&aacute;i cụ thể. Đối với chiến thuật tất định, n&oacute; l&agrave; một h&agrave;nh động được thực hiện dựa tr&ecirc;n một trạng th&aacute;i cụ thể.</p> <p>$u=\pi_{\theta}(u|s)$</p> <p>Đối với chiến thuật ngẫu nhi&ecirc;n, n&oacute; l&agrave; một gi&aacute; trị x&aacute;c suất để thực hiện một h&agrave;nh động a dựa tr&ecirc;n trạng th&aacute;i s.</p> <p>$p(u|s)=\pi_{\theta}(u|s)$</p> <h1>Phần thưởng</h1> <p>Phần thưởng, hay Reward, r(s,a) l&agrave; phần thưởng nhận được sau khi thực hiện một h&agrave;nh động dựa tr&ecirc;n trạng th&aacute;i s. Mục ti&ecirc;u của ch&uacute;ng ta sẽ l&agrave; tối ưu h&oacute;a tổng số phần thưởng của một chiến thuật. V&iacute; dụ phần thưởng c&oacute; thể l&agrave; điểm số được cộng th&ecirc;m khi chiến thắng trong một tr&ograve; chơi.</p> <h1>Giai đoạn</h1> <p>Giai đoạn, hay Episode, l&agrave; việc thực hiện to&agrave;n bộ một chuỗi c&aacute;c h&agrave;nh động v&agrave; trạng th&aacute;i cho tới khi đạt tới trạng th&aacute;i kết th&uacute;c hoặc thực hiện xong một chuỗi c&aacute;c h&agrave;nh động được giới hạn trước.</p> <h1>H&agrave;m gi&aacute; trị</h1> <p>H&agrave;m gi&aacute; trị, được viết tiếng anh l&agrave; Value Function, của một trạng th&aacute;i V(s) l&agrave; tổng phần thưởng kỳ vọng m&agrave; một thực thể c&oacute; thể nhận được sau khi thực hiện một h&agrave;nh động dựa tr&ecirc;n một trạng th&aacute;i cụ thể cho tới khi hết một Giai đoạn</p> <h1>H&agrave;m gi&aacute; trị của h&agrave;nh động</h1> <p>H&agrave;m gi&aacute; trị h&agrave;nh động, tiếng anh l&agrave; Action-value Function, Q(s,a) l&agrave; tổng phần thưởng kỳ vọng của một h&agrave;nh động từ một trạng th&aacute;i cụ thể cho tới khi hết một giai đoạn</p> <h1>M&ocirc; h&igrave;nh</h1> <p>M&ocirc; h&igrave;nh, tiếng anh l&agrave; Model, sẽ m&ocirc; tả t&igrave;nh trạng m&agrave; m&ocirc;i trường sẽ thay đổi dựa tr&ecirc;n h&agrave;nh động xuất ph&aacute;t từ một trạng th&aacute;i [latexpage]$p(s&rsquo;|a,s)$. M&ocirc; h&igrave;nh c&oacute; thể l&agrave; c&aacute;c th&agrave;nh phần động của hệ thống, quy luật vật l&yacute; hoặc luật chơi của một tr&ograve; chơi. Đối với b&agrave;i to&aacute;n thuộc về m&aacute;y m&oacute;c, th&igrave; n&oacute; l&agrave; c&aacute;c th&agrave;nh phần động của một hệ thống.</p> <h1>Tỷ lệ khấu hao</h1> <p>Tỷ lệ khấu hao, tiếng anh l&agrave; Discount Rate, đo lường mức gi&aacute; trị của c&aacute;c phần thưởng trong tương lai so với gi&aacute; trị hiện tại. Nếu tỷ lệ &lt; 1, c&aacute;c gi&aacute; trị phần thưởng trong tương lai sẽ thấp hơn gi&aacute; trị hiện tại</p> <p>$R_{t+1}+\gamma R_{t+2}+\gamma^{2}R_{t+3}+\gamma^{3}R_{t+4}+...$</p> <h1>Học tăng cường kh&ocirc;ng sử dụng m&ocirc; h&igrave;nh</h1> <p>Trong phương ph&aacute;p học tăng cường n&agrave;y, m&ocirc; h&igrave;nh sẽ c&oacute; thể l&agrave; kh&ocirc;ng được biết hoặc kh&ocirc;ng cần thiết cho vấn đề đặt ra.</p> <h1>Học tăng cường dựa tr&ecirc;n m&ocirc; h&igrave;nh</h1> <p>Ch&uacute;ng ta sẽ sử dụng m&ocirc; h&igrave;nh đ&atilde; biết hoặc một m&ocirc; h&igrave;nh được học để đưa ra c&aacute;c h&agrave;nh động tối ưu nhằm tối đa h&oacute;a số phần thưởng. Hoặc ch&uacute;ng ta sẽ thu thập c&aacute;c h&agrave;nh động đ&atilde; được lấy mẫu để đ&agrave;o tạo một chiến thuật để c&oacute; thể kh&aacute;i qu&aacute;t h&oacute;a cho c&aacute;c nhiệm vụ m&agrave; chưa bao giờ gặp.</p> <h1>Phương ph&aacute;p Monte Carlo</h1> <p>C&aacute;c phương ph&aacute;p Monte Carlo sẽ thực hiện to&agrave;n bộ một giai đoạn ho&agrave;n chỉnh. N&oacute; t&iacute;nh to&aacute;n gi&aacute; trị trung b&igrave;nh của c&aacute;c phần thưởng mẫu từ nhiều giai đoạn để ước t&iacute;nh c&aacute;c h&agrave;m gi&aacute; trị hoặc n&oacute; sử dụng c&aacute;ch t&iacute;nh gi&aacute; trị trung b&igrave;nh như b&ecirc;n dưới để cập nhật lại kết quả.</p> <p>$V(S_{t})\leftarrow V(S_{t})+\alpha[G_{t}-V(S_{t})]$</p> <p>Qu&aacute; tr&igrave;nh kiểm so&aacute;t Monte Carlo</p> <p>Ch&uacute;ng ta sử dụng phương ph&aacute;p Monte Carlo để đ&aacute;nh gi&aacute; h&agrave;m gi&aacute; trị Q của chiến thuật hiện tại v&agrave; t&igrave;m ra phương ph&aacute;p tối ưu bằng c&aacute;ch x&aacute;c định h&agrave;nh động c&oacute; c&aacute;c h&agrave;m gi&aacute; trị Q cao nhất.</p> <p>$\pi(s)=argmax_{a}\;Q(s,a)$</p> <h1>Phương ph&aacute;p Actor-Critic</h1> <p>Phương ph&aacute;p n&agrave;y kết hợp &yacute; tưởng của phương ph&aacute;p Policy Gradient v&agrave; phương ph&aacute;p Học gi&aacute; trị. Ch&uacute;ng ta sẽ tối ưu h&oacute;a Actor dựa tr&ecirc;n Policy Gradient để đưa ra c&aacute;c h&agrave;nh động dựa tr&ecirc;n việc quan s&aacute;t. Tuy nhi&ecirc;n, Policy Gradient thường c&oacute; phương sai Gradient cao, điều n&agrave;y ảnh hưởng tới qu&aacute; tr&igrave;nh hội tụ. Do đ&oacute;, ch&uacute;ng ta đưa ra Critic để đ&aacute;nh gi&aacute; một tập hợp đường quỹ đạo. Critic sẽ tận dụng c&aacute;c kinh nghiệm được lấy mẫu v&agrave; c&aacute;c kỹ thuật để l&agrave;m giảm phương sai. Điều n&agrave;y sẽ gi&uacute;p cho Actor được đ&agrave;o tạo v&agrave; đảm bảo qu&aacute; tr&igrave;nh hội tụ tốt hơn.</p> <h1>Phương ph&aacute;p Policy Gradient</h1> <p>Ch&uacute;ng ta sẽ điều chỉnh chiến thuật nhằm l&agrave;m cho c&aacute;c h&agrave;nh động, dẫn tới c&aacute;c gi&aacute; trị phần thưởng kỳ vọng lớn, c&oacute; khả năng x&aacute;c suất xảy ra cao hơn.</p> <h1>Phương ph&aacute;p Natural Policy Gradient</h1> <p>Phương ph&aacute;p n&agrave;y giống với Policy Gradient, tuy nhi&ecirc;n, n&oacute; sử dụng ph&eacute;p tối ưu h&oacute;a bậc hai, c&oacute; t&iacute;nh ch&iacute;nh x&aacute;c v&agrave; độ phức tạp cao hơn so với phương ph&aacute;p Policy Gradient, sử dụng ph&eacute;p tối ưu h&oacute;a bậc 1.</p> <h1>Hiệu quả lấy mẫu</h1> <p>Đo lường số lượng dữ liệu mẫu cần c&oacute; để tối ưu h&oacute;a hoặc t&igrave;m ra được giải ph&aacute;p. C&aacute;c nhiệm vụ đ&ograve;i hỏi qu&aacute; tr&igrave;nh m&ocirc; phỏng vật l&yacute; sẽ rất tốn k&eacute;m, do vậy hiệu quả lấy mẫu l&agrave; yếu tố quan trọng để chọn ra c&aacute;c giải thuật học tăng cường.</p> <h1>On Policy&nbsp;v&agrave; Off Policy Learning</h1> <p>Trong On Policy Learning, ch&uacute;ng ta sẽ tối ưu h&oacute;a chiến thuật hiện tại v&agrave; sử dụng n&oacute; để quyết định v&ugrave;ng kh&ocirc;ng gian v&agrave; c&aacute;c h&agrave;nh động n&agrave;o cần phải d&ograve; t&igrave;m v&agrave; thực hiện việc lấy mẫu. V&igrave; chiến thuật hiện tại kh&ocirc;ng được tối ưu h&oacute;a trong qu&aacute; tr&igrave;nh Training ban đầu, do đ&oacute; một chiến thuật ngẫu nhi&ecirc;n sẽ cho ph&eacute;p việc d&ograve; t&igrave;m theo c&aacute;ch kh&aacute;c</p> <p>Off Policy&nbsp;cho ph&eacute;p sử dụng một chiến thuật thứ 2. Chiến thuật n&agrave;y được sử dụng để cải thiện c&aacute;ch thức m&agrave; qu&aacute; tr&igrave;nh thăm d&ograve; được thực hiện. Mục đ&iacute;ch ch&iacute;nh l&agrave; để thu thập c&aacute;c mẫu. Off-Policy đưa ra nhiều thao t&aacute;c kiểm so&aacute;t c&aacute;ch thức m&agrave; ch&uacute;ng ta d&ograve; t&igrave;m c&aacute;c mẫu chưa biết v&agrave; cho ph&eacute;p việc sử dụng c&aacute;c mẫu cũ trong qu&aacute; tr&igrave;nh t&iacute;nh to&aacute;n. Phương ph&aacute;p Off Policy cải thiện tốt hơn hiệu quả lấy mẫu bởi ch&uacute;ng ta sẽ kh&ocirc;ng cần phải thu thập lại c&aacute;c mẫu mỗi khi chiến thuật thay đổi</p> <h1>Markov Decision Process (MDP)</h1> <p>$(S,A,P_{a},R_{a},\gamma)$</p> <p>N&oacute; bao gồm c&aacute;c trạng th&aacute;i, h&agrave;nh động, m&ocirc; h&igrave;nh P, c&aacute;c phần thưởng v&agrave; hệ số khấu hao. Mục ti&ecirc;u của ch&uacute;ng ta l&agrave; t&igrave;m ra chiến thuật tối đa ho&aacute;c c&aacute;c phần thưởng kỳ vọng.</p> <h1>Partially Observable Markov Decision Process</h1> <p>Kh&ocirc;ng phải tất cả c&aacute;c trạng th&aacute;i đều c&oacute; thể quan s&aacute;t được. Nếu c&oacute; đủ dữ liệu về c&aacute;c trạng th&aacute;i, ch&uacute;ng ta c&oacute; thể t&iacute;nh được MDP bằng c&aacute;ch sử dụng c&aacute;c trạng th&aacute;i ch&uacute;ng ta c&oacute; $(\pi (s))$. Mặt kh&aacute;c, ch&uacute;ng ta sẽ phải c&oacute; được chiến thuật dựa tr&ecirc;n c&aacute;c quan s&aacute;t c&oacute; thể quan s&aacute;t$(\pi (o))$</p> <p>Trong đ&oacute;:</p> <ul> <li>$s_{t}$ l&agrave; trạng th&aacute;i.</li> <li>$o_{t}$ l&agrave; c&aacute;c quan s&aacute;t.</li> <li>$a_{t}$ l&agrave; h&agrave;nh động.</li> <li>$\pi_{\theta}(a_{t}|o_{t})$ l&agrave; chiến thuật.</li> <li>$\pi_{\theta}(a_{t}|s_{t})$ l&agrave; chiến thuật (Được quan s&aacute;t to&agrave;n diện).</li> </ul> <p><img style="width: 100%;" src="http://tek4vn.2soft.top/public_files/1-png-2" alt="1" /></p> <h1>Dự đo&aacute;n</h1> <p>Dự đo&aacute;n (Prediction) c&aacute;c trạng th&aacute;i tiếp theo khi thực hiện một h&agrave;nh động cụ thể.</p> <h1>Temporal-Difference Learning (TD)</h1> <p>Thay v&igrave; phải ho&agrave;n th&agrave;nh to&agrave;n bộ một giai đoạn như phương ph&aacute;p Monte Carlo.</p> <p>$V(S_{t})\leftarrow V(S_{t})+\alpha[G_{t}-V(S_{t})]$</p> <p>Ch&uacute;ng ta sẽ chỉ thực hiện k bước v&agrave; thu thập c&aacute;c phần thưởng. Ch&uacute;ng ta t&iacute;nh h&agrave;m gi&aacute; trị dựa tr&ecirc;n c&aacute;c phần thưởng c&oacute; được v&agrave; h&agrave;m gi&aacute; trị sau k bước. C&ocirc;ng thức dưới đ&acirc;y l&agrave; TD Learning thực hiện&nbsp;1 bước. Ch&uacute;ng ta t&igrave;m được phần thưởng ngay sau khi thực hiện một h&agrave;nh động. C&ocirc;ng thức b&ecirc;n dưới l&agrave; gi&aacute; trị trung b&igrave;nh cho h&agrave;m V sử dụng TD.</p> <p>$V(S_{t})\leftarrow V(S_{t})+\alpha\left [ R_{t+1}+\gamma V(S_{t+1})-V(S_{t}) \right ]$</p> <h1>Lập kế hoạch</h1> <p>Ch&uacute;ng ta sử dụng m&ocirc; h&igrave;nh để tạo ra c&aacute;c kinh nghiệm được m&ocirc; phỏng v&agrave; sử dụng để tối ưu lại c&aacute;c h&agrave;m gi&aacute; trị hoặc chiến thuật.</p> <p><img style="width: 100%;" src="http://tek4vn.2soft.top/public_files/2-png" alt="2" /></p> <p><img style="width: 100%;" src="http://tek4vn.2soft.top/public_files/3-png" alt="3" /></p> <p>Sự kh&aacute;c biệt giữa việc học v&agrave; lập kế hoạch l&agrave; một thứ th&igrave; từ kinh nghiệm thực tế kh&aacute;ch quan m&agrave; ra v&agrave; một thứ l&agrave; từ kinh nghiệm được m&ocirc; phỏng bởi một m&ocirc; h&igrave;nh.</p> <h1>M&ocirc; h&igrave;nh tuyến t&iacute;nh được th&ecirc;m nhiễu Gaussian</h1> <p>Trạng th&aacute;i tiếp theo l&agrave; một ph&acirc;n phối Gauss c&ugrave;ng với một gi&aacute; trị trung b&igrave;nh được t&iacute;nh từ m&ocirc; h&igrave;nh động tuyến t&iacute;nh.</p> <p>$p(x_{t+1}|x_{t},u_{t})=\mathcal{N}(f(x_{t},u_{t}),\Sigma)$</p> <p>$f(x_{t},u_{t})\approx A_{t}x_{t}+B_{t}u_{t}$</p> <h1>Q-Learning</h1> <p>Ch&uacute;ng ta sẽ học h&agrave;m gi&aacute; trị Q bằng c&aacute;ch thực hiện một h&agrave;nh động trước ti&ecirc;n (dựa theo một chiến thuật v&iacute; dụ như giải thuật Epsilon-greedy) v&agrave; quan s&aacute;t phần thưởng R. Sau đ&oacute;, ch&uacute;ng ta x&aacute;c định h&agrave;nh động tiếp theo với h&agrave;m gi&aacute; trị Q tốt nhất.</p> <p>H&agrave;m gi&aacute; trị Q được học dựa theo c&ocirc;ng thức sau:</p> <p>$Q_{k+1}(s,a)=\mathbb{E}\left [ R_{t+1}+\gamma max_{a'}Q_{k}(S_{t+1},a')|S_{t}=s,A_{t}=a \right ]$</p> <h1>Linear Gaussian Controller</h1> <p>Thực hiện lấy mẫu h&agrave;nh động từ một ph&acirc;n phối Gaussian c&ugrave;ng với gi&aacute; trị trung b&igrave;nh được t&iacute;nh từ m&ocirc; h&igrave;nh tuyến t&iacute;nh.</p> <p>$p(u_{t}|x_{t})=\mathcal{N}(K_{t}(x_{t}-\widehat{x}_{t})+k_{t}+\widehat{u}_{t},\Sigma_{t})$</p> <h1>Linear Gaussian Dynamics</h1> <p>Trạng th&aacute;i tiếp theo được lập m&ocirc; h&igrave;nh từ một ph&acirc;n phối Gaussian sử dụng m&ocirc; h&igrave;nh tuyến t&iacute;nh</p> <p>$p(x_{t+1}|x_{t},u_{t})=\mathcal{N}(f_{xt}x_{t}+f_{ut}u_{t}+f_{ct},F_{t})$</p> <h1>Tối ưu h&oacute;a đường quỹ đạo</h1> <p>T&igrave;m ra một chuỗi c&aacute;c trạng th&aacute;i v&agrave; h&agrave;nh động tốt nhất nhằm giảm thiểu h&oacute;a h&agrave;m chi ph&iacute; (Cost function).</p> <p>Tối thiểu h&oacute;a hệ số p trong hệ số $E_{p(\tau)}[l(\tau)]$</p> <p>Trong đ&oacute;:</p> <ul> <li>$\tau = {x_{1},u_{1},...,x_{T},u_{T}}$</li> <li>$l(\tau)=\sum_{t=1}^{T}l(x_{t},u_{t})$</li> <li>$p(\tau)=p(x_{1})\prod _{t=1}^{T}p(x_{t+1}|x_{t},u_{t})p(u_{t}|x_{t})$</li> </ul> <p>V&agrave;:</p> <ul> <li>$p(x_{t+1}|x_{t},u_{t})$ l&agrave; ph&acirc;n phối cho c&aacute;c th&agrave;nh phần động.</li> <li>$p(u_{t}|x_{t})$ l&agrave; bộ điều khiển.</li> </ul> <h1>M&ocirc; h&igrave;nh v&ograve;ng lặp hở</h1> <p>Ch&uacute;ng ta thực hiện quan s&aacute;t trạng th&aacute;i ban đầu của m&ocirc; h&igrave;nh v&agrave; từ đ&oacute; đưa ra c&aacute;c h&agrave;nh động nhằm tối thiểu h&oacute;a h&agrave;m chi ph&iacute;.</p> <h1>M&ocirc; h&igrave;nh v&ograve;ng lặp đ&oacute;ng</h1> <p>Ch&uacute;ng ta thực hiện quan s&aacute;t trạng th&aacute;i ban đầu của m&ocirc; h&igrave;nh v&agrave; từ đ&oacute; đưa ra c&aacute;c h&agrave;nh động. Tuy nhi&ecirc;n trong qu&aacute; tr&igrave;nh thực hiện, ch&uacute;ng ta sẽ quan s&aacute;t trạng th&aacute;i tiếp theo v&agrave; điều chỉnh lại c&aacute;c h&agrave;nh động. Đối với m&ocirc; h&igrave;nh ngẫu nhi&ecirc;n, ch&uacute;ng ta c&oacute; thể điều chỉnh lại kết quả dựa tr&ecirc;n nhưng thứ đ&atilde; xảy ra. V&igrave; vậy, m&ocirc; h&igrave;nh v&ograve;ng lặp đ&oacute;ng c&oacute; thể được tối ưu h&oacute;a tốt hơn m&ocirc; h&igrave;nh v&ograve;ng lặp hở.</p> <h1>C&aacute;c phương ph&aacute;p điều hướng</h1> <p>Tối ưu h&oacute;a đường quỹ đạo dựa tr&ecirc;n m&ocirc; h&igrave;nh v&ograve;ng lặp hở. Quan s&aacute;t trạng th&aacute;i ban đầu v&agrave; tối ưu c&aacute;c h&agrave;nh động tương ứng.</p> <p>$min_{u_{1},..,u_{T}}\;c(x_{1},u_{1})+c(f(x_{1},u_{1}),u_{2})+...+c(f(f(...)...),u_{T})$</p> <p><img style="width: 100%;" src="http://tek4vn.2soft.top/public_files/4-png" alt="4" /></p> <p>Đối với m&ocirc; h&igrave;nh ngẫu nhi&ecirc;n, điều n&agrave;y l&agrave; kh&ocirc;ng tối ưu bởi ch&uacute;ng ta kh&ocirc;ng điều chỉnh lại c&aacute;c h&agrave;nh động dựa tr&ecirc;n c&aacute;c trạng th&aacute;i được quan s&aacute;t m&agrave; ch&uacute;ng ta đ&atilde; thay đổi.</p> <h1>C&aacute;c phương ph&aacute;p sắp xếp</h1> <p>Tối ưu h&oacute;a quỹ đạo dựa tr&ecirc;n m&ocirc; h&igrave;nh v&ograve;ng lặp k&iacute;n, m&agrave; ch&uacute;ng ta thực hiện c&aacute;c h&agrave;nh động dựa tr&ecirc;n c&aacute;c trạng th&aacute;i quan s&aacute;t được. Ch&uacute;ng ta thay đổi c&aacute;c h&agrave;nh động v&agrave; trạng th&aacute;i trong việc tối ưu h&oacute;a h&agrave;m chi ph&iacute;.</p> <p>$min_{u_{1},...,u_{T},x_{1}...x_{T}}\;\sum_{t=1}^{T}c(x_{t},u_{t})\;s.t\;\;x_{t}=f(x_{t-1},u_{t-1})$</p> <h1>Học bắt chước</h1> <p>Bắt chước những g&igrave; m&agrave; một người thực hiện. Một người thực hiện c&oacute; thể tạo ra c&aacute;c mẫu đảm bảo đ&uacute;ng chất lượng v&agrave; ch&iacute;nh x&aacute;c để m&ocirc; h&igrave;nh c&oacute; thể học được v&agrave; kh&aacute;i qu&aacute;t h&oacute;a tổng thể.</p> <h1>Học tăng cường nghịch đảo</h1> <p>Cố gắng lập m&ocirc; h&igrave;nh cho h&agrave;m phần thưởng (v&iacute; dụ: sử dụng mạng học s&acirc;u) từ c&aacute;c thao t&aacute;c biểu diễn của con người. V&igrave; vậy, ch&uacute;ng ta c&oacute; thể truyền ngược lại c&aacute;c gi&aacute; trị phần thưởng để cải thiện chiến thuật.</p> <h1>C&aacute;c c&ocirc;ng thức to&aacute;n học</h1> <h2>Chuỗi Taylor</h2> <p>$f(x)=f(x_{0})+(x-x_{0})f'(x_{0})+\frac{1}{2}(x-x_{0})^{2}f''(x_{0})+...$</p> <p>Được biểu diễn theo v&eacute;c tơ c&oacute; dạng:</p> <p>$f(x)=f(x_{0})+(x-x_{0})^{T}g+\frac{1}{2}(x-x_{0})^{T}H(x-x_{0})+...$</p> <p>Trong đ&oacute; g l&agrave; ma trận Jacobi v&agrave; H l&agrave; ma trận Hessian.</p> <h2>Hệ số KL-Divergence</h2> <p>Trong học s&acirc;u, ch&uacute;ng ta muốn c&oacute; một m&ocirc; h&igrave;nh dự đo&aacute;n ph&acirc;n phối dữ liệu Q giống với ph&acirc;n phối dữ liệu P. Sự kh&aacute;c biệt giữa hai ph&acirc;n phối x&aacute;c suất c&oacute; thể được đo lường bằng KL-Divergence c&oacute; c&ocirc;ng thức như sau:</p> <p>$D_{KL}(P||Q)=\mathbb{E}_{x}log\;\frac{P(x)}{Q(x)}$</p> <p>$D_{KL}(P||Q)=\sum_{x=1}^{N}P(x)log\;\frac{P(x)}{Q(x)}$</p> <p>$=sum_{x=1}^{N}P(x)[log\;P(x)-log\;Q(x)]$</p> <h2>Ma trận dương tuyệt đối</h2> <p>Một ma trận A được coi l&agrave; ma trận dương tuyệt đối khi:</p> <p>$z^{T}Az&gt;0$</p> <p>Với mọi v&eacute;c tơ z kh&aacute;c 0.</p> <p>Tr&ecirc;n đ&acirc;y l&agrave; c&aacute;c thuật ngữ trong học tăng cường. Hy vọng rằng mọi người đ&atilde; nắm được c&aacute;c kh&aacute;i niệm cơ bản. Mọi người h&atilde;y tiếp tục theo d&otilde;i c&aacute;c b&agrave;i mới nhất tr&ecirc;n <a href="http://tek4.vn">tek4</a> nh&eacute;!</p> <p>P/s: Cảm ơn mọi người!</p> <hr /> <p style="text-align: center;"><em><strong>Fanpage Facebook:</strong>&nbsp;<a href="https://www.facebook.com/tek4.vn/">TEK4.VN</a></em>&nbsp;</p> <p style="text-align: center;"><em><strong>Tham gia cộng đồng để chia sẻ, trao đổi v&agrave; thảo luận:</strong>&nbsp;<a href="https://www.facebook.com/groups/tek4.vn/">TEK4.VN - Học Lập Tr&igrave;nh Miễn Ph&iacute;</a></em></p>