Update text

titipata · titipata · commit cf92d0b3513b · 2019-12-20T20:10:08.000-05:00
diff --git a/_posts/2019-12-18-reinforcement-learning.md b/_posts/2019-12-18-reinforcement-learning.md
@@ -48,7 +48,7 @@ Reinforcement learning เป็นวิธีการเรียนรู้
 ก่อนที่เราจะแก้ปัญหาว่าเราจะเรียนรู้ได้ยังไง เราจะมาเขียนแผนผังกันดูว่าหน้าตาของโจทย์ที่เราจะแก้หน้าตาจะเป็นยังไงนะ
 
 <figure><center>
-  <img width="300" src="/images/post/rl/workflow.png" data-action="zoom"/>
+  <img width="600" src="/images/post/rl/workflow.png" data-action="zoom"/>
 
   <figcaption>
     <a title="Reinforcement Learning Workflow">
@@ -67,7 +67,6 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
 
 ถ้า \\(t\\) ของเรามีจำกัดเช่นจาก \\(t = 1, ..., T\\) เราจะเรียกว่า Episodic task ยกตัวอย่างเช่น การเราจำลองเกมที่เมื่อเก็บเหรียญทั้งหมดครบถือเป็นอันจบด่าน หรือถ้าในเกมไพ่ Blackjack ถ้าไพ่หมดกองก็ถึงว่าจบหนึ่งตา ในกรณีที่ \\(t\\) สามารถมีค่าเพิ่มไปเรื่อยๆไม่สิ้นสุด เช่นอาจจะเป็นราคาของ Bitcoin, ราคาหุ้น ที่มีค่าใหม่มาเรื่อยๆทุกเวลา เราจะเรียกว่า Continuous task
 
-เราพอรู้คร่าวๆแล้วว่า
 
 # Finite Markov Decision Process (MDP)
 
@@ -77,7 +76,7 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
 - ออกคำสั่ง (action)
 - ได้ผลลัพธ์หรือคะแนน (reward)
 
-เราเรียกโจทย์นี้อีกชื่อนึงว่า finite Markov Decision Process (MDP) ซึ่งเป็นโจทย์ของปัญหา reinforcement learning ที่เราต้องการจะแก้นี่เอง โดยสิ่งที่เราต้องการนั่นคือการที่ได้ผลลัพธ์ที่ดีที่สุดในตอนท้าย โดยการจะทำให้ได้ผลลัพธ์ที่ดีที่สุดเราสามารถทำได้โดยการหาชุดคำสั่ง (policy) ที่ดีที่สุดในแต่ละ state ที่เราอยู่
+เราเรียกโจทย์นี้อีกชื่อนึงว่า finite Markov Decision Process (MDP) ซึ่งเป็นโจทย์ของปัญหา reinforcement learning ที่เราต้องการจะแก้นี่เอง โดยสิ่งที่เราต้องการนั่นคือการที่ได้ผลลัพธ์ที่ดีที่สุดในตอนท้าย โดยการจะทำให้ได้ผลลัพธ์ที่ดีที่สุดเราสามารถทำได้โดยการหาชุดคำสั่ง (policy) หรือ คำสั่ง (action) ที่ดีที่สุดในแต่ละ state ที่เราอยู่
 
 $$ \pi: S \rightarrow A$$
 
@@ -89,8 +88,7 @@ Policy \\(\pi\\) สามารถเป็นชุดคำสั่งที
 
 ในหัวข้อนี้เราจะมาคุยกันว่าเราจะสามารถหาชุดคำสั่งที่ดีที่สุดในแต่ละสถานะที่เราอยู่ได้ยังไงนะ เราไม่สามารถหาชุดคำสั่งที่ดีที่สุดได้ในทันที แต่วิธีหนึ่งในการหาชุดคำสั่งที่ดีที่สุดคือการลองผิดลองถูกและทำให้ดีขึ้นในครั้งหน้านั่นเอง
 
-เพื่อความง่ายต่อการเข้าใจเราจะยกตัวอย่างของการเดินในตารางก่อน โดยเราจะเห็นว่าโลกของเรามีแค่ 4 states เท่านั้น (1, 2, 3, 4) ซึ่งแทนตารางซ้ายล่าง ซ้ายบน ขวาล่าง ขวาบน ตามลำดับ
-ส่วนทิศทางการเดินก็ไปได้แค่ ซ้าย บน ขวาและล่างเท่านั้น โดยเราจะให้ agent เริ่มต้นจาก state 1 (ซ้ายล่าง) และพยายามไปให้ถึง state 4 (ขวาล่าง) เป้าหมายคือเราอยากจะหาชุดคำสั่งของแต่ละ state ที่ทำให้เราได้คะแนนมากที่สุดตอนถึงจุดสุดท้ายนั่นเอง จะเห็นว่าถ้าเรายิ่งเดินผิดมากเท่าไหร่ ก็จะยิ่งอยู่ใน Grid นานกว่าเดิมและคะแนนลดลงเรื่อยๆ
+เพื่อความง่ายต่อการเข้าใจเราจะยกตัวอย่างของการเดินในตารางก่อน โดยเราจะเห็นว่าโลกของเรามีแค่ 4 states เท่านั้น (1, 2, 3, 4) ซึ่งแทนตาราง (ซ้ายล่าง, ซ้ายบน, ขวาล่าง, ขวาบน) ตามลำดับ ส่วนทิศทางการเดินก็ไปได้คือ (ซ้าย, บน, ขวา, ล่าง) โดยเราจะให้ agent เริ่มต้นจาก state 1 (ซ้ายล่าง) และพยายามไปให้ถึง state 4 (ขวาล่าง) เป้าหมายคือเราอยากจะหาชุดคำสั่งของแต่ละ state ที่ทำให้เราได้คะแนนมากที่สุดตอนถึงจุดสุดท้ายนั่นเอง จะเห็นว่าถ้าเรายิ่งเดินผิดมากเท่าไหร่ ก็จะยิ่งอยู่ใน Grid นานกว่าเดิมและคะแนนลดลงเรื่อยๆ
 
 <figure><center>
   <img width="600" src="/images/post/rl/example-grid.png" data-action="zoom"/>