@@ -48,7 +48,7 @@ Reinforcement learning เป็นวิธีการเรียนรู้
48
48
ก่อนที่เราจะแก้ปัญหาว่าเราจะเรียนรู้ได้ยังไง เราจะมาเขียนแผนผังกันดูว่าหน้าตาของโจทย์ที่เราจะแก้หน้าตาจะเป็นยังไงนะ
49
49
50
50
<figure ><center >
51
- <img width =" 300 " src =" /images/post/rl/workflow.png " data-action =" zoom " />
51
+ <img width =" 600 " src =" /images/post/rl/workflow.png " data-action =" zoom " />
52
52
53
53
<figcaption >
54
54
<a title="Reinforcement Learning Workflow">
@@ -67,7 +67,6 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
67
67
68
68
ถ้า \\ (t\\ ) ของเรามีจำกัดเช่นจาก \\ (t = 1, ..., T\\ ) เราจะเรียกว่า Episodic task ยกตัวอย่างเช่น การเราจำลองเกมที่เมื่อเก็บเหรียญทั้งหมดครบถือเป็นอันจบด่าน หรือถ้าในเกมไพ่ Blackjack ถ้าไพ่หมดกองก็ถึงว่าจบหนึ่งตา ในกรณีที่ \\ (t\\ ) สามารถมีค่าเพิ่มไปเรื่อยๆไม่สิ้นสุด เช่นอาจจะเป็นราคาของ Bitcoin, ราคาหุ้น ที่มีค่าใหม่มาเรื่อยๆทุกเวลา เราจะเรียกว่า Continuous task
69
69
70
- เราพอรู้คร่าวๆแล้วว่า
71
70
72
71
# Finite Markov Decision Process (MDP)
73
72
@@ -77,7 +76,7 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
77
76
- ออกคำสั่ง (action)
78
77
- ได้ผลลัพธ์หรือคะแนน (reward)
79
78
80
- เราเรียกโจทย์นี้อีกชื่อนึงว่า finite Markov Decision Process (MDP) ซึ่งเป็นโจทย์ของปัญหา reinforcement learning ที่เราต้องการจะแก้นี่เอง โดยสิ่งที่เราต้องการนั่นคือการที่ได้ผลลัพธ์ที่ดีที่สุดในตอนท้าย โดยการจะทำให้ได้ผลลัพธ์ที่ดีที่สุดเราสามารถทำได้โดยการหาชุดคำสั่ง (policy) ที่ดีที่สุดในแต่ละ state ที่เราอยู่
79
+ เราเรียกโจทย์นี้อีกชื่อนึงว่า finite Markov Decision Process (MDP) ซึ่งเป็นโจทย์ของปัญหา reinforcement learning ที่เราต้องการจะแก้นี่เอง โดยสิ่งที่เราต้องการนั่นคือการที่ได้ผลลัพธ์ที่ดีที่สุดในตอนท้าย โดยการจะทำให้ได้ผลลัพธ์ที่ดีที่สุดเราสามารถทำได้โดยการหาชุดคำสั่ง (policy) หรือ คำสั่ง (action) ที่ดีที่สุดในแต่ละ state ที่เราอยู่
81
80
82
81
$$ \pi: S \rightarrow A $$
83
82
@@ -89,8 +88,7 @@ Policy \\(\pi\\) สามารถเป็นชุดคำสั่งที
89
88
90
89
ในหัวข้อนี้เราจะมาคุยกันว่าเราจะสามารถหาชุดคำสั่งที่ดีที่สุดในแต่ละสถานะที่เราอยู่ได้ยังไงนะ เราไม่สามารถหาชุดคำสั่งที่ดีที่สุดได้ในทันที แต่วิธีหนึ่งในการหาชุดคำสั่งที่ดีที่สุดคือการลองผิดลองถูกและทำให้ดีขึ้นในครั้งหน้านั่นเอง
91
90
92
- เพื่อความง่ายต่อการเข้าใจเราจะยกตัวอย่างของการเดินในตารางก่อน โดยเราจะเห็นว่าโลกของเรามีแค่ 4 states เท่านั้น (1, 2, 3, 4) ซึ่งแทนตารางซ้ายล่าง ซ้ายบน ขวาล่าง ขวาบน ตามลำดับ
93
- ส่วนทิศทางการเดินก็ไปได้แค่ ซ้าย บน ขวาและล่างเท่านั้น โดยเราจะให้ agent เริ่มต้นจาก state 1 (ซ้ายล่าง) และพยายามไปให้ถึง state 4 (ขวาล่าง) เป้าหมายคือเราอยากจะหาชุดคำสั่งของแต่ละ state ที่ทำให้เราได้คะแนนมากที่สุดตอนถึงจุดสุดท้ายนั่นเอง จะเห็นว่าถ้าเรายิ่งเดินผิดมากเท่าไหร่ ก็จะยิ่งอยู่ใน Grid นานกว่าเดิมและคะแนนลดลงเรื่อยๆ
91
+ เพื่อความง่ายต่อการเข้าใจเราจะยกตัวอย่างของการเดินในตารางก่อน โดยเราจะเห็นว่าโลกของเรามีแค่ 4 states เท่านั้น (1, 2, 3, 4) ซึ่งแทนตาราง (ซ้ายล่าง, ซ้ายบน, ขวาล่าง, ขวาบน) ตามลำดับ ส่วนทิศทางการเดินก็ไปได้คือ (ซ้าย, บน, ขวา, ล่าง) โดยเราจะให้ agent เริ่มต้นจาก state 1 (ซ้ายล่าง) และพยายามไปให้ถึง state 4 (ขวาล่าง) เป้าหมายคือเราอยากจะหาชุดคำสั่งของแต่ละ state ที่ทำให้เราได้คะแนนมากที่สุดตอนถึงจุดสุดท้ายนั่นเอง จะเห็นว่าถ้าเรายิ่งเดินผิดมากเท่าไหร่ ก็จะยิ่งอยู่ใน Grid นานกว่าเดิมและคะแนนลดลงเรื่อยๆ
94
92
95
93
<figure ><center >
96
94
<img width =" 600 " src =" /images/post/rl/example-grid.png " data-action =" zoom " />
0 commit comments