Skip to content

Commit cf92d0b

Browse files
committed
Update text
1 parent 0e063fe commit cf92d0b

File tree

1 file changed

+3
-5
lines changed

1 file changed

+3
-5
lines changed

_posts/2019-12-18-reinforcement-learning.md

+3-5
Original file line numberDiff line numberDiff line change
@@ -48,7 +48,7 @@ Reinforcement learning เป็นวิธีการเรียนรู้
4848
ก่อนที่เราจะแก้ปัญหาว่าเราจะเรียนรู้ได้ยังไง เราจะมาเขียนแผนผังกันดูว่าหน้าตาของโจทย์ที่เราจะแก้หน้าตาจะเป็นยังไงนะ
4949

5050
<figure><center>
51-
<img width="300" src="/images/post/rl/workflow.png" data-action="zoom"/>
51+
<img width="600" src="/images/post/rl/workflow.png" data-action="zoom"/>
5252

5353
<figcaption>
5454
<a title="Reinforcement Learning Workflow">
@@ -67,7 +67,6 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
6767

6868
ถ้า \\(t\\) ของเรามีจำกัดเช่นจาก \\(t = 1, ..., T\\) เราจะเรียกว่า Episodic task ยกตัวอย่างเช่น การเราจำลองเกมที่เมื่อเก็บเหรียญทั้งหมดครบถือเป็นอันจบด่าน หรือถ้าในเกมไพ่ Blackjack ถ้าไพ่หมดกองก็ถึงว่าจบหนึ่งตา ในกรณีที่ \\(t\\) สามารถมีค่าเพิ่มไปเรื่อยๆไม่สิ้นสุด เช่นอาจจะเป็นราคาของ Bitcoin, ราคาหุ้น ที่มีค่าใหม่มาเรื่อยๆทุกเวลา เราจะเรียกว่า Continuous task
6969

70-
เราพอรู้คร่าวๆแล้วว่า
7170

7271
# Finite Markov Decision Process (MDP)
7372

@@ -77,7 +76,7 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
7776
- ออกคำสั่ง (action)
7877
- ได้ผลลัพธ์หรือคะแนน (reward)
7978

80-
เราเรียกโจทย์นี้อีกชื่อนึงว่า finite Markov Decision Process (MDP) ซึ่งเป็นโจทย์ของปัญหา reinforcement learning ที่เราต้องการจะแก้นี่เอง โดยสิ่งที่เราต้องการนั่นคือการที่ได้ผลลัพธ์ที่ดีที่สุดในตอนท้าย โดยการจะทำให้ได้ผลลัพธ์ที่ดีที่สุดเราสามารถทำได้โดยการหาชุดคำสั่ง (policy) ที่ดีที่สุดในแต่ละ state ที่เราอยู่
79+
เราเรียกโจทย์นี้อีกชื่อนึงว่า finite Markov Decision Process (MDP) ซึ่งเป็นโจทย์ของปัญหา reinforcement learning ที่เราต้องการจะแก้นี่เอง โดยสิ่งที่เราต้องการนั่นคือการที่ได้ผลลัพธ์ที่ดีที่สุดในตอนท้าย โดยการจะทำให้ได้ผลลัพธ์ที่ดีที่สุดเราสามารถทำได้โดยการหาชุดคำสั่ง (policy) หรือ คำสั่ง (action) ที่ดีที่สุดในแต่ละ state ที่เราอยู่
8180

8281
$$ \pi: S \rightarrow A$$
8382

@@ -89,8 +88,7 @@ Policy \\(\pi\\) สามารถเป็นชุดคำสั่งที
8988

9089
ในหัวข้อนี้เราจะมาคุยกันว่าเราจะสามารถหาชุดคำสั่งที่ดีที่สุดในแต่ละสถานะที่เราอยู่ได้ยังไงนะ เราไม่สามารถหาชุดคำสั่งที่ดีที่สุดได้ในทันที แต่วิธีหนึ่งในการหาชุดคำสั่งที่ดีที่สุดคือการลองผิดลองถูกและทำให้ดีขึ้นในครั้งหน้านั่นเอง
9190

92-
เพื่อความง่ายต่อการเข้าใจเราจะยกตัวอย่างของการเดินในตารางก่อน โดยเราจะเห็นว่าโลกของเรามีแค่ 4 states เท่านั้น (1, 2, 3, 4) ซึ่งแทนตารางซ้ายล่าง ซ้ายบน ขวาล่าง ขวาบน ตามลำดับ
93-
ส่วนทิศทางการเดินก็ไปได้แค่ ซ้าย บน ขวาและล่างเท่านั้น โดยเราจะให้ agent เริ่มต้นจาก state 1 (ซ้ายล่าง) และพยายามไปให้ถึง state 4 (ขวาล่าง) เป้าหมายคือเราอยากจะหาชุดคำสั่งของแต่ละ state ที่ทำให้เราได้คะแนนมากที่สุดตอนถึงจุดสุดท้ายนั่นเอง จะเห็นว่าถ้าเรายิ่งเดินผิดมากเท่าไหร่ ก็จะยิ่งอยู่ใน Grid นานกว่าเดิมและคะแนนลดลงเรื่อยๆ
91+
เพื่อความง่ายต่อการเข้าใจเราจะยกตัวอย่างของการเดินในตารางก่อน โดยเราจะเห็นว่าโลกของเรามีแค่ 4 states เท่านั้น (1, 2, 3, 4) ซึ่งแทนตาราง (ซ้ายล่าง, ซ้ายบน, ขวาล่าง, ขวาบน) ตามลำดับ ส่วนทิศทางการเดินก็ไปได้คือ (ซ้าย, บน, ขวา, ล่าง) โดยเราจะให้ agent เริ่มต้นจาก state 1 (ซ้ายล่าง) และพยายามไปให้ถึง state 4 (ขวาล่าง) เป้าหมายคือเราอยากจะหาชุดคำสั่งของแต่ละ state ที่ทำให้เราได้คะแนนมากที่สุดตอนถึงจุดสุดท้ายนั่นเอง จะเห็นว่าถ้าเรายิ่งเดินผิดมากเท่าไหร่ ก็จะยิ่งอยู่ใน Grid นานกว่าเดิมและคะแนนลดลงเรื่อยๆ
9492

9593
<figure><center>
9694
<img width="600" src="/images/post/rl/example-grid.png" data-action="zoom"/>

0 commit comments

Comments
 (0)