
English: 
Computers that can play games have always
impressed the computing world.
In December 2013, a small group of AI researchers
from a London-based company called DeepMind
released a ground-breaking paper called “Playing
Atari with Deep Reinforcement Learning”.
And just a little over a month later, Google
announced that they had bought DeepMind for
a really big sum of money.
Since then, there’s been all kinds of talk
about reinforcement learning in the field
of AI.
In January of 2016, Google announced that
the appropriately named AlphaGo was able to
beat the reigning Go champion of the world.
We’re gonna take the mystery out of reinforcement
learning so you can see how all these amazing
feats are possible.
The story of reinforcement Learning goes all
the way back to AI, animal psychology, and

Korean: 
게임을 할 수 있는 컴퓨터는 아주 인상적이죠.
2013년 12월에, 런던에 있는 딥마인드라는
작은 AI 연구 그룹에서
"강화학습으로 아타리 게임을 하기" 라는 매우 놀라운 논문을 발표했습니다.
그리고 나서 한달 정도 후에, 
구글이 딥 마인드를 인수한다고 발표했죠.
매우 비싼 가격에요.
그 후로부터, 강화학습에 대한 여러
논의가 이뤄지고 있습니다.
AI 분야에서요.
2016년 1월에 구글은 알파고라는 이름의 프로그램을 만들고,
이게 세계 바둑 챔피언을 이길 수 있을 것이라
발표합니다.
이제 우리는 강화학습의 미스테리를 풀어보면서,
어떻게 이런 일들이 가능한지 볼거에요.
강화학습에 대한 얘기를 하려면,
인공지능에서 동물 심리학까지 돌아가야해요.

Thai: 
คอมพิวเตอร์ที่เล่นเกมได้มักสร้างความประทับใจ
ให้แก่โลกของการคำนวณ
ในเดือนธันวาคม ปี 2013 กลุ่มนักวิจัย AI เล็กๆ
จากบริษัทในลอนดอน ชื่อ DeepMind
ได้ปล่อยงานวิจัยแหวกแนวที่มีชื่อว่า
Playing Atari with Deep Reinforcement Learning
และหลังจากเดือนกว่าๆ กูเกิ้ลก็ประกาศว่า
ได้ซื้อ DeepMind
ด้วยเงินมหาศาล
ตั้งแต่นั้นมา ก็มีการพูดถึง reinforcement learning ในสาขา
ของ AI มากมาย
ในเดือนมกราคม ปี 2016 กูเกิ้ลประกาศว่า
AlphaGo สามารถ
เอาชนะแชมป์โกะของโลกได้
เราจะไขปริศนาเรื่อง reinforcement learning
คุณจะเห็นว่าเรื่องอัศจรรย์เหล่านี้
เป็นไปได้อย่างไร
เรื่องราวของ reinforcement learning ย้อนกลับไป
ถึงเรื่องเอไอ จิตวิทยาสัตว์ และ

Thai: 
control theory
หัวใจของมัน เกี่ยวข้องกับผู้ปฏิบัติโดยอัตโนมัติ
เช่น คน สัตว์ หุ่นยนต์ หรือ deep net
-- เรียนรู้เพื่อสำรวจสิ่งแวดล้อมที่ไม่แน่นอน
ด้วยเป้าหมายคือได้รางวัลเชิงตัวเลขที่มากที่สุด
กีฬาเป็นตัวอย่างที่ดีเรื่องนี้
ลองคิดว่าผู้ปฏิบัติอัตโนมัติต้องเจออะไรในเกมเทนนิส
ผู้ปฏิบัติ (agent) ต้องเลือกกระทำ (action) อย่างหนึ่ง
เช่น เสิร์ฟ ตีกลับ และวอลเลย์
การปฏิบัติเหล่านี้เปลี่ยนสถานะ (state) ของเกม
หรือก็คือ -- จำนวนเซตปัจจุบัน
ผู้นำเกม อะไรพวกนั้น
และการปฏิบัติทุกอย่างทำไปโดยคำนึงรางวัล
-- การได้คะแนน เพื่อชนะในระดับ
เกม เซต และนัด
ผู้ปฏิบัติของเราต้องทำตามแผน (policy) 
เพื่อให้คะแนนสุดท้าย
สูงสุด
แต่ถ้าคุณจะสร้างผู้ปฏิบัติแบบอัตโนมัติ
คุณจะโมเดลอย่างไร?
เรารู้ว่าการกระทำของผู้ปฏิบัติ
จะเปลี่ยนสถานะของสิ่งแวดล้อม

English: 
control theory.
At the heart of it, it involves an autonomous
agent like a person, animal, robot, or deep
net - learning to navigate an uncertain environment
with the goal of maximizing a numerical reward.
Sports are a great example of this.
Just think of what our autonomous agent would
have to deal with in a tennis match.
The agent would have to consider its actions,
like its serves, returns, and volleys.
These actions change the state of the game,
or in other words – the current set, the
leading player, things like that.
And every action is performed with a reward
in mind – winning a point, in order to win
the game, set, and match.
Our agent needs to follow a policy, or a set
of rules and strategies, in order to maximize
the final score.
But if you were building an autonomous agent,
how would you actually model this?
We know that the agent’s actions will change
the state of the environment.

Korean: 
그리고 통제 이론까지요.
그 중심부에는 자동 에이전트가 있는데,
사람, 동물, 로봇 또는
딥넷처럼 이는  불확실한 환경을 탐사하며
대수적인 보상을 최대화하려고 노력합니다.
스포츠가 이의 대표적인 예이죠.
이런 자동 에이전트가 테니스 경기를 한다고
생각해보세요.
에이전트는 서브, 되치기, 발리 등 
취할 행동을 고려해야 하죠.
이런 행동들은 게임의 상태를 바꾸죠,
다시말해, 현재 점수,
이기고있는 선수, 등등의 것을요.
그리고 모든 행동은 보상을 전제로 이뤄집니다.
점수를 따야 게임에 이기고,
세트에 이기고, 매치에 이기거든요.
이 에이전트는 어떤 정책, 또는 규칙과
전략의 집합을 따라야 합니다.
최종점수를 최대화 하기 위해서요.
만약 여러분이 자동 에이전트를 만든다면,
어떻게 모델링 하시겠어요?
에이전트의 행동이 환경 상태를
바꾼다는 것을 알기에,

Thai: 
โมเดลจึงต้องสามารถนำสถานะและการปฏิบัติ
เป็นค่านำเข้า และสร้าง
รางวัลคาดหมายสูงสุดเป็นค่าส่งออก
แต่เนื่องจากคุณไปยังสถานะต่อไปอย่างเดียว
คุณจะต้องนับรางวัล
คาดหมายทั้งหมด สำหรับการกระทำทุกอย่าง
จากปัจจุบันถึงสถานะสุดท้้าย
วิธีการทำเช่นนี้จะแตกต่างไปขึ้นอยู่กับการนำไปใช้
คุณคงไม่แปลกใจ
ถ้าการสร้างผู้เล่นเทนนิส จะต่างจาก
การสร้างผู้เล่นเกมอะตาริ
นักวิจัยที่ DeepMind ใช้ชุดภาพถ่ายหน้าจอ
เกมอะตาริ เพื่อสร้าง convolutional
neural network โดยปรับแต่งนิดหน่อย
ค่าส่งออกไม่ใช่ประเภท แต่เป็นตัวเลขเป้าหมาย
ของรางวัลสูงสุด
มันจึงเป็นเรื่องของ regression ไม่ใช่ classificatiion
เขาไม่ได้ใช้ชั้น pooling ด้วย มันต่างจาก
การสังเกตภาพ ตรงที่ตำแหน่งเดี่ยวๆ
ของวัตถุในเกม อย่างตัวผู้เล่นนั้น สำคัญหมด
และลดรูปไม่ได้

Korean: 
모델은 상태와 행동을 입력으로 받을 필요가 있고,
그에 따른 최대로 기대되는 보상이 
생성하는 결과값이 됩니다.
그러나 이것은 여러분을 다음 단계로 데려갈 뿐이기에, 여러분은
현재 행동부터 마지막 행동까지의 모든
보상 기대값의 합을 고려해야 하죠.
이런 작동방식은 모든 활용에서 다르지만,
아마도
테니스 치는 에이전트를 만드는 것과
아타리 게임을 하는 것이 다른 것은 당연하죠.
딥마인드의 연구자들은 아타리 게임의
스크린 샷을 이용해서,
CNN을 만들고, 몇가지 조정을 가했습니다.
신경망의 결과값은 클래스가 아니라,
최대 보상값에 대한 타겟 숫자였죠.
그러므로 사실 이건 분류가 아닌 회귀 방식입니다.
또 그들은, 풀링층을 쓰지 않았는데,
왜냐면 이미지 인식과는 달리
게임속 물체, 플레이어 같은 개별 위치가
모두 중요해서 없애면 안되기 때문입니다.

English: 
So a model would need to be able to take a
state and an action as input, and generate
the maximum expected reward as output.
But since that only gets you to the next state,
you’ll need to take into account the total
expected reward for every action from the
current till the end state.
The way this works will be different for every
application, and you’re probably not surprised
to know that building a Tennis agent is different
from building an Atari agent.
The researchers at DeepMind used a series
of Atari screenshots to build a convolutional
neural network, with a couple of tweaks.
The output wasn’t a class, but instead it
was a target number for the maximum reward.
So it was actually dealing with regression,
not classification.
They also didn’t use pooling layers, since
unlike image recognition, individual positions
of game objects, like the player, are all
important and can’t be reduced.

Korean: 
회귀망도 또한 쓰일 수 있는데,
결과 값이 회귀를 위해 제작되고,
매 시점마다의 입력값이 행동과 
환경 상태로 정해져야 합니다.
또, 딥 - Q - 넷, 줄여서 DQN이라는 것이 있는데,
DQN 또한 주어진 상태와 행동으로
최대 보상 값을 예측하는 원리를 사용하죠.
구글에 의해 특허 등록되었는데,
그 후 많은 진전을 보여줬습니다.
경험, 리플레이, 그리고 네트워크 구조를 서로 상대하면서요.
강화학습은 지도 학습을 그냥
멋지게 부르려는 용어가 아닙니다.
지도학습은, 이전의 데이터 예들을 바탕으로
환경에 대한 것들을 알아내는 것이지,
그 방식이 가장 좋은 방법이라는 뜻은 아닙니다.
여러분이 교통체중 환경에서 차를
도로 패턴 만으로 운전한다고 생각해보세요.
그리고 마지막으로 도로를 조사한건
일주일 전이고요.
이런 방법으로 운전 하는건
사이드미러만 보고 운전하는 것과 비슷합니다.

Thai: 
Recurrent net ก็ถูกใช้ด้วย 
ตราบใดเท่าที่ชั้นค่าส่งออกยังถูกจัดไว้สำหรับ
regression และค่านำเข้าในแต่ละขั้นเวลา
ได้แก่การกระทำ และสถานะแวดล้อม
มันยังมี Deep Q-Network หรือย่อว่า DQN
DQN ใช้หลักการทำนายรางวัลสูง
เมื่อกำหนดสถานะและการกระทำ
มันถูกจดสิทธิบัตรโดยกูเกิ้ล และ
มีการพัฒนามากมายอย่างเช่น Experience
Relay และ Dueling Network Architecture
Reinforcement learning ไม่ใช่แค่วิธีเรียก
supervised learning ให้ดูฉลาดหรูหรา
Supervised learning คือการเข้าใจสิ่งแวดล้อม
จากตัวอย่างในอดีต
แต่มันไม่จำเป็นต้องเป็นวิธีที่ดีที่สุด
นึกภาพว่าคุณพยายามขับรถตอนรถติด
จากรูปแบบถนน
ที่คุณสังเกตสัปดาห์ที่แล้ว ตอนที่ถนนว่าง
มันก็ได้ผลพอๆ กับการขับรถโดย
คุณมองแต่กระจกหลัง

English: 
A recurrent net could have been used too,
as long as the output layer was tailored for
regression, and the input at each time step
included the action and the environment state.
There’s also the Deep Q-Network, or DQN
for short.
The DQN also uses the principle of predicting
the maximum reward given a state and action.
It was actually patented by Google, and it’s
seen a lot of improvements like the Experience
Replay and the Dueling Network Architecture.
Reinforcement learning isn’t just a fancy,
smart-sounding way to say supervised learning.
Supervised learning is all about making sense
of the environment based on historical examples.
But that isn’t always the best way to do
things.
Imagine if you’re trying to drive a car
in heavy traffic based on the road patterns
you observed the week before when the roads
were clear.
That’s about as effective as driving when
you’re only looking at the rear view mirror.

Korean: 
강화학습은 반대로, 보상과 관련된 것이죠.
차선을 지키거나, 속도 제한 아래로 운전하고,
깜빡이 켜야 할떄 켜는 그런 것에서
점수를 얻고,
꼬리물기나 과속처럼 위험한 일을 하면
점수가 깍이게 됩니다.
여러분의 목표는 최대 점수를 얻어내는 것입니다.
주어진 것은 현재의 주변 도로 상태이고요.
강화학습은 어떤 행동이 환경 상태를
바꾼다는 것을 강조합니다.
이것은 지도학습에서는 고려하지 않는 부분이죠.
2016년 4월에, 아마존의 창립자 제프 베조스가 말하길,
그의 회사가 실패하기 좋은 위치이며,
많은 회사들이 마지못해 이런
연속되는 실패들을 견뎌내고 있다고 합니다.
 
여러분은 이것을 보상에 대한 언급이라고
생각하실수도 있습니다.
대부분의 조직은 관습적인 지혜가 내려가는
구조로 작동하는데,

English: 
Reinforcement learning on the other hand is
all about reward.
You get points for your actions – like staying
in your lane, driving under the speed limit,
signaling when you’re supposed to, things
like that.
But you can also lose points for dangerous
actions like tailgating and speeding.
Your objective is to get the maximum number
of points possible given the current state
of the traffic on the road around you.
Reinforcement learning emphasizes that an
action results in a change of the state, which
is something a supervised learning model doesn’t
focus on.
In April of 2016, Amazon founder Jeff Bezos
talked about how his company is a great place
to fail, and how most companies are unwilling
to suffer through “the string of failed
experiments”.
You can think of this as a statement about
rewards.
Most organizations operate in the realm of
conventional wisdom, which is about exploiting

Thai: 
ส่วน Reinforcement learning 
เป็นเรื่องของรางวัล
คุณได้แต้มเมื่อคุณกระทำ -- อย่างเช่นการอยู่ในเลน
การขับไม่เกินขีดจำกัดความเร็ว
การส่งสัญญาณเมื่อต้องทำ อะไรพวกนั้น
แต่คุณเสียแต้มถ้าทำอะไรอันตราย
อย่างการเปิดท้ายหรือขับรถเร็ว
จุดประสงค์ของคุณคือได้จำนวนแต้มมากที่สุด
เมื่อกำหนดสถานะ
การจราจรปัจจุบันบนถนนรอบคุณ
Reinforcement learning เน้นว่า
การกระทำมีผลเปลี่ยนแปลงสถานะ
ซึ่งเป็นสิ่งที่โมเดล supervised learning ไม่ได้สนใจ
ในเดือนมษายน 2016 ผู้ก่อตั้งแอมะซอน Jeff Bezos
พูดถึงบริษัทของเขาเป็นสถานที่ที่
ล้มเหลวได้ดี และบริษัทส่วนใหญ่ไม่ยอม
ทุกข์ทนกับการทดลอง
ที่ล้มเหลวซ้ำๆ
คุณคิดว่านี่เป็นเรื่องของรางวัลได้
องค์กรส่วนใหญ่ดำเนินการไปตามหลักดั้งเดิม
นั่นคือการแสวงประโยชน์

Korean: 
이 지혜란, 어떤 유한한 보상을 
어떤 알려진 가능성으로 취하는 것에 대한 것이죠.
어떤 그룹은 미상의 분야를 개척하고,
새로운 영역을 발견해서
낮은 확률로 매우 큰 보상을 받으려고 합니다.
그리고 많은 집단들이 실패하게 되죠.
그러나 그들 중 몇몇은 끝내 성공하고,
세상을 바꾸게 됩니다.
강화학습에서 에이전트는 탐험과, 이용 사이의 균형을 맞추려 합니다.
그리고 최대 기대 보상으로의
행동 방식을 선택합니다.
이 채널의 주제는 딥러닝이기에,
이제 집중할 주제는 어떻게
딥 강화 신경망을 만들수 있을까 입니다.
그러나 강화학습은 인공지능이라는 더 큰
범주에 속해있습니다.
여기에는 목표 설정, 계획하기, 인지하기
같은 주제들이 있죠.
인공지능과 공학 학문들 사이의 다리가
될 수도 있습니다.
강화학습은 단순하고 강력하며,
최근의 진보를 살펴볼때,
딥 러닝의 잠재적인 매우 큰 힘이 될 것입니다.

Thai: 
จากสิ่งที่รู้ว่าจะได้รางวัลจำกัด ด้วยโอกาสที่ทราบค่า
บางกลุ่มก้าวเข้าไปในสิ่งที่ไม่มีใครรู้
และสำรวจเขตแดนใหม่ๆ ที่มีรางวัลมหาศาล
แต่มีโอกาสเพียงน้อยนิด
และองค์กรหลายแห่งเแบบนี้ล้มเหลวจริง!
แต่บางแห่งสำเร็จ และเปลี่ยนแปลงโลก
ด้วย reinforcement learning ผู้ปฏิบัติ
สำรวจข้อดีข้อเสียระหว่างการสำรวจ
กับการใช้สิ่งที่รู้ แล้วเลือกเส้นทาง
ที่ให้รางวัลคาดหมายสูงสุด
ช่องนี้เป็นเรื่องของ deep learning 
เราจึงเน้นหัวข้อเรื่องการสร้าง deep
reinforcement net
แต่ reinforcement learning อยู่ภายใต้
ร่มเงาของวิชาปัญญาประดิษฐ์
มันเกี่ยวข้องกับหัวข้ออย่างการตั้งเป้าหมาย
การวางแผน และการรับรู้
มันยังเชื่อมโยงเรื่องของเอไอกับสาขา
วิศวกรรมอื่นๆ
Reinforcement learning นั้นง่ายและทรงพลัง
และจากความก้าวหน้าเร็วๆ นี้
มันน่าจะเป็นแรงขับสำคัญในสาขา Deep learning

English: 
what is known to achieve finite rewards with
known odds.
Some groups venture into the unknown and explore
new territory with the prospect of out-sized
rewards at long odds.
And many of these organizations do fail!
But some of them succeed and end up changing
the world.
With reinforcement learning, an agent can
explore the trade-off between exploration
and exploitation, and choose the path to the
maximum expected reward.
This channel’s all about Deep Learning,
so we focused on the topic of building a deep
reinforcement net.
But reinforcement learning falls under the
broader umbrella of artificial intelligence.
It involves topics like goal setting, planning,
and perception.
And it can even form a bridge between AI and
the engineering disciplines.
Reinforcement learning is simple and powerful,
and given the recent advances, it has the
potential to become a big force in the field
of Deep Learning.

English: 
If you wanna learn more about Deep Learning,
hang around after this for our recommendations,
or visit us on Facebook and Twitter.
Thanks for watching, and we'll see you next
time!

Korean: 
딥러닝에 대해서 더 배우고 싶으시다면,
영상 끝의 추천 부분을 봐주세요.
페이스북이나 트위터 계정도 살펴보시고요.
시청해주셔서 감사합니다.
다음에 또 뵙겠습니다.

Thai: 
ถ้าคุณอยากเรียนเรื่อง deep learning เพิ่มเติม
อยู่กับเราต่อเพื่อดูคำแนะนำ
หรือเยี่ยมชมเราในเฟสบุคและทวิตเตอร์
ขอบคุณที่ตามชม และพบกันใหม่ครั้งหน้าค่ะ!
