
Korean: 
안녕하세요, 동료 학자분들. Károly Zsolnai-Fehér의 Two Minute Papers입니다.
이번 화는 평소처럼 시각적으로 신나는 것을 포함하지는 않습니다. 하지만 제가 생각하기에
모두에게 매우 중요한 이야기를 하고 있어 정말 다루고 싶은 논문이었습니다.
 
어떤 직무를 위한 새로운 AI를 개발할 때, AI에게 우리가 이상적인 해법이라 여기는 것을 어떤 방식으로든
말해주어야 합니다.
모든 일이 잘 풀린다면, AI는 직무를 해결할 최고의 방법을 찾아낼 것입니다.
간단한 게임에서는 단순히 게임의 점수를 최대화하라고 알고리즘에게 지시하면 되기에
목표를 말해주는 것이 어렵지 않습니다.
예를 들어, Atari Breakout에서 블록을 더 많이 부술수록 레벨을 완료하는데 더 가까워지겠죠.
 
하지만, 현실에서는 목표에 얼마나 가까운지를 나타내는 점수를 알려주는 사람이
존재하지 않습니다.
더 나쁜 점은 당장은 어리석어 보이지만 나중에 더 좋은 결과를
불러오는 선택을 해야 할 때도 있다는 것입니다.

English: 
Dear Fellow Scholars, this is Two Minute Papers
with Károly Zsolnai-Fehér.
This episode does not have the usual visual
fireworks, but I really wanted to cover this
paper because it tells a story that is, I
think, very important for all of us to hear
about.
When creating a new AI to help us with a task,
we have to somehow tell this AI what we consider
to be a desirable solution.
If everything goes well, it will find out
the best way to accomplish it.
This is easy when playing simpler video games,
because we can just tell the algorithm to
maximize the score seen in the game.
For instance, the more bricks we hit in Atari
breakout, the closer we get to finishing the
level.
However, in real life, we don’t have anyone
giving us a score to tell us how close we
are to our objective.
What’s even worse, sometimes we have to
make decisions that seem bad at the time,
but will serve us well in the future.

English: 
Trying to save money or studying for a few
years longer are typical life decisions that
pay off in the long run but may seem undesirable
at the time.
The opposite is also true, ideas that may
sound right at a time may immediately backfire.
When in a car chase, don't ask the car AI
to unload all unnecessary weights to go faster,
or if you do, prepare to be promptly ejected
from the car.
So, how can we possibly create an AI that
somehow understands our intentions and acts
in line with them?
That’s a challenging question, and is often
referred to as the agent alignment problem.
It has to be aligned with our values.
What can we do about this?
Well, short of having a mind-reading device,
we can maybe control the behavior of the AI
through its reward system.
Scientists at DeepMind just published a paper
on this topic, where they started their thought
process from two assumptions:
Assumption number one, quoting the authors:

Korean: 
예를 들어, 몇 년 정도 돈을 모으거나 공부를 계속하는 것은
당장은 바람직하지 않아 보이지만 장기적인 보상이 큰 일상적인 선택입니다.
반대의 경우 역시 존재합니다. 지금은 좋아 보이는 선택이 즉각적인 역효과를 가져올지도 모르는 일이죠.
자동차 추격전에서 자동차 AI에게 빠르게 달리기 위해 불필요한 무게가 나가는 것을 모두 제거하라 요구하진 않을 것입니다.
만약 그런다면, 차가 달리자마자 튕겨 나갈 각오를 하셔야 할 겁니다.
그렇다면, 어떻게 해야 우리의 의도를 이해하고 그에 맞게 행동하는 AI를
만들 수 있을까요?
이건 어려운 질문이고, 흔히 에이전트 정합 문제(agent alignment problem)라 불립니다.
AI가 우리의 가치관에 맞아야 한다는것이죠.
이 문제를 어떻게 해결할 수 있을까요?
음, 생각을 읽는 장치 같은 게 없으니, AI의 행동을 보상 시스템을 통해
제어해야 할 것 같네요.
최근 DeepMind의 과학자들은 이 주제에 대한 논문을 발표했습니다.
이 논문은 두 가지를 가정하며 시작합니다. 
저자의 말을 인용하자면, 첫 번째 가정은

Korean: 
"해결하려는 많은 직무에 대해, 결과를 평가하기가 올바른 행동을 생성하기보다 쉽다."
 
요약하자면, TV에 대고 소리 지르는게 운동선수가 되기보다 쉽다는 거죠.
충분히 합리적이지 않나요? 그렇죠?
다만, 복잡도 이론에 따르면 이 가정이 항상 참은 아니랍니다.
하지만 많은 어려운 문제에 대해 이 가정은 참입니다.
두 번째 가정은, 사용자의 의도가 높은 정확도로 학습될 수 있다는 것입니다.
다시 말해, 우리의 의도와 어떤 식으로든 관련된 충분한 데이터를 주면 AI가
그 의도를 학습할 수 있다는 것입니다.
이 두 가정에 의존해, 다음과 같이 강화학습의 기본 공식을 변형할 수 있습니다.
일반적으로 사용되는 에이전트는
실행 환경에서 가능한 행동 중 하나를 선택해 점수를 최대화하려 합니다.
Atari Breakout에서 가능한 많은 블록을 부수고 레벨을 끝내기 위해 발판을
움직이는 것을 이런 행동의 한 예로 들 수 있습니다.
연구자들은 이 공식을 사용자가 점수의 계산 방법에 대해 정기적으로 피드백을

English: 
“For many tasks we want to solve, evaluation
of outcomes is easier than producing the correct
behavior”.
In short, it is easier to yell at the TV than
to become an athlete.
Sounds reasonable, right?
Note that from complexity theory, we know
that this does not always hold, but it is
indeed true for a large number of difficult
problems.
Assumption number two: User intentions can
be learned with high accuracy.
In other words, given enough data that somehow
relates to our intentions, the AI should be
able to learn that.
Leaning on these two assumptions, we can change
the basic formulation of reinforcement learning
in the following way:
normally, we have an agent that chooses a
set of actions in an environment to maximize
a score.
For instance, this could mean moving the paddle
around to hit as many blocks as possible and
finish the level.
They extended this formulation in a way that
the user can periodically provide feedback

Korean: 
제공할 수 있도록 확장했습니다.
이제 AI는 이 새로운 점수를 최대화하려 할 것이고, AI가 우리의 의도에 더 잘 맞게
행동하리라 기대하는 것이죠.
자동차 추격의 예제의 경우, 자동차에서 튕겨 나가지 않도록 점수 방식을
수정할 수 있겠죠.
이 공식의 가장 주목할만한 속성은 아마도 알고리즘에게 의도를 보여주기 위해
실제로 게임을 할 필요가 없다는 점일 것입니다.
공식은 우리의 행동이 아니라, 원칙을 따릅니다.
우리는 이제 단순히 가장 좋아하는 의자에 앉아서, 보상 함수를 때때로 바꾸면서
AI를 조정하고, 힘든 일은 AI에게 모두 맡길 수 있는 것입니다.
TV에 대고 소리 지르는 거랑 비슷한 거긴 한데, 실제로 통한다는 차이점이 있죠.
정말 훌륭한 발상입니다.
논문을 보게 된다면, 이 방법을 어떻게 효율적으로 구현할 수 있는지에 대한 수많은 세부사항과
몇몇 Atari 게임에 대한 사례 연구를 볼 수 있을 것입니다.

English: 
on how the score should be calculated.
Now, the AI will try to maximize this new
score and we hope that this will be more in
line with our intentions.
Or, in our car chase example, we could modify
our reward to make sure we remain in the car
and not get ejected.
Perhaps the most remarkable property of this
formulation is that it doesn’t even require
us to for instance, play the game at all to
demonstrate our intentions to the algorithm.
The formulation follows our principles, and
not our actions.
We can just sit in our favorite armchair,
bend the AI to our will by changing the reward
function every now and then, and let the AI
do the grueling work.
This is like yelling at the TV, except that
it actually works.
Loving the idea.
If you have a look at the paper, you will
see a ton more details on how to do this efficiently
and a case study with a few Atari games.

Korean: 
또한, 이 방법이 AI 안전성 및 최근 점점 중요해지고 있는 주제인
사람의 가치관을 따르는 에이전트를 만드는 법과 관련된 수많은 사항을 내포하고 있기에, 이 영역에
시간과 돈을 점점 더 많이 투자하는 점에서 DeepMind에 존경을 보냅니다.
여러분들의 많은 후원과 영상 시청에 감사드립니다. 다음 시간에 만나 뵙겠습니다.

English: 
Also, since this has a lot of implications
pertaining to AI safety and how to create
aligned agents, an increasingly important
topic these days, huge respect for DeepMind
for investing more and more of their time
and money in this area.
Thanks for watching and for your generous
support, and I'll see you next time!
