
English: 
PATRICK WINSTON: We've now
almost completed our journey.
This will be it for
talking about
several kinds of learning--
the venerable kind, that's
the nearest neighbors and
identification tree
types of learning.
Still useful, still the right
thing to do if there's no
reason not to do the
simple thing.
Then we have the
biologically-inspired
approaches.
Neural nets.
All kinds of problems with local
maxima and overfitting
and oscillation, if you get
the rate constant too big.
Genetic algorithms.
Like neural nets, both are very
naive in their attempt to
mimic nature.
So maybe they work on
a class of problems.
They surely do each have a class
of problems for which
they're good.

Korean: 
우리의 여정이 거의 다 끝나가네요
오늘은 학습의
여러 방식에 대해 말해봅시다
최근접 이웃 학습, 결정 트리,
identification 트리와 같은
훌룡한 방법들이 있죠
이 방법들은
간단한 일들을 처리하는데는
여전히 정확하고 유용한 방법입니다
또한 우리는 생물학 기반의
접근법들을 사용할 수 있습니다
신경망과 같은 것들이죠
너무 큰 상수가 주어졌을 때,
지역 최대값, 과적합, 진동과 관련된 
모든 문제에 사용할 수 있습니다
신경망과 같은 유전 알고리즘 말이죠
두 방식은 모두 자연을 모방하는
굉장히 원시적인(naive) 방식입니다
그래서 아마 이 방식은 특정한 종류의
문제들에 사용할 수 있을 겁니다
확실히 이 방식들을 이용하면 좋은
어떤 종류의 문제들이 각각 존재하죠

Korean: 
하지만 일반적인 경우에
첫 번째 수단으로서
이 방법을 추천하지는 않습니다
하지만 학자들은 굉장히 놀라운 일들을
생각해냈고 해냈습니다.
그리고 마지막에 여러분들은
"와, 정말 강력한 아이디어에요"
"자연적으로도 이 방법이 발견될까요?"
라고 할 것입니다
좋은 기술을 떠올리기 위해서는
훌륭한 과학 지식이
기반이 되어야 할까요?
혹은 진화의 본질에 따라
어떤 방법에 대한 최선의 방법은
그저 무작위로 생겨나는 것일까요?
누가 알까요?
하지만 오늘 이야기해 볼 아이디어는
실제 존재하는 아이디어입니다
왜나하면 이 방법은 구현하기 쉽고
아주 강력하고
모든 사람의 학습 과정에서
아주 중요한 역할을 하기 때문이죠
또한 이 방법에 대해 여러분이
수식으로만 공부하면
여러분은 퀴즈 문제를
절대로 풀지 못할 겁니다
이건 확실합니다
왜냐하면 겉으로 보기에는

English: 
But as a general purpose first
resort, I don't recommend it.
But now the theorists have come
out and done some things
are very remarkable.
And in the end, you have to
say, wow, these are such
powerful ideas.
I wonder if nature has
discovered them, too?
Is there good engineering
in the brain,
based on good science?
Or given the nature of
evolution, is it just random
junk that is the best ways
for doing anything?
Who knows?
But today, we're going to talk
about an idea that I'll bet is
in there somewhere, because it's
easy to implement, and
it's extremely powerful in what
it does, and it's the
essential item in anybody's
repertoire of learning
mechanisms.
It's also a mechanism which,
if you understand only by
formula, you will never be able
to work the problems on
the quiz, that's for sure.

English: 
Because on the surface, it
looks like it'd be very
complicated to simulate
this approach.
But once you understand how it
works and look at a little bit
of the math and let it sing
songs to you, it turns out to
be extremely easy.
So it's about letting multiple
methods work in your behalf.
So far, we've been talking about
using just one method to
do something.
And what we're going to do now
is we're looking to see if a
crowd can be smarter than the
individuals in the crowd.
But before we get too far down
that abstract path, let me
just say that the whole works
has to do with classification,
and binary classification.
Am I holding a piece of chalk in
my hand, or a hand grenade?
Is that a cup of
coffee or tea?
Those are binary classification
problems.
And so we're going to be talking
today strictly about
binary classification.
We're not going to be talking
about finding the right letter

Korean: 
이 접근법은 시뮬레이션하기엔
굉장히 복잡해 보이기 때문이죠
하지만 여러분이 이 아이디어가
어떻게 작동하는지 이해하고
약간의 수학을 살펴본 후에 
이들의 노래에 귀 기울여 보세요
아주 쉽다는 것을 알게 될 겁니다
이 아이디어는 여러 가지 방법들이
여러분을 대신해서 작동하도록 하는 겁니다
지금까지 우리는
하나의 방법만 사용해서
어떤 일을 하는 것에 대해서만
이야기해왔습니다
그리고 이제 개인이 모인 다수가
다수 중의 각 개인보다
더 나을 수 있는지
알아볼 것입니다
추상적인 내용에 대해서 다루기 전에
먼저 이 모든 내용들은 분류와
이진 분류에 관한 것이라고
말씀드리겠습니다
제가 손에 분필 조각을 들고 있나요
아니면 수류탄을 들고 있나요?
이 잔에 담긴 것이
커피일까요, 차일까요?
이 모든 것들은
이진 분류 문제죠
그래서 오늘은 이진 분류에 대해서
엄밀하게 다뤄 보겠습니다
우리는 어떤 페이지에 들어갈

English: 
in the alphabet that's
written on the page.
That's a 26-way choice.
We're talking about
binary choices.
So we assume that there's
a set of classifiers
that we can draw on.
Here's one--
h.
And it produces either a
minus 1 or a plus 1.
So that's how the classification
is done.
If it's coffee, plus 1.
If it's tea, minus 1.
Is this chalk, plus one.
If it's a hand grenade,
minus 1.
So that's how the classification
works.
Now, too bad for us, normally
the world doesn't give us very
good classifiers.
So if we look at the error rate
of this classifier or any
other classifier, that error
rate will range from 0 to 1 in
terms of the fraction
of the cases got
wrong on a sample set.

Korean: 
올바른 알파벳을 찾는 문제에 대해서
다루지는 않을 겁니다
그건 26개의 선택지가 있는
문제니까요
우리는 2개의 선택지가 있는
문제만 다룰 겁니다
우리에게 한 세트의
분류기가 있다고 해 봅시다
이 분류기를 그릴 수 있겠죠
하나 그려보겠습니다
h라고 부르죠
이 분류기는
-1 혹은 +1의 결과를 냅니다
이 분류기가 하는 일이죠
만약에 커피라면 +1이고
차라면 -1이 될 겁니다
분필이라면 +1이 되고
수류탄이라면 -1이 될 겁니다
이런 식으로 분류되는 것이죠
하지만 안타깝게도 보통의 경우
이 세상은 좋은 분류기를
우리에게 주지 않습니다
이런 분류기나 다른 분류기들의
에러율은 0에서 1까지의 범위에서
틀리게 분류 된 예시의
정도에 따라 정해집니다

English: 
So you'd like your error rate
to be way down here.
You're dead if it's
over there.
But what about in the middle?
What if it's, say,
right there.
Just a little bit better
than flipping a coin.
If it's just a little bit better
than flipping a coin,
that's a weak classifier.
And the question is, can you
make a classifier that's way
over here, like there, a
strong classifier, by
combining several of these
weak classifiers, and
letting them vote?
So how would you do that?
You might say, well, let us make
a big classifier capital

Korean: 
여러분이 원하는 것은
에러율이 여기까지 작아지는 것이죠
저기까지 커지게 되면 안됩니다
중간의 경우 어떨까요?
바로 여기 말이죠
동전 던지기보다는
약간 더 나은 정도죠
이 정도의 분류기라면
약한 분류기이죠
여기서 제가 묻고 싶은 것은
여기에 위치한 분류기를
만들수 있냐는 것이죠
강력한 분류기이죠
약한 분류기 여러 개를 합쳐서
그들이 스스로 판단할 수 있도록 하는
강한 분류기를
만들어 낼 수 있을까요?
그렇다면 어떻게 구현하면 좋을까요?
아마도 여러분은
큰 분류기 H를 만들어서
어떤 예시 x에 대해서 작동시켜서

English: 
H, that works on some sample x,
and has its output produces
something that depends on the
sum of the outputs of the
individual classifiers.
So we have H1 working on x.
We have H2 working on x.
And we have H3 also
working on x.
Let's say three of them,
just to start us off.
And now let's add those
guys up, and take
the sign of the output.
So if two out of the three of
those guys agree, then we'll
get an either plus
1 or minus 1.
If all three agree, we'll
get plus 1 or minus 1.
Because we're just
taking the sign.
We're just taking the sign
of the sum of these guys.
So this means that one guy can
be wrong, as long as the other
two guys are right.

Korean: 
그 결과값이 각각의 분류기의 결과의
합으로 나타나도록 하면 된다고
생각할 겁니다
x에 대해서 작동하는
분류기 h1이 있고
x에 대해서 작동하는
분류기 h2가 있습니다
x에 대해서 작동하는
분류기 h3도 있습니다
이 세 개를 가지고 시작해보죠
이제 이 세 개를 합해서
결과의 부호를 알아봅시다
만약 3개 중에 2개가 일치한다면
우리는 +1 혹은 -1이라는 결과를
얻을 수 있습니다
세 개가 다 일치할 때도
+1 혹은 -1이 되겠죠
부호만 가져오는 것이니까요
이 세 분류기의 합의
부호만 가져오는 것입니다
이 말은 하나의 분류기가
틀린 값을 내도
나머지 두 개의 분류기가 맞다면
괜찮다는 뜻입니다

English: 
But I think it's easier to see
how this all works if you
think of some space of samples,
you say, well, let's
let that area here be where H1
is wrong, and this area over
here is where H2 is wrong.
And then this area over here
is where H3 is wrong.
So if the situation is like
that, then this formula always
gives you the right answers
on the samples.
I'm going to stop saying that
right now, because I want to
be kind of a background thing
on the samples set.
We're talking about wrapping
this stuff
over the sample set.
Later on, we'll ask, OK, given
that you trained this thing on
a sample set, how well does it
do on some new examples?
Because we want to
ask ourselves
about overfitting questions.

Korean: 
예시들로 이루어진
어떤 공간에 대해서 생각해 본다면
어떻게 작동하는지 이해하기가
더 쉬울 것 같습니다
이 공간을 h1이 잘못 작동하는 
공간이라고 해 봅시다
여기 이 공간은 h2가
잘못 작동하는 공간이죠
이 공간은 h3가
잘못 작동하는 공간입니다
만약 이런 상황이라면
이런 방식은 모든 예시들에 대해서
올바른 값을 낼 겁니다
이에 대해서는 그만 말하도록 하죠
왜나하면 이 예시들에 대한 배경지식을
여러분에게 알려주고 싶기 때문입니다
우리는 이러한 내용을
여러 예시들에 적용해 보았습니다
나중에, 여러분이 이 예시들에 
대해 잘 이해하고 나면
새로운 예시에서는 
얼마나 잘 작동할지 물어보겠습니다
왜냐하면 우리는 우리 자신에게
과적합 문제에 대한 질문을
던지게 될 것이기 때문이죠

Korean: 
하지만 지금은 그저
이 각자의 h들의 결과가
+1인지 -1인지 보고
그것들을 다 더해서 부호를 결정하면
각각 테스트한 결과값보다
더 나은 결과를 얻을수 있을지
알고 싶을 뿐입니다
만약 예시들이 이 그림처럼 생겼다면
모든 경우에 올바른 결과값을
얻을 수 있다는 것이 분명합니다
여기에서는 두 개의 분류기가
한 번에 잘못된 답을 내는
곳은 없으니까요
그렇기 때문에 두 개의 분류기가
올바른 답을 내게 됩니다
이 h1이라는 공간에서는
다른 두개가 정답을 내게 되죠
그렇기 때문에 이 두 개가 우세해서
항상 올바른 값을 얻을 수 있습니다
하지만 꼭 저런 예시일 필요는 없죠
이런 식으로 생겼을 수도 있습니다
이 그림에서는
여기가 h1이
잘못된 값을 내는 곳이고
여기가 h2가
잘못된 값을 내는 곳이고

English: 
But for now, we just want to
look and see if we believe
that this arrangement, where
each of these H's is producing
plus 1 or minus 1, we're adding
them up and taking the
sign, is that going to give us a
better result than the tests
individually?
And if they look like this when
draped over a sample set,
then it's clear that we're going
to get the right answer
every time, because there's no
area here where any two of
those tests are giving
us the wrong answer.
So the two that are getting
the right answer, in this
little circle here for H1, these
other two are getting
the right answer.
So they'll outvote it, and
you'll get the right answer
every time.
But it doesn't have
to be that simple.
It could look like this.
There could be a situation
where this
is H1, wrong answer.
This is H2, wrong answer.

Korean: 
여기가 h3가
잘못된 값을 내는 곳입니다
이제 상황이 조금 더 애매해졌습니다
이제 우리는 이 세 개 중
2개 혹은 3개가 틀리는
이러한 공간이
이 분류기 중 하나의 공간보다
큰지 확인해야 합니다
저 벤 다이어그램을 자세히 보고
무언가 시도해보다 보면 여러분은
더 안 좋은 결과를 내는 경우는
없다고 말할 수도 있고
이러한 원들을
어떤 방식으로 배치하면
이러한 투표를 통한 방식이
각각 테스트한 결과보다 
더 안 좋은 결과를 낼 수도 있다고
말할 수도 있습니다
하지만 지금 여러분들께
정답을 알려주지는 않을 겁니다
이걸로 시험 문제를 내도록 하죠
좋은 생각이죠?

English: 
And this is H3, wrong answer.
And now the situation gets a
little bit more murky, because
we have to ask ourselves whether
that area where three
out of the three get it wrong
is sufficiently big so as to
be worse than 1 of the
individual tests.
So if you look at that Venn
diagram, and stare at it long
enough, and try some things, you
can say, well, there is no
case where this will give
a worse answer.
Or, you might end up with the
conclusion that there are
cases where we can arrange those
circles such that the
voting scheme will give an
answer that's worst than an
individual test, but I'm not
going to tell you the answer,
because I think we'll make
that a quiz question.
Good idea?

Korean: 
알겠습니다
이걸 시험 문제로 하겠습니다
좋은 생각인 것 같군요
이제부터 어떤 약한 분류기를 사용할지
고르는 데 도움을 주는
작은 알고리즘을 만들어 보겠습니다
우리에게는 아주 많은
분류기가 있습니다
h1도 있고, h2도 있고
h55도 있죠
우리에게는 선택할 수 있는
아주 많은 분류기가 있습니다
우리는 어떤 데이터를
있는 그대로 이용해서
h1을 만들어 낼 것입니다
우리는 그냥 모든 데이터에 대해
테스트를 해 보고
어떤 것이 가장 작은
에러율을 가지는지 볼 겁니다
그리고 가장 좋은 것을 찾아서
이용하면 되겠죠
그 다음에 우리는

English: 
OK.
So we'll make that
a quiz question.
So that looks like
a good idea.
And we can construct a little
algorithm that will help us
pick the particular weak
classifiers to plug in here.
We've got a whole bag
of classifiers.
We've got H1, we've got
H2, we've got H55.
We've got a lot of them
we can choose from.
So what we're going to do is
we're going to use the data,
undisturbed, to produce H1.
We're just going to try all the
tests on the data and see
which one gives us the
smallest error rate.
And that's the good guy, so
we're going to use that.
Then we're going to use
the data with an

English: 
exaggeration of H1 errors.
In other words--
this is a critical idea.
What we're going to do is
we're going to run this
algorithm again, but instead of
just looking at the number
of samples that are got wrong,
what we're going to do is
we're going to look at a
distorted set of samples,
where the ones we're not doing
well on has exaggerated effect
on the result.
So we're going to weight them
or multiply them, or do
something so that we're going
to pay more attention to the
samples on which H1 produces an
error, and that's going to
give us H2.
And then we're going to do it
one more time, because we've
got three things to go with here
in this particular little
exploratory scheme.
And this time, we're
going to have an

Korean: 
이 h1의 오차에 대해서 과장시킨
데이터를 이용할 겁니다
다른 말로는,
이것은 정말 중요한 아이디어입니다
지금부터 우리가 할 것은
이 알고리즘을 한번 더
실행시키는 겁니다
하지만 에러를 내는 경우들을
그냥 세지 않고
왜곡된 예시들을 가지고 할 겁니다
여기에서는 아까 에러를 냈던
예시에 대해서는
더 큰 영향을 미치도록 하는 것이죠
그 예시들에 조금 더 가중치를 주거나
몇 배를 곱하거나
혹은 다른 방법을 통해
h1에서 오차를 낸 예시들에 대해서
조금 더 주의를 기울여서
h2를 만들어 내도록
하는 것입니다
그 다음에는 이 과정을
한번 더 반복해야 합니다
이 실험 상황에서는
세 개를 골라야 하기 때문이죠

English: 
exaggeration of those samples--
which samples are we going
to exaggerate now?
We might as well look for the
ones where H1 gives us a
different answer from H2,
because we want to be on the
good guy's side.
So we can say we're going to
exaggerate those samples four
which H1 gives us a different
result from H2.
And that's going
to give us H3.
All right.
So we can think of this whole
works here as part one of a
multi-part idea.
So let's see.
I don't know, what might
be step two?
Well, this is a good idea.
Then what we've got that we can
easily derive from that is
a little tree looked
like this.

Korean: 
그리고 이번에 우리가
과장시킬 예시들은
어떤 것들일까요?
우리가 이제부터 과장시켜야 할 것들은
h1과 h2가 다른 답을 내는
예시들입니다
그 중에서 맞는 쪽을 택해야 하니까요
그래서 이제부터는
h1과 h2가 다른 답을 내는
예시들에 과장을 줄 것입니다
그렇게 해서 h3를 고르면 됩니다
아시겠나요?
우리는 이 모든 과정들을
여러 파트를 가진 아이디어의
첫 번째 부분이라고 생각할 수 있죠
다음을 보죠
두 번째는 무엇일까요?
정말 좋은 아이디어였어요
우리가 지금까지 알아낸 것은
이런 식으로 생긴 트리입니다

English: 
And we can say that H of x
depends on H1, H2, and H3.
But now, if that that's a good
idea, and that gives a better
answer than any of the
individual tests, maybe we can
make this idea a little bit
recursive, and say, well,
maybe H1 is actually
not an atomic test.
But maybe it's the vote
of three other tests.
So you can make a
tree structure
that looks like this.
So this is H11, H12, H13,
and then 3 here.
And then this will
be H31, H32, H33.
And so that's a sort of
get out the vote idea.

Korean: 
이 H(x)는
h1, h2, h3로 이루어져 있죠
만약 이게 좋은 아이디어이고
이 각각의 경우보다
더 좋은 답을 낼 수 있다면
아마도 이 방식을 반복적으로
실행할 수 있을 겁니다
즉, h1이 사실
하나의 테스트가 아닌 것이죠
이 h1도 다른 3개의 테스트의
합으로 이루어져 있을 수도 있습니다
그러면 이 트리 구조를
이런 그림으로 그릴 수 있겠죠
여기에 h11, h12, h13가 있고
여기에도 3개가 있고
여기는 h31, h32, h33이
될 것입니다
아까 했던 투표하는 방식을
사용하는 것이죠

English: 
We're trying to get a whole
bunch of individual
tests into the act.
So I guess the reason this
wasn't discovered until about
'10 years ago was because you've
got to get so many of
these desks all lined up before
the idea gets through
that long filter of ideas.
So that's the only idea number
two of quite a few.
Well, next thing we might
think is, well, we keep
talking about these
classifiers.
What kind of classifiers
are we talking about?
I've got--
oh, shoot, I've spent
my last nickel.
I don't have a coin to flip.
But that's one classifier,
right?
The trouble with that classifier
is it's a weak
classifier, because it
gives me a 50/50
chance of being right.
I guess there are conditions
in which a coin flip
is better than a--
it is a weak classifier.
If the two outcomes are not
equally probable, than a coin
flip is a perfectly good
weak classifier.

Korean: 
각각의 결과값을 모아서
하나로 만드는 것입니다
이 방식이 10년 전까지도
발견되지 못했던 이유는
아마도 이 아주 많은 과정들을
다 나열해야만
아이디어들을 실험해 볼 수
있었기 때문일 겁니다
이 과정은 꽤 많은 부분들 중
두 번째 과정일 뿐입니다
그 다음으로 우리가 생각해야 할 것은
이 분류기에 대해서 계속
이야기 해 보는 것입니다
우리의 분류기는
어떤 종류의 분류기일까요?
제가 지금
오, 제 마지막 동전을 써버렸네요
던질 동전이 없군요
하지만 분류기 중에 하나일 뿐이니까요
이 분류기의 문제점은
약한 분류기가 아니라는 것입니다
맞을 확률이 50대 50이니까요
아마도 이러한 동전 던지기가
약한 분류기보다 더 나은 경우도
있을 것 같습니다
만약 두 결과값이
같은 확률을 가지지 않는 경우에
동전 던지기가 확실히
더 좋은 약한 분류기가 될 겁니다

English: 
But what we're going to do is
we're going to think in terms
of a different set
of classifiers.
And we're going to call
them decision tree.
Now, you remember decision
trees, right?
But we're not going to
build decision trees.
We're going to use decision
tree stumps.
So if we have a two-dimensional
space that
looks like this, then a decision
tree stump is a
single test.
It's not a complete tree that
will divide up the samples
into homogeneous groups.
It's just what you can
do with one test.
So each possible test
is a classifier.
How many tests do we
get out of that?

Korean: 
하지만 지금 우리가
이야기하고자 하는 것은
다른 종류의 분류기 입니다
이것을 결정 트리라고 부르도록 하죠
결정 트리 기억나죠?
결정 트리를 만들지는 않을 겁니다
결정 그루터기(decision stump)만
사용할 것입니다
2차원 공간이 있다고 해 봅시다
이런 식으로 생겼죠
이 때 결정 그루터기란
하나의 테스트에 대한 것입니다
예시들을 같은 그룹끼리 나누는
완벽한 트리가 아닙니다
그냥 한 개의 테스트에 대한 것입니다
하나의 가능한 테스트는
하나의 분류기입니다
여기에서 몇 가지 테스트를
할 수 있을까요?

English: 
12, right?
Yeah.
It doesn't look like
12 to me, either.
But here's how you get to 12.
One decision tree test you can
stick in there would be that
test right there.
And that would be a complete
decision tree stump.
But, of course, you can
also put in this one.
That would be another
decision tree stump.
Now, for this one on the right,
I could say, everything
on the right is a minus.
Or, I could say, everything
on the right is a plus.
It would happen to be wrong, but
it's a valid test with a
valid outcome.
So that's how we double the
number of test that
we have lines for.
And you know what?
can even have a kind of test out
here that says everything
is plus, or everything
is wrong.
So for each dimension, the
number of decision tree stumps
is the number of lines
I can put in times 2.

Korean: 
12개 맞나요?
맞아요, 저도 12개 같지는 않군요
하지만 어떻게 12가 나오는지
알려드리죠
여러분이 그릴 수 있는 트리는 아마도
이런 모양일 겁니다
완벽한 결정 트리의 스텀프입니다
하지만 당연히 이런 모양으로도
그릴 수 있습니다
또 다른 결정 트리의 스텀프입니다
이 오른쪽의 경우
이 선보다 오른쪽에 있으면
모두 마이너스 예시입니다
혹은 오른쪽이 모두
플러스 예시라고 할 수도 있습니다
그렇게 되면 틀린 것이지만
유효한 결과를 내는
유효한 테스트가 되죠
이렇게 하면 우리가
그을 수 있는 선의 갯수에
2배를 할 수 있게 됩니다
그리고 그 다음에는
이런 테스트를 만들어서
모든 경우가 플러스가 되거나
모든 경우가 틀리게도 만들 수 있죠
각각의 차원에 대해
이러한 결정 트리의 스텀프는
그릴 수 있는 선의 갯수에
2를 곱한 만큼 존재합니다

English: 
And then I've got two dimensions
here, that's how I
got to twelve.
So there are three lines.
I can have the pluses
on either the left
or the right side.
So that's six.
And then I've got two
dimensions, so
that gives me 12.
So that's the decision
tree stump idea.
And here are the other decision
tree boundaries,
obviously just like that.
So that's one way can generate
a batch of tests to try out
with this idea of using
a lot of tests to help
you get the job done.
STUDENT: Couldn't you also have
a decision tree on the
right side?
PATRICK WINSTON: The question
is, can you also have a test
on the right side?
See, this is just a stand-in for
saying, everything's plus
or everything's minus.
So it doesn't matter where
you put the line.
It can be on the right side,
or the left side, or the
bottom, or the top.
Or you don't have to put
the line anywhere.

Korean: 
이렇게 하면 여기 2차원의 공간에서
12가 나옵니다
여기에 3개의 선이 있고
플러스를 이 선의
왼쪽에 둘 수도 있고
오른쪽에 둘 수도 있습니다
그러면 6이죠
그리고 2차원이므로
12가 됩니다
이것이 바로 결정 트리의
스텀프에 대한 아이디어죠
그리고 여기 다른
결정 트리 경계를 그릴 수 있습니다
아마도 이런 식으로요
이것이 바로 여러분들이 여러 테스트를
만들어낼 수 있는 한 가지 방법입니다
이 테스트들을 이용해서
아이디어들을 실험해보고
여러분이 하고자 하는 일을
할 수 있도록 도와주죠
학생 : 결정 트리를 오른쪽에도
그릴 수는 없나요?
교수 : 저 학생이 방금 한 질문은
오른쪽에도 테스트를 만들 수 있지
않느냐는 질문이었습니다
이 가장 왼쪽에 있는 테스트는
모든 것이 플러스이거나
모든 것이 마이너스라는 것을 뜻합니다
그렇기 때문이 이 선을 어디 긋든
상관이 없습니다
오른쪽이든 왼쪽이든
혹은 아래쪽이든 위쪽이든 말이죠
아니면 선을 긋지 않아도 됩니다
그냥 추가적인 테스트입니다

English: 
It's just an extra test, an
additional to the ones you put
between the samples.
So this whole idea
of boosting, the
main idea of the day.
Does it depend on using
decision tree stumps?
The answer is no.
Do not be confused.
You can use boosting with
any kind of classifier.
so why do I use decision
tree stumps today?
Because it makes my life easy.
We can look at it, we can
see what it's doing.
But we could put bunch of
neural nets in there.
We could put a bunch of real
decision trees in there.
We could put a bunch of nearest
neighbor things in there.
The boosting idea
doesn't care.
I just used these decision
tree stumps because I and
everybody else use them
for illustration.
All right.
We're making progress.
Now, what's the error rate
for any these tests
and lines we drew?

Korean: 
예시들 사이에 그냥 추가해둔 것이죠
이러한 부스팅에 대한 아이디어가
오늘의 핵심 내용입니다
부스팅이 결정 그루터기에
영향을 받을까요?
아닙니다
헷갈리지 마세요
여러분은 모든 분류기에 대해서
부스팅을 사용할 수 있습니다
그럼 오늘 제가 결정 그루터기를
사용한 이유는 뭐죠?
제 삶을 쉽게 만들어 주기 때문이죠
이것을 보고 어떤 일을 하고 있는지
알 수 있습니다
하지만 여기에 우리는
신경망을 넣을 수도 있습니다
여기에 실제 결정 트리를
넣을 수도 있습니다
여기에 최근접 이웃에 대한 내용을
넣을 수도 있겠죠
이 부스팅 아이디어는
어떤 것을 넣든 상관 없습니다
제가 결정 그루터기를
사용한 이유는
저를 포함한 모두가 예를 들기 위해
이를 사용하고 있기 때문입니다.
아시겠죠?
한 단계 더 나아갔네요
이제 우리가 그린
이 각각의 선들에 대해
에러율은 얼마일까요?

Korean: 
아마도 에러율은
1/N의 합이 될 겁니다
N은 예시들의 갯수입니다
틀린 경우에 대해서
가짓수를 모두 더합니다
이제부터 이 아이디어들을
모두 합해보도록 하죠
여기 과장에 대한 아이디어가 있었죠
그래서 여기 이 과정 중에
어떤 에러에 대해서는
다른 에러보다
더 과장된 효과를
줄 수 있도록 할 겁니다
여기서 우리가 할 수 있는 것은
각각의 예시들이
각자의 가중치를 가지고 있다고
가정하거나 규정하거나
정하는 것입니다
여기는 w1, 여기는 w2
여기는 w3로요
처음에는 이 중 어떤 것이
다른 것보다 더 중요하거나 덜 중요하다고
생각할 이유가 없습니다

English: 
Well, I guess it'll be the error
rate is equal to the sum
of 1 over n--
That's the total number
of points,
the number of samples--
summed over the cases
where we are wrong.
So gee, we're going to work on
combining some of these ideas.
And we've got this notion
of exaggeration.
At some stage in what we're
doing here, we're going to
want to be able to exaggerate
the effect of some errors
relative to other errors.
So one thing we can do is
we can assume, or we can
stipulate, or we can assert that
each of these samples has
a weight associated with it.
That's W1, this is W2,
and that's W3.
And in the beginning, there's no
reason to suppose that any
one of these is more
or less important
than any of the other.

English: 
So in the beginning, W sub i
at time [? stub ?] one is
equal to 1 over n.
So the error is just adding up
the number of samples that
were got wrong.
And that'll be the fraction
of samples to that
you didn't get right.
And that will be
the error rate.
So what we want to do is we want
to say, instead of using
this as the error rate for all
time, what we want to do is we
want to move that over, and
say that the error rate is
equal to the sum over the things
you got wrong in the
current step, times the
weights of those
that were got wrong.
So in step one, everything's
got the same weight, it
doesn't matter.
But if we find a way to change
their weights going
downstream--
so as to, for example, highly
exaggerate that third sample,

Korean: 
그렇기 때문에 처음에는
1단계에서 wi는
1/N이라고 할 수 있습니다
오러율을 구하기 위해서는
틀린 예시들의 갯수만
세면 되는 것이죠
그렇게 하면 틀린 예시들의
비율을 알 수 있습니다
그러면 바로 에러율이 되겠죠
우리는 이 식이 항상
에러율이 된다고 하는 대신
이 식을 옮겨와서
에러율은 현재 단계에서
틀린 예시들의 갯수에
가중치를 곱한 것의
합이라고 하는 것입니다
그렇기 때문에 첫 번째 단계에서
모든 예시들이 같은 가중치를 가지면
신경 쓸 필요가 없지만
그 다음에 가중치를 바꿀 일이 생기면
예를 들어 이 세 번째 예시에 대해
큰 가중치를 주고 싶으면

English: 
then W3 will go up relative
to W1 and W2.
The one thing we want to be sure
of is there is no matter
how we adjust the weights, that
the sum of the weights
over the whole space
is equal to 1.
So in other words, we want to
choose the weights so that
they emphasize some of the
samples, but we also want to
put a constraint on the weights
such that all of them
added together is
summing to one.
And we'll say that that enforces
a distribution.
A distribution is a set of
weights that sum to one.
Well, that's just a nice idea.
So we're make a little
progress.
We've got this idea that we
can add some plus/minus 1
classifiers together, you
get a better classifier.
We got some idea about
how to do that.

Korean: 
w3가 w1이나 w2에 비해서
아주 큰 값을 가지게 되는 것이죠
여기에서 우리가 확실히 해야 할 것은
어떻게 이 가중치를 바꾸든지간에
모든 공간에서의 가중치의 합은
1이 되어야 한다는 것입니다
즉 우리는 어떤 예시들에 대해서는
강조를 할 수 있으면서도
모든 예시들의 가중치의
합이 1이 될 수 있도록
제한 조건을 걸어서
가중치를 선택해야 합니다
이 제한 조건을 통해서
가중치가 잘 분포되도록 하는 것이죠
여기서 분포란 합이 1이 되는
예시들의 가중치의 집합입니다
굉장히 멋진 아이디어입니다
약간 더 나아가 볼까요?
우리는 이 위에서
몇 개의 +1/-1 분류기를 더해서
더 좋은 분류기를 만드는
아이디어를 배웠습니다
그리고 이제 이 방법을
어떻게 실현시킬지 배웠죠

Korean: 
우리는 이 때 가능한 한
많은 분류기를 사용하고 싶어합니다
그리고 아마도 결정 그루터기를 이용해
이 모든 것들을
종합해볼 수 있을 겁니다
그리고 이제 이 다음 단계는
실제로 이것들을 종합하는 방법입니다
아마도 이러한 내용들에 대해서는
도서관에 있는 논문들에서
찾을 수 있을 겁니다
그리고 이 방법들은 몇 년간
최첨단의 방법이었습니다
그러나 사람들은
이 H(x)라는 분류기를
여러 단계로 나누어 만들어서
아주 많은 분류기들을 포함하도록
만드는 방법을 개발하기 시작했습니다
아마도 이 분류기를
식으로 나타낼 수 있을 겁니다
이게 처음으로 뽑은 분류기 h1이죠
거기에 예시 x를 넣습니다

English: 
It occurs to us that maybe
we want to get a lot of
classifiers into the act
somehow or another.
And maybe we want to think
about using decision tree
stumps so as to ground out
thinking about all this stuff.
So the next step is to say,
well, how actually should we
combine this stuff?
And you will find, in the
literature libraries, full of
papers that do stuff
like that.
And that was state of the art
for quite a few years.
But then people began to say,
well, maybe we can build up
this classifier, H of x, in
multiple steps and get a lot
of classifiers into the act.
So maybe we can say that the
classifier is the sign of H--
that's the one we
picked first.
That's the classifier
we picked first.
That's looking at samples.

English: 
And then we've got H2.
And then we've got H3.
And then we've got how many
other classifiers we might
want, or how many classifiers
we might need in order to
correctly classify everything
in our sample set.
So people began to think about
whether there might be an
algorithm that would develop
a classifier that way,
one step at a time.
That's why I put that step
number in the exponent,
because we're picking this one
at first, then we're expanding
it to have two, and then we're
expanding it to have
three, and so on.
And each of those individual
classifiers are separately
looking at the sample.
But of course, it would be
natural to suppose that just
adding things up wouldn't
be enough.
And it's not.
So it isn't too hard to invent
the next idea, which is to

Korean: 
그 다음으로는 h2
그리고 h3도 넣습니다
그리고 우리가 원하는 만큼의
분류기를 더합니다
우리가 가진 모든 예시를
다 맞출 수 있을 만큼
많은 분류기를 더하는 것입니다
사람들은 이런 방법으로
분류기를 만들어 나가는
알고리즘이 존재할지
고민하기 시작했습니다
한 번에 한 단계씩 말이죠
이게 바로 제가 몇 단계인지
지수로 표현한 이유이죠
이 지수가 1인 h는
이 분류기를 처음으로 뽑았다는 뜻이고
그 다음으로는 2단계까지 확장하고
3단계, 그리고 그 다음 단계까지
확장해나가는 것입니다
이 각각의 분류기는
독립적으로 예시들을 분류하게 되죠
하지만 당연히도
그냥 더하는 것만으로는
충분하지 않을 겁니다
실제로도 그렇죠
그래서 다음 아이디어를 고안하게 됩니다

English: 
modify this thing just a little
bit by doing what?
It looks almost like a scoring
polynomial, doesn't it?
So what would we do to tart
this up a little bit?
STUDENT: [INAUDIBLE].
PATRICK WINSTON: Come again?
Do what?
STUDENT: [INAUDIBLE].
PATRICK WINSTON: Somewhere out
there someone's murmuring.
STUDENT: Add--
PATRICK WINSTON: Add weights!
STUDENT: --weights.
Yeah.
PATRICK WINSTON: Excellent.
Good idea.
So what we're going to do is
we're going to have alphas
associated with each of these
classifiers, and we're going
to determine if somebody
can build that kind
formula to do the job.
So maybe I ought to modify this
gold star idea before I
get too far downstream.
And we're not going to treat
everybody in a crowd equally.
We're going to wait some of the
opinions more than others.
And by the way, they're all
going to make errors in

Korean: 
약간의 변화를 주면 되는데
어떻게 하면 될까요?
이 식이 득점 다항식과
비슷하게 생기지 않았나요?
그렇다면 이 식을 조금 더
다듬기 위해서 무엇을 해야 할까요?
학생 : ??
교수 : 다시 한 번 말해볼래요?
무엇을 한다고요?
학생 : ??
교수 : 저기 어떤 학생이
작은 소리로 대답했네요
학생 : 더하면 됩니다
교수 : 가중치를 더하면 됩니다
훌륭해요
정말 좋은 아이디어에요
그럼 이제부터
각각의 분류기의 알파 값을 가지고
우리의 목적을 달성하기 위해서
이러한 식을 세울 수 있는지
알아낼 겁니다
그렇기 때문에 이 별표한 아이디어를
더 늦기 전에 수정해야 합니다
우리는 이제 이 모든 예시들을
모두 같게 생각하지 않을겁니다
어떤 예시들은 다른 예시들보다
조금 더 중요하게 생각할 겁니다
그나저나 이 모든 분류기들은

Korean: 
오류를 일으키는 서로 다른 공간을
가지고 있습니다
그렇기 때문에 어떤 예시들에
더 가중치를 주는 것 뿐만 아니라
전문적인 어떤 분류기들을
골라야 합니다
이 전문적인 분류기들은 각각
다른 공간에서 유리합니다
어쨌거나 우리는 이 식을 얻었고
그리고 조금 더 중요한
몇몇 것들이 존재합니다
먼저 이 식이 어떤 형태여야 할지
알고리즘을 적어나가 봅시다
적을 공간이 부족한 것 같으니
이 오른쪽 칠판을 올리고
여기에 알고리즘을 적어보겠습니다
먼저 모든 가중치를
1/n으로 두고 시작해봅시다
처음에는 모두 같다는 것을 의미합니다
그리고 그러기 위해서 1/n이 되죠

English: 
different parts of the space.
So maybe it's not the wisdom of
even a weighted crowd, but
a crowd of experts.
Each of which is good at
different parts of the space.
So anyhow, we've got this
formula, and there are a few
things that one can
say turn out.
But first, let's write down the
an algorithm for what this
ought to look like.
Before I run out of space, I
think I'll exploit the right
hand board here, and put the
overall algorithm right here.
So we're going to start out by
letting of all the weights at
time 1 be equal to 1 over n.
That's just saying that they're
all equal in the
beginning, and they're
equal to 1 over n.

Korean: 
n은 예시의 갯수입니다
그 다음에 해야할 것은
어떤 방식으로든
이 α를 계산하는 것입니다
봅시다
아 이걸 하고 싶은게 아니에요
지금 하고 싶은 것은
에러율을 최소로 할 수 있는
분류기를 고르는 것입니다
에러율 et를 줄이는 ht를 고릅니다
시간이 t일 때를 기준으로 하죠
이렇게 하면
여기에 시간에 대한 정보를
넣을 수 있습니다
어떤 에러율을 가지는
분류기를 고르게 되면
우리는 이 에러율을 가지고

English: 
And n is the number
of samples.
And then, when I've got
that, I want to
compute alpha, somehow.
Let's see.
No, I don't want to do that.
I want to
I want to pick a classifier the
minimizes the error rate.
And then m, i, zes,
error at time t.
And that's going to
be at time t.
And we're going to come
back in here.
That's why we put a step
index in there.
So once we've picked a
classifier that produces an
error rate, then we can
use the error rate to

Korean: 
α를 구할 수 있습니다
여기서 α를 구해보도록 하죠
테스트를 고르기 위한
부가적인 수단이죠
이 모든 정보를 가지고
w(t + 1)을 계산할 수 있습니다
이제 방금 우리가 고른
분류기를 이용해서
가중치를 조정할 겁니다
그리고 이 과정을 계속 반복해서
이 분류기가 모든 예시에서
완벽한 결론에 이르도록 합니다
이게 우리의 전체적인 방법입니다
여기에 숫자를 매겨본다면
이 부분은 4번째 아이디어가 되겠죠
그리고 여기에 있는 아이디어는
5번째 아이디어입니다

English: 
determine the alpha.
So I want the alpha over here.
That'll be sort of a byproduct
of picking that test.
And with all that stuff in
hand, maybe that will be
enough to calculate Wt plus 1.
So we're going to use that
classifier that we just picked
to get some revised weights,
and then we're going to go
around that loop until this
classifier produces a perfect
set of conclusions on
all the sample data.
So that's going to be our
overall strategy.
Maybe we've got, if we're going
to number these things,
that's the fourth big idea.
And this arrangement here
is the fifth big idea.

Korean: 
이제 우리는 6번째 아이디어를
만들어 낼 겁니다
이 6번째 아이디어는 이런 내용이죠
(t+1)이라는 시간에서
i번째 예시의 가중치는
그 예시의 시간 t에서의 가중치를
어떤 정규화 계수로 나눈 후
칠판에 적은 이
e에 대한 식을 곱합니다
이 함수 y는 시간이 아니라
x에 대한 식입니다

English: 
Then we've got the
sixth big idea.
And the sixth big
idea says this.
Suppose that the weight on it
ith sample at time t plus 1 is
equal to the weight at time t
on that same sample, divided
by some normalizing factor,
times e to the minus alpha at
time t, times h at time t, times
some function y which is
a function of x, But not
a function of time.

English: 
Now you say, where did
this come from?
And the answer is, it did not
spring from the heart of
mathematician in the first
10 minutes that he
looked at this problem.
In fact, when I asked
[INAUDIBLE]
how this worked, he said, well,
he was thinking about
this on the couch every Saturday
for about a year, and
his wife was getting pretty
sore, but he finally found it
and saved their marriage.
So where does stuff like
this come from?
Really, it comes from knowing
a lot of mathematics, and
seeing a lot of situations,
and knowing that something
like this might be
mathematically convenient.
Something like this might be
mathematically convenient.
But we've got to back up a
little and let it sing to us.
What's y?
We saw y last time.
The support vector machines.
That's just a function.
That's plus 1 or minus 1,
depending on whether the
output ought to be plus
1 or minus 1.

Korean: 
그렇다면 이 y는
어디서 온 함수일까요?
사실 이 함수는
수학자들이 이 문제를 처음 보았을 때
바로 떠올릴 만한 함수는 아닙니다
실제로 이 문제를 어떻게 풀었는지 물었을 때
그는 1년 동안 매 토요일마다
그의 아내가 아주 지루해할 만큼
소파에 앉아서 이 문제에 대해서
고민했다고 대답했습니다
결국에 그는 답을 찾아냈고
결혼 생활을 지켜낼 수 있었죠
그래서 이런 내용은
어디서 나온 것일까요?
이 내용을 알아내기 위해서는
아주 많은 수학적 지식이 필요하고
많은 상황들을 겪어서
이 상황이 수학적 편리성을
이끌어낼 수 있는
상황이라는 것을 알아야 하죠
수학적 편리성을 이끌어낼 수 있는
상황이라는 사실을 말이죠
하지만 이렇게 하기 위해서는
앞의 내용을 조금 되돌아봐야 합니다
y가 뭘까요?
우리는 지난 시간에 y에 대해 배웠죠
서포트 벡터 머신에서요
y는 그냥 함수였습니다
결론이 +1인지 -1인지에 따라
+1 혹은 -1의 값을 내는 함수입니다

English: 
So if this guy is giving the
correct answer, and the
correct answer is plus, and then
this guy will be plus 1
too, because it always gives
you the correct answer.
So in that case, where this
guy is giving the right
answer, these will have the same
sign, so that will be a
plus 1 combination.
On the other hand, if that guy's
giving the wrong answer,
you're going to get a minus
1 out of that combination.
So it's true even if the right
answer should be minus, right?
So if the right answer should
be minus, and this is plus,
then this will be minus 1, and
the whole combination well
give you minus 1 again.
In other words, the y just flips
the sign if you've got
the wrong answer, no matter
whether the wrong answer is
plus 1 or minus 1.
These alphas--
shoot, those are the same
alphas that are in this
formula up here, somehow.
And then that z, what's
that for?
Well, if you just look at the
previous weights, and its

Korean: 
만약 이 h(x)가 정답을 맞춘다면
그리고 그 정답이 양수라면
이 y도 +1이 될 겁니다
왜냐하면 항상 정답을 내기 때문이죠
이런 상황에서 이 h(x)가 정답을 낸다면
h와 y는 같은 부호를 가지게 되어서
곱하면 +1이 될 겁니다
반대로 만약 이 h(x)가
잘못된 답을 낸다면
이 -1을 곱하는 것이 될 겁니다
정답이 -1일 때도
이런 식으로 되겠죠?
정답이 음수가 되어야 하고
h가 양수이면
y는 -1이 되어서 둘을 곱한 값은
다시 -1이 될 것입니다
다시 말해 y는
잘못된 답을 냈을 때
부호를 바꾸는 역할을 합니다
그 오답이 +1이든 -1이든
그냥 바꾸는 것이죠
이 α는 왠지 모르겠지만
위의 식에 있는 α와 같습니다
이 z는 무엇을 뜻할까요?
만약 그냥 이전의 가중치를 가져와서

English: 
exponential function to produce
these W's for the next
generation, that's not going to
be a distribution, because
they won't sum up to 1.
So what this thing here, this
z is, that's a sort of
normalizer.
And that makes that whole
combination of new
weights add up to 1.
So it's whatever you got by
adding up all those guys, and
then dividing by that number.
Well, phew.
I don't know.
Now there's some
it-turns-out-thats.
We're going to imagine that
somebody's done the same sort
of thing we did to the support
vector machines.
We're going to find a way
to minimize the error.
And the error we're going to
minimize is the error produced

Korean: 
여기에 e에 대한 이 함수를 곱한다면
다음 단계에서는 잘 분포되었다고
말할 수 없을 겁니다
왜냐하면 다 더해서
1이 되지 않기 때문이죠
그래서 여기에 있는 이 z는
정규화를 시켜주는 역할을 합니다
그리고 이 z는 모든 가중치를 더해서
1이 되도록 해주죠
그렇기 때문에 이 식으로
얼마가 더해지든
이 z로 나누면 됩니다
이제 몇 가지 사실을
발견할 수 있습니다
어떤 사람이 우리가 한 이러한 내용을
서포트 벡터 머신을 가지고 했다고
상상해 봅시다
우리는 에러를 최소화하기 위한
방법을 찾게 되겠죠
우리가 최소화하고 싶어하는
이 에러는

Korean: 
이 위에 있는 4번 과정을 통해
만들어진 에러입니다
과정을 계속 진행하기 위해서는
이 전체 식의 에러를 최소화해야하죠
그리고 미적분학에서 하는 것처럼
미분과 다른 다양한 것들을 시도하다 보면
전체의 최소 에러는
α가 이 식과 같을 때
생긴다는 것을 알 수 있습니다
이 식에 로그를 취하고
1/2을 곱하면 됩니다
아주 찾기 힘들어했던 부분이죠

English: 
by that whole thing
up there in 4.
We're going to minimize the
error of that entire
expression as we go along.
And what we discover when
we do the appropriate
differentiations and stuff--
you know, that's what
we do in calculus--
what we discover is that you
get minimum error for the
whole thing if alpha is equal
to 1 minus the error rate at
time t, divided by the
error rate at time t.
Now let's take the logarithm
of that, and
multiply it by half.
And that's what [INAUDIBLE]
was struggling to find.

English: 
But we haven't quite
got it right.
And so let me add this in
separate chunks, so we don't
get confused about this.
It's a bound on that expression
up there.
It's a bound on the error rate
produced by that expression.
So interestingly enough, this
means that the error rate can
actually go up as you add
terms to this formula.
all you know is that the error
rate is going to be bounded by
an exponentially decaying
function.
So it's eventually guaranteed
to converge on zero.
So it's a minimal error bound.
It turns out to be
exponential.
Well, there it is.
We're done.
Would you like to see
a demonstration?
Yeah, OK.
Because you look at that, and
you say, well, how could
anything like that
possibly work?
And the answer is, surprisingly
enough, here's
what happens.

Korean: 
하지만 아직
완전한 답을 찾은 것은 아닙니다
헷갈리지 않기 위해서
조금씩 나눠서 내용을
추가해 보도록 합시다
이 위에 있는 식은
최소 에러의 경계가 됩니다
이 식에 의해서 생기는
에러의 경계이죠
따라서 흥미롭게도 이 말은
이 식에 어떤 항을 더하면
에러율이 올라간다는 뜻입니다
이 에러율은 지수적으로 감소하는 함수를
상한 경계로 가진다는 것을 알 수 있죠
그렇기 때문에 결국 당연히
0으로 수렴할 것입니다
이 최소 에러의 경계는
지수함수로 나타난다는 것을
알수 있습니다
거의 다 왔네요
증명을 보고 싶으신가요?
보여드리도록 하죠
아마도 여러분이 이 내용을 본다면
어떻게 이게 가능한지
궁금해 할 것이기 때문이죠
아주 놀랍습니다
어떤 일이 일어나는지 보시죠

English: 
There's a simple
little example.
So that's the first
test chosen.
the greens are pluses and the
reds are minuses, so it's
still got an error.
Still got an error-- boom.
There, in two steps.
It now has--
we can look in the upper
right hand corner--
we see its used three
classifiers, and we see that
one of those classifiers says
that everybody belongs to a
particular class, three
different weights.
And the error rate has
converged to 0.
So let's look at a couple
of other ones.
Here is the one I use for
debugging this thing.
We'll let that run.
See how fast it is?
Boom.
It converges to getting all the
samples right very fast.
Here's another one.
This is one we gave on an
exam a few years back.
First test.
Oh, I let it run, so
it got everything
instantaneously right.
Let's take that through
step at a time.
There's the first
one, second one.
Still got a lot of errors.

Korean: 
여기 간단한 예시들이 있습니다
그리고 여기
첫 번째로 고른 테스트가 있죠
초록색 부분은 플러스 예시이고
빨간색 부분은 마이너스 예시입니다
아직 에러가 있죠
여기서도 아직 에러가 있습니다
두 단계를 거친 모습입니다
이제 오른쪽 위를 보면
우리가 세 가지 분류기를
사용했다는 것을 알 수 있습니다
분류기에 의해 모든 예시들은
분류되고 있고
모두 다른 가중치를 가지고 있습니다
그리고 오차율이 0으로 수렴하고 있죠
몇 가지 다른 예시들도 봅시다
이 예시들은 제가 디버깅할 때
사용했던 예시들입니다
돌려보도록 하죠
아주 빠르죠?
굉장합니다
모든 예시들을
정확하고 빠르게 수렴시킵니다
다른 것도 봅시다
이 예시들은 몇 년 전에
시험 문제로 냈던 것입니다
첫 번째 테스트입니다
모든 것들이 아주
빠르고 정확하게 나오죠
단계별로 보도록 합시다
이게 첫번째이고
이게 두번째 테스트입니다
아직도 에러가 많죠

English: 
Ah, the error rate's dropping.
And then flattened, flattened,
and it goes to 0.
Cool, don't you think?
But you say to me, bah, who
cares about that stuff?
Let's try something
more interesting.
There's one.
That was pretty fast, too.
Well, there's not too
many samples here.
So we can try this.
So there's an array of
pluses and minuses.
Boom.
You can see how that error
rate is bounded by an
exponential?
So in a bottom graph, you've got
the number of classifiers
involved, and that goes up to
a total, eventually, of 10.
You can see how positive
or negative each of the
classifiers that's added
is by looking at
this particular tab.
And this just shows how
they evolve over time.
But the progress thing here
is the most interesting.
And now you say to me, well, how
did the machine do that?

Korean: 
이제 에러율이 떨어지고 있습니다
점점 낮아져서 0이 됩니다
멋지지 않나요?
하지만 여러분은 이런 것들은
시시하다고 생각할 수도 있겠네요
그렇다면 조금 더 흥미로운
것들을 해 봅시다
여기 있네요
이것도 아주 빠르군요
여기에는 그렇게 많은
예시들이 있지는 않네요
이걸 해 볼까요?
여러 플러스들과
마이너스들이 있네요
멋지군요
여기에서 에러율이
지수함수 경계를
가지는 것을 볼 수 있죠?
아래쪽 그래프에서 몇 개의
분류기가 있는지 볼 수 있습니다
총 10개가 있군요
추가된 각각의 분류기들이
얼마나 플러스 혹은 마이너스에 가까운지
이 탭에서 볼 수 있습니다
이걸 보면 시간에 따라서
어떻게 바뀌었는지 볼 수 있죠
이 과정이 가장 흥미로운 부분입니다
여기서 여러분이 궁금한 것은
이 기계가 어떻게 이를 했는지 입니다

English: 
And it's all right here.
We use an alpha that
looks like this.
And that allows us to compute
the new weights.
It says we've got a preliminary
calculation.
We've got to find a z that
does the normalization.
And we sure better bring our
calculator, because we've got,
first of all, to calculate
the error rate.
Then we've got to take its
logarithm, divide by 2, plug
it into that formula, take the
exponent, and that gives us
the new weight.
And that's how the
program works.
And if you try that,
I guarantee you
will flunk the exam.
Now, I don't care about
my computer.
I really don't.
It's a slave, and it can
calculate these logarithm and
exponentials till it turns
blue, and I don't care.
Because I've got four cores or
something, and who cares.
Might as well do this,
than sit around
just burning up heat.
But you don't want to do that.
So what you want to do is you
want to know how to do this
sort of thing more
expeditiously.

Korean: 
답은 여기에 있습니다
여기에서는 이런 α값들을 사용했습니다
그리고 이 값은 새로운 가중치를
계산할 수 있도록 해주죠
그러기 위해서는
먼저 몇 가지 계산을 해야 합니다
정규화를 하는 z를 찾아야 합니다
계산기를 가지고 있는 게 좋겠네요
에러율을 계산하기 위해서죠
그러고 난 후 로그를 취하고
2로 나눕니다
그리고 이 결과값을
자연상수에 대한 식에 넣으면
새로운 가중치를 계산할 수 있습니다
이 프로그램은 이런 방식으로
계산을 진행합니다
만약 여러분이 이를 직접 시도한다면
아마 여러분은 시험을 망칠 겁니다
저는 컴퓨터가 어쩌든지
신경쓰지 않습니다
정말이에요
컴퓨터는 그저 노예일 뿐이고
블루스크린이 뜨기 전까지
로그와 자연상수를 계산할 수 있습니다
컴퓨터의 성능이 어떤지는
신경 쓸 필요가 없죠
그냥 가만히 앉아서
열을 식히는 것 보다는
이렇게 하는게 더 나을겁니다
하지만 여러분들은 그러고 싶지는 않죠
여러분은 어떻게 이런 일들을
더 빠르게 할 수 있는지
알고 싶을 겁니다

English: 
So we're going to have to let
them the math sing to us a
little bit, with a view towards
finding better ways of
doing this sort of thing.
So let's do that.
And we're going to run out of
space here before long, so let
me reclaim as much of
this board as I can.
So what I'm going to do is I'm
going to say, well, now that
we've got this formula for alpha
that relates alpha t to
the error, then I can plug
that into this formula up
here, number 6.
And what I'll get is that the
weight of t plus 1 is equal to
the weight at t divided by
that normalizing factor,
multiplied times something that
depends on whether it's
categorized correctly or not.
That's what that y's in
their for, right?

Korean: 
이제 여기에서 수학이 여러분들에게
노래를 부르도록 해 보죠
이 일들을 조금 더
나은 방법으로 할 수 있도록 말이죠
자, 해봅시다
머지않아 자리가 부족할 것 같네요
할 수 있는 한 최대한으로
사용해 보도록 합시다
이제부터 할 것은
t에서의 α를 알아내는 식을
t에서의 에러율을 가지고
구하는 것입니다
이 식을 위에 있는
6번 식에 넣어봅시다
여기에서 t+1에서의 가중치를
이 식으로 나타낼 수 있습니다
여기에 들어갈 것은
바르게 분류되어 있는지에
따라 달라집니다
그게 바로 y가 저기에 있는 이유죠

English: 
So we've got a logarithm here,
and we got a sign flipper up
there in terms of that H
of x and y combination.
So if the sign of that whole
thing at minus alpha and that
y H combination turns out to be
negative, then we're going
to have to flip the numerator
and denominator here in this
logarithm, right?
And oh, by the way, since we've
got a half out here,
that turns out to be the square
root of that term
inside the logarithm.
So when we carefully do that,
what we discover is that it
depends on whether it's the
right thing or not.
But what it turns out to be is
something like a multiplier of
the square root.
Better be careful, here.
The square root of what?

Korean: 
이제 여기에서 로그를 계산했고
부호를 바꾸는 과정도 위에 있습니다
h(x)와 y의 곱으로 나타냈죠
만약 이 전체의 값이 -α가 되고
y와 h의 곱이 음수가 되면
이 로그 안의 식의 분자와 분모를
바꾸면 되겠죠?
그나저나 여기에서
반으로 나누었기 때문에
이 안의 식의 루트로
계산한 것과 같을 겁니다
이 과정을 조심스럽게 하다 보면
이것이 정답인지 아닌지에 따라
달라진다는 것을 알 수 있습니다
여기에서 이 제곱근의
승수를 알 수 있습니다
여기에서 조심하는 것이 좋을 겁니다
어떤 식의 제곱근을 구해야 할까요?

English: 
STUDENT: [INAUDIBLE].
PATRICK WINSTON: Well,
let's see.
But we have to be careful.
So let's suppose that this is 4
things that we get correct.
So if we get it correct, then
we're going to get the same
sign out of H of x and y.
We've get a minus sign out
there, so we're going to flip
the numerator and denominator.
So we're going to get the square
root of e of t over 1
minus epsilon of t if
that's correct.
If it's wrong, it'll just
be the flip of that.
So it'll be the square root of
1 minus the error rate over
the error rate.
Everybody with me on that?
I think that's right.
If it's wrong, I'll have to hang
myself and wear a paper
bag over my head like
I did last year.

Korean: 
학생 : ??
교수 : 자 봅시다
하지만 조심스럽게 봐야 합니다
이 위의 식은 정답을 맞추었을 때의
식이라고 해 봅시다
정답을 맞춘다면
h(x)와 y의 부호가 같을 겁니다
저기에서 음수 부호가
하나 있었기 때문에
분자와 분모가 바뀔 겁니다
그렇기 때문에 맞출 경우에
이런 식이 됩니다
틀릴 경우에는 그냥
위아래를 뒤집으면 됩니다
그렇기 때문에 이런 식이 되겠죠
잘 따라오고 있나요?
아마 잘 하고 있는 것 같네요
만약 작년처럼 틀렸다면
목을 매고 종이 가방을
머리에 쓰고 다닐 거에요

English: 
But let's see if we can make
this go correctly this time.
So now, we've got this guy here,
we've got everything
plugged in all right, and we
know that now this z ought to
be selected so that it's equal
to the sum of this guy
multiplied by these things as
appropriate for whether it's
correct or not.
Because we want, in the end,
for all of these w's
to add up to 1.
So let's see what they add up
to without the z there.
So what we know is that it must
be the case that if we
add over the correct ones, we
get the square root of the
error rate over 1 minus the
rate of the Wt plus 1.

Korean: 
이번에는 제대로 했는지 보도록 합시다
이제 우리는 이 식을 얻었고
모든 것을 잘 대입했습니다
그리고 우리는 이제
z의 값을 골라야 합니다
정답이 맞는지 틀린지에 따라 달라지는
이 식을 곱한 값들을 모두
다 더한 값과 같도록 해야합니다
왜냐하면 결국에는
이 w의 합이 1이
되도록 할 것이기 때문이죠
그렇다면 z를 빼고
모두 더해보도록 하죠
우리가 지금 알고 있는 것은

English: 
Plus now we've got the sum of
1 minus the error rate over
the error rate, times the sum of
the Wi at time t for wrong.
So that's what we get if
we added all these
up without the z.
So since everything has to add
up to 1, then z ought to be
equal to this sum.
That looks pretty horrible,
until we realize that if we
add these guys up over the
weights that are wrong, that
is the error rate.
This is e.

Korean: 
정답인 모든 경우를
이 식에 따라서 더하고
틀린 경우에 대해서는 이 식을
더해야 한다는 것입니다
이 식이 바로
z 빼고 모두 더한 결과입니다
모든 값들을 다 더한 값이
1이 되어야 하기 때문에
z는 이 합과 같아져야 합니다
이 식은 지금은 아주 복잡해 보입니다
하지만 이 틀린 경우를 모두 더한 값은
에러율과 같다는 것을 알고나면
그렇지 않죠
이 부분은 e이죠

Korean: 
그렇기 때문에 z는
이런 식으로 표현할 수 있죠
두 번째 항을 표현한 것이죠
자, 봅시다
맞는 경우를 모두 더한 것은
어떻게 표현할 수 있을까요?
1에서 에러율만큼 뺀 것이죠
그렇다면 두 번째 항과 같은 결과를
만들 수 있겠네요
그렇기 때문에 z는
아까의 식에 두 배를 해 주면 되겠죠
좋군요
거의 다 왔습니다
이제 조금 더 쓰기 쉬운 식이 되었군요
이 부분은 지났으니 지우도록 합시다
다 합쳐서 적어보도록 하죠

English: 
So therefore, z is equal the
square root of the error rate
times 1 minus the error rate.
That's the contribution
of this term.
Now, let's see.
What is the sum of the
weights over the
ones that are correct?
Well, that must be 1 minus
the error rate.
Ah, so this thing gives you the
same result as this one.
So z is equal to 2 times that.
And that's a good thing.
Now we are getting somewhere.
Because now, it becomes a little
bit easier to write
some things down.
Well, we're way past this,
so let's get rid of this.
And now we can put some
things together.

English: 
Let me point out what I'm
putting together.
I've got an expression
for z right here.
And I've got an expression
for the new w's here.
So let's put those together and
say that w of t plus 1 is
equal to w of t.
I guess we're going to
divide that by 2.
And then we've got this square
root times that expression.
So if we take that correct one,
and divide by that one,
then the [INAUDIBLE]
cancel out, and I get 1 over
1 minus the error rate.
That's it.
That's correct.

Korean: 
어떤 것들을 합칠지 봅시다
여기에서 z에 대한 식을 구했습니다
새로운 w에 대한 식도 여기 있습니다
이 둘을 합쳐서
(t+1)에서의 w는
t에서의 w의 1/2이 됩니다
그리고 이 루트에 대한 식과
저기 있는 식을 합쳐봅시다
이 맞는 경우에 대한 식을
저기 있는 식으로 나누면
t에서의 오차율 e는 소거되고
이 식만 남습니다
맞는 경우에 대한 식입니다

Korean: 
틀린 경우에 대해서는 이 식을
같은 방법으로 계산해보면
1/ε가 됩니다
뭔가 진전이 있는 것 같나요?
아닙니다
아직 수학이 우리에게
노래 부르기에는 충분하지 않아요
저는 그저 여러분들의 관심을
끌고 싶었습니다
마치 아마추어 암벽 등반가들이
가파른 절벽을 반 정도
올라왔을 때 같이 말이죠
대부분 줄을 타고 올라가지만
아닐 때도 있죠
만약 줄이 없는 경우에는
죽을까봐 두려울 겁니다
그리고 떨어질 것 같을 때마다
작은 틈에 손을 끼워 넣으면서
떨어지지 않도록 노력하죠
그런 틈을 보고
Thank-God hole이라고 부르죠
제가 여러분에게 보여드리고 싶은 것은
여러분들이 손을 끼워 넣을 수 있는
이러한 작은 구멍들입니다
부스팅 문제를 만났을 때

English: 
And if it's not correct,
then it's Wt over 2--
and working through the math--
1 over epsilon, if wrong.
Do we feel like we're
making any progress?
No.
Because we haven't let it
sing to us enough yet.
So I want to draw your attention
to what happens to
amateur rock climbers
when they're halfway
up a difficult cliff.
They're usually [INAUDIBLE],
sometimes they're not.
If they're not, they're
scared to death.
And every once in a while, as
they're just about to fall,
they find some little tiny hole
to stick a fingernail in,
and that keeps them
from falling.
That's called a thank-god
hole.
So what I'm about to introduce
is the analog of those little
places where you can stick
your fingernail in.
It's the thank-god
hole for dealing
with boosting problems.

Korean: 
여러분의 Thank-God hole이
될 수 있도록 말이죠
그렇다면 이 w를
분류기가 정답을 내는 공간에서
모두 더하면 어떻게 될까요?
이런 식이 될 겁니다
이 시그마 합은 얼마일까요?
오 이런
1-ε이죠
여기서 방금 발견한 것은
정답인 예시들에 대해
새로운 w를 더한 값은
1/2라는 것입니다

English: 
So what happens if I add
all these [? Wi ?]
up for the ones that the
classifier where produces a
correct answer on?
Well, it'll be 1 over 2, and 1
over 1 minus epsilon, times
the sum of the Wt for which
the answer was correct.
What's this sum?
Oh!
My goddess.
1 minus epsilon.
So what I've just discovered is
that if I sum new w's over
those samples for which I
got a correct answer,
it's equal to 1/2.
And guess what?

English: 
That means that if I sum them
over wrong, it's equal to 1/2
half as well.
So that means that I take all of
the weight for which I got
the right answer with the
previous test, and those ways
will add up to something.
And to get the weights for the
next generation, all I have to
do is scale them so that
they equal half.
This was not noticed
by the people who
developed this stuff.
This was noticed by Luis
Ortiz, who was a 6.034
instructor a few years ago.
The sum of those weights is
going to be a scaled version
of what they were before.
So you take all the weights
for which this new
classifier--
this one you selected to give
you the minimum weight on the
re-weighted stuff--
you take the ones that it gives
a correct answer for,
and you take all of those
weights, and you just scale
them so they add up to 1/2.
So do you have to compute
any logarithms?
No.

Korean: 
이 말은 틀린 예시에 대해서도
모두 더하면
마찬가지로 1/2이 된다는 겁니다
이 말은 이전의 테스트에서
정답을 낸 모든 경우의
가중치를 모두
더할 수 있다는 것입니다
그리고 그 다음 단계에서의
가중치를 알아내기 위해서는
절반이 되도록 값을 매기면 됩니다
이 내용을 처음 개발한 사람은
이 사실을 알지 못했습니다
이 사실은 이 6.034 수업을
몇 년 전에 가르쳤던
Luis Ortiz가 발견한 것입니다
이 가중치들의 합은
이전 가중치의 축소된 버전인 것이죠
이제 여러분은 새로운 분류기의
모든 가중치를 알 수 있습니다
이 새로운 분류기는
최소의 가중치를 계산해줍니다
여러분은 그저 맞는 예시들을 찾아서
그 가중치를 모두 더해서
1/2로 축소하면 됩니다
여기서 로그를 계산할 필요가 있나요?
아니요

English: 
Do you have to compute
any exponentials?
No.
Do you have to calculate z?
No.
Do you have to calculate alpha
to get the new weights?
No.
All you have to do
is scale them.
And that's a pretty good
thank-god hole.
So that's thank-god
hole number one.
Now, for thank-god hole number
two, we need to go back and
think about the fact that were
going to give you problems in
probability that involve
decision tree stumps.
And there are a lot of decision
tree stumps that you
might have to pick from.
So we need a thank-god
hole for deciding how
to deal with that.
Where can I find some room?
How about right here.
Suppose you've got a space
that looks like this.

Korean: 
자연상수를 계산할 필요가 있나요?
아닙니다
z를 계산해야 하나요?
아닙니다
새로운 가중치를 계산하기 위해
α를 계산해야 하나요?
아니요
우리가 해야할 것은
그저 축소하는 것 뿐입니다
아주 좋은
thank-god hole이죠
이것은 첫 번째
thank-god hole입니다
두 번째 thank-god hole은
이전으로 돌아가서
결정 그루터기를 이용한 확률에 대한
내용을 다시 보도록 하죠
아마도 여러분이 선택할 수 있는
아주 여러 종류의
결정 그루터기가 있을 겁니다
여러분은 이 문제를 해결하기 위한
thank-god hole이 필요합니다
어디에 적으면 좋을까요?
여기가 좋겠군요

Korean: 
이런 모양의 공간이 있다고 해 봅시다
임의로 표시한 것입니다
이 축에는
총 11개가 있군요
이 공간에서는
몇 가지 테스트가 있을까요?
11개입니다
예시의 갯수에 1을 더한 것이죠
아주 복잡해 보입니다
잘 모르겠네요
실제로 이것들을 모두
계산해야 할까요?
오른쪽이 왼쪽보다 더 나은 점이
무엇일까요?
오른쪽에는 틀린 예시가
하나 더 있습니다
그렇기 때문에 왼쪽이
조금 더 그럴듯하죠
오른쪽은 그렇게 좋아 보이지 않습니다
결론적으로 잘 분류되어 있는
이 두 예시들 사이에 있는 테스트는
결코 좋은 테스트가 될 수 없을 겁니다

English: 
I'm just makings this
up at random.
So how many--
let's see.
1, 2, 3, 4, 5, 6,
7, 8, 9, 10, 11.
How many tests do I have to
consider in that dimension?
11.
It's 1 plus the number
of samples.
That would be horrible.
I don't know.
Do I have actually calculate
this one?
How could that possibly be
better than that one?
It's got one more thing wrong.
So that one makes sense.
The other one doesn't
make sense.
So in the end, no test that
lies between two correctly
classified samples will
ever be any good.

Korean: 
그렇기 때문에 이 선들은
괜찮은 테스트입니다
이것들은 모두 좋지 않은
테스트들입니다
이것들도 마찬가지이죠
여기에서 여러분이 실제로
고를 수 있는 테스트는 3개이죠
마찬가지로 다른 축에서 보면
제가 잘 그리지는 못했지만
이 선이 좋은 테스트가 될 수 있을까요?
아니죠
이것도 아니죠
사실 이 오른쪽을
보는 쪽이 조금 더 낫겠군요
너무 많은 결론이 나오기 전에 말이죠
여기를 보도록 합시다
저쪽 축에서 일어나는 일에 대해서
너무 어렵게 생각하고 싶지 않아요
중요한 것은
실제로 중요한 테스트는
몇 개 안된다는 것이죠
이제 마지막 한 가지가 남았습니다
과적합 문제에 대해서는
어떻게 하면 좋을까요?
왜냐하면 모든 것들이 예시를 가지고
해답을 찾는 일이기 때문이죠
서포트 벡터 머신에서의
과적합의 경우나
신경망에서의 과적합이나
ID 트리의 과적합같은 경우에는
어떨까요?
이 경우는 과적합이 일어나지 않죠
실험적인 결과입니다

English: 
So that one's a good guy, and
that one's a good guy.
And this one's a bad guy.
Bad guy, bad guy bad
guy, bad guy.
Bad guy, bad guy, bad buy.
So the actual number of tests
you've got is three.
And likewise, in the
other dimension--
well, I haven't drawn it so well
here, but would this test
be a good one?
No.
That one?
No.
Actually, I'd better look over
here on the right and see what
I've got before I draw
too many conclusions.
Let's look over this, since I
don't want to think too hard
about what's going on in
the other dimension.
But the idea is that
very few of those
tests actually matter.
Now, you say to me, there's
one last thing.
What about overfitting?
Because all this does is drape
a solution over the samples.
And like support vector machines
overfit, neural maps
overfit, identification
trees overfit.
Guess what?
This doesn't seem to overfit.
That's an experimental
result for which the

Korean: 
학계를 혼란에 빠뜨렸죠
이 현상을 설명하기 위해
다시 연구하고 있죠
이 방법은 모든 문제에
적용되고 있습니다
손글씨 인식이나
대화를 인식하는 것 등
부스팅을 필요로 하는
모든 문제에서 말이죠
아직 완벽히 밝혀지지 않은
어떠한 이유 때문에
다른 방법과는 달리
과적합이 일어나지 않습니다
6.034 수업에서는
모든 수단을 다 사용하고 있습니다
매 학기마다 우리는
더 많은 실험을 하고 있죠
이 예시를 여러분들에게 드리겠습니다
10차원의 공간에서의 상황이죠
임의로 분포시켜 놓고
이 상자에 넣은 것입니다
임의로 공간에 예시를 넣어서
에러가 나는 것 처럼 보일 겁니다
이제부터 이 예시를 가지고
프로그램을 돌리면
어떤 일이 일어나는지 보도록 합시다
물론 17단계만에 정답을 찾아냈습니다
하지만 과적합일 수도 있습니다

English: 
literature is confused.
It goes back to providing
an explanation.
So this stuff is tried on all
sorts of problems, like
handwriting recognition,
understanding speech, all
sorts of stuff uses boosting.
And unlike other methods, for
some reason as yet imperfectly
understood, it doesn't
seem to overfit.
But in the end, they leave no
stone unturned in 6.034.
Every time we do this, we do
some additional experiments.
So here's a sample that
I'll leave you with.
Here's a situation in which we
have a 10-dimensional space.
We've made a fake distribution,
and then we put
in that boxed outlier.
That was just put into the space
at random, so it can be
viewed as an error point.
So now what we're going to do
is we're going to see what
happens when we run that guy.
And sure enough, in 17 steps,
it finds a solution.
But maybe it's overfit that
little guy who's an error.

Korean: 
하지만 여러분은
이 모든 분류기들이 공간을 더 작은 공간으로 나누어서
어떤 예시든지 그 공간의 크기를
계산할 수 있습니다
그렇기 때문에,
아, 새로운 증거를 보여드리도록 하죠
여러분은 여기 이 부분의
부피 탭을 조절해서
에러가 나는 지점의 부피가
어떻게 변화하는지 볼 수 있습니다
어떤 일이 일어나는지 보시죠
당연히 임의로 발생시킨 것들입니다
아마 잘 돌아갈 겁니다
실패한 적이 없거든요
처음에는 전체 부피의
26%로 시작했다가
1.4×10^-3 %까지
줄어들었습니다

English: 
But one thing you can do is
you can say, well, all of
these classifiers are dividing
this space up into chunks, and
we can compute the size of the
space occupied by any sample.
So one thing we can do--
alas, I'll have to get up
a new demonstration.
One thing we can do, now that
this guy's over here, we can
switch the volume tab and watch
how the volume occupied
by that error point evolves
as we solve the problem.
So look what happens.
This is, of course, randomly
generated.
I'm counting on this working.
Never failed before.
So it originally starts
out as occupying 26%
of the total volume.
It ends up occupying
1.4 times 10 to the
minus 3rd% of the volume.

Korean: 
이 결정 그루터기가
에러가 일어나는 지점을
아주 빽빽히 감싸서
과적합이 일어날 공간이 없는 것이죠
그 공간에 다른 것이
들어갈 수가 없으니까요
이것이 제가 생각하기에
과적합이 일어나지 않는 이유입니다
결론은 이 방법이
마법과 같다는 것입니다
항상 사용하고 싶을 겁니다
여러분이 원하는 어떤 종류의 분류기든
잘 작동하죠
여러분들은 이 방법을
아주 잘 이해해야 합니다
왜냐하면 차원을 가진 문제에서
가장 유용한 방법이
될 것이기 때문이죠

English: 
So what tends to happen is
that these decision tree
stumps tend to wrap themselves
so tightly around the error
points, there's no room for
overfitting, because nothing
else will fit in that
same volume.
So that's why I think that this
thing tends to produce
solutions which don't overfit.
So in conclusion,
this is magic.
You always want to use it.
It'll work with any kind
of [? speed ?] of
classifiers you want.
And you should understand it
very thoroughly, because of
anything is useful in the
subject in dimension learning,
this is it.
