
English: 
PATRICK WINSTON: Ladies and
gentlemen, the Romanian
national anthem.
I did not ask you to stand,
because I didn't play it as a
symbol of Romanian national
identity.
But rather, to celebrate the
end of the Cold War, which
occurred about the time
that you were born.
Before that, no one came to
MIT from Eastern Europe.
But since that time, we've been
blessed by having in our
midst Lithuanians, Estonians,
Poles, Czecs, Slovaks,
Bulgarians, Romanians,
Slovenians, Serbs, and all
sorts of people from regions
of the world
formally excluded to us.
Believe me, you are all
welcome in our house.

Korean: 
신사 숙녀 여러분
루마니아 국가입니다
여러분에게 일어서라고
하지 않은 이유는
루마니아의 상징으로서
노래를 튼 게 아니고
냉전 종식 기념을
위해서이기 때문입니다
여러분이 태어났을 때쯤
일어난 일이죠
그 전까지는 동유럽에서
아무도 MIT에 오지 않았습니다
그 후부터 우리는
리투아니아, 에스토니아
폴란드, 체코, 슬로바키아
불가리아, 루마니아
슬로베니아, 세르비아 등의
여러 나라에서 온 사람을
환영하고 있습니다
이전엔 배제됐었지만요
여러분 모두를 환영합니다

Korean: 
거의 모두요
루마니아가 뱀파이어들의
오래된 거처인 걸 알고 있죠?
냉전 종식 이후로
뱀파이어는 원래 거처뿐만 아니라
세계 곳곳으로 뻗어
나가고 있습니다
여러분 기숙사에도
뱀파이어가 있을 수 있어요
복도에 있을 수도 있고요
그들의 존재를 알아차리고
필요한 예방 조치를
알아두는 게 중요합니다
이런 걱정을 가지고 있다면
여러분이 가장 먼저
해야 할 일은
뱀파이어의 특성과 관련된
데이터를 살펴보는 것일 겁니다
여기 데이터베이스
샘플이 있습니다

English: 
Almost all, that is to say.
Because you may recall that
Romania is the traditional
home of vampires.
And since the end of the Cold
War, vampires have had new
vectors for emerging from their
traditional places and
penetrating into the
world at large.
You may have vampire in your
suite, or on your floor.
And it's important to know how
to recognize them, and take
the necessary precautions.
So if you have this concern, I
would expect that the first
thing you would do would be to
look at some data concerning
the characteristics
of vampires.

English: 
So there's a little database of
samples of individuals who
have been determined to be
vampires and not vampires.
And our task today--
and what you'll understand how
to do by the end of the hour--
is to use data like this to
build a recognition mechanism
that would help you to identify
whether someone is a
vampire or an ordinary person.
So this is a little different
from the kind of problem we
worked with neural nets.
Right?
So what's the most conspicuous
difference between this data
set and anything you could think
to work on with nearest
neighbors, which we
studied last time.
Katie, do you have any thoughts
about why it would be
difficult to use nearest
neighbors with data like this?
The question mark is there
because this is MIT, and a lot
of people are completely
nocturnal.
So you can't tell whether they
cast a shadow or not.

Korean: 
뱀파이어인지 아닌지에
대해서 말이죠
오늘 할 일은
이번 강의에서
배우게 될 내용은
데이터를 기반으로
인식 메커니즘을 만드는 건데
어떠한 개체가 뱀파이어인지
아니면 평범한 사람인지
구별하는 거죠
우리가 전에 다뤘던 신경망
문제와는 조금 다릅니다
그렇죠?
이 데이터와 가장 두드러지는
차이점은 무엇일까요?
최근접 이웃 탐색으로 할 수
있는 것과 비교해서 말이죠
지난 강의에서 배웠었죠
케이트가 한번 말해볼래요?
최근접 이웃 탐색 방법으로
이런 데이터를 처리하기
어려운 이유가 뭘까요?
여기 물음표가 있는 건
MIT에 많은 사람이
야행성이거든요
그림자가 있는지
없는지 알 수 없어요

English: 
We want to take that
into account.
So what's different about
this from the
electrical cover data set?
STUDENT: [INAUDIBLE]
PATRICK WINSTON: Could you use
the nearest neighbor technique
to identify vampires
with this data?
STUDENT: [INAUDIBLE]
PATRICK WINSTON:
So obviously--
Yes, Lana?
STUDENT: [INAUDIBLE]
STUDENT: You cannot
really quantify--
PATRICK WINSTON: Oh,
that's the problem.
This is not numerical data.
This is symbolic.
So we're not saying that
your ability to
cast a shadow is 0.7.
You either cast a shadow,
down cast a
shadow, or we can't tell.
It's a symbolic result.
So problem number one we have to
face with data of this kind
is that it's not numeric.

Korean: 
그걸 고려한 부분입니다
그래서 두 개의
차이가 무엇일까요?
- (학생)
최근접 이웃 알고리즘으로
뱀파이어를 구분할 수 있을까요?
이 데이터를 이용해서 말이죠
- (학생)
그렇죠
네 거기 학생?
- (학생)
- 정량화 할 수 없어요
맞아요
그게 문제입니다
수치 데이터가 아닙니다
심볼릭(symbolic)하죠
그림자를 만드는 능력이
0.7이라고 할 수 없습니다
그림자가 있거나, 없거나
알 수 없거나 중 하나입니다
심볼릭한 결과입니다
이런 데이터를 다룰 때의
가장 큰 문제점은

English: 
And there are other
characteristics, as well.
For example, it's not clear
that all of these
characteristics actually
matter.
So some characteristics
don't matter.
And a corollary to that is that
some characteristics do
matter, but they only matter
part of the time.
And finally, there's
the matter of cost.

Korean: 
수치 데이터가 아니라는 겁니다
다른 특징도 있습니다
예를 들면
모든 특성이 의미 있는
값인지 알 수 없습니다
몇몇은 쓸모가 없어요
필연적으로
어떤 값은 의미가 있지만
항상 그런 건 아닙니다
마지막으로
비용도 문제인데요

English: 
Some of these tests may
be more expensive to
perform than others.
For example, if you wanted to
determine whether someone
casts a shadow, you'd have to
go to the trouble of getting
up during daylight.
That might be an expensive
operation for you.
You'd have to go find some
garlic and ask them to eat it.
That might be expensive.
So some of these tests
might be expensive
relative to other tests.
But once you realize that we are
talking in terms of tests,
and not a vector of
real values, then
what you do is clear.
You build yourself a little
tree of tests.
So who knows how this problem
will turn out?
But you can imagine a situation
where you have one
test up here which might
have three outcomes.
And one but only one of those
outcomes might require you to

Korean: 
몇몇 테스트에서는 다른 테스트보다
더 많은 수고가 필요합니다
만약 어떤 사람의
그림자의 유무를 알고 싶다면
오전에 일어나서
그림자를 확인해봐야 하죠
꽤 번거로운 일이겠죠
마늘을 구해서
먹여봐야 할 수도 있습니다
이도 꽤나 수고로운 일입니다
이 중 몇 개의 테스트가
다른 것보다 비쌀 수 있습니다
우리가 테스트에 대해
이야기하고 있단 걸 눈치챘다면
실제 값들이 아니고 말이죠
그럼 주어진 일은 분명합니다
테스트로 구성된
트리를 만드는 겁니다
그럼 이 문제를
어떻게 해석할 수 있을까요?
이런 상황을
상상할 수 있겠네요
여기에 하나의 테스트가 있고
세 개의 다른 결과를
가진다고 해볼게요
그 중 하나의 결과는

Korean: 
또 다른 테스트가
필요하게 될 수 있습니다
이렇게 생긴 테스트 트리를 만들면
이제 준비가 끝난 것입니다
이 테스트와 샘플이
주어졌을 때
질문은 이렇게 바뀝니다
이런 트리에서는
테스트를 어떻게 배치할까요?
여러분이 원하는
검증을 하기 위해서 말이죠
우린 지금 검증을
하고 있기 때문에
이런 트리 구조가
신분확인(identification)트리라고
불리는 게 놀랍지 않을 겁니다
이런 경향이 있어요
저도 그럴 수도 있는데
의사결정 트리라고
부르는 경우가 있는데
의사결정 트리는
다른 것을 지칭하는 용어입니다
이건 identification 트리에요
좋은 걸 만드는 게
목적입니다
그럼 여기서 좋은 것과
좋지 않은 것의 차이가 뭘까요?

English: 
perform another test.
And only when you've created
the tree of tests that look
like this are you finished.
So given this set of tests and a
set of samples, the question
becomes, how do you arrange the
tests in a tree like that
so as to do the identification
that you want to do?
So since we're talking about
identification, it's not
surprising that this kind
of tree is called an
identification tree.
And there's a tendency-- and I
may slip into it myself-- to
call this a decision tree.
But a decision tree is a label
for something else.
This is an identification
tree.
And the task is to create
a good one.
So what is a good one versus
a not so good one?

English: 
What characteristic would you
like for a decision tree--
for an identification trade to
have, if you're going to call
it good identification tree?
What do you think, Krishna?
What would be a good
characteristic?
STUDENT: Maybe the minimum
number of levels?
PATRICK WINSTON: Yeah.
He said minimum number
of levels.
What's another way you could
say what a good one is?
Each test costs something,
right?
So what's another way of
thinking about what a good
tree would look like?
STUDENT: Minimum cost.
PATRICK WINSTON: The
minimum cost.
And if they all have the
same cost, then it's
the number of tests.
So overall, what you like
is a small tree
rather than a big one.
So you might be able to take
your sample data and divide it
up, so that at the bottom of the
tree, at the leaves, all
of the sets that are produced
by the tests are uniform,
homogeneous.

Korean: 
좋은 identification 트리를 만들기 위해서는
의사 결정 트리의 어떤 특징을
가져오는 것이 좋을까요?
어떻게 생각하죠
크리슈나?
어떤 게 좋은
특징이 될 수 있을까요?
단계를 최소화하는 게
아닐까요?
네
저 학생이
최소한의 단계라고 말했습니다
그걸 다른 말로 하면?
각 테스트는 비용이 들죠?
그렇다면 좋은 트리의 특징을
어떻게 표현할 수 있을까요?
최소 비용
만약 모든 비용이 같다면
최소한의 테스트
실행이 되겠죠
결과적으로
우리가 원하는 건
작은 트리입니다
큰 게 아니라요
샘플 데이터를 나눠서
트리의 가장 밑단에서
각 테스트에 의해
발생하는 값이
동등하게 만들면 됩니다

Korean: 
우린 트리가
최대한 간단했으면 합니다
다시 나뉘는
큰 트리가 아니라
균일한 또 다른
집합으로 말이죠
트리 가장 밑에는
모든 뱀파이어가 함께 몰려있고
또 뱀파이어가 아닌 것들은
따로 몰려있었으면 합니다
작은 트리를 원합니다
영국박물관 알고리즘처럼
모든 경우의 수를
계산해보는 건 어떤가요?
물론 그렇게 해도 되지만
그건 NP 문제입니다
NP 문제는
일반적으로 별로에요
딱히 하고 싶지 않네요
휴리스틱 메커니즘을
짜는 게 나을 것 같네요
작은 트리를
만들기 위해서 말이죠
우리는 작은 트리를
만들고 싶습니다
왜죠?
효율 측면 때문이죠
그런데 다른 더
중요한 이유가 있습니다
작은 트리가
필요한 이유요
힌트를 하나 줄게요
오컴의 면도날입니다
가장 간단한 설명이
종종 최적의 설명이곤 하죠
복잡하게 설명하면

English: 
We'd like that tree to be the
simplest possible tree you can
find, not some big complicated
one that also divides up all
the data into uniform subsets.
By uniform subset--
at the bottom of the tree, you
have all of the vampires
together, and all the
non-vampires together.
So you'd like a small tree.
So why not just go all the way
and do British Museum, and
calculate all possible trees?
Well, you can do that, but it's
one of those NP problems.
And as you know, NP problems
suck in general.
And so you don't want
to do that.
You want to have some kind of
heuristic mechanism for
building a small tree.
And we want a small
tree because--
Why do we want a small tree?
Because of the cost.
but there's another, more
important reason why we want a
small tree.
Let me give you a hint.
It's Occam's Razor.
The simplest explanation is
often the best explanation.
So if you have a big,
complicated explanation,

English: 
that's probably less good than
a simple, small explanation.
Occam's Razor.
Spelled so many ways it doesn't
matter how I spell it.
And that's good, because
I can't spell.
So how are we going to go
about finding the best
possible arrangement
of those four tests
in a tree like that?
Well, step one will be
to see what each test
does with the data.
And by the way, before I go a
step further, you know and I
know that this is a sample data
set that's very small,
suitable for classroom
manipulation.
You'd never bet your life on
a data set this small.
We use it only for classroom
illustration.
But imagine that these rows
are multiplied by 10.
So instead of eight samples,
you've got 80.
Then you might begin
to believe the
results that are produced.

Korean: 
간단한 설명보다는
별로일 확률이 높습니다
오컴의 면도날이요
철자를 어떻게 쓰든
상관없어요
사실 저도
정확한 철자를 몰라요
그럼 저 4개 테스트를 배열하기 위한
최고의 방법은 어떻게 찾아야 할까요?
이런 트리의
경우에 말이에요
첫 번째 단계는
각각의 테스트가
데이터를 어떻게
처리하는지 입니다
그런데
다음으로 넘어가기 전에
우리 다 샘플 데이터 세트가
아주 작다는 걸 알고 있습니다
강의 시간에 계산할 수
있을 정도의 크기이죠
다른 곳에서 볼 데이터 세트는
이렇게 작지 않을 겁니다
수업 설명을 위해서
이런 예제를 쓸 겁니다
이 값에 10을 곱했다고
생각해보세요
8개 대신
80개가 있다고 말이죠
그럼 결과 값을
믿기 시작할 겁니다

English: 
So I'm just going to pretend
that each one of those
represents 10 other
samples that I
haven't bothered to show.
But we can work with this one in
the classroom, because it's
pretty small.
And we can say, well, what
does this shadow test do?
Well, the shadow test divides
the sample population into
three groups.
There's the I Don't Know group
of people who are nocturnal.
There are the people
who do cast the
shadow, the Yes people.
And the people who do not cast
a shadow, the No people.
So if I look at those rows up
there and see which ones are
vampires, it looks to me that
if there's no shadow cast--
there's only one that doesn't
cast a shadow--
and that is a vampire.
So that's a plus over there.
Vampire.
Now, if we look at the ones
who do cast a shadow, all

Korean: 
각각의 샘플이
10개를 대표한다고
가정할 겁니다
이건 수업시간에
설명할 수 있어요
엄청 값이 작거든요
이 그림자 테스트가
하는 게 뭘까요?
그림자 테스트는
샘플을 나눕니다
세 개의
그룹으로요
야행성인 그룹
그림자가 있는 그룹
그리고 그림자가 없는 그룹
위에 표에서 어떤 게
뱀파이어인지 보면
그림자가 없으면
1명만 그림자가 없고
뱀파이어네요
+ 가 되겠죠
뱀파이어니까요
그림자가 있는 그룹은

English: 
those are not vampires.
They're all OK.
And now there're 8.
Three are vampires.
So that means that two of
these must be vampires.
And I've got three, four,
five, six so far.
So there must be two left.
So that's the way the shadow
test divides up the data.
Now let's do garlic.
Vampires traditionally
don't eat garlic.
I don't know why.
So we look at the garlic
test, and we see
that all of the Nos--
well, there're three
Yeses, and they all
produce a No answer.
So if somebody eats garlic,
they're not vampires.
That means the three vampires
must be over here.
Then there are two left.
So that's what the
garlic test does.
See what we're trying to do?
We're trying to look at all
these tests to see which one

Korean: 
아무도 뱀파이어가 아닙니다
다 그냥 사람이에요
총 8명이 있었죠
셋은 뱀파이어니까
여기에서 둘은 뱀파이어고
지금 가진 걸 더해보면
둘이 남았네요
그림자 테스트가
데이터를 나누는 방법입니다
마늘로 해봅시다
뱀파이어는 전통적으로
마늘을 안 먹어요
의문입니다
마늘 테스트를 보면
YES가 3개 있고
나머지는 NO입니다
마늘을 먹는다면
뱀파이어가 아닙니다
그렇다면 여기에
세 명의 뱀파이어가 있겠고
두 개가 남아요
마늘 테스트의 
결과입니다
우리가 하고자 하는 게 뭐죠?
모든 테스트를 살펴보고
어떤 게 가장 적절한지
찾는 거예요

English: 
we like best on the basis of
how it divides up the data.
So now we've got complexion.
And there are three
choices for this.
You can have an average
complexion.
But a lot of vampires, in my
experience, are rather pale.
So pale is a possibility.
And then the other option is
that just after gorging
themselves with blood,
they tend to get a
little red in the face.
So we'll have a ruddy
over here.
Once again, we have to go back
to our data set to see how
this test divides things up.
So there are three ruddies, and
one's a No, one's a No,
and one's a Yes.
So two Nos and a Yes.
Two Nos and a Yes.
Now we can try for pale
complexion people.
There are only two of those.
A No and a No.

Korean: 
데이터 나누는 방법을
기준으로 해서 말이죠
다음으로 안색입니다
세 개의 선택지가 있는데
보통이거나
제 경험으로 뱀파이어는
대부분 창백해요
창백할 수도 있고
마지막 선택지는
피를 뽑아 마시면
얼굴이 조금 빨개지죠
'붉은기 있는'이
마지막 선택지입니다
다시 데이터 세트로 돌아가서
테스트 결과를 봐야겠죠
세 명이 붉은기(Ruddy)가 있는데
NO 1개, 그리고 또 NO 1개 
YES 1개입니다
총 NO 2개, YES 1개입니다
뱀파이어 아닌 사람이 2명,
뱀파이어가 1명인 것입니다
창백한 사람들도
나눠봅시다
두 명뿐이네요

Korean: 
둘 다 NO입니다
이 말인즉슨
여기에 둘이 있고
전체에 뱀파이어가
세 명이니까요
2, 4, 6, 7, 8, 9
아 8이군요
8
8 밖에 없어요
이제 하나 남았어요
억양
뱀파이어는 억양을
지키려고 노력하는 편입니다
혈통을 배반하지 않죠
그래도 예상은
할 수 있습니다
온 지 얼마 안 됐거나
루마니아의 어느
지역에서 왔다거나
그럼 억양이
남아있겠죠
평범함, 심한 억양
이상한 억양
한번 봅시다
억양
세 명이 엑센트가 없는데
둘이 뱀파이어가 아니고
하나는 맞네요

English: 
That must mean that there are
two pluses over here, because
there are three vampires
altogether.
Two, four, six, seven,
eight, nine.
Eight, sorry.
Eight.
Only eight.
Just one more to go, and
that's the accent.
Historically, vampires go to
great length to protect their
accent and not betray
their origins.
But nevertheless, we
can expect that if
they've just arrived--
if they're just in from
Transylvania, part of Romania--
they may still have an accent.
So there's a normal, some still
have a heavy accent, and
some persist in having
odd accents.
So let's see.
Accent.
Four of them, right at the
top, have no accent.
Two Nos and a Yes.

English: 
Heavy accent.
Three of those.
A Yes and two Nos.
That means we must
have a plus here.
3, 6, plus and a minus.
So we can look at this data and
say, well, what will be
the best test to use?
And the best test to use would
surely be the one that
produces sets here, at the
bottom of the branches, that
correspond to the outcomes
of the test.
We're looking for a test that
produces homogeneous groups.
So just for the sake of
illustration, I'm going to
suppose that we're going to
judge the quality of the test
by how many sample individuals
it put into a homogeneous set.

Korean: 
심한 억양을 가진
세 명은
하나만 뱀파이어고
나머지는 아닙니다
그럼 여기에
뱀파이어가 하나 있고
뱀파이어 아닌 사람이
하나 더 있습니다
자 그럼 이 데이터를 보고
어떤 게 가장 유용할까요?
가장 유용한 테스트는
가장 밑단에 세트를
만들어 내는 건데
테스트 결과에
맞게 말이죠
동종(homogeneous) 집단을 만드는
테스트를 찾고 싶어요
설명 보충을 위해서
샘플이 얼마나 동종 세트로 
잘 분류되느냐에 따라
테스트의 우수성을 판단할 것입니다
이상적으로 우리가
원하는 테스트는

Korean: 
모든 뱀파이어를
하나의 그룹으로 넣고
평범한 사람을
하나의 그룹으로 만드는 거죠
아쉽게도 그런
테스트는 없습니다
각각의 샘플을
더할 수는 있습니다
동종 집단에
포함되는 샘플을 말이죠
그렇게 하면
얘는 동종 집단에
3개가 있고
4개 째가 여기에 있고
이건 동종 집단이 아닙니다
총점은 4입니다
이건 그다지 좋지 않네요
셋만 동종 집단에 속합니다
여기는 두 명만
동종 집단에 속합니다
다른 사람은
다 섞여 있어요
그러면 여기에는
몇 명의 샘플이
동종 집단에 속할까요?
0명 입니다
이 분석법을 기반으로
결론을 내릴 수 있습니다

English: 
So ideally, we'd like a test
that will put all the vampires
in one group and all the
ordinary people in another
group right off the bat.
But there are no such tests.
But we can add up the number of
sample individuals who are
put in to at least
homogeneous sets.
So when we do that, this
guy has 3 in a
homogeneous set here.
A fourth.
But these are not a
homogeneous set.
So the overall score for
this guy will be 4.
This one, well, not
quite as good.
It only puts 3 individuals
in a homogeneous set.
This one here, 2 individuals
into a homogeneous set.
Everybody else is all
mixed up with some
other kind of person.
And over here, how many
samples are in
a homogeneous set?
0.
So on the basis of this
analysis, you would conclude

English: 
that the ordering of the test
with respect to their quality
is left to right.
So the best test must
be the shadow test.
So let's pick the shadow
test first, see what
we can do with that.
If we pick the shadow test
first, then we have this
arrangement.
We have question mark, and we
have Yes, casts a shadow, and
No, doesn't.
We have 3 minuses here.
We have a plus here.
And unfortunately, over
here, we have plus,
plus, minus, minus.
So we need another test to
divide that group up.
Yes.
STUDENT: How did you get the
4 on the shadow test again?
Why was it 4?
PATRICK WINSTON: Well,
if I look at the
data and I see who--
the question is, what about
that shadow test?
If you look at the shadow test,
and you say, well, there
are 4 question marks.
And if we look and see what kind
of people belong to those

Korean: 
테스트의 질을
순위로 매겨보자면
왼쪽에서 오른쪽으로
갈 수록 낮아집니다
그림자 테스트가
가장 좋은 방법입니다
그럼 그림자
테스트를 먼저 해봅시다
뭘 할 수 있을지
한번 봅시다
그림자 테스트로 시작하면
이렇게 처리할 수 있겠네요
물음표가 있고
그림자가 있거나
그림자가 없거나
3개의 - 가 있고
1개의 + 가 있고
아쉽게도 여기에는
두 개의 + 와
하나의 - 가 있습니다
다시 그룹화를 시킬 
다른 테스트가 필요해요
네?
(학생) 그림자 테스트에 4는
어디서 나온거죠?
(학생) 왜 4 였죠?
데이터를 보면
여기서 문제는
그림자 테스트는 어떤가요?
그림자 테스트를 보면
4개의 물음표가 있어요
저 물음표에 해당하는
사람이 누군지 보면

Korean: 
뱀파이어가 2명
아닌 사람이 2명입니다
그래서 + 2개, - 2개에요
(학생) 그건 이해했어요
(학생) 저기 있는 4가
뭔지 모르겠어요
점수를 메긴 건데
이 숫자 4가
뭐냐는 질문인거죠?
이거랑 연관은 없어요
혼합 집단이니까요
3명이 동종 집단에 속해있고
여기 1명이
동종 집단에 속해있어서
둘을 더한 겁니다
(학생) 네
수업 시간에 하는
설명이지
실제로 저렇게
쓰진 않습니다
네?
(학생) 더 큰 데이터 집단을
가지고 있을 때
(학생) 어떻게 해결하나요?
방대한 데이터는
어떻게 처리하느냐고요?
한 단계 앞서나갔어요
잠시 후에
다루도록 하겠습니다
먼저 아이디어를
이해시키고 싶어요
방대한 양의 데이터를
다룰 때 사용하는 방법이
마법처럼 나오는 게
아니거든요
다시 본론으로 돌아가서
이제 테스트를 하나
뽑아야 합니다
저 4개를 나눌 수 있는 
테스트로 말이죠

English: 
4 question marks, there are 2
vampires and 2 non-vampires.
That's why it's 2 pluses
and 2 minuses.
STUDENT: No, I understand
that.
The question is, how did you
get to the score of 4?
PATRICK WINSTON: Oh, yeah.
The question is how did
I get this number 4?
It has nothing to do this,
because this is a mixed set.
In fact, I've got three guys in
a homogeneous set here, and
one guy in a homogeneous
set here, and I'm
just adding them up.
STUDENT: OK.
PATRICK WINSTON: So very simple
classroom illustration.
Wouldn't work in practice.
Yes.
STUDENT: How do you adjust
this for larger data sets
where it's unlikely you're going
to have any [INAUDIBLE]?
PATRICK WINSTON: The question
is, how do I adjust this for
larger data sets?
You're one step ahead.
Trust me, I'll be doing large
data sets in a moment.
I just want to get
the idea across.
And I don't want there to be any
thought that the method we
use for larger data sets has got
anything magic about it.
OK, so we're off and running.
And now we have to pick a
test that will divide
those four guys up.

English: 
So we're going to have to work
this a little harder, and
repeat the analysis
we did there.
But at least it'll be simpler,
because now we're only
considering 4 samples, not 8.
Just the 4 samples that we still
have to divide up that
have come down that
left branch.
So I have the shadow test.
It has 3 outcomes.
We have the garlic test.
It has 2 outcomes.
Yes and No.
We have the complexion test.
There's 3 outcomes.
Average, pale, and ruddy.
And we have finally
the accent test.
And that comes out to be either
normal, heavy, or odd.
And now, it's a little awkward
to figure out what the results
are for this data
set as shown.

Korean: 
조금 더 신경써서
풀어야 합니다
우리가 했던 분석을
반복할 겁니다
그런데 조금
더 간단할 거예요
8개가 아니라
4개만 나누면 되니까요
나눠야 할 샘플이
4개 뿐입니다
왼쪽 가지에
남은 것들 말이죠
그림자 테스트가 있고
3개의 결과가 있고
마늘 테스트가 있고
2개의 결과가 있고
아니오도 있고
안색 테스트가 있고
3개의 결과가 있고
보통, 붉은기 있음
창백함
억양 테스트가 있습니다
보통, 심한 억양, 이상한 억양
결과를 내기에
조금 이상하긴 한데요
이 데이터 집단으로 말이죠

English: 
So let me just strike out.
The ones that we're no longer
concerned with, and limit our
analysis to the samples for
which the outcome of the
shadow test is a
question mark.
This is exactly the four
people we still need to
separate, right?
So switching colors, keeping
the color the same.
We actually don't want
to do the shadow
test anymore, right?
Because we've already
done that.
There's no point in
doing that again.
We don't have to look at that.
It's already done all the
division of data that it can.
So the garlic test.
Well, let's see.
Garlic.
2 Yeses, 2 Nos.
The Yeses produce Nos and
the Nos produce Yeses.
So if the person does eat
garlic, they're OK.
And if they don't eat garlic,
bad news-- they're vampires.
Well, that looks like
a pretty good test.
But just for the sake of working
it all out, let's try
the others.
Complexion.
2 Ruddies, a Yes, and a No.

Korean: 
지워버릴게요
더 이상 필요 없는 건 말이죠
그림자 테스트 결과의
샘플을 제한합니다
테스트 결과가
물음표인 것만 말이죠
정확히 네 명입니다
우리가 나눠야 할
사람들이에요
분필 색을 바꿔서
그림자 테스트는
더 이상 하고 싶지 않아요
그렇죠?
이미 했으니까요
다시 할 필요가 없어요
나눌 만큼 나눴거든요
마늘 테스트
한번 봅시다
마늘
2개의 YES
2개의 NO
YES는 뱀파이어가 아니고
NO는 뱀파이어네요
만약 마늘을 먹는다면
뱀파이어가 아니에요
마늘을 안 먹는다면
뱀파이어입니다
딱 알맞은 테스트네요
모든 것에 적용되는지
확인하기 위해서
다른 것도 한번 해봅시다
안색

Korean: 
'붉은기 있음' 2명 중
한명이 뱀파이어고
창백한 한명은
뱀파이어가 아니고
'보통'인 한명은
뱀파이어입니다
다음으로
억양 테스트가 남았네요
결과를 보세요
아직 샘플로 남아있는
사람들에 대해서요
억양
한번 봅시다
억양이 없는 두 명 중
한 명만 뱀파이어예요
심한 억양을
가진 사람이 없고
2명의 이상한 억양 중
한 명만 뱀파이어에요
좋아요
아까와 같이
반복하면 됩니다
설명 보충을 위해서
몇 명이
동종 집단에 속해있죠?
여기에 4명
여기에 2명
여기에 0명

English: 
1 pale, and that's a No.
1 pale, and that's a No.
And we must have 1 average, and
sure enough, that's a Yes.
Now we can do accent, the one on
the far right, and look at
how that measures up against the
people who are still under
consideration as samples.
Accent.
Let's see.
2 Nones, a Yes and a No.
No Heavies.
2 Odds, a Yes and a No.
All right.
So now we can do the same thing
we did before, and just
say, for sake of classroom
illustration, how many
individuals are put into
a homogeneous sets.
And here we have 4.
And here we have 2.
And here we have 0.

Korean: 
마늘 테스트도
충분히 쓸 만 하네요
그럼 처음으로 돌아가서
못 끝낸 걸
해결해봅시다
마늘 테스트가 있고
2개의 +가 있고
한번 봅시다
마늘을 먹고
마늘을 안 먹고
+가 여기로 가야 하겠군요
여기가 두 명의 일반인
그럼 작업이 끝났어요
이제 이걸 빠르게
PDA에 넣으세요
빠져나온 뱀파이어를
영원히 차단할 수 있게요
동유럽에서 온
많은 사람들 중 말이죠
방대한 양의
데이터는 어떻게 하죠?
데이터가 클 때의 문제는
처음부터 한번의
테스트로... 아니
데이터셋이 크면
한번에 동종 집단을 구별해 낼 만한 
테스트가 없을 확률이 높습니다

English: 
So plainly, the garlic test
is the test of choice.
So we go back over here, and
we've completed the work that
we needed to do.
So that's the garlic test.
And that produces 2 pluses.
Let's see.
Eats garlic, Yes.
Eats garlic, No.
I guess the pluses go
over here like so.
And these are the two
ordinary people.
And we're done with our task.
And now you can quickly run
off and put this into your
PDA, and forever be protected
against the possibility that
one of those vampires got out
in the flood of people that
came in from Eastern Europe.
Except what do we do
a large data set?
Well, the trouble is,
a large data set's
not likely to produce--
if you have a large data set,
no test is likely to put
together any homogeneous
set right off.

Korean: 
그럼 시작도 할 수가 없어요
모든 게 0이 됩니다
어떤 테스트도
동일 집단으로
만들 지 못합니다
그럼 망해요
다른 더 복잡한 방법이 필요해요
데이터의 무질서도를
측정하는 방법이요
세트가 얼마나
무질서한지
트리의 가장 밑단의
세트 말이죠
그게 지금
필요합니다
세트의 무질서도를
측정하는 방법이 필요해요
가지의 끝 부분의 세트요
그럼 테스트의 질이
얼마나 높은지 알 수 있죠
무질서 측정에
기반해서 말이죠
좋은 인생의
첫 휴리스틱은
문제가 주어졌을 때
답을 아는 사람에게
물어보는 거죠
그게 제일 쉬워요
구글 검색보다 쉬워요
그럼 누구에게 물어볼까요
세트의 무질서를
측정하는 방법에 대해서요

English: 
So you never get started.
Everything would be 0.
Every test would say, oh it
doesn't put anybody into
homogeneous sets.
So you're screwed.
You need some other, more
sophisticated way of measuring
how disordered this data is.
Or how disordered these sets
are that you find at the
bottom of the tree branches.
That's what you need.
You need a way of measuring
disorder of these sets that
you find at the bottom of these
branches, so you can
find a kind of overall quality
to the test based on your
measurement of disorder.
Now, the first heuristic of a
good life is, when you have a
problem to solve, ask somebody
who knows the answer.
It's the least amount of work.
It's not even as hard
going to Google.
So who would you ask
about ways of
measuring disorder in sets?
There are two possible
answers.

English: 
STUDENT: You could
just do entropy.
PATRICK WINSTON: What?
STUDENT: Find the entropy
of the set.
PATRICK WINSTON: Who
studies entropy?
STUDENT: Probability.
PATRICK WINSTON: What
kind of classes?
STUDENT: Physics.
STUDENT: Thermodynamics.
PATRICK WINSTON:
Thermodynamics!
The thermodynamicists are good
at measuring disorder, because
that's what thermodynamics
is all about.
Entropy increasing over time,
and all that sort of stuff.
There's another equally
good answer.
STUDENT: Statisticians?
PATRICK WINSTON:
Statisticians.
Perhaps, but it's not the
second best answer.
It's actually not even
the best answer.
That's the best answer.
What's your name?
STUDENT: Leo.
PATRICK WINSTON: Oh, yeah.
[LAUGHTER]
PATRICK WINSTON: Leonardo has
got his finger on it.
The information theorists are
pretty good at measuring
disorder, because that's what
information is all about, too.

Korean: 
답이 2개 있습니다
(학생) 엔트로피를 사용하면
안되나요?
뭐라구요?
(학생) 세트의 엔트로피를
찾으면 안되나요?
누가 엔트로피를 공부해요?
(학생) 확률이요
어떤 수업에서 배우죠?
(학생) 물리요
(학생) 열역학이요
열역학!
열역학자는 무질서
측정을 잘 합니다
그게 열역학의 다 입니다
시간이 흐를수록
엔트로피가 올라가죠
또 다른 답을 한 번
더 생각해볼래요?
(학생) 통계학자?
통계학자
그럴 수도 있지만
두 번째로 좋은 답은 아닙니다
사실 이게
가장 좋은 답이 아니에요
아까 그게
가장 좋은 답이에요
이름이 뭐예요?
(학생) 레오입니다
아 맞아요
레오나르도가 정확했네요
정보 이론가가 무질서를
측정하는데 뛰어나요
정보가 다 그거거든요

Korean: 
정보 이론가로부터
무질서 측정법을 배울 수 있을 겁니다
정보 이론가로부터
무질서 측정법을 배울 수 있을 겁니다
바로 그게
우리가 할 것입니다
칠판에 한번 적어볼까요
저걸 측정할 때
좀 더 편하게 하기 위해서요
정보 이론가에 의하면
어떤 세트의 무질서 D가
이진 값으로 구성된
세트라고 할게요
양성과 음성이 있어요
+ 와 - 가 있어요
대수 방정식에서는
헷갈릴 수가 있는데
덧셈과 기호가 같기 때문이죠
그래서 대신
P와 N이라고 표기할게요
P + N 이
전체 값이 되는거죠
우리에겐
두 선택지가 있어요
양성과 음성이요
세트의 무질서 값은

English: 
So we might as well borrow a
mechanism for measuring the
disorder of a set from those
information theory guys.
So what we're going to
do is exactly that.
Let's put it over here, so we'll
have it handy when we
want to try to measure
those things.
The gospel according to
information theorists is that
the disorder, D, or some set
is equal to-- now let's
suppose that this is a
set of binary values.
So we have positives and
then we have negatives.
Pluses and minuses.
But pluses, they don't go very
well in an algebraic equation,
because they might be confused
with adding.
So I'm going to say P and N. And
then it'll be the total,
which is P plus N. We only
have two choices,
positive and negative.
So the disorder of set,
according those guys, is equal
to minus the number of positives
over the total

English: 
number, times the log to the
base 2 of the positives over
the total, minus the negatives
over the total, times the log
2 of the negatives
over the total.
Those negatives look a little
worrisome, because you think,
well, maybe this thing
can go negative.
But that's not going
to be true, right?
Because these ratios are all
less than 1, and the logarithm
of something that's less
than 1 is negative.
So we're OK.
So that's a lovely way of
measuring disorder.
And then we ought to draw
a graph of what
that curve looks like.
And what we're going to graph
it against is the ratio of
positives to the total number.
So that's going to be an axis
where we go from 0 to 1.

Korean: 
- (P/T) log2 (P/T) - (N/T) log2(N/T)
입니다
저 마이너스들이 여러분을
걱정하게 만들죠
결과 값이
음수가 되면 어쩌지?
그렇지만
결과는 그게 아닐 겁니다
분수 값이 모두
1보다 작거든요
1보다 작은 분수에
로그를 씌우면 음수이죠
걱정하지 않아도 돼요
무질서를 측정하기에
좋은 방법입니다
이제 그래프를
그려야 할 거 같아요
어떻게 생겼는지
보자고요
우리가 그릴
그래프의 x축은
P / T 입니다
범위는
0부터 1입니다

Korean: 
쓸만한 값들을
한번 찾아봅시다
이 그래프를
신경써서 봐주세요
이걸 제대로 알면
퀴즈 문제를
쉽게 풀 수 있을 겁니다
아니면 많은 학생이
계산기를 꺼내들고
헤매다가
결국엔 망합니다
한번 풀어보죠
+의 수가 -의 수와
같다고 해봅시다
완전히 뒤섞인 세트가
있다고 해봅시다
어느 쪽으로도
편향되지 않았어요
P/T = 1/2 이 경우
{-1/2 log (1/2)} x 2 
와 같습니다
결과가 뭐죠?

English: 
So let's just find a couple
of useful values.
And by the way, it pays to pay
attention to these curves,
because if you pay attention
to this stuff, you can work
the quiz questions on
this very rapidly.
Otherwise, we see people getting
out their calculators
and quickly becoming both
lost and screwed.
OK so let's see.
Let's suppose that the number
of positives is equal to the
number of negatives.
So we've got a completely
mixed-up set.
It has no bias in either
direction.
So in that case, if P over T is
equal to 1/2, then this is
equal to minus 1/2, times
the logarithm of 1/2.
And I guess, since they're
both the same, we
can multiply by two.
And what's that value?

Korean: 
계산기가 
뭐라던가요?
(학생 대답중)
마이너스 ...
- 가 들어가면
위 아래가 바뀌죠
log 2가 뭔가요?
밑이 2일 때
log 2의 값은?
(학생) 1이요
그래서 이 전체는?
(학생) 1이요
1이죠
학생이 1이라고 하네요
한번 봅시다
2 x (1/2)
상쇄되고
마이너스가 
이걸 뒤집으니
로그 2에 2는
1이죠
그래서 이 식을
계산해보면
1이 됩니다
멋지네요
이 가운데 값은
둘이 같을 때
값은 1입니다
다음으로
계산해볼 것은
P/T = 1 일 때 입니다

English: 
[INAUDIBLE], what does that
calculate out to?
STUDENT: Minus [INAUDIBLE]
PATRICK WINSTON: Minus
[INAUDIBLE].
Well, with a minus sign, you
just turn the argument upside
down, so it's log(2).
So what's log(2)?
Logarithm of base 2 of 2?
1!
So this whole thing is--
STUDENT: 1.
PATRICK WINSTON: 1.
So [INAUDIBLE], in her soft way,
says, well, let's see.
2 times 1/2.
That cancels out.
The minus, that flips the
arguments so it's log to the
base 2 of 2, and that's 1.
So this whole thing, You
work out the algebra,
it gives you 1.
So that's cool.
So right here in the middle
where they're equal, we get a
value of 1.
Next thing we need to do is
let's calculate what happens
if P over T is equal to 1.

Korean: 
모든 게 양의 값을 가지죠
예측해 볼 사람?
10, 20, -15 ?
한번 계산해보죠
P/T = 1이면
- 1 log 1 with base 2
값이 뭐죠?
(학생 대답중)
0 ?
밑이 2일 때
1이면 0이 되죠
그래서
이 부분은 0입니다
그럼 이 부분은요?
다 P고
N이 없으면
0 이죠
그럼 끝났죠
아니군요
계산을 더 해야 합니다
0 log 0 with base 2
값이 뭐죠?
(학생 대답중)
누구요?
마이너스 무한대요?
음
0 곱하기 
마이너스 무한대는?

English: 
That is to say, everything
is a positive.
Any guesses?
Maybe 10, 20, minus 15?
Let's work it out.
So if P over T equal 1, that
would be minus 1 times the log
to the base 2 of 1.
What's that?
STUDENT: [INAUDIBLE]
PATRICK WINSTON: A 0?
Oh, yeah.
Because 2 raise to
the 0 is one.
So this part is 0.
Now, what about this
other part?
If everything's a P, then
nothing's an N.
So we've got 0.
And we can quit already.
Well, not quite.
We ought to work it out.
Log 2 to the base 2 of 0.
What's that?
STUDENT: [INAUDIBLE]
PATRICK WINSTON: Who?
Minus infinity?
Uh oh.

Korean: 
고등학생 때
답이 뭔지 몰랐어요
1801 수업이
차이를 만들죠
마침내 말이죠
그래서 답이 뭘까요
N/T 가 0에 무한히 가까워집니다
이런 상황에서
어떻게 해야 하나요?
유명한 규칙이 하나 있는데
다 잘못 발음하곤 하죠
L Hospital 으로요
(엘 하스피탈)
L'Hopital 입니다
(로피탈)
로피탈이요
미분해야 합니다
분수가 들어간
얘들을 미분합니다
0이 될 때
어떻게 되는지 봅시다
L'Hopital 정리를
이용하면
오 하느님
그래도 0이네요
결과적으로
점 하나가 여기에 있고
여기에도 하나 있습니다
이제 총 3개의 점이 있고

English: 
0 times minus infinity is What
I didn't get that when I was
in high school.
Finally, 1801 makes
a difference.
Finally.
What's the answer.
We're interested in the limit as
N over T goes to 0, right?
And when you have a deal like
this, what do you do?
You use that famous rule, that
we all mispronounce when we
see it written, right?
We use the good old El
Hospital's rule.
OK, it's L'Hopital.
L'Hopital's Rule.
You have to differentiate
the--
I guess we differentiate this
guy as a ratio or something,
and see what happens
when it goes to 0.
And what we get when we use
L'Hopital's Rule is that, oh
thank God, this is still zero.
So now we know that we have a
point up there and a point
down there.
So now we've got three
points on the curve,
and we can draw it.

Korean: 
그림을 그릴 수 있습니다
그럼 이런 그래프가 나오죠
아니요
그렇지 않습니다
명백하게
가우시안이죠
자연의 모든 것이
가우시안이니까요
그 노트북 좀
치워줄래요?
자연의 모든 것이
가우시안입니다
이렇게 생겼어요
이거 맞죠?
사실, 자연의 모든 것이
가우시안은 아닙니다
이것도
가우시안이 아닙니다
반원형 막사에
가까워 보이네요
그걸 더 닮았어요
좋아요
이게 우리가
원하는 곡선입니다
신이 이러한
무질서 측정법이
가장 좋은 방법이라고
말했나요?
아니요
그런 말은 한 적 없어요
이게 편리한 메커니즘이라서
사용하는 것입니다
당연한 말인 것 처럼 들리겠지만요

English: 
It goes like that.
No, it doesn't go like that.
It's obviously a Gaussian,
right?
Because everything in a
nature is a Gaussian.
Can you put that laptop
away, please?
Everything in nature
is a Gaussian, so
it looks like this.
That right?
No, actually, not everything
in nature is a Gaussian.
And in particular, this one
isn't a Gaussian either.
It looks more like one of those
metal things they used
to call quonset huts.
That's what it looks like.
Boom, like so.
So that is the curve
of interest.
Now, did God say that using this
way of measuring disorder
was the best way?
No, Got has not indicated
any choice here.
We use this because it's a
convenient mechanism, it seems
to make sense, but in contrast
to the reason it's used

English: 
information theory, it's not
the result of some elegant
mathematics.
It's just a borrowing of
something that seems to work
pretty well.
Any of those curves would work
just about the same, because
all we're doing with
it is measuring how
disordered a set is.
So one thing to note here is
that in this situation, where
we're dealing with
two choices--
P and N, positives
and negatives--
we get a curve that
maxes out at one.
And notice that it kind of gets
up there pretty fast.
In fact, if you're down here
at 2/3, are you're up here,
this is about 0.9.
So it gives you a large number
for quite a bit of that area
in the middle.
So that, unfortunately, still
doesn't tell us everything we
need to know.
That tells us how to measure a
disorder in one of these sets.
But we want to know how to
measure the quality of the
test overall.

Korean: 
정보이론에서 쓰이는 것과는 달리
이 방법은 우아한 수학적 방법을
통한 결과가 아닙니다
그냥 잘 동작 할 것 같은 방법을
골라 쓰는 것 뿐입니다
이 중 어떤 곡선도
비슷하게 작동합니다
무질서한 정도를
측정하는 게 다였으니까요
여기서 꼭 알아야 할 것은
두 개의 선택지가 있는데
P 와 N
양성(Positive)과 음성(Negative)
최대가 1인
곡선이 있고
여기까지 기울기가
굉장히 가파릅니다
사실 이 밑에서는
2/3 인데
여기 위에서는
거의 0.9 입니다
가운데 부분이
꽤 큰 면적을 차지합니다
안타깝게도 아직
우리가 원하는 모든 걸
알 수 없습니다
이 중 하나의 세트에서의
무질서를 측정할 수 있습니다
하지만 우리는 전체적인
테스트의 우수성을 알고 싶습니다
그래서 이러한 방법이 필요합니다

English: 
So we need some mechanism that
says, OK, given that this test
produces three different sets,
and we now have a measure of
the disorder in each of these
sets, how do we measure the
overall quality of the test?
Well, you could just add
up the disorder.
Let's write that down, because
that sounds good.
So you can say that the quality
of a test is equal to
some sum over the
sets produced.
And what we're going to do is
we're going to add up the
disorder of each
of those sets.
I'm almost home, except that
this means we're going to give

Korean: 
이 테스트가 서로 다른 
세 개의 세트를 만들고
어떻게 각각의 무질서도를
측정하는지 알고 있다면
전체 테스트의 우수성은
어떻게 측정할까요?
무질서도를
다 더할 수도 있겠네요
한번 해보죠
좋은 생각 같아 보이네요
테스트의 우수성은
세트 전체의 합과
같습니다
우리가 할 것은
각각 세트의
무질서도를 더하는 것입니다
거의 다 왔습니다

Korean: 
가지마다 같은 가중치를
둬야 된다는 것만 빼면 말이죠
가지마다 같은
가중치를 둬야 합니다
거의 모든 게
아래로 내려가고 있으니까요
말이 되지 않아 보이군요
마지막으로 우리는
전체 합의 가중치를 구할 건데
가지 끝에서 끝나는
샘플의 일부에 따라서 말이죠
말하는 것보다
쓰는 게 이해하기 쉽습니다
여기에 세트 안의
샘플의 개수를 곱하고
테스트에서 쓰는 샘플의
개수로 나눌 겁니다
만약 절반의 샘플이
가지 밑으로 따라가면

English: 
equal weight to a branch that
has almost nothing down it--
we're going to give the same
weight to that as a branch
that has almost everything
going down it.
So that doesn't seem
that make sense.
So one final flourish is we're
going to weight this sum
according to the fraction of the
samples that end up down
that branch.
So it's, as usual, easier to
write it down than to say it.
So we're going to multiply
that times the number of
samples in the set, divided
by the number of
samples handled by test.
So if half the samples go down
a branch, and if that branch

Korean: 
그리고 그 가지가
어느정도의 무질서도를 가지면
그러면 무질서도에 1/2를
곱해줘야 합니다
좋아요
우리 연습 문제에
어떻게 적용되는지 알아보죠
여기에 샘플 데이터가 있습니다
더 복잡한 건 필요 없어요
그렇지만 데이터셋이
아주 크다고 가정합시다
한번 봅시다
무엇을 해야 할까요
이쪽으로 내려와서
여기에는 4개의
샘플이 있어요
전체의 반절입니다
여기서 어떤 수를 가지던
1/2를 곱해 줄겁니다
이건 3/8를 곱하고
이건 1/8를 곱합니다
그럼 여기 밑에서
얻는 게 뭘까요
이건 동종 집단입니다
모든 게 같아요
저기 곡선으로 돌아가서
동종 집단의 무질서도는
몇 일까요?
0입니다
한번 봅시다
다 같아요
저기가 0이라는
뜻인 것 같군요

English: 
has a certain disorder, then
we're going to multiply that
disorder times 1/2.
All right.
So now let's see how it works
with our sample problem.
Well, here is our sample data.
And we didn't need anything
fancy for it.
But let's pretend it was
a large data set.
Well, let's see.
What would we do?
Well, go down this
way, there are 4
samples down that direction.
That's half of the total
number of samples.
So whatever we find down
there, we're going
to multiply by 1/2.
This one we're going
to multiply by 3/8.
And this one we're going
to multiply by 1/8.
Now, what do we actually find at
the bottom of these things?
Well, here's a homogeneous
set.
Everything's the same.
So we go to that curve and say,
what is the disorder of a
homogeneous set?
It's zero.
Let's see, they're
all the same.
I guess that means it's
0 over there.

Korean: 
샘플이 3개인 이 세트의
무질서도는 0입니다
샘플이 1개인 이 세트의
무질서도 또한 0입니다
이 세트의 무질서도는
한번 봅시다
반은 +이고
반은 -이니까
곡선으로 돌아가서
같은 수의 +와 -를 가질 때
무질서도는 얼마일까요?
1입니다
얘의 무질서도는 1입니다
1/2 x 1, 3/8 x 0, 1/8 x 0
이 세트의 유용성은
세트의 무질서도에 의하면
1/2 입니다
0.5
이걸 한번 해봅시다
이쪽에서 3/8
이쪽에서 5/8
3/8 에 균질한 세트의
무질서도를 곱하면

English: 
So the disorder of this set
of three samples is zero.
The disorder of this set
of one sample, all
the same, is zero.
The disorder of this set--
well, let's see.
Half of the samples there are
plus, and half are minus, so
we go over to our curve, and we
say, what's the disorder of
something with equal mixture
of pluses and minuses?
And that's one.
So the disorder of
this guy is one.
So now we've got 1/2 times 1,
and 3/8 times 0, 1/8 times 0.
So the quality of this
particular test, as determined
by the disorder of the sets
it produces, is 1/5.
0.5.
Let's do this one.
So we have 3/8 coming
down this way, 5/8
coming down this way.
3/8 is multiplied by
the disorder of a
set of uniform things.

Korean: 
무질서도는 0이고
여기서는
2/5와 3/5
곡선을 보면
거의 정중앙에 가깝고
0.9 정도까지 올라갑니다
이걸 대충 한 번 보고 그냥
뭐가 어찌 되었든
어디에다가 5/8를
곱한 것이 되겠군요
약 0.9 x 5/8 같은거요
설명을 위해서
0.6 이라고 해두죠
0.01 차 내로
맞을 겁니다
추측하건대 말이죠
순조롭게 가고 있어요
여기에서 3/8
여기에서 3/8이 내려옵니다
여기에서는 1/4 이고요
이건 0이고
이 둘은 대략 0.9입니다

English: 
That's disorder 0.
So this guy over here,
let's see.
That's 2/5 and 3/5
multiplied--
You know, this is one of those
deals where if you look at the
curve, you're pretty close
to the middle.
And that curve goes all the
way up to about 0.9 there.
So you can kind of just look at
this, and eyeball it, and
say, well, whatever it is, the
overall, this is going to be
something multiplied
times 5/8.
Something like 0.9 times 5/8.
So let's just say, for the
sake of discussion, that
that's going to be about 0.6,
which is within a hundredth, I
think, of being right.
Just kind of guessing.
OK, well now we're on a roll.
Here, we have 3/8 coming down
this branch, 3/8 coming down
this branch, 1/4 coming
down this branch.
This is 0.
And this is one of those deals
where these two are about 0.9.

English: 
So it looks like it's going
to be 3/8 plus 3/8 is 3/4.
Times about 0.9.
So that's going to turn
out to be about 0.7.
So one last go here.
3/8, 3/8, and 1/4.
Oh, that's interesting.
Because these two
are what we got
contributed up to that 0.7.
This one is 0.4 times--
this is evenly divided,
so that's going to
have disorder of 1.
So that's going to be
0.25 bigger than the
number we got over here.
So that's going to end
up being about 0.95.
So thanks god our answer is the
same as we got with our
simple classroom measurement
of disorder.
Except this is measuring how
disordered stuff is, we want

Korean: 
3/8 + 3/8 = 3/4 이죠
거기에 0.9를 곱하면
약 0.7이 나오네요
하나 남았습니다
3/8, 3/8, 1/4
흥미롭네요
이 둘이 0.7이 나오는데
기여했거든요
이거는 0.4 곱하기
균등하게 나뉘었으니까
무질서도는 1입니다
여기에 있는 것보다
0.25가 크네요
결과적으로 0.95가 나옵니다
참 다행이에요
쉬운 방법으로 무질서도를
측정한 것과 답이 같단 말이죠

English: 
the small number, not
the big number.
So once again, based on this
analysis, you'll be sure to
pick the shadow cast, because
0.5 is less than 0.6, which is
less than 0.7, which
is less than 0.95.
So that accent test is
really horrible.
Don't use it.
Just because somebody has a
heavy accent doesn't mean
they're a vampire.
In fact, most vampires have
worked very hard on their
accent, as I mentioned before.
All right, so now we know that
we're still going to pick the
shadow test as our first go.
So that's good.
Now, let's see if we can repeat
the exercise with our
second selection, the one we
have to have to pick those
guys apart.
And this is going to be easier,
because there are
fewer things to work with.
Ooh, wow, look.
That's 0.
That's 0.
That's 1/2.
That's 1/2.
So the disorder of
this guy is 0.0.

Korean: 
큰 숫자 말고 작은 숫자를
원한다는 것만 빼면 말이죠
이 분석을 기반으로
그림자 테스트를
뽑을 게 확실하겠어요
0.5는 0.6보다 작고
0.7보다 작고
0.95보다도 작으니까요
억양 테스트
결과는 참담하네요
절대 쓰지 마세요
심한 억양이 있다고 해서
뱀파이어가 아닙니다
많은 뱀파이어들이 억양 
숨기기에 큰 노력을 쏟아요
이전에도 말했었지만요
여기서도 그림자 테스트를
뽑아야 된다는 걸 확인했습니다
처음과 같은 결과입니다
좋아요
2순위로도 같은 걸
반복할 수 있는지 해볼까요?
저것들을 구분할 수
있도록 말이죠
이게 더 쉬울 겁니다
다뤄야 할 것의
숫자도 적고
와 보세요
이건 0이고
이것도 0이고
이건 1/2이고
이것도 1/2이고
무질서도는 0.0입니다

English: 
So this is 1/4, 1/4,
1/2, 0, 0.
1/2 times 1.
Ooh, that's 0.5.
That was easy.
How about this one?
Oh, he says 1.
Let's see.
That's 1.
That's 1.
That's 1/2.
That's 1/2.
Yeah, it is one.
So sure enough, the answer also
comes out to be the same
as before, when we did our just
simple intuition exercise.
So I don't know.
Christopher, is this all about
using information theory?
STUDENT: No.
PATRICK WINSTON: No, no, no.
See, it's not about the math.
It's about the intuition.
And the intuition is that you
want to build a tree that's as
simple as possible.
And you can build a tree that's
as simple as possible
if you look at the data, and
say, well, which test does the
best job of splitting
things up?
Which test does the best job of
building subsets underneath
it that are as homogeneous
as possible?

Korean: 
이건 1/4, 1/4, 1/2, 0, 0
1/2 곱하기 1
이건 0.5이네요
쉬웠어요
이건 어떨까요?
1이라고 하네요
한번 봅시다
이건 1이고
이것도 1이고
이건 1/2
이것도 1/2
답은 1이 맞네요
당연하게도
아까와 같은 답이 나왔어요
아까 직관으로 간단하게
테스트했을 때와 말이죠
잘 모르겠어요
크리스토퍼, 이게
정보이론에 관한 건가요?
(학생) 아니요
아니 아니 아니요
수학에 관한 게 아닙니다
직관에 관한 거예요
가장 간단한 트리를
만든다고 해봅시다
가장 간단한
트리를 만든다면
데이터를 보고
어떤 테스트가 가장
잘 나누냐고 물어보면
어떤 테스트가 가장
동종 집단을 가장
잘 만드냐고 물어보면

Korean: 
정보이론과 엔트로피가 다
직관적으로 하기에
편리한 방법입니다
그렇죠?
정보이론에 관한 게 아닙니다
직관에 관한 거죠
아 그런데
이게 혹시 실제로
사용하는 방법인가요?
수십 억번 씁니다
이게 항상 쓰이는
최적의 방법입니다
데이터가 숫자일 때도 말이죠
데이터가 숫자일 때는
어떻게 사용하죠?
한번 생각해봅시다
기회가 하나 있다고
생각해봅시다
양호실에서 일한다고 
가정해봅시다
요즘에는 뭐라고
부르지요?
다르게 부르는데
그런 비슷한 곳에서 일하고
사람들의 체온을
잴 기회가 있습니다

English: 
So all this information theory,
all this entropy
stuff, is just a convenient
mechanism for doing something
that is intuitionally sound.
OK?
It's not about information
theory.
It's about a sound intuition.
Oh, by the way.
Does this kind of stuff ever
get used in practice?
10s of thousands of times.
This is a winning mechanism
that's used over and over
again, even when the
data is numeric.
How would it work if
it's numeric data?
Well, let's think about
that for a little bit.
So let's suppose that we
have an opportunity.
We're an EMT or something,
we work in the infirmary.
What do they call
it these days?
Something else.
But anyhow, you work in that
kind of area, and you have the
opportunity to take people's
temperature.

English: 
And so over time, you've
accumulated some data on the
temperature of people.
And maybe you've found that
there's a vampire
here at about 102.
There's a normal person
here, about 98.6.
But then they're scattered
around.
Some people have fevers
when they come in.
So the question is, is there a
way of using numerical data--
things that you can
put real numbers--
is there a way of using that
with this mechanism?
And the answer is yes.
You just say, is the temperature
greater than or
less than some threshold?
And that gives you a test, a
binary test, just like any of
these other tests.
[? Krishna? ?]
Right?
But where would I put
the threshold?
I suppose I could just put
it at the average value.
But that might not be the place
that does the best job
of splitting the samples into
homogeneous groups.
Christopher?
STUDENT: So you run this
numerical analysis on

Korean: 
사람들의 체온 데이터를
축척했습니다
여기 102 정도에 뱀파이어가
있다는 걸 발견했어요
98.6 에 평범한
사람이 있고요
그런데 여기저기에
흩어져 있습니다
들어올 때
열이 있는 사람도 있고요
숫자 데이터를 
사용하는 방법이 있을까요?
실제 숫자를
넣는 방법이요
이 방법을 쓸 수 있을까요?
당연하죠
체온이 임계 값보다
큰지 작은지 알면 됩니다
이진 테스트인 거죠
다른 테스트들처럼 말입니다
크리슈나?
맞죠?
그런데 임계 값은
어디로 정해야 하죠?
평균값으로 둘 수도 있겠네요
최적의 위치가 아닐 수도 있어요
샘플을 동종 집단으로
나누기에 말입니다
크리스토퍼?
(학생) 이 수치 분석을

English: 
different places with different
thresholds.
PATRICK WINSTON: So you try
different places, he says.
And he's right.
Because this is a computer,
this is our slave.
We don't care how much
it works to figure
out the right threshold.
So what we do is we say, well,
maybe the threshold's halfway
between those two guys, or
halfway between those two
guys, or those two guys,
or those two guys,
or those two guys.
So we can try one
less threshold
than we have samples.
And we don't care if there are
10,000 samples, because this
is a computer, and we don't care
if it works all night.
So that's how you find the
threshold for a numeric test.
By the way, I assured you
earlier on you would never use
the same test twice.
Is that true for this?
Yes, you would still never
use the same test twice.
But what you might do is you
might use a different
threshold on the same
measurement
the next time around.
So when you start having
numerical data, you may find
yourself using the same test
with the same axis but with a

Korean: 
(학생) 다른 임계 값으로
다른 위치에서 하는 건가요?
다른 위치에서 
시도해보라고 하네요
그가 맞아요
컴퓨터잖아요
우리의 노예예요
얼마나 걸리는지
신경 쓰지 않아도 됩니다
알맞는 임계 값이
뭔지 말입니다
아마 임계 값은
이 둘의 중간 지점쯤 되겠네요
이 둘 사이, 이 둘 사이
이 둘 사이와 이 둘 사이까지
샘플보다 1 적은
임계 값을 시도할 수 있어요
10,000개의 샘플이
있어도 상관 없어요
어차피 컴퓨터가
계산 하는 거니까요
숫자를 쓰는 테스트에서
임계 값을 찾는 방법입니다
같은 테스트를 다시는
사용하지 말라고 했었죠?
이것도 해당할까요?
같은 테스트는
다시 쓰면 안됩니다
그런데 만약에 다른
임계 값을 가지고
같은 데이터에다가
적용한다면?
숫자 데이터를
사용하기 시작하면

Korean: 
같은 축과 다른 값을 가지고
같은 테스트를 적용할 겁니다
좋아요
이제 이게 있으니까
돌아가서 이 방법이
어떻게 쓰일지 비교해보죠
지난번에 얘기했던 것과
비교해서 말이죠
전기 커버요
전기 커버 때는
이런 상황이었었죠
이런 비스름했는데
샘플과 위치가 대략 이랬었는데
구분이 이런 식으로 되었었어요
정확하진 않지만
거의 비슷합니다
결정 경계선이에요
데이터를 구분하기 위해
최근접 이웃 탐색을 쓸 때요
결정 경계선은
어떤 형태일까요

English: 
different value.
All right.
So now that we have this, then
we can go back and compare how
this method would look when we
put it up against the sort of
stuff we were talking about
last time, with
the electrical covers.
So with the electrical covers,
we had a situation like this.
I don't know.
We had samples that were places
like this, and we had a
division of the space that look
pretty much like that.
Not quite exactly in the right
spots, but pretty close.
So these are the decision
boundaries for the situation
where we are using nearest
neighbors to
divide up the data.
What would the decision
boundaries look like if these
were four different kinds of
things, and we were using this
kind of mechanism?

Korean: 
4개의 다른 종류가 있고
이와 같은 방법을 쓴다면요
아마 샘플이 이처럼
뭉쳐져 있을 겁니다
결정 경계선은
어떤 형태를 띨까요?
이것과 같을까요?
아니었으면 좋겠네요
왜일까요?
각각의 축의 임계 값을
사용할 것이기 때문이죠
그렇기 때문에
결정 경계선은
서로 평행할 겁니다
예를 들어
후, 다시 그려야
할 것 같네요
위에 겹쳐 그리면
헷갈릴 것 같아요
이런 식으로 생겼고
이게 최근접 이웃 탐색을
하는 방법입니다
의사결정 트리 방법은
하나의 축에서
임계 값을 뽑을 겁니다
이 축이라고 해봅시다
하나의 선택지뿐이네요
여기에 선을 그리도록 하겠습니다
다음으로 해야 할 건
무엇일까요?

English: 
And maybe there's a lot of
samples all clustered around
places like that.
What would the decision
boundaries look like?
Would they be the
same as this?
god, I hope not.
Why?
Because what we're going to
do is we're going to use a
threshold on each axis.
So therefore, the decision
boundaries are going to be
parallel to one axis
or the other.
So we might decide,
for example--
Oh, shoot.
I think I'll draw it again,
because it'll get confused if
I draw it over the other one.
So it looks like this.
And that's how nearest
neighbors does it.
But a identification tree
approach will pick a threshold
along one axis or the other.
Let's say it's this axis.
It's only got one
choice there.
So it's going to put
a line there.
And now, what's the next
thing it does?
Well, it still has these
two different kinds

English: 
of things to separate.
We're going to assume
we've got four
different kinds of things.
So it's going to say, oh!
I've Come down the negative
side, so I need a threshold on
the remaining data.
And these are the only two
things that are now remaining.
So my only choice is to put
a threshold in there.
Now I guarantee this, absolutely
guaranteed--
on the quiz, somebody--
presumably somebody who doesn't
go to lectures--
will draw that line all
the way across.
And that's desperately wrong.
Because we've already divided
this data set in half.
Now the choice of what we do
over here is governed only by
the remaining samples that
we see, these two.
And so the threshold is going
to go in there like that.
So that's what happens
when you go back.
This is used 10s of thousands
of times.

Korean: 
아직 이 둘을 나눌
방법이 필요합니다
4개의 다른 것들이
있다고 가정할게요
이런 결과가 나올 거예요
음의 방향에서 왔기 때문에
남은 데이터에 대한
임계 값이 필요합니다
지금 남은 것은
이 둘 뿐이죠
임계 값을 저기로
정하겠습니다
제가 보장하도록 하죠
퀴즈에서
수업에 오지 않은
사람들이 있다는 가정하에
선을 이 끝까지 그릴 겁니다
그건 완전한 오답이에요
이미 데이터셋을
두 개로 나눴고
여기서 해야 하는 건
남은 샘플에 의해서 결정됩니다
이 둘 말입니다
임계 값은 여기
이런 식으로 그려집니다
다시 돌아가서
저런 식으로 할 수 있어요
수십 억번 쓰이죠

Korean: 
항상 쓰여요
그래서 장점이 뭐냐고요?
먼저, 모든 테스트를
사용하지 않아도 됩니다
유용해 보이는 것만
사용하면 됩니다
더 나은 일을 해낼 수 있어요
측정 방법이 훨씬 간단하거든요
그리고 훨씬 효율적입니다
다른 테스트를 다 시도하는
수고를 덜어줍니다
진정한 승자예요
그런데 뭔지 아세요?
어떤 분류의 사람들은
과학자 말고
의사 같은 사람이요
이런 트리를
보는 걸 싫어합니다
항상 규칙에 기반합니다
이런 트리를 보면서
어떤 갑상선 병을 앓고
있는지 판단합니다
여러 호르몬을 판단하는
20 여 개의 테스트가 있겠죠
티록신이나 그런 것들 말이죠
그리고는 그걸
다룰 수 없다고 해요
그래서 같이 해결해야 합니다

English: 
Always used.
What are the virtues of it?
Number one, you don't
use all the tests.
You use only the test that seem
to be doing some useful
work for you.
So that means that you do a
better job, because your
measurement technique
is simpler.
And it costs less, because
you're not going to the
expense of doing all
of the testing.
So it's a real winner.
But you know what?
Some classes of people--
not scientists, but I mean
people like doctors and stuff.
They don't like to look
at these tress.
They're kind of rule-oriented.
So they look a tree like this
for determining what kind of
thyroid disease you have, and
it would have maybe 20 or so
tests in it of various kinds
of hormones, like thyroxine
and this and that.
And they say, ah, we can't
deal with that.
So we have to work with them.

English: 
So what we do is we convert the
tree into a set of rules.
How do we convert the tree
into a set of rules?
Oops, wrong one.
Go away, go away.
Here's what I want.
Yeah, good.
How would we convert this tree
into a set of rules?
It's straightforward.
[INAUDIBLE], what do we do?
STUDENT: You'd basically just
look down each branch--
PATRICK WINSTON: You'd basically
just go down each
branch to a leaf.
So you say, for example,
here's one rule.
If shadow equals question mark,
and garlic equals oh,
[INAUDIBLE]
want to choose No.
Doesn't eat garlic.
No.
I think I'll say Yes.
Yes.
That changes the answer.

Korean: 
트리를 규칙으로 변환해야 합니다
트리를 어떻게 규칙으로
변환할 수 있을까요?
앗 잘못 눌렀네요
빨리 올라가 버려
여기에 제가
원하는 게 있네요
좋아요
트리를 어떻게
규칙으로 바꿀까요?
간단합니다
크리스토퍼
어떻게 하면 되죠?
(학생) 각각의 가지를 보고
각각의 가지에서 잎까지
따라 내려가면 됩니다
예를 들어
여기 하나의 규칙이 있습니다
만약 그림자는 = ?
그리고 마늘은
어떤 가지를 선택해야 하는거죠?
NO
마늘을 먹지 않아요
NO
아니 YES로 바꿀게요
YES
그럼 답이 바뀌죠

Korean: 
마늘을 먹으면
뱀파이어가 아닌거죠?
넷 중 하나의 규칙입니다
네 개의 잎새 노드가
있으니까요
이제 거의 다 왔어요
하나 빼고 다 했어요
이 네 개의 규칙을 가지고
어떻게 단순화할까
생각해보면 됩니다
만약 내가 가진 규칙이
그림자와 마늘 둘 다 테스트 한다면
둘의 선행 사건을 다
알 필요가 있을까요?
대부분의 경우에
답은 '아니오' 입니다
여기서도 답은 '아니오' 입니다
우리의 데이터셋을 보고
알 수 있는 것은
우리는 지금 그림자 테스트에
대해 얘기하고 있어요
아 다른 더 좋은 방법이
생각났습니다
아 아니에요
마늘 데이터를 보면
'네', '네', '네'
답이 '아니오'라는 것을
알 수 있어요
그림자 조건과는
상관없이 말입니다

English: 
Then if it eats garlic, it's
not a vampire, right?
That's one of four possible
rules, because there are four
leaf nodes.
Now, almost done.
We are done, except
for one thing.
We can actually take these four
rules, and start thinking
about how to simplify them.
You can ask questions like, if
I have a rule that tests both
the shadow and the garlic, do I
actually need both of those
antecedents?
And the answer is, in
many cases, no.
And in particular,
in this case, no.
Because if we look at our data
set, what we discover is that
in the event that we're
talking about a shadow
question mark--
oh, I guess I had a better
choice the other way.
Oh, no.
If you look at the garlic,
all the garlics--
Yes, Yes, and Yes--
it turns out that the answer is
no, independent of what the
shadow condition is.

Korean: 
몇몇 경우에
규칙을 보면
트리가 필요 이상으로
복잡하다는 걸 알 수 있어요
몇 항목은 지워도 됩니다
오래된 규칙에 기반한
쉬운 방법을 만들 수 있어요
이 강의 거의 첫 부분에
봤던 것과 비슷하게 말이죠
이제 여러분은 로열티 없이
이걸 PDA에 넣어두고
자신을 보호할 때 쓰도록 하세요
할로윈이 얼마 남지 않았잖아요

English: 
So we can look at the rules,
and in some cases, we'll
discover that our tree is a
little bit more complicated
than it needs to be.
We can actually get rid of
some of the clauses.
So in the end, we can develop a
very simple mechanism based
on good old fashioned rule-based
behavior, like you
saw almost in the beginning
of the subject,
that does the job.
And now, without any royalty,
you're all free to put this in
your PDA and use it to protect
yourself in the days to com,
especially since Halloween's
just around the corner.
