
English: 
ANNOUNCER: The following program
is brought to you by Caltech.
YASER ABU-MOSTAFA: Welcome back.
Last time, we introduced
the learning problem.
And if you have an application in your
domain that you wonder if machine
learning is the right technique for
it, we found that there are three
criteria that you should check.
You should ask yourself: is
there a pattern to begin
with that we can learn?
And we realize that this condition can be
intuitively met in many applications,
even if we don't know mathematically
what the pattern is.
The example we gave was the
credit card approval.
There is clearly a pattern-- if someone
has a particular salary, has

Portuguese: 
LOCUTOR: O programa a seguir
é trazido a vocês pela Caltech.
Tradução feita por Luciana Rocha Pedro,
sob supervisão do PESC na COPPE-UFRJ.
YASER ABU-MOSTAFA:
Bem-vindos novamente.
Na última aula, nós introduzimos
o problema da aprendizagem.
E, se você tiver uma aplicação na sua
área que você queira saber se o aprendizado
de máquinas é a técnica certa,
descobrimos que há três critérios
que você deve verificar.
Você deve se perguntar: existe
um padrão, em primeiro lugar,
com o qual podemos aprender?
E percebemos que esta condição pode ser
intuitivamente encontrada em muitas aplicações,
mesmo se não sabemos qual
é o padrão matematicamente.
O exemplo que demos foi a
aprovação de cartão de crédito.
Existe, claramente, um padrão... se
alguém tiver um salário específico,

English: 
been in a residence for so long, has
that much debt, and so on, that this
is somewhat correlated to
their credit behavior.
And therefore, we know that the pattern
exists in spite of the fact
that we don't know exactly
what the pattern is.
The second item is that we cannot pin
down the pattern mathematically, like
the example I just gave.
And this is why we resort
to machine learning.
The third one is that we have data
that represents that pattern.
In the case of the credit application,
for example, there are historical
records of previous customers, and we
have the data they wrote in their
application when they applied, and we
have some years' worth of record of
their credit behavior.
So we have data that are going to enable
us to correlate what they wrote in the
application to their eventual credit
behavior, and that is what we are
going to learn from.
Now, if you look at the three criteria,
basically there are two that

Portuguese: 
morar na mesma casa por tanto tempo,
tiver tantas dívidas, e assim por diante,
que isto está, de alguma forma,
correlacionado ao comportamento de crédito.
E, portanto, nós sabemos que
o padrão existe, apesar do fato
de que não sabemos
exatamente qual é o padrão.
O segundo item é que não podemos
definir o padrão matematicamente,
como o exemplo que eu acabei de dar.
E é por isso que recorremos
ao aprendizado de máquinas.
O terceiro item é que tenhamos
dados que representem esse padrão.
No caso da solicitação de crédito,
por exemplo, existem registros
históricos de clientes anteriores
e temos os dados que eles escreveram
em suas aplicações quando eles solicitaram
o crédito, e temos alguns anos de registros
do seu comportamento de crédito.
Portanto, temos dados que vão nos permitir
correlacionar o que eles escreveram
na solicitação com o seu eventual
comportamento de crédito e é isso que
vamos usar para aprender.
Agora, se você olhar para os
três critérios, basicamente,

English: 
you can do without, and one that
is absolutely essential.
What do I mean?
Let's say that you don't
have a pattern.
Well, if you don't have a pattern,
then you can try learning.
And the only problem is
that you will fail.
That doesn't sound very encouraging.
But the idea here is that, when we develop
the theory of learning, we will
realize that you can apply the technique
regardless of whether there
is a pattern or not.
And you are going to determine whether
there's a pattern or not.
So you are not going to be fooled and
think, I learned, and then give the
system to your customer, and the
customer will be disappointed.
There is something you can actually
measure that will tell you whether you
learned or not.
So if there's no pattern, there is no
harm done in trying machine learning.
The other one, also,
you can do without.
Let's say that we can pin the
thing down mathematically.
Well, in that case, machine learning
is not the recommended technique.
It will still work.
It may not be the optimal technique.

Portuguese: 
existem dois que você pode dispensar
e um que é absolutamente essencial.
O que eu quero dizer?
Digamos que você não tenha um padrão.
Bom, se você não tiver um padrão,
então, você pode tentar aprender.
E o único problema é
que você vai falhar.
Isso não parece muito animador.
Mas a ideia aqui é que, quando
desenvolvermos a teoria da aprendizagem,
vamos perceber que você pode aplicar
a técnica, independente se existe
um padrão ou não.
E você vai determinar
se há um padrão ou não.
Então, você não será enganado e
pensar, eu aprendi e, em seguida,
dar o sistema para o seu cliente
e o cliente ficará decepcionado.
Há algo que você pode
realmente medir que vai dizer
se você aprendeu ou não.
Então, se não há um padrão, não há nenhum
problema em tentar o aprendizado de máquinas.
O outro item você também pode dispensar.
Digamos que possamos definir
o problema matematicamente.
Bom, nesse caso, o aprendizado de
máquinas não é a técnica recomendada.
Ainda vai funcionar.
Pode não ser a técnica ideal.

English: 
If you can outright program it, and
find the result perfectly, then why
bother generate examples, and try to
learn, and go through all of that?
But machine learning is
not going to refuse.
It is going to learn, and it is
going to give you a system.
It may not be the best system in this
case, but it's a system nonetheless.
The third one, I'm afraid
you cannot do without.
You have to have data.
Machine learning is about
learning from data.
And if you don't have data, there is
absolutely nothing you can do.
So this is basically the picture about
the context of machine learning.
Now, we went on to focus on one type,
which is supervised learning.
And in the case of supervised learning,
we have a target function.
The target function we
are going to call f.
That is our standard notation.
And this corresponds, for example,
to the credit application.
x is your application, and f of x is
whether you are a good credit risk or
not, for the bank.

Portuguese: 
Se você puder programar a solução e
encontrar o resultado perfeitamente, então,
porque se preocupar em gerar exemplos,
e tentar aprender, e passar por tudo isso?
Mas, o aprendizado de
máquinas não vai recusar.
Ele vai aprender e ele
lhe dará um sistema.
Ele pode não ser o melhor sistema, neste
caso, mas, apesar disso, será um sistema.
O terceiro item, eu sinto que
você não pode abrir mão dele.
Você tem que ter dados.
O aprendizado de máquinas é
sobre aprender a partir de dados.
E se você não tiver dados, não há
absolutamente nada que você possa fazer.
Portanto, esta é, basicamente, uma ideia
do contexto do aprendizado de máquinas.
Agora, nós prosseguimos e focamos em um
tipo, que foi o aprendizado supervisionado.
E, no caso do aprendizado
supervisionado, temos uma função alvo.
Vamos chamar a função alvo de f.
Essa é a nossa notação padrão.
E um problema pode ser, por
exemplo, a solicitação de crédito.
O x é a sua aplicação e a f(x) diz se
você vale a pena o risco de ter crédito
ou não, para o banco.

English: 
So if you look at the target function,
the main criterion about the target
function is that it's unknown.
This is a property that we
are going to insist on.
And obviously, unknown is a very generous
assumption, which means that
you don't have to worry about what
pattern you are trying to learn.
It could be anything, and you will learn
it-- if we manage to do that.
There's still a question
mark about that.
But it's a good assumption to have, or
lack of assumption, if you will,
because then you know that you don't
worry about the environment that
generated the examples.
You only worry about the system that you
use to implement machine learning.
Now, you are going to be given data.
And the reason it's called supervised
learning is that you are not only
given the input x's, as
you can see here.
You're also given the output--
the target outputs.
So in spite of the fact that the target
function is generally unknown,
it is known on the data
that I give you.
This is the data that you are going to
use as training examples, and that you
are going to use to figure out
what the target function is.

Portuguese: 
Então, se você olhar para a função
alvo, o principal critério sobre
a função alvo é que ela é desconhecida.
Esta é uma propriedade
que nós vamos enfatizar.
E, obviamente, desconhecida é uma suposição
muito generosa, o que significa que
você não precisa se preocupar com qual
padrão que você está tentando aprender.
Poderia ser qualquer coisa e você vai
aprendê-lo... se conseguirmos aprender.
Há ainda um ponto de
interrogação sobre isso.
Mas é uma boa suposição para se ter,
ou falta de suposição, se você quiser,
porque, então, você sabe que você não
precisa se preocupar com o ambiente
que gerou os exemplos.
Você se preocupa apenas com o sistema que você
usa para implementar o aprendizado de máquinas.
Agora, você vai receber os dados.
E a razão pela qual é chamado de aprendizado
supervisionado é que você não está apenas
recebendo as entradas x's,
como você pode ver aqui.
Você também está recebendo a saída...
as saídas desejadas.
Assim, apesar do fato de que a função
alvo seja geralmente desconhecida,
é conhecida nos dados que você recebe.
Estes são os dados que você
usará como exemplos de treinamento
e que você usará para
descobrir qual é a função alvo.

Portuguese: 
Assim, no caso do aprendizado
supervisionado, você tem os alvos
explicitamente.
Nos outros casos, você tem menos
informação do que o alvo, e nós
conversamos sobre isso... como no aprendizado
não supervisionado, no qual você não tem nada,
e no aprendizado por reforço, no
qual você tem informações parciais,
apenas uma recompensa ou punição
para a escolha de um valor de y
que pode ou não ser o alvo.
Finalmente, você tem as
ferramentas de solução.
Estas são as técnicas que
você vai escolher para resolver
o problema e elas são chamadas de
modelos de aprendizagem, como discutimos.
Elas são o algoritmo de aprendizagem
e o conjunto de hipóteses.
E o algoritmo de aprendizagem
vai produzir uma hipótese...
a hipótese final, aquela
que você dará ao seu cliente,
e demos o símbolo g para esta hipótese.
E espera-se que a g aproxime
a f, a verdadeira função alvo,
que permanece desconhecida.
E a g é selecionada de um conjunto
de hipóteses e o símbolo geral para
um membro do conjunto de hipóteses é h.
Então, a h é uma hipótese genérica.
A que você selecionar,
você vai chamar de g.

English: 
So in the case of supervised learning,
you have the targets
explicitly.
In the other cases, you have less
information than the target, and we
talked about it-- like unsupervised
learning, where you don't have
anything, and reinforcement learning,
where you have partial information,
which is just a reward or punishment
for a choice of a value of y that
may or may not be the target.
Finally, you have the solution tools.
These are the things that you're going
to choose in order to solve the
problem, and they are called the learning
model, as we discussed.
They are the learning algorithm
and the hypothesis set.
And the learning algorithm will
produce a hypothesis--
the final hypothesis, the one that you
are going to give your customer, and
we give the symbol g for that.
And hopefully g approximates f,
the actual target function,
which remains unknown.
And g is picked from a hypothesis set,
and the general the symbol for
a member of the hypothesis
set is h.
So h is a generic hypothesis.
The one you happen to pick,
you are going to call g.

English: 
Now, we looked at an example
of a learning algorithm.
First, the learning model-- the
perceptron itself, which is a linear
function, thresholded.
That happens to be the hypothesis set.
And then, there is an algorithm that
goes with it that chooses which
hypothesis to report
based on the data.
And the hypothesis in this case is
represented by the purple line.
Different hypotheses in the
set H will result
in different lines.
Some of them are good and some of them
are bad, in terms of separating
correctly the examples which
are the pluses and minuses.
And we found that there's a very simple
rule to adjust the current
hypothesis, while the algorithm is still
running, in order to get a better
hypothesis.
And once you have all the points
classified correctly, which is
guaranteed in the case of the perceptron
learning algorithm if the
data was linearly separable
in the first place,
then you will get there, and that will
be the g that you are going to report.
Now, we ended the lecture on sort of
a sad note, because after all of this

Portuguese: 
Em seguida, analisamos um exemplo
de um algoritmo de aprendizagem.
Em primeiro lugar, o modelo de
aprendizagem... o perceptron,
que é uma função linear, limitada.
Este é o conjunto de hipóteses.
E, então, existe um algoritmo
correspondente que escolhe
qual hipótese reportar
com base nos dados.
E a hipótese, neste caso, está
representada pela reta roxa.
Diferentes hipóteses
no conjunto H resultarão
em diferentes retas.
Algumas delas são boas e algumas
delas são ruins, em termos de separar
corretamente os exemplos,
que são os mais e os menos.
E descobrimos que há uma regra muito
simples para ajustar a hipótese atual,
enquanto o algoritmo ainda
está em execução, para obter
uma hipótese melhor.
E, uma vez que você tenha todos os
pontos classificados corretamente,
o que é garantido no caso do algoritmo
de aprendizagem do perceptron,
se os dados forem linearmente
separáveis, em primeiro lugar,
então, você obterá uma hipótese e
esta será a g que você vai reportar.
Agora, terminamos a aula com uma observação
um pouco triste, porque, depois de todo esse

Portuguese: 
encorajamento com relação à
aprendizagem, nós nos perguntamos:
bom, podemos realmente aprender?
Então, dissemos que é
uma função desconhecida.
Uma função desconhecida é uma
suposição atraente, como eu disse.
Mas, podemos aprender uma
função desconhecida, de verdade?
E, então, percebemos que, se você
pensar bem, é realmente impossível.
Por que é impossível?
Porque eu vou lhe fornecer um conjunto
finito de dados e eu vou lhe fornecer
o valor da função neste conjunto.
Bom.
Agora, eu vou perguntar a você qual é
a função em pontos fora desse conjunto?
Como você vai dizer qual é
a função em outros pontos,
se a função for
genuinamente desconhecida?
Ela não poderia assumir
qualquer valor que ela quisesse?
Sim, ela poderia.
Eu posso lhe dar 1.000 pontos, um
milhão de pontos e, no próximo ponto,
a função ainda poderia se
comportar da forma que quisesse.
Assim, não parece que a afirmação
que fizemos seja viável em termos
da aprendizagem e, portanto, temos
que fazer algo com relação a isso.

English: 
encouragement about learning,
we asked ourselves: well,
can we actually learn?
So we said
it's an unknown function.
Unknown function is an attractive
assumption, as I said.
But can we learn an unknown
function, really?
And then we realized that if you look at
it, it's really impossible.
Why is it impossible?
Because I'm going to give you a finite
data set, and I'm going to give you
the value of the function on this set.
Good.
Now, I'm going to ask you what is
the function outside that set?
How in the world are you going to tell
what the function is outside, if the
function is genuinely unknown?
Couldn't it assume any value it wants?
Yes, it can.
I can give you 1000 points, a million
points, and on the million-and-first point,
still the function can behave
any way it wants.
So it doesn't look like the statement
we made is feasible in terms of
learning, and therefore we have
to do something about it.

Portuguese: 
E o que faremos com relação
a isso é o assunto desta aula.
Agora, a aula é chamada
A Aprendizagem é Viável?
E eu vou abordar esta
questão com muito detalhe,
do começo ao fim.
Este é o único tópico desta aula.
Agora, se você quiser um roteiro...
é realmente um fluxo lógico.
Mas, se você quiser
agrupá-lo em assuntos...
Vamos começar com uma
situação probabilística,
que é uma situação
probabilística muito simples.
Ela não parece se
relacionar à aprendizagem.
Mas vai capturar a ideia...
podemos dizer algo em pontos que não
pertencem à amostra de dados que temos?
Então, vamos respondê-la
de forma concreta
e na qual a matemática
seja muito amigável.
E, depois disso, eu serei capaz
de relacionar esta situação
probabilística ao
aprendizado como descrevemos.
Serão necessários dois estágios.
Primeiramente, eu vou
simplesmente traduzir as expressões

English: 
And what we are going to do about it
is the subject of this lecture.
Now, the lecture is called
Is Learning Feasible?
And I am going to address this question
in extreme detail from
beginning to end.
This is the only topic
for this lecture.
Now, if you want an outline--
it's really a logical flow.
But if you want to cluster
it into points--
we are going to start with
a probabilistic situation, that is a very
simple probabilistic situation.
It doesn't seem to relate to learning.
But it will capture the idea--
can we say something outside the
sample data that we have?
So we're going to answer it in a way
that is concrete, and where the
mathematics is very friendly.
And then after that, I'm going to be
able to relate that probabilistic
situation to learning as we stated.
It will take two stages.
First, I will just translate the
expressions into something that

Portuguese: 
em algo relacionado à aprendizagem e,
então, vamos avançar e fazê-las realmente
corresponder à aprendizagem.
Esta é a última.
E, então, depois de fazermos isso,
e pensarmos que está tudo pronto,
descobrimos que há um sério dilema.
E nós vamos encontrar uma solução para esse
dilema e, em seguida, comemorar a vitória...
que, de fato, a aprendizagem é
viável, em um sentido muito particular.
Então, vamos começar com o
experimento que eu mencionei.
Considere a seguinte situação.
Você tem um pote e o pote tem bolinhas.
As bolinhas são vermelhas ou verdes.
É com isso que se parece.
E faremos um experimento com este pote.
E o experimento é retirar
uma amostra do pote...
algumas bolinhas.
Vamos formalizar qual é a
distribuição de probabilidade.
Há uma probabilidade de retirar uma
bolinha vermelha e vamos chamá-la de mi.
Então, agora, você pensa em mi como a
probabilidade de uma bolinha vermelha.

English: 
relates to learning, and then we will
move forward and make it correspond to
real learning.
That's the last one.
And then after we do that, and we think
we are done, we find that there is
a serious dilemma that we have.
And we will find a solution to that
dilemma, and then declare victory-- that
indeed, learning is feasible
in a very particular sense.
So let's start with the experiment
that I talked about.
Consider the following situation.
You have a bin, and the
bin has marbles.
The marbles are either red or green.
That's what it looks like.
And we are going to do an experiment
with this bin.
And the experiment is to pick
a sample from the bin--
some marbles.
Let's formalize what the probability
distribution is.
There is a probability of picking
a red marble, and let's call it mu.
So now you think of mu as the
probability of a red marble.

Portuguese: 
Agora, o pote é, realmente, apenas uma
ajuda visual para nos ajudar a relacionar
com o experimento.
Você pode pensar nisso abstratamente
como um experimento binário...
duas saídas, vermelho ou verde.
A probabilidade do
vermelho é mi, independente
de um ponto para o outro.
Se você quiser pensar no pote, você pode
dizer que o pote tem um número infinito
de bolinhas e a fração de
bolinhas vermelhas é mi.
Ou, talvez ele tenha um número
finito de bolinhas e você vai retirar
as bolinhas, mas recolocá-las.
Mas a ideia, agora, é que a cada vez
que você acessar o pote, a probabilidade
de retirar uma bolinha vermelha seja mi.
Essa é a regra.
Agora, há uma probabilidade
de retirar uma bolinha verde.
E qual poderia ser?
Deve ser um menos mi.
Portanto, esta é a situação.
Agora, o valor do mi é
desconhecido para nós.
Assim, apesar do fato de que você
pode olhar para este pote em particular
e ver que há menos bolinhas vermelhas do
que verdes, então o mi deve ser pequeno
e outras ideias.
Você não tem essa vantagem na prática.

English: 
Now, the bin is really just a visual
aid to make us relate to the
experiment.
You can think of this abstractly
as a binary experiment--
two outcomes, red or green.
Probability of red is mu,
independently from
one point to another.
If you want to stick to the bin, you can
say the bin has an infinite number
of marbles and the fraction
of red marbles is mu.
Or maybe it has a finite number of
marbles, and you are going to pick the
marbles, but replace them.
But the idea now is that every time you
reach in the bin, the probability
of picking a red marble is mu.
That's the rule.
Now, there's a probability of
picking a green marble.
And what might that be?
That must be 1 minus mu.
So that's the setup.
Now, the value of mu is unknown to us.
So in spite of the fact that you can
look at this particular bin and see
there's less red than green,
so mu must be small.
and all of that.
You don't have that advantage in real.

Portuguese: 
O pote é opaco... ele está
cheio e eu o acesso assim.
Portanto, agora que eu declarei que o mi
é desconhecido, você provavelmente sabe
onde vamos chegar.
Desconhecido é uma palavra famosa
da última aula e esta será a conexão
para o que temos.
Agora, nós retiramos N
bolinhas independentemente.
N maiúsculo. E eu estou usando
a mesma notação para o N,
que é o número de pontos na
aprendizagem, de forma deliberada.
Assim, a amostra será parecida com isto.
E terá algumas bolinhas
vermelhas e algumas verdes.
É uma situação probabilística.
E nós vamos chamar a fração de
bolinhas dentro da amostra...
isto, agora, é um valor probabilístico.
O mi é uma constante
definida desconhecida.
Se você retirar uma amostra, e outra pessoa
retirar uma amostra, você terá uma frequência
diferente dentro da amostra
com relação à outra pessoa.
E nós vamos chamá-la de ni.

English: 
The bin is opaque-- it's sitting there,
and I reach for it like this.
So now that I declare mu is unknown,
you probably see
where this is going.
Unknown is a famous word from last lecture,
and that will be the link to
what we have.
Now, we pick N marbles independently.
Capital N. And I'm using the same
notation for N, which is the
number of data points in
learning, deliberately.
So the sample will look like this.
And it will have some
red and some green.
It's a probabilistic situation.
And we are going to call the fraction
of marbles in the sample--
this now is a probabilistic
quantity.
mu is an unknown constant
sitting there.
If you pick a sample, someone else picks
a sample, you will have a different
frequency in sample from
the other person.
And we are going to call it nu.

Portuguese: 
Agora, curiosamente, o ni também
deveria aparecer na figura.
Então, dizemos que o ni é igual
à fração de bolinhas vermelhas.
Então, é aqui que ele aparece.
Aqui está o ni!
Por alguma razão que eu não
entendo, o aplicativo não mostra o ni
nas figuras.
Então, eu decidi que, talvez o aplicativo seja, na
verdade, um especialista em aprendizado de máquinas.
Ele não gosta de informações
dentro da amostra.
Ele só gosta de
informações que são reais.
Então, ele sabe que
o ni não é importante.
Não é uma indicação.
Estamos realmente interessados em
saber o que está fora da amostra.
Por isso, ele manteve o mi,
mas, na verdade, excluiu o ni.
Pelo menos, isso é o que vamos
acreditar pelo resto da aula.
Agora, este é o pote.
Então, agora, o próximo passo é
nos perguntar a pergunta que fizemos
no aprendizado de máquinas.
Será que o ni, que é a frequência na
amostra, nos diz alguma coisa sobre o mi,
que é a verdadeira frequência no pote,
que estamos interessados em saber?
A resposta curta...
isto é para lembrá-lo o que é.

English: 
Now, interestingly enough, nu also
should appear in the figure.
So it says nu equals fraction
of red marbles.
So that's where it lies.
Here is nu!
For some reason that I don't understand,
the app wouldn't show nu
in the figures.
So I decided maybe the app is actually
a machine learning expert.
It doesn't like things in sample.
It only likes things that are real.
So it knows that nu is not important.
It's not an indication.
We are really interested in
knowing what's outside.
So it kept the mu, but actually
deleted the nu.
At least that's what we are going to
believe for the rest of the lecture.
Now, this is the bin.
So now, the next step is to ask ourselves
the question we asked in
machine learning.
Does nu, which is the sample frequency,
tell us anything about mu,
which is the actual frequency in the bin
that we are interested in knowing?
The short answer--
this is to remind you what it is.

Portuguese: 
A resposta curta é não.
Por quê?
Porque a amostra pode ser, na maior parte, verde,
enquanto que o pote é, na maior parte, vermelho.
Alguém duvida disso?
O pote poderia ter 90% de bolinhas
vermelhas e eu retiro 100 bolinhas
e todas elas são verdes.
Isso é possível, correto?
Então, se eu perguntar qual é o verdadeiro mi,
você realmente não sabe a partir da amostra.
Você não sabe nada sobre as
bolinhas que você não retirou.
Bom, essa é a resposta curta.
A resposta longa é sim.
Não porque, não e sim,
mas isto é mais elaborado.
Temos que realmente estudar
bastante para entendermos.
Então, por que é sim?

English: 
The short answer is no.
Why?
Because the sample can be mostly green,
while the bin is mostly red.
Anybody doubts that?
The thing could have 90% red,
and I pick 100 marbles, and all
of them happen to be green.
This is possible, correct?
So if I ask you what is actually mu, you
really don't know from the sample.
You don't know anything about the
marbles you did not pick.
Well, that's the short answer.
The long answer is yes.
Not because no and yes, but
this is more elaborate.
We have to really discuss a lot
in order to get there.
So why is it yes?

Portuguese: 
Porque, se você sabe um pouco sobre
probabilidade, você percebe que,
se a amostra for suficientemente grande,
a frequência da amostra, que é o ni...
o misterioso valor desaparecido aqui...
este valor é provável de estar próximo do mi.
Pense em uma eleição presidencial.
Há, talvez, 100 milhões ou mais de
eleitores nos EUA e você faz uma pesquisa
com 3.000 pessoas.
Você tem 3.000 bolinhas,
por assim dizer.
E você olha para o resultado
nas bolinhas e você me diz como
os 100 milhões vão votar.
Como assim você sabia isso?
Então, agora, a estatística aparece.
É aqui que a probabilidade
desempenha um papel.
E a principal diferença
entre as duas respostas
é possível em relação a provável.
Na ciência e na engenharia, você
tem uma enorme distância ao decidir
por não ter certeza absoluta,
mas estar quase certo.
Abre um mundo de possibilidades
e esta é uma das possibilidades
que é aberta.

English: 
Because if you know a little bit about
probability, you realize that if the
sample is big enough, the sample
frequency, which is nu-- the mysterious
disappearing quantity here-- that
is likely to be close to mu.
Think of a presidential poll.
There are maybe 100 million or more
voters in the US, and you make a poll
of 3000 people.
You have 3000 marbles, so to speak.
And you look at the result in the
marbles, and you tell me how the 100
million will vote.
How the heck did you know that?
So now the statistics come in.
That's where the probability
plays a role.
And the main distinction between
the two answers is
possible versus probable.
In science and in engineering, you go
a huge distance by settling for not
absolutely certain, but
almost certain.
It opens a world of possibilities,
and this is one of the
possibilities that it opens.

Portuguese: 
Portanto, agora, sabemos que, de
um ponto de vista probabilístico,
o ni realmente me diz
alguma coisa sobre o mi.
A frequência na amostra me
diz alguma coisa sobre o pote.
Então, o que diz, exatamente?
Agora, vamos considerar
uma formulação matemática.
Em palavras, diz: em uma grande
amostra, o ni, a frequência na amostra,
deve ser próximo do mi,
a frequência no pote.
Então, agora, os símbolos que aparecem
com isso... o que é uma grande amostra?
N grande, o nosso parâmetro N.
E como podemos dizer que
o ni está próximo do mi?
Nós dizemos que eles
estão dentro de um épsilon.
Este é o nosso critério.
Então, agora, com isso em mente,
vamos formalizar esta ideia.
A fórmula que eu vou lhes
mostrar é uma fórmula que
ficará conosco pelo resto do curso.
Eu gostaria que você prestasse atenção.

English: 
So now we know that, from
a probabilistic point of view, nu does
tell me something about mu.
The sample frequency tells me
something about the bin.
So what does it exactly say?
Now we go into a mathematical
formulation.
In words, it says: in a big sample,
nu, the sample frequency,
should be close to mu,
the bin frequency.
So now, the symbols that go with
that-- what is a big sample?
Large N, our parameter N.
And how do we say that
nu is close to mu?
We say that they are within epsilon.
That is our criterion.
Now, with this in mind, we are
going to formalize this.
The formula that I'm going to show
you is a formula that is going to
stay with us for the
rest of the course.
I would like you to pay attention.

Portuguese: 
E eu vou construí-la gradualmente.
Vamos dizer que a probabilidade
de algo será pequena.
Então, vamos dizer que será
menor ou igual a, e esperamos que
o lado direito seja um valor pequeno.
Agora, se eu estou afirmando que
a probabilidade de algo é pequena,
deve ser porque isso é um evento ruim.
Eu não quero que ele aconteça.
Portanto, temos uma probabilidade
pequena de algo ruim acontecer.
O que é um evento ruim, no
contexto que estamos considerando?
Um evento ruim é o ni
não aproximar bem o mi.
Eles não estão dentro de
um épsilon um do outro.
E, se você olhar para isso, aqui você
tem o mi menos o ni em valor absoluto,
então essa é a diferença
em valor absoluto.
Isso é maior do que o épsilon.
Então, isso é ruim, porque isso
nos diz que eles estão muito longe
da nossa tolerância épsilon.
Nós não queremos que isso aconteça.

English: 
And I'm going to build it gradually.
We are going to say that the probability
of something is small.
So we're going to say that it's less
than or equal to, and hopefully the
right-hand side will be
a small quantity.
Now if I am claiming that the
probability of something is small, it
must be that that thing is a bad event.
I don't want it to happen.
So we have a probability of something
bad happening being small.
What is a bad event in the context
we are talking about?
It is that nu does not
approximate mu well.
They are not within epsilon
of each other.
And if you look at it, here you have
nu minus mu in absolute value, so
that's the difference
in absolute value.
That happens to be bigger
than epsilon.
So that's bad, because that tells us
that they are further away from our
tolerance epsilon.
We don't want that to happen.

English: 
And we would like the probability
of that happening to
be as small as possible.
Well, how small can we guarantee it?
Good news.
It's e to the minus N.
It's a negative exponential.
That is great, because negative
exponentials tend to die very fast.
So if you get a bigger sample, this
will be diminishingly small
probability.
So the probability of something bad
happening will be very small, and we
can claims that, indeed, nu will be
within epsilon from mu, and we will be
wrong for a very minute
amount of the time.
But that's the good news.
Now the bad news--
ouch!
Epsilon is our tolerance.
If you're a very tolerant
person, you say:
I just want nu and mu to be
within, let's say, 0.1.
That's not very much to ask.
Now, the price you pay for that is
that you plug in the exponent

Portuguese: 
E nós gostaríamos que a
probabilidade disso acontecer
fosse tão pequena quanto possível.
Bom, o quão pequena podemos garanti-la?
Boas notícias.
É e elevado a menos N.
É uma exponencial negativa.
Isso é ótimo, porque exponenciais
negativas tendem a morrer muito rapidamente.
Então, se você obtiver uma amostra
maior, isto será uma probabilidade
bem pequena.
Assim, a probabilidade de algo
ruim acontecer será muito pequena
e nós podemos afirmar que, de fato, o
ni estará dentro de um épsilon do mi,
e estaremos errados
apenas em poucas situações.
Mas esta é a boa notícia.
Agora, a má notícia...
Ouch!
O épsilon é a nossa tolerância.
Se você é uma pessoa
muito tolerante, você diz:
eu só quero que o ni e o mi
estejam dentro de, digamos, 0,1.
Isto não é pedir muito.
Agora, o preço que você paga por
isso é que você substitui no expoente,

Portuguese: 
não o épsilon, mas o
épsilon ao quadrado.
Assim, isto se torna 0,01.
O valor 0,01 vai atenuar o N significativamente
e você perde muito do benefício
da exponencial negativa.
E, se você for mais rigoroso e
você disser, eu realmente quero que
o ni esteja próximo do mi.
Eu não estou brincando aqui.
Então, eu vou escolher o épsilon
como sendo 10 elevado a -6.
Bom para você.
10 elevado a -6?
Pague o preço por ele.
Você vem aqui e, agora,
isto é 10 elevado a -12.
Isso vai matar completamente
qualquer N que você possa encontrar.
Assim, o expoente, agora,
será próximo de zero.
Portanto, esta probabilidade será próxima
de 1, se essa fosse a resposta final.
Esta ainda não é a resposta final.
Então, agora, você sabe que a
probabilidade é menor ou igual a um.
Parabéns!
Você já sabia disso. [Risos]
Bom, esta é quase a fórmula,
mas não é exatamente esta.
O que precisamos é bastante trivial.
Apenas colocamos um 2 aqui e um 2 lá.

English: 
not epsilon, but epsilon squared.
So that becomes 0.01.
0.01 will dampen N significantly, and
you lose a lot of the benefit of the
negative exponential.
And if you are more stringent and
you say, I really want nu
to be close to mu.
I am not fooling around here.
So I am going to pick epsilon
to be 10 to the minus 6.
Good for you.
10 to the minus 6?
Pay the price for it.
You go here, and now that's
10 to the minus 12.
That will completely kill any
N you will ever encounter.
So the exponent now will
be around zero.
So this probability will be around
1, if that was the final answer.
That's not yet the final answer.
So now, you know that the probability
is less than or equal to 1.
Congratulations!
You knew that already.
[LAUGHTER]
Well, this is almost the formula,
but it's not quite.
What we need is fairly trivial.
We just put 2 here, and 2 there.

English: 
Now, between you and me, I prefer
the original formula
better, without the 2's.
However, the formula with the 2's has the
distinct advantage of being: true. [LAUGHTER]
So we have to settle for that.
Now that inequality is called
Hoeffding's Inequality.
It is the main inequality we are going
to be using in the course.
You can look for the proof.
It's a basic proof in mathematics.
It's not that difficult, but
definitely not trivial.
And we are going to use it all the way--
and this is the same formula
that will get us to prove something
about the VC dimension.
If the buzzword 'VC dimension' means
anything to you, it will come from
this after a lot of derivation.
So this is the building block that
you have to really know cold.
Now, if you want to translate the
Hoeffding Inequality into words, what

Portuguese: 
Agora, cá entre nós, eu
prefiro a fórmula original,
sem os 2's.
No entanto, a fórmula com os 2's tem a
distinta vantagem de ser: verdadeira. [Risos]
Portanto, temos que
nos contentar com ela.
Agora, esta desigualdade é chamada
de desigualdade de Hoeffding.
É a principal desigualdade
que vamos usar no curso.
Você pode procurar a prova.
É uma prova básica em matemática.
Não é tão difícil, mas,
definitivamente, não é trivial.
E nós vamos usá-la em todo o
curso... e esta é a mesma fórmula
que nos permitirá provar
algo sobre a dimensão VC.
Se a expressão da moda 'dimensão VC' significa
alguma coisa para você, ela virá disso,
depois de um monte de derivações.
Portanto, este é a fórmula que você
realmente tem que saber muito bem.
Agora, se você quiser traduzir a
desigualdade de Hoeffding em palavras,

English: 
we have been talking about is that
we would like to make the
statement: mu equals nu.
That would be the ultimate.
I look at the in-sample frequency, that's
the out-of-sample frequency.
That's the real frequency out there.
But that's not the case.
We actually are making the statement
mu equals nu, but we're not
making the statement--
we are making a PAC statement.
And that stands for: this statement is
probably, approximately, correct.
Probably because of this.
This is small, so the probability
of violation is small.
Approximately because of this.
We are not saying that mu equals nu.
We are saying that they are
close to each other.
And that theme will remain
with us in learning.
So we put the glorified Hoeffding's
Inequality at the top, and we spend
a viewgraph analyzing what it means.

Portuguese: 
o que temos estudado é que
nós gostaríamos de fazer
a afirmação: o mi é igual ao ni.
Isso seria excelente.
Eu olho para a frequência dentro da amostra,
esta é a frequência fora da amostra.
Esta é a frequência real.
Mas este não é o caso.
Na verdade, estamos fazendo a afirmação
o mi é igual ao ni, mas não estamos
fazendo a afirmação...
estamos fazendo uma afirmação PAC.
E PAC significa: esta afirmação é
provavelmente, aproximadamente, correta.
Provavelmente, por causa disto.
Isto é pequeno, então a
probabilidade de violação é pequena.
Aproximadamente, por causa disto.
Nós não estamos dizendo
que o mi é igual ao ni.
Estamos dizendo que eles
estão próximos um do outro.
E esta ideia permanecerá
conosco na aprendizagem.
Então, nós colocamos a gloriosa
desigualdade de Hoeffding no topo e gastamos
um slide analisando o que ela significa.

Portuguese: 
No caso de você ter se esquecido quem
são o ni e o mi, eu coloquei a figura.
Então, o mi é a
frequência dentro do pote.
Este é o valor desconhecido
que queremos encontrar.
E o ni é o valor desaparecido,
que é a frequência
na amostra que você tem.
Então, o que falar sobre a
desigualdade de Hoeffding?
Bom, um atrativo dessa
desigualdade é que é válida
para todo inteiro positivo N e
todo épsilon maior do que zero.
Escolha qualquer tolerância que você
queira e, para qualquer número de exemplos
que você quiser, isso é verdade.
Não é um resultado assintótico.
É um resultado que é válido
para todo N e épsilon.
Esta é uma proposição bastante
atraente para algo que tem
uma exponencial na fórmula.
Agora, a desigualdade de Hoeffding pertence
a uma grande classe de leis matemáticas,
que são chamadas de
Leis dos Grandes Números.
Portanto, esta é uma lei dos
grandes números, uma forma dela,
e há toneladas delas.

English: 
In case you forgot what nu and
mu are, I put the figure.
So mu is the frequency within the bin.
This is the unknown quantity
that we want to tell.
And nu is the disappearing quantity
which happens to be the frequency in
the sample you have.
So what about the Hoeffding
Inequality?
Well, one attraction of this
inequality is that it is valid for
every N, positive integer, and every
epsilon which is greater than zero.
Pick any tolerance you want, and
for any number of examples you
want, this is true.
It's not an asymptotic result.
It's a result that holds for
every N and epsilon.
That's a very attractive proposition
for something that has
an exponential in it.
Now, Hoeffding Inequality belongs to
a large class of mathematical laws,
which are called the Laws
of Large Numbers.
So this is one law of large numbers,
one form of it, and
there are tons of them.

English: 
This happens to be one of the
friendliest, because it's not
asymptotic, and happens to have
an exponential in it.
Now, one observation here is that if you
look at the left-hand side, we are
computing this probability.
This probability patently
depends on mu.
mu appears explicitly in it, and
also mu affects the probability
distribution of nu.
Nu is the sample, in N
marbles you picked.
That's a very simple binomial
distribution.
You can find the probability that
nu equals anything based on
the value of mu.
So the probability that this quantity,
which depends on mu, exceeds epsilon--
the probability itself
does depend on mu.
However, we are not interested
in the exact probability.
We just want to bound it.
And in this case, we are
bounding it uniformly.
As you see, the right-hand side
does not have mu in it.
And that gives us a great tool, because
now we don't use the quantity

Portuguese: 
Esta é uma das mais amigáveis,
porque não é assintótica
e possui uma exponencial.
Agora, uma observação aqui é que,
se você olhar para o lado esquerdo,
estamos calculando esta probabilidade.
Esta probabilidade,
evidentemente, depende do mi.
O mi aparece explicitamente na fórmula
e, também, o mi afeta a distribuição
de probabilidade do ni.
O ni é a amostra em N
bolinhas que você retirou.
Esta é uma distribuição
binomial muito simples.
Você pode encontrar a probabilidade de que
o ni seja é igual a qualquer valor com base
no valor do mi.
Assim, a probabilidade de que este valor,
que depende do mi, ultrapasse o épsilon...
a probabilidade realmente depende do mi.
No entanto, não estamos
interessados na probabilidade exata.
Nós apenas queremos limitá-la.
E, neste caso, estamos
limitando-a uniformemente.
Como você vê, o lado
direito não tem o mi.
E isso nos dá uma grande ferramenta,
porque, agora, não usamos o valor que,

English: 
that, we already declared, is unknown.
mu is unknown.
It would be a vicious cycle if I go
and say that it depends on mu,
but I don't know what mu is.
Now you know uniformly, regardless of
the value of mu-- mu could be anything
between 0 and 1, and this will still
be bounding the deviation of the
sample frequency from
the real frequency.
That's a good advantage.
Now, the other point is that there is
a trade-off that you can read off the
inequality.
What is the trade-off?
The trade-off is between
N and epsilon.
In a typical situation, if we think of N
as the number of examples that are
given to you-- the amount of data-- in
this case, the number of marbles out
of the bin,
N is usually dictated.
Someone comes and gives you a certain
resource of examples.
Epsilon is your taste in tolerance.
You are very tolerant. You
pick epsilon equals 0.5.
That will be very easy to satisfy.

Portuguese: 
como já declaramos, é desconhecido.
O mi é desconhecido.
Seria um ciclo vicioso, se eu
dissesse que isso depende do mi,
mas eu não sei qual é o mi.
Agora, você sabe de maneira uniforme, independentemente
do valor do mi... o mi poderia ser qualquer valor
entre zero e um e isto ainda
estaria limitando a variação
entre a frequência na
amostra e a frequência real.
Esta é uma boa vantagem.
Agora, a outra vantagem é que há um
compromisso que você pode encontrar
na desigualdade.
Qual é o compromisso?
O compromisso é entre o N e o épsilon.
Em uma situação típica, se pensarmos
no N como o número de exemplos que
são dados a você... a quantidade de
dados... neste caso, o número de bolinhas
fora do pote,
o N é, geralmente, imposto.
Alguém vem e lhe dá uma
determinada quantidade de exemplos.
O épsilon é a sua
escolha para a tolerância.
Você é muito tolerante. Você
escolhe o épsilon igual a 0,5.
Isso será muito fácil de satisfazer.

Portuguese: 
E, se você for muito rigoroso, você
pode escolher o épsilon cada vez menor.
Agora, como eles são multiplicados
aqui, quanto menor for o épsilon,
maior será o N que você vai precisar,
para compensá-lo e manter o mesmo nível
de limite para a probabilidade.
E isso faz muito sentido.
Se você tiver mais exemplos, você estará mais
certo de que o ni e o mi estarão próximos,
e cada vez mais próximos,
quando você tiver um N maior.
Então, isso faz sentido.
Finalmente,
é um ponto sutil, mas vale a pena dizer.
Estamos estabelecendo a afirmação de que o
ni seja, aproximadamente, o mesmo que o mi.
E isto implica que o mi seja,
aproximadamente, o mesmo que o ni.
O que é isso?
A lógica aqui é um pouco mais sutil.
Obviamente, a afirmação é uma
tautologia, mas eu estou apenas destacando
uma questão lógica, aqui.

English: 
And if you are very stringent, you can
pick epsilon smaller and smaller.
Now, because they get multiplied here,
the smaller the epsilon is, the bigger
than N you need in order to compensate
for it and come up with the same level
of probability bound.
And that makes a lot of sense.
If you have more examples, you are more
sure that nu and mu will be close
together, even closer and
closer and closer,
as you get larger N.
So this makes sense.
Finally,
it's a subtle point, but
it's worth saying.
We are making the statement that nu
is approximately the same as mu.
And this implies that mu is
approximately the same as nu.
What is this?
The logic here is a little bit subtle.
Obviously, the statement is a tautology,
but I'm just making
a logical point, here.

Portuguese: 
Quando você executa o experimento,
você não sabe qual é o mi.
O mi é uma incógnita.
É uma constante.
A única variável aleatória
em toda esta operação é o ni.
A probabilidade é com respeito ao ni.
Você gera amostras diferentes
e você calcula a probabilidade.
Esta é a variável probabilística.
Esta é uma constante definida,
mesmo que desconhecida.
Agora, o jeito que você está usando
a desigualdade é para descobrir o mi,
a amostra aqui, do ni.
Isto não é a causa e o efeito
do que realmente ocorre.
A causa e o efeito é que o mi
afeta o ni, e não o contrário.
Mas estamos considerando ao contrário.
Para a nossa sorte, a forma
da probabilidade é simétrica.
Portanto, ao invés de dizer que
o ni tende a estar próximo do mi,

English: 
When you run the experiment,
you don't know what mu is.
mu is an unknown.
It's a constant.
The only random fellow in this
entire operation is nu.
That is what the probability
is with respect to.
You generate different samples, and
you compute the probability.
This is the probabilistic thing.
This is a happy constant sitting
there, albeit unknown.
Now, the way you are using the
inequality is to infer mu, the sample
here, from nu.
That is not the cause and effect
that actually takes place.
The cause and effect is that mu affects
nu, not the other way around.
But we are using it the
other way around.
Lucky for us, the form of the
probability is symmetric.
Therefore, instead of saying that nu
tends to be close to mu, which will

Portuguese: 
que seria a afirmação lógica precisa...
o mi está lá e o ni tem uma tendência a ser
próximo a ele.
Nós, ao invés disso, dizemos
que, eu já sei o ni e, agora,
o mi tende a estar próximo do ni.
Esta é a lógica que estamos usando.
Agora, eu acho que entendemos
qual é a situação do pote e sabemos
qual é a condição matemática
que corresponde a ela.
O que eu gostaria de fazer,
eu gostaria de conectar isso ao
problema de aprendizagem que temos.
No caso de um pote, o valor
desconhecido que queremos descobrir
é um número, o mi.
Apenas desconhecido.
Qual é a frequência no interior do pote?
Na situação de aprendizagem que estudamos,
o valor desconhecido que gostaríamos
de descobrir é uma função completa.

English: 
be the accurate logical statement-- mu
is there, and nu has a tendency to be
close to it.
We, instead of that, say that I know
already nu, and now mu tends to
be close to nu.
That's the logic we are using.
Now, I think we understand what the bin
situation is, and we know what the
mathematical condition that
corresponds to it is.
What I'd like to do,
I'd like to connect that to the
learning problem we have.
In the case of a bin, the unknown
quantity that we want to decipher is
a number, mu.
Just unknown.
What is the frequency inside the bin.
In the learning situation that we had,
the unknown quantity we would like to
decipher is a full-fledged function.

Portuguese: 
Ela tem um domínio, X, que poderia
ser um espaço euclidiano de ordem 10.
O Y poderia ser qualquer coisa.
Poderia ser binário, como o perceptron.
Poderia ser outro contra-domínio.
Esta é uma enorme
quantidade de informações.
O pote tem apenas um número.
No exemplo da aprendizagem, se você quiser
especificá-lo, são muitas especificações.
Portanto, como eu serei capaz de
relacionar o problema da aprendizagem
a algo tão simplista?
A maneira como vamos
fazê-lo é a seguinte.
Pense no pote como o seu espaço de
entrada, no problema de aprendizagem.
Esta é a correspondência.
Então, cada bolinha aqui é um ponto x.
Este ponto é um candidato
a um cartão de crédito.
Então, se você olhar de perto para
as bolinhas cinzas, você vai ler:
salário, anos na mesma
casa e outras variáveis.
Você não pode vê-los aqui
porque está muito pequeno!
Agora, o pote tem todos os
pontos do espaço. Portanto,
este é, realmente, o espaço.

English: 
It has a domain, X, that could be
a 10th-order Euclidean space.
Y could be anything.
It could be binary, like
the perceptron.
It could be something else.
That's a huge amount of information.
The bin has only one number.
This one, if you want to specify it,
that's a lot of specification.
So how am I going to be able to relate
the learning problem to something that
simplistic?
The way we are going to do it
is the following.
Think of the bin as your input space
in the learning problem.
That's the correspondence.
So every marble here is a point x.
That is a credit card applicant.
So if you look closely at the gray
thing, you will read: salary, years in
residence, and whatnot.
You can't see it here because
it's too small!
Now the bin has all the points
in the space. Therefore, this
is really the space.

Portuguese: 
Esta é a correspondência em nossa mente.
Agora, nós gostaríamos
de dar cores às bolinhas.
Assim, aqui estão as cores.
Existem bolinhas verdes
e elas correspondem a algo
no problema de aprendizagem.
Ao que elas correspondem?
Elas correspondem à sua hipótese
encontrar a resposta correta.
E o que isso significa?
Existe uma função alvo definida, certo?
Você tem uma hipótese.
A hipótese é uma função completa,
assim como a função alvo.
Você pode comparar a hipótese à
função alvo em todos os pontos.
E elas concordam ou discordam.
Se elas concordarem, por favor,
colora o ponto correspondente
no espaço de entrada...
Colora-o de verde.
Agora, eu não estou dizendo
que você sabe quais são verdes

English: 
That's the correspondence in our mind.
Now we would like to give
colors to the marbles.
So here are the colors.
There are green marbles, and they
correspond to something in the
learning problem.
What do they correspond to?
They correspond to your hypothesis
getting it right.
So what does that mean?
There is a target function
sitting there, right?
You have a hypothesis.
The hypothesis is a full function,
like the target function is.
You can compare the hypothesis to the
target function on every point.
And they either agree or disagree.
If they agree, please color
the corresponding point
in the input space--
Color it green.
Now, I'm not saying that you know which
ones are green and which ones

Portuguese: 
e quais não são, porque você
não sabe a função alvo em geral.
Eu estou apenas dizendo a você o mapeamento
que considera uma função alvo desconhecida
em um mi desconhecido.
Então, ambos são
desconhecidos, com certeza,
mas essa é a correspondência
que os mapeia.
E, agora, você prossegue
e há algumas vermelhas.
E, você adivinhou.
Você colore a bolinha de vermelho se a
sua hipótese encontrou a resposta errada.
Então, agora, eu estou resumindo
todo o sistema em apenas concordância
e discordância entre a sua
hipótese e a função alvo,
e é assim que você
consegue colorir o pote.
Por causa disso, você tem um
mapeamento para cada ponto, seja verde
ou vermelho, de acordo com esta regra.
Agora, isso vai adicionar um componente
para o problema de aprendizagem que
não tínhamos anteriormente.
Há uma probabilidade associada ao pote.
Há uma probabilidade
de retirar uma bolinha,
de forma independente, e tudo isso.

English: 
are not, because you don't know
the target function overall.
I'm just telling you the mapping that
takes an unknown target function into
an unknown mu.
So both of them are unknown,
admittedly, but that's the
correspondence that maps it.
And now you go, and there
are some red ones.
And, you guessed it.
You color the thing red if your
hypothesis got the answer wrong.
So now I am collapsing the entire
thing into just agreement and
disagreement between your hypothesis
and the target function, and that's
how you get to color the bin.
Because of that, you have a mapping for
every point, whether it's green or
red, according to this rule.
Now, this will add a component to
the learning problem that we
did not have before.
There is a probability associated
with the bin.
There is a probability of
picking a marble, and
independently, and all of that.

English: 
When we talked about the learning
problem, there was no probability.
I will just give you a sample set,
and that's what you work with.
So let's see what is the addition we
need to do in order to adjust the
statement of the learning problem to
accommodate the new ingredient.
And the new ingredient is important,
because otherwise we cannot learn.
It's not like we have the luxury
of doing without it.
So we go back to the learning
diagram from last time.
Do you remember this one?
Let me remind you.
Here is your target function,
and it's unknown.
And I promised you last time that it
will remain unknown, and the promise
will be fulfilled.
We are not going to touch this box.
We're just going to add another box
to accommodate the probability.
And the target function generates
the training examples.
These are the only things that
the learning algorithm sees.
It picks a hypothesis from the
hypothesis set, and produces it as the
final hypothesis, which hopefully
approximates f.
That's the game.
So what is the addition
we are going to do?

Portuguese: 
Quando estudamos o problema de aprendizagem,
não havia nenhuma probabilidade.
Eu vou apenas lhe dar um conjunto de
amostras e é com ele que você trabalha.
Então, vamos ver qual é a adição
que precisamos fazer, para ajustar
a definição do problema de aprendizagem
para acomodar o novo ingrediente.
E o novo ingrediente é importante, porque,
caso contrário, não podemos aprender.
Não é como se tivéssemos
o luxo de aprender sem ele.
Então, voltamos ao diagrama
de aprendizagem da última aula.
Você se lembra deste diagrama?
Deixe-me lembrá-lo.
Aqui está a sua função
alvo e ela é desconhecida.
E eu lhe prometi, na última aula,
que ela permanecerá desconhecida,
e a promessa será cumprida.
Nós não vamos mexer nessa caixa.
Nós vamos, apenas, adicionar outra
caixa para acomodar a probabilidade.
E a função alvo gera os
exemplos de treinamento.
Estas são as únicas informações que
o algoritmo de aprendizagem recebe.
Ele seleciona uma hipótese a partir do
conjunto de hipóteses e a retorna como
a hipótese final, que
esperamos aproximar a f.
Esse é o jogo.
Então, qual é a adição que faremos?

English: 
In the bin analogy, this
is the input space.
Now the input space
has a probability.
So I need to apply this probability to
the points from the input space that
are being generated.
I am going to introduce a probability
distribution over the
input space.
Now the points in the input space--
let's say the d-dimensional
Euclidean space--
are not just generic points now.
There is a probability of picking
one point versus the other.
And that is captured by the probability,
which I'm going to call
capital P.
Now the interesting thing is that I'm
making no assumptions about P. P can
be anything.
I just want a probability.
So invoke any probability you want, and
I am ready with the machinery.
I am not going to restrict the
probability distributions over X.
That's number one.
So this is not as bad as it looks.
Number two, I don't even
need to know what P is.

Portuguese: 
Na analogia com o pote,
este é o espaço de entrada.
Agora, o espaço de entrada
tem uma probabilidade.
Então, eu preciso aplicar essa probabilidade
aos pontos do espaço de entrada que
estão sendo gerados.
Eu vou introduzir uma
distribuição de probabilidade sobre
o espaço de entrada.
Então, agora, os pontos no espaço de
entrada... digamos o espaço euclidiano
com dimensão d...
não são apenas pontos genéricos, agora.
Há uma probabilidade de selecionar
um ponto em relação a outro.
E isso é capturado pela probabilidade,
que eu vou chamar de P.
Agora, o interessante é que eu não
estou fazendo nenhuma suposição sobre a P.
A P pode ser qualquer coisa.
Eu quero apenas uma probabilidade.
Então, invoque qualquer probabilidade que
você quiser e eu estou com o mecanismo pronto.
Então, eu não vou restringir a
distribuição de probabilidade no X.
Isto é o número um.
Então, isto não é tão
ruim quanto parece.
Número dois, eu nem
preciso saber qual é a P.

English: 
Of course, the probability choice will
affect the choice of the probability
of getting a green marble or a red
marble, because now the probability of
different marbles changed, so it
could change the value mu.
But the good news with the Hoeffding is
that I could bound the performance
independently of mu.
So I can get away with not only any P,
but with a P that I don't know, and
I'll still be able to make the
mathematical statement.
So this is a very benign addition
to the problem.
And it will give us very high
dividends, which is the
feasibility of learning.
So what do you do with
the probability?
You use the probability to generate the
points x_1 up to x_N. So now
x_1 up to x_N are assumed to be
generated by that probability
independently.
That's the only assumption
that is made.
If you make that assumption,
we are in business.
But the good news is, as
I mentioned before,
we did not compromise about
the target function.

Portuguese: 
É claro, a escolha da probabilidade vai
influenciar a escolha da probabilidade
de obter uma bolinha verde ou uma bolinha
vermelha, porque, agora, a probabilidade
das bolinhas diferentes mudaram,
então poderia alterar o valor do mi.
Mas a boa notícia, com o Hoeffding,
é que eu posso limitar o desempenho
independente do mi.
Então, eu posso utilizar não apenas
qualquer P, mas uma P que eu não conheço,
e eu ainda serei capaz de
fazer a afirmação matemática.
Portanto, esta é uma adição
muito benigna para o problema.
E nos dará uma vantagem muito grande,
que é a viabilidade da aprendizagem.
Então, o que você faz
com a probabilidade?
Você usa a probabilidade para gerar
os pontos x_1 até x_N. Então, agora,
x_1 até x_N são assumidos serem
gerados por aquela probabilidade
independentemente.
Esta é a única suposição que é feita.
Se você fizer essa
suposição, podemos trabalhar.
Mas a boa notícia é que, como
eu mencionei anteriormente,
nós não nos comprometemos a função alvo.

Portuguese: 
Você não precisa fazer suposições
sobre a função que você não conhece
e você quer aprender,
o que é uma boa notícia.
E a adição é quase técnica.
Existe uma probabilidade em
algum lugar, gerando os pontos.
Se eu sei isto, então, eu posso
fazer uma afirmação probabilística.
Obviamente, você pode fazer essa
afirmação apenas se a suposição
for válida, e nós podemos
discutir isso em aulas futuras,
quando a suposição não for válida.
Então, OK.
Final feliz.
Terminamos e, agora,
temos a correspondência.
Terminamos?
Bom, não exatamente.
Por que não terminamos?
Porque a analogia que eu lhe dei requer
uma determinada hipótese em mente.
Eu lhe disse que as bolinhas vermelhas e
verdes correspondem à concordância entre
a h e a função alvo.
Então, quando você me disser qual
é a h, você ditará as cores aqui.
Todas estas cores.

English: 
You don't need to make assumptions about
the function you don't know and
you want to learn, which is good news.
And the addition is almost technical.
That there is a probability somewhere,
generating the points.
If I know that, then I can make
a statement in probability.
Obviously, you can make that statement
only to the extent that the assumption
is valid, and we can discuss that
in later lectures when the
assumption is not valid.
So, OK.
Happy ending.
We are done, and we now have
the correspondence.
Are we done?
Well, not quite.
Why are we not done?
Because the analogy I gave
you requires a particular
hypothesis in mind.
I told you that the red and green marbles
correspond to the agreement between h
and the target function.
So when you tell me what h is,
you dictate the colors here.
All of these colors.

English: 
This is green not because it's
inherently green, not because of
anything inherent about
the target function.
It's because of the agreement between
the target function and your
hypothesis, h.
That's fine, but what is the problem?
The problem is that I know that
for this h, nu generalizes to mu.
You're probably saying, yeah,
but h could be anything.
I don't see the problem yet.
Now here is the problem.
What we have actually discussed is
not learning, it's verification.
The situation as I describe it--
you have a single bin and you have red
and green marbles, and this and that,
corresponds to the following.
A bank comes to my office.
We would like a formula
for credit approval.
And we have data.
So instead of actually taking the data,
and searching hypotheses, and picking
one, like the perceptron learning
algorithm, here is what I do that
corresponds to what I just described.
You guys want a linear formula?
OK.

Portuguese: 
Isto é verde, não porque é
inerentemente verde, não é por causa
de qualquer coisa
inerente à função alvo.
É por causa da concordância
entre a função alvo
e a sua hipótese, h.
Tudo bem, mas qual é o problema?
O problema é que eu sei que para
esta h, o ni generaliza o mi.
Você provavelmente está dizendo, sim,
mas a h poderia ser qualquer coisa.
Eu ainda não vejo o problema.
Agora, aqui está o problema.
O que nós realmente discutimos
não é aprendizagem, é verificação.
A situação como eu a descrevi...
você tem um único pote e você tem bolinhas
vermelhas e verdes, e isso e aquilo,
corresponde ao seguinte.
Um banco vem ao meu escritório.
Gostaríamos de uma fórmula
para a aprovação de crédito.
E nós temos dados.
Então, ao invés de realmente considerar
os dados, e procurar hipóteses,
e selecionar uma, como o algoritmo de
aprendizado do perceptron, aqui está o que eu faço
que corresponde ao que
eu acabei de descrever.
Vocês querem uma fórmula linear?
Está bem.

English: 
I guess the salary should
have a big weight.
Let's say 2.
The outstanding debt is negative, so
that should be a weight minus 0.5.
And years in residence are important,
but not that important.
So let's give them a 0.1.
And let's pick a threshold
that is high, in order for
you not to lose money.
Let's pick a threshold of 0.5.
Sitting down, improvising an h.
Now, after I fix the h, I ask you for
the data and just verify whether the h
I picked is good or bad.
That I can do with the bin, because
I'm going to look at the data.
If I miraculously agree with everything
in your data, I can
definitely declare victory
by Hoeffding.
But what are the chances that this
will happen in the first place?
I have no control over whether I will
be good on the data or not.
The whole idea of learning is that I'm
searching the space to deliberately
find a hypothesis that
works well on the data.
In this case, I just dictated
a hypothesis.

Portuguese: 
Eu acho que o salário
deve ter um grande peso.
Digamos 2.
As dívidas são negativas, então
devem ter um peso menos 0,5.
E os anos na mesma casa são
importantes, mas não tão importantes.
Então, vamos considerar 0,1.
E vamos escolher um
limiar que seja elevado,
para você não perder dinheiro.
Vamos escolher um limiar de 0,5.
Sem realmente fazer nada,
apenas improvisando uma h.
Agora, depois que eu fixar a h, eu
lhe peço os dados e apenas verifico
se a h que eu selecionei é boa ou ruim.
Isto eu posso fazer com o pote,
porque eu olharei para os dados.
Se eu milagrosamente concordar
com tudo nos seus dados, eu posso,
definitivamente, comemorar
a vitória pelo Hoeffding.
Mas quais são as chances de que
isso aconteça, em primeiro lugar?
Eu não tenho nenhum controle sobre o
desempenho ser bom ou não nos dados.
Toda a ideia da aprendizagem é que eu estou
procurando no espaço para, deliberadamente,
encontrar uma hipótese que
funcione bem com os dados.
Neste caso, eu apenas
defino uma hipótese.

Portuguese: 
E eu fui capaz de lhe dizer, com
certeza, o que acontece fora da amostra.
Mas eu não tenho controle de
qual notícia eu vou lhe fornecer.
Você pode vir ao meu escritório.
Eu improviso isso.
Eu considero os dados.
E eu lhe digo, eu tenho
um sistema fantástico.
Ele generaliza perfeitamente
e faz um trabalho terrível.
Isso é o que eu tenho, porque quando
eu o testei, o ni foi terrível.
Então, isso não é o
que estamos procurando.
O que estamos procurando
é fazer uma aprendizagem.
Então, como fazemos isso?
Não há garantias de
que o ni será pequeno.
E precisamos escolher a
hipótese a partir de várias h's.
Essa é a ideia.
E, nesse caso, você analisará
a amostra, por assim dizer,
gerada por cada hipótese e, em seguida, você
seleciona a hipótese que seja mais favorável,
que lhe forneça o erro mínimo.
Então, agora, isto não
parece ser algo difícil.
Funcionou com um pote.
Talvez eu possa ter mais de um pote,
para acomodar a situação na qual eu tenha
mais do que uma hipótese.
Parece plausível.

English: 
And I was able to tell you for sure
what happens out-of-sample.
But I have no control of what news
I'm going to tell you.
You can come to my office.
I improvise this.
I go to the data.
And I tell you, I have
a fantastic system.
It generalizes perfectly, and
it does a terrible job.
That's what I have, because when
I tested it, nu was terrible.
So that's not what we are looking for.
What we are looking for is
to make it learning.
So how do we do that?
No guarantee that nu will be small.
And we need to choose the hypothesis
from multiple h's.
That's the game.
And in that case, you are going to go for
the sample, so to speak, generated
by every hypothesis, and then you pick
the hypothesis that is most favorable,
that gives you the least error.
So now, that doesn't look
like a difficult thing.
It worked with one bin.
Maybe I can have more than one bin, to
accommodate the situation where I have
more than one hypothesis.
It looks plausible.

English: 
So let's do that.
We will just take multiple bins.
So here is the first bin.
Now you can see that
this is a bad bin.
So that hypothesis is terrible.
And the sample reflects
that, to some extent.
But we are going to have other bins,
so let's call this something.
So this bin corresponds
to a particular h.
And since we are going to have other
hypotheses, we are going to call this
h_1 in preparation
for the next guy.
The next guy comes in,
and you have h_2.
And you have another mu_2.
This one looks like a good hypothesis,
and it's also reflected in the sample.
And it's important to look
at the correspondence.
If you look at the top red point here
and the top green point here, this is
the same point in the input space.

Portuguese: 
Então, vamos fazer isso.
Vamos simplesmente
considerar múltiplos potes.
Então, aqui está o primeiro pote.
Agora, você pode ver
que este é um pote ruim.
Então, essa hipótese é terrível.
E a amostra reflete
isto, até certo ponto.
Mas vamos ter outros potes,
então, vamos nomear este pote.
Então, este pote corresponde
a uma determinada h.
E, como teremos outras
hipóteses, vamos chamar esse pote
de h_1, em preparação
para o próximo pote.
O próximo pote aparece e você tem h_2.
E você tem outro mi_2.
Esta parece ser uma boa hipótese,
o que também é refletido na amostra.
E é importante olhar
para a correspondência.
Se você olhar para o ponto vermelho no
topo, aqui, e o ponto verde no topo, aqui,
este é o mesmo ponto
no espaço de entrada.

Portuguese: 
Ele apenas foi colorido de
vermelho aqui e de verde aqui.
Por que isso aconteceu?
Porque a função alvo discorda
desta h e a função alvo
concorda com esta h.
Isso é o que fez este
ponto ter cor verde.
E, quando você retirar uma amostra, a
amostra também terá cores diferentes,
porque as cores dependem
de qual hipótese.
E estas são hipóteses diferentes.
Isso parece bastante simples.
Então, vamos continuar.
E podemos ter M potes.
Eu vou considerar um número finito de
hipóteses, apenas para tornar a matemática
simples para esta aula.
E vamos complicar mais quando estudarmos
a teoria da generalização.
Então, agora, eu tenho isso.
Isso é bom.
Tenho amostras e as
amostras aqui são diferentes.
E eu posso fazer a aprendizagem, e
a aprendizagem, agora, abstratamente,
é examinar estas amostras,
em busca de uma boa amostra.
E, quando você encontrar uma boa amostra, você
comemora a vitória, por causa do Hoeffding,
e você diz que o pote
correspondente deve ser bom,

English: 
It just was colored red here
and colored green here.
Why did that happen?
Because the target function disagrees
with this h, and the target function
happens to agree with this h.
That's what got this the color green.
And when you pick a sample, the sample
also will have different colors,
because the colors depend
on which hypothesis.
And these are different hypotheses.
That looks simple enough.
So let's continue.
And we can have M of them.
I am going to consider a finite number
of hypotheses, just to make the math
easy for this lecture.
And we're going to go more sophisticated
when we get into the
theory of generalization.
So now I have this.
This is good.
I have samples, and the samples
here are different.
And I can do the learning, and the
learning now, abstractly, is to scan
these samples looking
for a good sample.
And when you find a good sample, you
declare victory, because of Hoeffding,
and you say that it must be that the
corresponding bin is good, and the

English: 
corresponding bin happens to be
the hypothesis you chose.
So that is an abstraction of learning.
That was easy enough.
Now, because this is going to stay with
us, I am now going to introduce
the notation that will survive with us
for the entire discussion of learning.
So here is the notation.
We realize that both mu, which
happens to be inside the bin,
and nu, which happens to be
the sample frequency--
in this case, the sample frequency of
error-- both of them depend on h.
So I'd like to give a notation
that makes that explicit.
The first thing,
I am going to call mu and nu
with a descriptive name.
So nu, which is the frequency in the
sample you have, is in-sample.
That is a standard definition for what
happens in the data that I give you.
If you perform well in-sample, it means
that your error in the sample
that I give you is small.

Portuguese: 
e o pote correspondente é a
hipótese que você escolheu.
Então, esta é uma
abstração da aprendizagem.
Isto foi bastante fácil.
Agora, como isto ficará
conosco, eu vou, agora,
introduzir a notação que vai sobreviver conosco
por toda a discussão sobre a aprendizagem.
Portanto, aqui está a notação.
Percebemos que ambos, o
mi, que é interior ao pote,
e o ni, que é a frequência na amostra...
neste caso, a frequência de erro
na amostra... ambos dependem da h.
Então, eu gostaria de fornecer uma
notação que faça com isto seja explícito.
Em primeiro lugar,
eu vou chamar o mi e o
ni com um nome descritivo.
Então, o ni, que é a frequência na
amostra que você tem, é dentro-da-amostra.
Essa é uma definição padrão para o que
acontece nos dados que eu lhe forneço.
Se você tiver um bom desempenho dentro-da-amostra,
isso significa que o seu erro na amostra
que eu lhe forneço é pequeno.

Portuguese: 
E, como ele é chamado dentro-da-amostra,
vamos denotá-lo por E_in.
Eu acho que isso vale a pena destacar,
porque é uma informação importante.
Esta é a nossa notação padrão para o
erro que você tem dentro-da-amostra.
Agora, avançamos e temos a
outra variável, que é o mi.
E ele é chamado
de fora-da-amostra.
Então, se você está nesta área, eu
acho que o que importa é o desempenho
fora-da-amostra.
Esta é a mensagem.
Fora-da-amostra significa
algo que você ainda não viu.
E, se você tiver um bom desempenho fora-da-amostra,
em algo que você ainda não viu, então,
você realmente deve ter aprendido.
Esse é o padrão e o
nome para ele é E_out.
Com isto em mente, percebemos que
ainda não temos a dependência na h,
que precisamos.
Então, faremos a notação um
pouco mais elaborada, chamando
o E_in e o E_out...

English: 
And because it is called in-sample,
we are going to denote it by E_in.
I think this is worth blowing up,
because it's an important one.
This is our standard notation for
the error that you have in-sample.
Now, we go and get the other one,
which happens to be mu.
And that is called out-of-sample.
So if you are in this field, I guess
what matters is the out-of-sample
performance.
That's the lesson.
Out-of-sample means something
that you haven't seen.
And if you perform out-of-sample, on
something that you haven't seen, then
you must have really learned.
That's the standard for it,
and the name for it is E_out.
With this in mind, we realize that we
don't yet have the dependency on h
which we need.
So we are going to make the notation a little
bit more elaborate, by calling
E_in and E_out--

Portuguese: 
chamando-os de E_in(h) e E_out(h).
Por que isso?
Bom, o desempenho dentro-da-amostra...
você está tentando encontrar o erro
de aproximar a função
alvo pela sua hipótese.
Isso é o que é o E_in.
Então, obviamente, isso
depende da sua hipótese.
Então, é E_in(h).
Outra pessoa seleciona outra h,
ela terá outro E_in(h) daquela h.
De forma semelhante com o E_out,
o correspondente é E_out(h).
Então, agora, o que costumava
ser o ni é, agora, o E_in(h).
O que costumava ser o mi,
dentro do pote, é o E_out(h).
Agora, a desigualdade
de Hoeffding, que agora
já conhecemos muito bem, é a seguinte.
Então, tudo o que eu farei será
apenas substituir a notação.
E, agora, parece um
pouco mais sobrecarregada,
mas é exatamente a mesma fórmula.

English: 
calling them E_in of h, and E_out of h.
Why is that?
Well, the in-sample performance-- you
are trying to see the error of
approximating the target function
by your hypothesis.
That's what E_in is.
So obviously, it depends
on your hypothesis.
So it's E_in of h.
Someone else picks another h, they will
get another E_in of their h.
Similarly E_out, the corresponding
one is E_out of h.
So now, what used to be
nu is now E_in of h.
What used to be mu, inside
the bin, is E_out of h.
Now, the Hoeffding Inequality,
which we know all too well
by now, said that.
So all I'm going to do is just
replace the notation.
And now it looks a little bit
more crowded, but it's
exactly the same thing.

English: 
The probability that your in-sample
performance deviates from your out-of-
sample performance by more than your
prescribed tolerance is less than or
equal to a number that
is hopefully small.
And you can go back and forth.
There's nu and mu, or you can go here
and you get the new notation.
So we're settled on the notation now.
Now, let's go for the multiple
bins and use this notation.
These are the multiple
bins as we left them.
We have the hypotheses h_1 up to h_M,
and we have the mu_1 and mu_M.
And if you see 1, 2, M, again,
this is a disappearing nu--
the symbol that the app doesn't like.
But thank God we switched
notations, so that
something will appear.
Yeah!
So right now, that's what we have.
Every bin has an out-of-sample
performance, and out-of-
sample is: Out. Of. Sample.
So this is a sample.
What's in it is in-sample.
What is not in it is out-of-sample.

Portuguese: 
A probabilidade de que o seu
desempenho dentro-da-amostra se desvie
do seu desempenho fora-da-amostra
por mais do que a sua tolerância
é menor ou igual a um número
que esperamos que seja pequeno.
E você pode ir e voltar.
Há o ni e o mi, ou você pode vir
aqui e você tem a nova notação.
Então, agora, estabelecemos a notação.
Agora, vamos considerar os
vários potes e usar esta notação.
Estes são os vários
potes, como os deixamos.
Temos as hipóteses h_1 até h_M
e nós temos o mi_1 e o mi_M.
E, se você vir 1, 2, M, mais uma
vez, é por causa do ni desaparecido...
o símbolo que o aplicativo não gosta.
Mas, graças a Deus,
nós mudamos as notações,
de modo que alguma coisa vai aparecer.
Sim!
Então, agora, isto é o que temos.
Cada pote tem um desempenho
fora-da-amostra e fora-da-amostra é:
Fora. Da. Amostra.
Portanto, esta é uma amostra.
O que está nela é
dentro-da-amostra.
O que não está nela
é fora-da-amostra.

Portuguese: 
E o fora-da-amostra depende da h_1
aqui, da h_2 aqui e da h_M aqui.
E, obviamente, estes valores serão
diferentes, de acordo com a amostra,
e estes valores serão diferentes,
de acordo com o desempenho
da sua hipótese.
Então, nós resolvemos o problema.
Não é verificação. Não é um único pote.
É aprendizagem de verdade.
Eu vou examinar isto.
Então, isso é muito bom.
Já terminamos agora?
Não tão rápido.
[Risos]
O que está errado?
Deixe-me lhes dizer o que está errado.
A desigualdade de Hoeffding, que ficamos
felizes em estudar, e declaramos importante,
e tudo isso, não se
aplica a vários potes.
O quê?
Você nos ensinou a matemática, nos
mandou olhar a demonstração, e tudo isso.
Você está apenas brincando conosco?
Qual é o problema aqui?
E você pode mesmo reclamar.

English: 
And the out-of-sample depends on
h_1 here, h_2 here, and h_M here.
And obviously, these quantities will be
different according to the sample, and
these quantities will be different
according to the ultimate performance
of your hypothesis.
So we solved the problem.
It's not verification.
It's not a single bin.
It's real learning.
I'm going to scan these.
So that's pretty good.
Are we done already?
Not so fast.
[LAUGHING]
What's wrong?
Let me tell you what's wrong.
The Hoeffding Inequality, that we have
happily studied and declared important
and all of that, doesn't apply
to multiple bins.
What?
You told us mathematics, and you go
read the proof, and all of that.
Are you just pulling tricks on us?
What is the deal here?
And you even can complain.

Portuguese: 
Já estamos sentados por 40 minutos,
partindo de um único pote, mapeando-o para
o diagrama de aprendizagem, mapeando-o
para vários potes e, agora, você nos diz que
a principal ferramenta que
desenvolvemos não se aplica.
Por que ela não se aplica?
Por que ela não se aplica e o
que podemos fazer sobre isso?
Deixe-me começar dizendo por que ela não se
aplica e, então, podemos prosseguir com o que
podemos fazer a respeito.
Agora, todo mundo tem uma moeda.
Espero que o público externo
tenha uma moeda disponível.
Eu gostaria de lhes pedir
para pegar a moeda e lançá-la,
digamos, cinco vezes.
E anote o que acontece.
E, quem estiver em casa, jogue
a moeda cinco vezes, por favor,
se você obtiver as cinco caras em seu
experimento, então, nos envie uma mensagem
que você obteve as cinco caras.
Se você obtiver qualquer outra coisa,
não se preocupe em nos escrever.

English: 
We sat for 40 minutes now going from
a single bin, mapping it to
the learning diagram, mapping it to
multiple bins, and now you tell us
that the main tool we developed
doesn't apply.
Why doesn't it apply, and what
can we do about it?
Let me start by saying why it doesn't
apply, and then we can go for what we
can do about it.
Now, everybody has a coin.
I hope the online audience
have a coin ready.
I'd like to ask you to take
the coin out and flip it,
let's say, five times.
And record what happens.
And when you at home flip the
coin five times, please,
if you happen to get all five heads in
your experiment, then text us that you
got all five heads.
If you get anything else,
don't bother text us.

English: 
We just want to know if someone
will get five heads.
Everybody is done flipping the coin.
Because you have been so generous and
cooperative, you can keep the coin!
[LAUGHTER]
Now, did anybody get five heads?
All five heads?
Congratulations, sir.
You have a biased coin, right?
We just argued that in-sample
corresponds to out-of-sample, and we
have this Hoeffding thing, and therefore
if you get five heads, it
must be that this coin
gives you heads.
We know better.
So in the online audience,
what happened?
MODERATOR: Yeah, in the online audience,
there's also five heads.
PROFESSOR: There are lots of
biased coins out there.
Are they really biased coins?
No.
What is the deal here?
Let's look at it.

Portuguese: 
Nós queremos apenas saber
se alguém obterá cinco caras.
Todo mundo terminou de lançar a moeda.
Como vocês têm sido tão generosos e
cooperativos, vocês podem ficar com a moeda!
[Risos]
Agora, alguém conseguiu cinco caras?
Todas as cinco caras?
Parabéns, senhor.
Você tem uma moeda tendenciosa, certo?
Nós acabamos de argumentar que o
dentro-da-amostra corresponde ao fora-da-amostra,
e nós temos essa desigualdade de Hoeffding
e, portanto, se você tem cinco caras,
então esta moeda deve lhe dar caras.
Nós sabemos mais que isso.
Então, com o público
externo, o que aconteceu?
MODERADOR: Sim, no público
externo também há cinco caras.
PROFESSOR: Há muitas moedas
tendenciosas no mundo.
Elas realmente são moedas tendenciosas?
Não.
Qual é o problema aqui?
Vamos analisar.

English: 
Here, with the audience here, I didn't
want to push my luck with 10 flips,
because it's a live broadcast.
So I said five will work.
For the analytical example,
let's take 10 flips.
Let's say you have a fair coin,
which every coin is.
You have a fair coin.
And you toss it 10 times.
What is the probability that you
will get all 10 heads?
Pretty easy.
One half, times one half,
10 times, and that will give
you about 1 in 1000.
No chance that you will get it--
not no chance, but very little chance.
Now, the second question is the one we
actually ran the experiment for.
If you toss 1000 fair coins-- it wasn't
1000 here. It's how many there.
Maybe out there is 1000.
What is the probability that some
coin will give you all 10 heads?
Not difficult at all to compute.

Portuguese: 
Aqui, com o público interno, eu não queria
forçar a minha sorte com 10 caras ou coroas,
porque é uma transmissão ao vivo.
Então, eu disse, cinco funcionará.
Para o exemplo analítico, vamos
considerar 10 caras ou coroas.
Digamos que você tenha uma moeda
honesta, o que cada moeda é.
Você tem uma moeda honesta.
E você a lança 10 vezes.
Qual é a probabilidade de que
você tenha todas as 10 caras?
Muito fácil.
Um meio, vezes um meio,
10 vezes, e isto dará
a você cerca de 1 em 1000.
Sem chance de que você obterá isso...
não é nenhuma chance,
mas é muito pouca chance.
Agora, a segunda pergunta é o motivo
pelo qual realmente fizemos o experimento.
Se você jogar 1.000 moedas justas... não foram
1.000 aqui. Há quantas pessoas no público externo?
Talvez no público externo
tenhamos 1.000 pessoas.
Qual é a probabilidade de que alguma
moeda lhe dará todas as 10 caras?
Não é difícil de forma alguma calcular.

English: 
And when you get the answer, the answer
will be it's actually more
likely than not.
So now it means that the 10 heads in
this case are no indication at all of
the real probability.
That is the game we are playing.
Can I look at the sample and infer
something about the real probability?
No.
In this case, you will get 10
heads, and the coin is fair.
Why did this happen?
This happened because
you tried too hard.
Eventually what will happen is--
Hoeffding applies to any one of them.
But there is a probability, let's
say half a percent, that you
will be off here.
Another half a percent that
you will be off here.
If you do it often enough, and you are
lucky enough that the half percents
are disjoint, you will end up with
extremely high probability that
something bad will happen, somewhere.
That's the key.
So let's translate this into
the learning situation.
Here are your coins.

Portuguese: 
E, quando você obtiver a resposta,
a resposta será que, na verdade,
é mais provável do que não.
Então, agora, isso significa que as 10 caras,
neste caso, não são uma indicação, de forma alguma,
da probabilidade real.
Esse é o jogo que estamos jogando.
Posso olhar para a amostra e descobrir
algo sobre a probabilidade real?
Não.
Neste caso, você terá 10
caras e a moeda é justa.
Por que isso aconteceu?
Isso aconteceu porque
você tentou demais.
Eventualmente, o que vai acontecer é...
A desigualdade de Hoeffding se
aplica a qualquer uma das moedas.
Mas há uma probabilidade, digamos 0,5%,
de que o evento acontecerá aqui.
Outro 0,5% de que o
evento acontecerá aqui.
Se você o fizer com uma frequência suficiente,
e você tiver sorte o suficiente para que os 0,5%
sejam disjuntos, você vai acabar
com uma altíssima probabilidade
de que algo ruim
aconteça, em algum lugar.
Esta é a chave.
Então, vamos traduzir isso
para a situação da aprendizagem.
Aqui estão as suas moedas.

Portuguese: 
E como elas correspondem aos potes?
Bom, é um experimento binário, se você
estiver retirando uma bolinha vermelha
ou uma bolinha verde, ou se você estiver
lançando uma moeda e obtendo caras ou coroas.
É uma situação binária.
Então, há uma correspondência direta.
Basta ter a probabilidade de caras
sendo o mi, que é a probabilidade
de uma bolinha vermelha,
correspondente a uma bolinha vermelha.
Então, como as moedas são justas,
na verdade, todos os potes, neste
caso, são metade vermelho, metade verde.
Isso é realmente uma má
notícia para a hipótese.
A hipótese é completamente aleatória.
Metade do tempo concorda
com a função alvo.
Metade do tempo ela discorda.
Nenhuma informação, de nenhuma forma.
Agora, você aplica o paradigma de
aprendizagem que mencionamos e você diz:
deixe-me gerar uma amostra a
partir da primeira hipótese.
Eu obtenho esta amostra, eu olho
para ela e eu não gosto dela.
Tem alguns vermelhos.
Eu quero, realmente, uma hipótese limpa,
que tenha um desempenho perfeito...
tudo verde.
Você prossegue.
E, OK.
Esta amostra...
mesmo valor, eu não sei.
Esta é ainda pior.
Você continua e continua e continua.

English: 
And how do they correspond
to the bins?
Well, it's a binary experiment, whether
you are picking a red marble
or a green marble, or you are flipping
a coin getting heads or tails.
It's a binary situation.
So there's a direct correspondence.
Just get the probability of heads being
mu, which is the probability of
a red marble, corresponding to them.
So because the coins are fair,
actually all the bins in this case
are half red, half green.
That's really bad news
for a hypothesis.
The hypothesis is completely random.
Half the time it agrees with
the target function.
Half the time it disagrees.
No information at all.
Now you apply the learning paradigm we
mentioned, and you say: let me
generate a sample from
the first hypothesis.
I get this, I look at it,
and I don't like that.
It has some reds.
I want really a clean hypothesis
that performs perfectly--
all green.
You move on.
And, OK.
This one--
even, I don't know.
This is even worse.
You go on and on and on.

Portuguese: 
E, finalmente, eis que
eu obtenho tudo verde.
Bingo.
Eu tenho a hipótese perfeita.
Eu vou reportá-la ao meu cliente
e, se o meu cliente estiver
na previsão financeira, nós
vamos vencer o mercado de ações
e ganhar um monte de dinheiro.
E você começa a pensar sobre o carro
que você vai comprar, e tudo isso.
Bom, é bingo?
Não, não é.
E este é o problema.
Então, agora, nós temos que
encontrar algo que nos faça lidar com
vários potes corretamente.
A desigualdade de Hoeffding... se você
tem um experimento, ele tem uma garantia.
A garantia fica terrivelmente diluída com vários
experimentos e nós queremos saber exatamente
como a diluição acontece.
Então, aqui está uma solução simples.
Este é um slide matemático. Eu
passarei por ele passo a passo.
Não há absolutamente
nada de misterioso nele.
Este é o valor que estávamos estudando.

English: 
And eventually, lo and behold,
I have all greens.
Bingo.
I have the perfect hypothesis.
I am going to report this to my
customer, and if my customer is in
financial forecasting, we are going
to beat the stock market and
make a lot of money.
And you start thinking about the car you
are going to buy, and all of that.
Well, is it bingo?
No, it isn't.
And that is the problem.
So now, we have to find something
that makes us deal with
multiple bins properly.
Hoeffding Inequality-- if you have one
experiment, it has a guarantee.
The guarantee gets terribly diluted as
you go, and we want to know exactly
how the dilution goes.
So here is a simple solution.
This is a mathematical slide.
I'll do it step-by-step.
There is absolutely nothing
mysterious about it.
This is the quantity we've
been talking about.

Portuguese: 
Esta é a probabilidade
de um evento ruim.
Mas, neste caso, você percebe
que eu estou colocando a g.
Lembre-se, a g era a
nossa hipótese final.
Então, isto corresponde a um processo no qual
você tinha um monte de h's e você selecionou
uma de acordo com um critério, que
é um critério dentro-da-amostra,
minimizar o erro e, então,
você reporta a g como
aquela que você escolheu.
E você gostaria de fazer uma afirmação
de que a probabilidade para a g
que você escolheu... o erro dentro-da-amostra...
seja próximo do erro fora-da-amostra.
Então, você gostaria que a probabilidade da
variação ser maior do que a sua tolerância seja,
novamente, pequena.
Tudo o que precisamos fazer é encontrar
uma versão de Hoeffding para isso, porque,
agora, esse termo é variável.
Não é mais uma hipótese
fixa e um pote fixo.
Na verdade, corresponde a um grande
número de potes e eu estou visitando
as amostras aleatórias
para selecionar um pote.
Então, claramente, as suposições
de Hoeffding não se aplicam...
elas correspondem a um único pote.
Esta probabilidade é menor ou igual à

English: 
This is the probability
of a bad event.
But in this case, you realize
that I'm putting g.
Remember, g was our final hypothesis.
So this corresponds to a process where
you had a bunch of h's, and you picked
one according to a criterion, that
happens to be an in-sample criterion,
minimizing the error there, and
then you report the g as the
one that you chose.
And you would like to make a statement
that the probability for the g you
chose-- the in-sample error-- happens to
be close to the out-of-sample error.
So you'd like the probability of the
deviation being bigger than your
tolerance to be, again, small.
All we need to do is find a Hoeffding
counterpart to this, because
now this fellow is loaded.
It's not just a fixed hypothesis
and a fixed bin.
It actually corresponds to a large
number of bins, and I am visiting the
random samples in order to pick one.
So clearly the assumptions of Hoeffding
don't apply-- that correspond
to a single bin.
This probability is less
than or equal to the

Portuguese: 
probabilidade do seguinte.
Tenho M hipóteses...
M maiúsculo hipóteses.
h_1, h_2, h_3, h_M.
Este é o meu modelo de
aprendizagem completo.
Este é o conjunto de hipóteses que eu tenho,
finito, como eu disse que iria assumir.
Se você analisar qual é a
probabilidade de que a hipótese
selecionada seja ruim? Bom, isto
será menor ou igual à probabilidade
de que a primeira hipótese seja ruim,
ou a segunda hipótese seja ruim, ou, ou,
ou a última hipótese seja ruim.
Isso é evidente.
A g é uma delas.
Se for ruim, uma delas é ruim.
Então, menor ou igual a isto.
Isto é chamado de limite
da união, em probabilidade.
É um limite muito solto, em geral,
porque não considera a sobreposição.
Lembre-se quando eu lhe disse
que... 0,5% aqui, 0,5% aqui,
0,5% aqui...

English: 
probability of the following.
I have M hypotheses--
capital M hypotheses.
h_1, h_2, h_3, h_M.
That's my entire learning model.
That's the hypothesis set that I have,
finite as I said I would assume.
If you look at what is the probability
that the hypothesis you
pick is bad? Well, this will be less than
or equal to the probability that the
first hypothesis is bad, or the second
hypothesis is bad, or, or, or the last
hypothesis is bad.
That is obvious.
g is one of them.
If it's bad, one of them is bad.
So less than or equal to that.
This is called the union
bound in probability.
It's a very loose bound, in general,
because it doesn't
consider the overlap.
Remember when I told you that the half
a percent here, half a percent here,
half a percent here--

English: 
if you are very unlucky and these are
non-overlapping, they add up.
The non-overlapping is the worst-case
assumption, and it is the assumption
used by the union bound.
So you get this.
And the good news about this is that I
have a handle on each term of them.
The union bound is coming up.
So I put the OR's.
And then I use the union bound to say that this
is less than or equal to, and simply sum
the individual probabilities.
So the half a percent plus half a percent
plus half a percent--
this will be an upper bound
on all of them.
The probability that one of them goes
wrong, the probability that someone
gets all heads, and I add the
probability for all of you, and that
makes it a respectable probability.
So this event here is implied.
Therefore, I have the implication because
of the OR, and this one
because of the union bound, where I have
the pessimistic assumption that I
just need to add the probabilities.
Now, all of this-- again, we make
simplistic assumptions, which is

Portuguese: 
se você for muito azarado e eles
não forem sobrepostos, eles se somam.
A não sobreposição é a suposição do
pior caso e é a suposição utilizada
pelo limite da união.
Então, você obtém isso.
E a boa notícia sobre isso é que eu
tenho um limite para cada um dos termos.
O limite da união está chegando.
Então, eu coloquei os OU's.
E, então, eu uso o limite da união para dizer
que isto é menor ou igual a... e, simplesmente,
adiciono as probabilidades individuais.
Assim, 0,5% mais 0,5% mais 0,5%...
este valor será um limite
superior para todos eles.
A probabilidade de que um deles
dê errado, a probabilidade de que
alguém obtenha todas as caras, e eu
adiciono a probabilidade de todos vocês,
e isto a torna uma
probabilidade respeitável.
Portanto, este evento
aqui está implícito.
Portanto, eu tenho a implicação
por causa do OU, e este aqui,
por causa do limite da união, para o qual
eu tenho a suposição pessimista de que
eu posso apenas adicionar
as probabilidades.
Agora, tudo isso... mais uma vez,
fazemos suposições simplistas,

English: 
really not simplistic as in trivially
restricting, but rather the opposite.
We just don't want to make any
assumptions that restrict the
applicability of our result.
So we took the worst case.
It cannot get worse than that.
If you look at this, now
I have good news for you.
Because each term here is
a fixed hypothesis.
I didn't choose anything.
Every one of them has a hypothesis
that was declared ahead of time.
Every one of them is a bin.
So if I look at a term by itself,
Hoeffding applies to this, exactly the
same way it applied before.
So this is a mathematical
statement now.
I'm not looking at the
bigger experiment.
I reduced the bigger experiment
to a bunch of quantities.
Each of them corresponds to a simple
experiment that we already solved.
So I can substitute for each of
these by the bound that the
Hoeffding gives me.
So what is the bound that
the Hoeffding gives me?
That's the one.

Portuguese: 
que não são realmente simplistas como
em restrições triviais, mas sim o oposto.
Nós apenas não queremos fazer
quaisquer suposições que restrinjam
a aplicabilidade do nosso resultado.
Portanto, analisamos o pior caso.
Não pode ficar pior do que isso.
Se você olhar para isso, agora eu
tenho uma boa notícia para você.
Porque cada termo aqui
é uma hipótese fixa.
Eu não escolhi nada.
Cada um deles tem uma hipótese
que foi declarada previamente.
Cada um deles é um pote.
Então, se eu olhar para um termo
por si só, Hoeffding se aplica a ele,
exatamente da mesma forma
que se aplicava anteriormente.
Portanto, esta é uma
afirmação matemática, agora.
Eu não estou olhando
para o maior experimento.
Eu reduzi o maior experimento
em um monte de termos.
Cada um deles corresponde a um
experimento simples que já resolvemos.
Então, eu posso substituir
cada um deles pelo limite
que Hoeffding me fornece.
Então, qual é o limite
que Hoeffding me fornece?
É este aqui.

English: 
For every one of them, each of
these guys was less than or
equal to this quantity.
One by one.
All of them are obviously the same.
So each of them is smaller
than this quantity.
Each of them is smaller than this quantity.
Now I can be confident that the
probability that I'm interested in,
which is the probability that
the in-sample error
being close to the out-of-sample error--
the closeness of them is bigger
than my tolerance, the bad event.
Under the genuine learning scenario-- you
generate marbles from every bin,
and you look deliberately for a sample
that happens to be all green or as
green as possible, and
you pick this one.
And you want an assurance that
whatever that might be, the
corresponding bin will genuinely
be good out-of-sample.
That is what is captured
by this probability.
That is still bounded by something,
which also has that exponential in it,
which is good.

Portuguese: 
Para cada pote, cada
um desses termos era
menor ou igual a este valor.
Um por um.
Todos eles são, obviamente, os mesmos.
Assim, cada um deles é
menor do que este valor.
Cada um deles é menor do que este valor.
Então, agora, eu posso ter certeza de que
a probabilidade que eu estou interessado,
que é a probabilidade de
que o erro dentro-da-amostra
esteja próximo do erro fora-da-amostra...
a proximidade deles seja maior
do que a minha
tolerância, o evento ruim,
sob o genuíno cenário de aprendizagem...
você gera bolinhas a partir de cada pote
e você olha deliberadamente para
uma amostra que seja toda verde,
ou tão verde quanto possível,
e você escolhe esta amostra.
E você quer uma garantia de
que, qualquer que esta seja,
o pote correspondente será
realmente bom fora-da-amostra.
Isso é o que é capturado
por esta probabilidade.
Isso ainda é limitado por algo
que também tem aquela exponencial,
o que é bom.

Portuguese: 
Mas tem um fator adicional que
será um fator muito incômodo, que é:
eu tenho M termos.
Agora, este é o evento ruim.
Eu gostaria que a
probabilidade fosse pequena.
Eu não gosto de aumentar o lado
direito, porque essa é a probabilidade
de algo ruim acontecer.
Agora, com o M, você percebe que,
se você usar 10 hipóteses, essa
probabilidade é provavelmente apertada.
Se você usar um milhão de hipóteses,
provavelmente já estamos com problemas.
Não há nenhuma garantia, porque, agora, o
milhão fica multiplicado pelo que costumava
ser uma probabilidade respeitável, que
é 1 em 100.000 e, agora, você pode fazer
a afirmação de que a probabilidade
de que algo ruim aconteça
é menor do que 10.
[Risos]
Sim, muito obrigado.
Temos que fazer um curso de
pós-graduação para aprender isso!
Então, agora você vê qual é o problema.
E o problema é extremamente intuitivo.

English: 
But it has an added factor that will be
a very bothersome factor, which is:
I have M of them.
Now, this is the bad event.
I'd like the probability to be small.
I don't like to magnify the right-hand
side, because that is the probability
of something bad happening.
Now, with M, you realize that
if you use 10 hypotheses, this
probability is probably tight.
If you use a million hypotheses, we
probably are already in trouble.
There is no guarantee, because now the
million gets multiplied by what used
to be a respectable probability, which
is 1 in 100,000, and now you can make
the statement that the probability
that something bad happens
is less than 10.
[LAUGHING]
Yeah, thank you very much.
We have to take a graduate
course to learn that!
Now you see what the problem is.
And the problem is extremely
intuitive.

English: 
In that Q&A session after the last
lecture, we all got through the
discussion the assertion that if you
have a more sophisticated model, the
chances are you will memorize in-sample,
and you are not going to
really generalize well out-of-sample,
because you have so many
parameters to work with.
There are so many ways to look at that
intuitively, and this is one of them.
If you have a very sophisticated model--
M is huge, let alone infinite.
That's later to come.
That's what the theory of
generalization is about.
But if you pick a very sophisticated
example with a large M, you lose the
link between the in-sample
and the out-of-sample.
So you look at here.
[LAUGHING], I didn't mean it this
way, but let me go back just to show
you what it is.
At least you know it's
over, so that's good.
So this fellow is supposed
to track this fellow.
The in-sample is supposed to
track the out-of-sample.

Portuguese: 
Na sessão de Perguntas e Respostas,
após a última aula, todos passamos
pela discussão, a afirmação de que, se
você tiver um modelo mais sofisticado,
provavelmente você vai decorar
dentro-da-amostra e você não vai
realmente generalizar bem
fora-da-amostra, porque você tem muitos
parâmetros para trabalhar.
Há tantas maneiras de olhar para isto
intuitivamente e esta é uma delas.
Se você tiver um modelo muito sofisticado...
o M é enorme, para não falar infinito.
Este caso será estudado posteriormente.
Para isto teremos a
teoria da generalização.
Mas, se você escolher um exemplo
muito sofisticado, com um grande M,
você perde a conexão entre o
dentro-da-amostra e o fora-da-amostra.
Então, você olha aqui.
[Risos] Eu não quis dizer isso dessa maneira,
mas deixe-me voltar, apenas para lhes mostrar
o que é.
Pelo menos você sabe
que acabou, isso é bom.
Então, esse termo deve
rastrear esse termo.
O dentro-da-amostra deve
rastrear o fora-da-amostra.

English: 
The more sophisticated the model you
use, the looser that in-sample will
track the out-of-sample.
Because the probability of them
deviating becomes bigger and bigger
and bigger.
And that is exactly the
intuition we have.
Now, surprise.
The next one is for the Q&A. We will
take a short break, and then we will
go to the questions and answers.
We are now in the Q&A session.
And if anybody wants to ask a question,
they can go to the
microphone and ask, and we can start
with the online audience questions, if
there are any.
MODERATOR: The first question is
what happens when
the Hoeffding Inequality
gives you something trivial,
like less than 2?
PROFESSOR: Well, it means that
either the resources of the examples
you have, the amount of data you have,
is not sufficient to guarantee any
generalization, or--
which is somewhat equivalent--

Portuguese: 
Quanto mais sofisticado for o modelo que
você usar, mais solto o dentro-da-amostra
vai rastrear o fora-da-amostra.
Porque a probabilidade
deles se desviarem se torna
cada vez maior.
E esta é, exatamente,
a intuição que temos.
Agora, surpresa.
O próximo slide é para o Perguntas e
Respostas. Faremos uma pequena pausa e, então,
vamos para as perguntas e respostas.
Estamos, agora, na sessão
de Perguntas e Respostas.
E, se alguém quiser fazer uma pergunta,
pode ir ao microfone e perguntar, e podemos
começar com as perguntas do público externo,
se houver alguma.
MODERADOR: A primeira pergunta é
o que acontece quando a
desigualdade de Hoeffding
lhe fornece algo
trivial, como menor que 2?
PROFESSOR: Bom, isso significa
que, ou as fontes dos exemplos que
você tem, a quantidade de dados que
você tem, não é suficiente para garantir
qualquer generalização, ou...
o que é, de alguma forma, equivalente...

English: 
that your tolerance is too stringent.
The situation is not
really mysterious.
Let's say that you'd like to take
a poll for the president.
And let's say that you ask
five people at random.
How can you interpret the result?
Nothing.
You need a certain amount of respondents
in order for the
right-hand side to start
becoming interesting.
Other than that, it's
completely trivial.
It's very likely that what you have seen
in-sample doesn't correspond to
anything out-of-sample.
MODERATOR: So in the case
of the perceptron--
the question is would each set
of w's be considered a new m?
PROFESSOR: The perceptron and, as
a matter of fact, every
learning model of interest
that we're going to encounter, the
number of hypotheses, M,
happens to be infinite.
We were just talking about the
right-hand side not being meaningful

Portuguese: 
que a sua tolerância
está muita rigorosa.
A situação não é realmente misteriosa.
Digamos que você gostaria de
fazer uma pesquisa para presidente.
E, digamos que você pergunte a
cinco pessoas, aleatoriamente.
Como você pode interpretar o resultado?
Nada.
Você precisa de uma certa
quantidade de pessoas para que
o lado direito da desigualdade
comece a se tornar interessante.
Fora isso, é completamente trivial.
É muito provável que o que você encontrou
dentro-da-amostra não corresponda
ao fora-da-amostra.
MODERADOR: Então, no
caso do perceptron...
a pergunta é cada conjunto de
w's seria considerado um novo M?
PROFESSOR: O perceptron e,
na verdade, cada modelo de
aprendizagem interessante
que vamos encontrar, o
número de hipóteses, M,
é infinito.
Nós estávamos falando sobre o
lado direito não ser significativo,

Portuguese: 
porque é maior do que 1. Se você
considerar um conjunto de hipóteses infinito
e aplicar literalmente o que eu disse, então,
você descobrirá que a probabilidade é, na verdade,
menor do que infinito.
Isso é muito importante.
No entanto, esta é a
nossa primeira etapa.
Haverá uma outra etapa, na qual lidamos
com conjuntos de hipóteses infinitos.
E seremos capazes de descrevê-los
com um valor abstrato,
que é finito, e este
valor abstrato será o que
usaremos como uma versão da
desigualdade de Hoeffding.
É por isso que há muita matemática
que precisa ser estudada.
Obviamente, o perceptron possui
um número infinito de hipóteses,
porque você tem o espaço real, e aqui está a
sua hipótese, e você pode perturbar esta hipótese
continuamente, como você quiser.
Mesmo fazendo apenas isso, você já
tem um número infinito de hipóteses,
sem sequer explorar ainda mais o espaço.
MODERADOR: OK, esta pergunta é popular.

English: 
because it's bigger than 1. If you take
an infinite hypothesis set and
verbatim apply what I said, then you
find that the probability is actually
less than infinity.
That's very important.
However, this is our first step.
There will be another step, where we deal
with infinite hypothesis sets.
And we are going to be able to describe
them with an abstract quantity
that happens to be finite, and that
abstract quantity will be the one we
are going to use in the counterpart
for the Hoeffding Inequality.
That's why there is mathematics
that needs to be done.
Obviously, the perceptron has an infinite
number of hypotheses because
you have real space, and here is your
hypothesis, and you can perturb this
continuously as you want.
Even just by doing this, you already
have an infinite number of hypotheses
without even exploring further.
MODERATOR: OK,
and this is a popular one.

English: 
Could you go over again in slide 6, of
the implication of nu equals mu and
vice versa.
PROFESSOR: Six.
It's a subtle point, and it's common
between machine learning and
statistics.
What do you do in statistics?
What is the cause and effect for
a probability and a sample?
The probability results in a sample.
So if I know the probability, I can
tell you exactly what is the
likelihood that you'll get one
sample or another or another.
Now, what you do in statistics
is the reverse of that.
You already have the sample, and you are
trying to infer which probability
gave rise to it.
So you are using the effect to
decide the cause rather than
the other way around.
So the same situation here.
The bin is the cause.
The frequency in the sample
is the effect.
I can definitely tell you what the
distribution is like in the sample,
based on the bin.
The utility, in terms of learning,
is that I look at the sample

Portuguese: 
Você poderia analisar de novo o slide 6,
sobre a implicação do ni ser igual ao mi
e vice-versa.
PROFESSOR: Seis.
É um ponto sutil, e é comum
entre o aprendizado de máquinas
e a estatística.
O que você faz em estatística?
Qual é a causa e o efeito para
uma probabilidade e uma amostra?
A probabilidade resulta em uma amostra.
Então, se eu sei a probabilidade,
eu posso lhe dizer exatamente
qual é a verossimilhança com a qual você
obterá uma amostra, ou outra, ou outra.
Agora, o que você faz na
estatística é o inverso disso.
Você já tem a amostra e você está
tentando descobrir qual probabilidade
induziu aquela amostra.
Então, você está usando o
efeito para decidir a causa,
ao invés do contrário.
Assim, a mesma situação aqui.
O pote é a causa.
A frequência na amostra é o efeito.
Eu posso, definitivamente, lhe dizer
como é a distribuição na amostra,
com base no pote.
A utilidade, em termos da aprendizagem,
é que eu olho para a amostra

English: 
and infer the bin.
So I infer the cause based
on the effect.
There's absolutely nothing
terrible about that.
I just wanted to make the point clear,
that when we write the Hoeffding
Inequality, which you can see here,
we are talking about this event.
You should always remember that nu is
the thing that plays around
and causes the probability to happen,
and mu is a constant.
When we use it to predict that the
out-of-sample will be the same as the in-
sample, we are really taking nu as
fixed, because this is the in-
sample we've got.
And then we are trying to interpret
what mu gave rise to it.
And I'm just saying that, in this case,
since the statement is of the
form that the difference between them,
which is symmetric, is greater than
epsilon, then if you look at this as
saying mu is there and I know that nu

Portuguese: 
e infiro o pote.
Por isso, eu infiro a
causa com base no efeito.
Não há absolutamente
nada de terrível nisso.
Eu queria apenas esclarecer a ideia
que, quando escrevemos a desigualdade
de Hoeffding, que você pode ver aqui,
nós estamos falando sobre este evento.
Você deve sempre se lembrar que o
ni é o termo que varia livremente
e faz com que a probabilidade
exista, e o mi é uma constante.
Quando usamos o mi para prever que
o fora-da-amostra será o mesmo que
o dentro-da-amostra, estamos, na verdade,
considerando o ni fixo, porque este é
o dentro-da-amostra
que obtivemos.
E, então, estamos tentando
interpretar qual mi o induziu.
E eu estou apenas dizendo que, neste
caso, como a afirmação é baseada
na diferença entre eles, que é
simétrica, é maior do que épsilon,
então, se você olhar para isso pensando
que o mi está lá e eu sei que o ni

Portuguese: 
será aproximadamente o mesmo,
você também pode inverter isso.
E você pode dizer, o ni está aqui
e eu sei que o mi que o induziu
deve ser o mesmo.
Essa é a ideia completa.
É uma observação lógica, ao invés
de uma observação matemática.
MODERADOR: OK.
Outra pergunta conceitual que
está surgindo é que um modelo
mais complicado corresponde
a um maior número de h's.
E algumas pessoas estão perguntando...
eles achavam que cada h era um modelo.
PROFESSOR: OK.
Cada h é uma hipótese.
Uma função específica, você
vai selecionar uma delas,
que será igual a g, e esta é a g que você
vai reportar como o seu melhor palpite
como uma aproximação para a f.
O modelo são as hipóteses que
você está autorizado a visitar
para escolher uma.
Então, esse é o conjunto
de hipóteses, que é o H.
E, novamente, há um ponto interessante.
Eu estou usando o número de hipóteses
como uma medida para a complexidade,
no argumento intuitivo que eu lhe dei.
Não é claro, de forma alguma, que apenas
o número corresponda à complexidade.

English: 
will be approximately the same,
you can also flip that.
And you can say, nu is here, and I
know that mu that gave rise to it must
be the same.
That's the whole idea.
It's a logical thing rather
than a mathematical thing.
MODERATOR: OK.
Another conceptual question that is
arising is that a more complicated
model corresponds to
a larger number of h's.
And some people are asking--
they thought each h was a model.
PROFESSOR: OK.
Each h is a hypothesis.
A particular function, one of them you
are going to pick, which is going to
be equal to g, and this is the g that
you're going to report as your best
guess as an approximation for f.
The model is the hypotheses that you're
allowed to visit in order to
choose one.
So that's the hypothesis
set, which is H.
And again, but there is
an interesting point.
I'm using the number of hypotheses as
a measure for the complexity in the
intuitive argument that I gave you.
It's not clear at all that the pure number
corresponds to the complexity.

English: 
It's not clear that anything that has
to do with the size, really, is the
complexity.
Maybe the complexity has to do with
the structure of individual
hypotheses.
And that's a very interesting point.
And that will be discussed at some
point-- the complexity of individual
hypotheses versus the complexity of
the model that captures all the
hypotheses.
This will be a topic that we will
discuss much later in the course.
MODERATOR: Some people are
getting ahead.
So how do you pick g?
PROFESSOR: OK.
We have one way of picking g-- that
already was established last time--
which is the perceptron
learning algorithm.
So your hypothesis set is H.
Script H.
It has a bunch of h's, which are the
different lines in the plane.
And you pick g by applying the PLA,
the perceptron learning algorithm,
playing around with this boundary,
according to the update rule, until it
classifies the inputs correctly,
assuming they are linearly separable,
and the one you end up with
is what is declared g.
So g is just a matter of notation,
a name for whichever one we settle on,
the final hypothesis.

Portuguese: 
Não é claro que, qualquer coisa que
tenha a ver com o tamanho, na verdade,
seja a complexidade.
Talvez a complexidade
tenha a ver com a estrutura
de hipóteses individuais.
E este é um ponto muito interessante.
E isso será discutido em algum
momento... a complexidade de hipóteses
individuais em relação à
complexidade do modelo que captura
todas as hipóteses.
Este será um tópico que
discutiremos posteriormente no curso.
MODERADOR: Algumas pessoas
estão se antecipando.
Então, como você seleciona a g?
PROFESSOR: OK.
Nós temos uma maneira de selecionar a g...
que já foi estabelecido na última aula...
que é o algoritmo de
aprendizado do perceptron.
Portanto, o seu conjunto
de hipóteses é o H.
O H manuscrito.
Ele tem um monte de h's, que
são as diferentes retas no plano.
E você seleciona a g através da aplicação do
PLA, o algoritmo de aprendizado do perceptron,
brincando com esse limite, de
acordo com a regra de atualização,
até que classifique as entradas corretamente,
assumindo que elas sejam linearmente separáveis,
e a hipótese que você
encontra é a que é declarada g.
Assim, a g é apenas uma questão de notação,
um nome para a hipótese que escolhemos,
a hipótese final.

English: 
How you pick g depends on what
algorithm you use, and what
hypothesis set you use.
So it depends on the learning model,
and obviously on the data.
MODERATOR: OK.
This is a popular question.
So it says: how would you extend the
equation to support an output that
is a valid range of responses
and not a binary response?
PROFESSOR: It can be done.
One of the things that I mentioned
here is that this fellow, the
probability here, is uniform.
Now, let's say that you are not talking
about a binary experiment.
Instead of taking the frequency of error
versus the probability of error,
you take the expected value
of something versus the
sample average of it.
And they will be close to each other,
and some, obviously technical,
modification is needed to be here.

Portuguese: 
Como você seleciona a g depende
de qual algoritmo você usa,
e qual conjunto de hipóteses você usa.
Assim, depende do modelo de
aprendizagem e, obviamente, dos dados.
MODERADOR: OK.
Esta é uma pergunta popular.
Então, ela diz: como você estenderia
a equação para aceitar uma saída
que fosse um intervalo válido de
respostas e não uma resposta binária?
PROFESSOR: Isso pode ser feito.
Uma das coisas que eu
mencionei aqui é que esse termo,
a probabilidade aqui, é uniforme.
Agora, digamos que você não esteja
pensando em um experimento binário.
Ao invés de considerar a frequência do
erro em relação à probabilidade de erro,
você considera o valor
esperado de algo em relação
à sua média.
E eles serão próximos um do outro
e, obviamente, alguma modificação
técnica é necessária aqui.

English: 
And basically, the set of laws of large
numbers, from which this is one member,
has a bunch of members that actually
have to do with expected value and
sample average, rather than just the
specific case of probability and
sample average.
If you take your function as being 1,
0, and you take the expected value,
that will give you the sample as the
sample average, and the probability as
the expected value.
So it's not a different animal.
It's just a special case that
is easier to handle.
And in the other case, one of the things
that matters is the variance of
your variable.
So it will affect the bounds.
Here, I'm choosing epsilon in general,
because the variance of this variable
is very limited.
Let's say that the probability
is mu, so the variance is mu
times 1 minus mu.
It goes from a certain value
to a certain value.
So it can be absorbed.
It's bounded above and below.
And this is the reason why the
right-hand side here can
be uniformly done.
If you have something that has variance
that can be huge or small,
then that will play a role in your
choice of epsilon, such that

Portuguese: 
E, basicamente, o conjunto das leis dos
grandes números, do qual esta lei é um membro,
tem vários membros que, na verdade,
tem a ver com o valor esperado
e a média da amostra, e não apenas
o caso específico de probabilidade
e média da amostra.
Se você considerar a sua função como sendo
um, zero, e você considerar o valor esperado,
isso lhe dará a amostra como a média
da amostra e a probabilidade como
o valor esperado.
Portanto, não é algo diferente.
É apenas um caso especial
que é mais fácil de manusear.
E, no outro caso, uma das
coisas que importa é a variância
da sua variável.
Portanto, isso vai afetar os limites.
Aqui, eu estou escolhendo o épsilon em
geral, porque a variância desta variável
é bastante limitada.
Digamos que a probabilidade
seja mi, então a variância será
mi vezes um menos mi.
Varia de um determinado
valor a um determinado valor.
Assim, ela pode ser absorvida.
É limitada inferior e superiormente.
E esta é a razão pela qual
o lado direito aqui pode
ser encontrado uniformemente.
Se você tiver algo que tenha uma
variância que possa ser enorme ou pequena,
então, isso vai desempenhar um
papel na sua escolha do épsilon,

Portuguese: 
de forma que isto será válido.
Portanto, a resposta
curta é: pode ser feito.
Há uma modificação técnica e o
principal aspecto da modificação
técnica, que precisa de ser levado
em consideração, é a variância
da variável que eu estou considerando.
MODERADOR: OK.
Há também uma confusão comum.
Por que existem vários potes?
PROFESSOR: OK.
O pote era apenas a nossa ferramenta
conceitual para argumentar que a aprendizagem
é viável em um sentido probabilístico.
Quando usamos um único pote, tivemos
uma correspondência com uma hipótese,
e parecia que realmente havíamos
capturado a essência da aprendizagem,
até que olhamos mais de perto e percebemos
que, se você se restringir a um pote
e aplicar a desigualdade de Hoeffding
diretamente a ele, o que você está
realmente considerando...
se você quiser colocar em
termos da aprendizagem...
é que o meu conjunto de
hipóteses tem apenas uma hipótese.
E ela tem que corresponder ao pote.
Então, agora, eu
estou selecionando-a...
que é a minha única opção.
Eu não tenho mais nada.

English: 
this will be valid.
So the short answer is: it can be done.
There is a technical modification, and
the main aspect of the technical
modification, that needs to be taken into
consideration, is the variance of
the variable I'm talking about.
MODERATOR: OK.
There's also a common confusion.
Why are there are multiple bins?
PROFESSOR: OK.
The bin was only our conceptual
tool to argue that learning is
feasible in a probabilistic sense.
When we used a single bin, we had
a correspondence with a hypothesis, and
it looked like we actually captured
the essence of learning, until we
looked closer and we realized that, if
you restrict yourself to one bin and
apply the Hoeffding Inequality directly
to it, what you are really
working with--
if you want to put it in
terms of learning--
is that my hypothesis set
has only one hypothesis.
And that corresponds to the bin.
So now I am picking it--
which is my only choice.
I don't have everything else.

Portuguese: 
E, tudo o que eu estou fazendo, agora, é
verificar se o seu desempenho dentro-da-amostra
vai corresponder ao desempenho
fora-da-amostra, e isto é garantido
pela versão mais simples da
desigualdade de Hoeffding.
Agora, se você tiver uma aprendizagem
de verdade, então você tem mais do que
uma hipótese.
E percebemos que o pote
muda com a hipótese porque,
se uma bolinha é vermelha ou
verde depende da hipótese concordar
ou discordar com a sua função alvo.
Hipóteses diferentes vão
levar a cores diferentes.
Portanto, você precisa de vários potes
para representar várias hipóteses,
que é a única situação que admite
a aprendizagem como a conhecemos...
na qual eu vou explorar as hipóteses, com
base no seu desempenho dentro-da-amostra,
e selecionar aquela que tiver o melhor desempenho,
possivelmente, dentro-da-amostra, e esperar que
ela generalize bem fora-da-amostra.
MODERADOR: OK.
Outra confusão.
Você pode explicar a relação
entre a probabilidade e o H?
Então, eu não tenho
certeza exatamente o que...

English: 
And all I'm doing now is verifying that
its in-sample performance will
correspond to the out-of-sample
performance, and that is guaranteed by
the plain-vanilla Hoeffding.
Now, if you have actual learning,
then you have more than one
hypothesis.
And we realize that the bin changes with
the hypothesis, because whether
a marble is red or green depends on
whether the hypothesis agrees or
disagrees with your target function.
Different hypotheses will
lead to different colors.
Therefore, you need multiple bins to
represent multiple hypotheses, which
is the only situation that admits
learning as we know it--
that I'm going to explore the hypotheses,
based on their performance in-sample,
and pick the one that performs best,
perhaps, in-sample, and hope that it
will generalize well out-of-sample.
MODERATOR: OK.
Another confusion.
Can you resolve the relationship
between the probability and the big H?
so I'm not clear exactly what--

Portuguese: 
PROFESSOR: Nós aplicamos...
há um monte de componentes na situação
da aprendizagem, então,
deixe-me ir para...
É um grande diagrama e
tem muitos componentes.
Então, um grande espaço ou conjunto
é o X, e outro é o H. Portanto,
se você olhar aqui.
Este é o conjunto de
hipóteses H. É um conjunto.
OK, tudo bem.
E também, se você olhar aqui, a
função alvo é definida de X para Y e,
neste caso, o X também é um conjunto.
A única invocação da
probabilidade que precisamos fazer
para obter o benefício da análise
probabilística na aprendizagem foi colocar
uma distribuição de probabilidade no X.
O H, que está lá embaixo, é mantido
como um conjunto de hipóteses fixo.
Não há uma análise
de probabilidade nele.
Quando falarmos sobre a abordagem
bayesiana, na última aula,

English: 
PROFESSOR: We applied the-- 
there are a bunch of components
in the learning
situation, so let me get the--
It's a big diagram, and it
has lots of components.
So one big space or set is X, and
another one is H. So if you
look at here.
This is hypothesis set H. It's a set.
OK, fine.
And also, if you look here, the target
function is defined from X to Y, and
in this case, X is also a set.
The only invocation of probability that
we needed to do, in order to get
the benefit of the probabilistic
analysis in learning, was to put
a probability distribution on X.
H, which is down there, is left
as a fixed hypothesis set.
There is no question of
a probability on it.
When we talk about the Bayesian
approach, in the last lecture in

Portuguese: 
na verdade, haverá uma análise sobre
colocar uma distribuição de probabilidade
aqui, para fazer toda a
situação probabilística.
Mas essa não é a abordagem
que é seguida em todo o curso,
até discutirmos essa
abordagem específica no final.
Pergunta.
ALUNO: O que fazemos quando há
muitas hipóteses possíveis que
vão satisfazer os meus critérios?
Como no perceptron, por exemplo.
Eu poderia ter vários hiperplanos
que poderiam separar o conjunto.
Então, como faço para
selecionar o melhor...
PROFESSOR: Correto.
Normalmente, com um
algoritmo pré-determinado,
você acabará com algo.
Então, o algoritmo vai
escolhê-lo para você.
Mas a sua observação, agora, é que,
dado que existem muitas soluções que
podem ter erro zero dentro-da-amostra,
não há, realmente, nenhuma
diferença entre elas em termos
do desempenho fora-da-amostra.
Eu estou usando o mesmo conjunto
de hipóteses, então o M é o mesmo.
E o erro dentro-da-amostra
é o mesmo.
Assim, a minha previsão para o erro
fora-da-amostra seria a mesma, já que
não há distinção entre elas.
A boa notícia é que o algoritmo de
aprendizagem vai resolver isso para você,

English: 
fact, there will be a question of
putting a probability distribution
here in order to make the whole
situation probabilistic.
But that is not the approach that is
followed for the entire course, until
we discuss that specific
approach at the end.
Question.
STUDENT: What do we do when there
are many possible hypotheses which
will satisfy my criteria?
Like, in perceptron, for example.
I could have several hyperplanes which
could be separating the set.
So how do I pick the best--
PROFESSOR: Correct.
Usually, with a pre-specified
algorithm,
you'll end up with something.
So the algorithm will
choose it for you.
But your remark now is that,
given that there are many solutions
that happen to have zero in-sample
error, there is really no distinction
between them in terms of the out-of-
sample performance.
I'm using the same hypothesis set,
so M is the same.
And the in-sample error is the same.
So my prediction for the out-of-sample
error would be the same, as there's no
distinction between them.
The good news is that the learning
algorithm will solve this for you, because

English: 
it will give you one specific,
the one it ended with.
But even within the ones that achieve
zero error, there is a method,
that we'll talk about later on when we
talk about support vector machines,
that prefers one particular solution
as having a better chance of
generalization.
Not clear at all given what I said
so far, but I'm just telling you,
as an appetizer, there's something
to be done in that regard.
MODERATOR: OK.
A question is does the inequality
hold for any g,
even if g is not optimal?
PROFESSOR: What about the g?
MODERATOR: Does it hold for any
g, no matter how you pick g?
PROFESSOR: Yeah.
So the whole idea--
once you write the symbol g, you
already are talking about any
hypothesis.
Because by definition, g is the final
hypothesis, and your algorithm is
allowed to pick any h from the
hypothesis set and call it g.
Therefore, when I say g, don't
look at a fixed hypothesis.

Portuguese: 
porque ele lhe dará uma solução
específica, aquela que ele obteve no final.
Mas, mesmo considerando aquelas que
possuem erro zero, existe um método,
que estudaremos posteriormente, quando
estudarmos as máquinas de vetores de suporte,
que seleciona uma solução em
particular como tendo uma melhor chance
de generalização.
Não está claro, de forma alguma, dado o que eu
disse até agora, mas eu estou apenas dizendo a você,
como um aperitivo, há algo
a ser feito a esse respeito.
MODERADOR: OK.
A pergunta é: a desigualdade
é válida para qualquer g,
mesmo se a g não for a ideal?
PROFESSOR: O que você
perguntou sobre a g?
MODERADOR: A desigualdade é válida para
qualquer g, não importa como você seleciona a g?
PROFESSOR: É.
Então, a ideia completa...
quando você escreve o símbolo g,
você já está falando de qualquer
hipótese.
Porque, por definição, a g é a
hipótese final, e o seu algoritmo
é permitido selecionar qualquer h do
conjunto de hipóteses e chamá-la de g.
Portanto, quando eu digo g,
não olhe para uma hipótese fixa.

English: 
Look at the entire learning process that
went through the H, the
set of hypotheses, according to the
data and according to the learning
rule, and went through and ended up with
one that is declared the right
one, and now we call this g.
So the answer is patently
that g can be different.
Patently yes, just by the notation
that I'm using.
MODERATOR: Also, some confusion.
With the perceptron algorithm
or any linear algorithm--
there's a confusion that, at each
step, there's a hypothesis, but--
PROFESSOR: Correct.
But these are hidden processes for us.
As far as analysis I mentioned,
you get the data,
the algorithm does something magic, and
ends up with a final hypothesis.
In the course of doing that, it will
obviously be visiting lots of
hypotheses.
So the abstraction of having just the
samples sitting there, and eyeballing
them and picking the one that happens
to be green, is an abstraction.

Portuguese: 
Olhe para todo o processo de
aprendizagem que passou pelo H,
o conjunto de hipóteses, de acordo
com os dados e de acordo com a regra
de aprendizagem, e passou por tudo isso e terminou
com aquela que é declarada a mais apropriada,
e, agora, nós a chamamos de g.
Portanto, a resposta é, evidentemente
que a g pode ser diferente.
Evidentemente sim, apenas pela
notação que eu estou usando.
MODERADOR: Adicionalmente,
alguma confusão.
Com o algoritmo do perceptron
ou qualquer algoritmo linear...
há uma confusão que, a cada
etapa há uma hipótese, mas...
PROFESSOR: Correto.
Mas estes são processos
ocultos para nós.
Com relação à análise que eu
mencionei, você recebe os dados,
o algoritmo faz algo mágico e
termina com uma hipótese final.
Ao fazer isso, ele estará,
obviamente, visitando
muitas hipóteses.
Assim, a abstração de ter apenas
as amostras definidas e analisá-las,
e escolher a que seja
verde, é uma abstração.

English: 
In reality, these guys happen in
a space, and you are moving from one
hypothesis to another by
moving some parameters.
And in the course of doing that,
including in the perceptron learning
algorithm, you are moving from
one hypothesis to another.
But I'm not accounting for that, because
I haven't found my final
hypothesis yet.
When you find the final hypothesis,
you call it g.
On the other hand, because I use the
union bound, I use the worst-case
scenario, the generalization bound
applies to every single hypothesis you
visited or you didn't visit.
Because what I did to get the bound, of
deviation between in-sample and out-of-
sample, is that I consider that all the
hypotheses simultaneously behave from
in-sample to out-of-sample, closely
according to your epsilon criterion.
And that obviously guarantees that
whichever one you end up
with will be fine.
But obviously, it could be an overkill.
And among the positive side effects
of that is that even the

Portuguese: 
Na prática, estas hipóteses aparecem
em um espaço e você está se movendo
de uma hipótese para outra
ao mudar alguns parâmetros.
E, ao fazer isso, incluindo
o algoritmo de aprendizado
do perceptron, você está se
movendo de uma hipótese para outra.
Mas eu não estou contabilizando
isso, porque eu ainda não encontrei
a minha hipótese final.
Quando você encontrar a hipótese
final, você a chama de g.
Por outro lado, como eu uso o
limite da união, eu uso o cenário
do pior caso, o limite da generalização
se aplica a cada uma das hipóteses que
você considerou ou não considerou.
Porque, o que eu fiz para obter o limite,
da variação entre o dentro-da-amostra
e o fora-da-amostra, é que eu considero
que todas as hipóteses, simultaneamente,
possuem o dentro-da-amostra e o fora-da-amostra
próximos, de acordo com o seu critério épsilon.
E isso, obviamente, garante que
qualquer uma que você obtiver
será válida.
Mas, obviamente, poderia ser um exagero.
E, entre os efeitos colaterais
positivos disso, temos que,

Portuguese: 
até os valores intermediários
possuem boa generalização...
não os analisamos ou os consideramos,
mas apenas para responder à pergunta.
MODERADOR: Uma pergunta
sobre o desfecho.
Eles dizem que eles não entendem
exatamente como o Hoeffding prova...
mostra que a aprendizagem é viável.
PROFESSOR: OK.
Hoeffding mostra que
a verificação é viável.
A pesquisa presidencial faz sentido.
Mostra que, se você tiver uma amostra
e você tiver uma pergunta para fazer,
e você analisar como a pergunta é
respondida na amostra, então, há uma razão
para acreditar que a resposta da
população em geral, ou no grande pote,
será próxima da resposta que
você obtém dentro-da-amostra.
Então, essa é a verificação.
Para avançar da verificação para a
aprendizagem, você precisa ser capaz de fazer
essa afirmação, simultaneamente,
em várias situações,
e é por isso que você teve a desigualdade
de Hoeffding modificada no final,
que é esta aqui,
que tem o M vermelho nela.

English: 
intermediate values have
good generalization--
not that we look at it or consider it,
but just to answer the question.
MODERATOR: A question
about the punchline.
They say that they don't understand
exactly how the Hoeffding works--
shows that learning is feasible.
PROFESSOR: OK.
Hoeffding shows that verification
is feasible.
The presidential poll makes sense.
That, if you have a sample and you have
one question to ask, and you see
how the question is answered in the
sample, then there is a reason to
believe that the answer in the general
population, or in the big bin, will be
close to the answer you got in-sample.
So that's the verification.
In order to move from verification to
learning, you need to be able to make
that statement, simultaneously on
a number of these guys, and that's why
you had the modified Hoeffding
Inequality at the end,
which is this one
that has the red M in it.

Portuguese: 
Esta não é mais a desigualdade
de Hoeffding básica.
Nós ainda vamos chamá-la de Hoeffding.
Mas, basicamente, lida com
uma situação na qual você tem
M hipóteses ao mesmo tempo e
você quer garantir que todas estão
se comportando bem.
Sob essas condições, esta é a
probabilidade que a garantia pode
fornecer, e a probabilidade, obviamente,
é mais solta do que costumava ser.
Assim, a probabilidade de que um
evento ruim aconteça, quando você tiver
muitas possibilidades, é maior do que a
probabilidade de que eventos ruins aconteçam
quando você tiver uma delas.
E este é o caso em que você as
adiciona como se elas fossem disjuntas,
como eu mencionei anteriormente.
MODERADOR: Pode-se dizer
que o pote corresponde
à população total em um...
PROFESSOR: O pote corresponde
à população total antes da coloração.
Então, lembre-se do pote cinza...
Eu tenho isso aqui em algum lugar.
Tivemos um slide no qual o
pote tinha bolinhas cinzas.
Portanto, esta é a minha maneira de
dizer que isto é uma entrada genérica,
e nós a chamamos de X.
E isto é, realmente, o espaço de entrada,
neste caso, ou a população em geral.

English: 
This is no longer the plain-vanilla
Hoeffding Inequality.
We'll still call it Hoeffding.
But it basically deals with a situation
where you have M of these
guys simultaneously, and you want to
guarantee that all of them are
behaving well.
Under those conditions, this is the
probability that the guarantee can
give, and the probability, obviously,
is looser than it used to be.
So the probability that bad thing
happens when you have many
possibilities is bigger than the
probability that bad things happen when
you have one of them.
And this is the case where you added up
as if they happen disjointly, as I
mentioned before.
MODERATOR: Can it be said that the
bin corresponds to the entire
population in a--
PROFESSOR: The bin corresponds
to the entire
population before coloring.
So remember the gray bin--
I have it somewhere.
We had a viewgraph where the
bin had gray marbles.
So this is my way of saying this
is a generic input, and we
call it X.
And this is indeed the input space in
this case, or the general population.

English: 
Now, we start coloring it according
to when you give me a hypothesis.
So now there's more in the process
than just the input space.
But indeed, the bin can correspond to
the general population, and the sample
will correspond to the people you polled
over the phone, in the case of
the presidential thing.
MODERATOR: Is there a relation between
the Hoeffding Inequality and the
p-values in statistics?
PROFESSOR: Yes.
The area where we are trying to say that
if I have a sample and I get
an estimate on the sample, the
estimate is reliable.
The estimate is close to
the out-of-sample.
The probability that you will deviate--
is a huge body of work.
And the p-value in statistics
is one approach.
And there are other laws of large
numbers that come with it.
I don't want to venture
too much into that.
I basically picked from that jungle of
mathematics the single most useful
formula that will get me home when
I talk about the theory of
generalization.
And I want to focus on it.

Portuguese: 
Agora, vamos começar a colorir
conforme você me fornece uma hipótese.
Portanto, agora há mais informação no
processo do que apenas o espaço de entrada.
Mas, de fato, o pote pode corresponder
à população em geral, e a amostra
vai corresponder às pessoas que
você entrevistou por telefone,
no caso da pesquisa presidencial.
MODERADOR: Existe uma relação
entre a desigualdade de Hoeffding
e os p-valores em estatística?
PROFESSOR: Sim.
A área na qual estamos tentando dizer
que, se eu tiver uma amostra e eu tiver
uma estimativa sobre a amostra,
a estimativa é confiável.
A estimativa está próxima
do fora-da-amostra.
A probabilidade da qual você vai se
desviar... é uma enorme área de pesquisa.
E o p-valor em estatística
é uma abordagem.
E há outras leis dos grandes
números utilizadas neste contexto.
Eu não quero investir muito nisso.
Basicamente, eu escolhi, da imensidão da
matemática, a fórmula simples e mais útil
que me deixará confortável
quando eu falar sobre a teoria
da generalização.
E eu quero me concentrar nela.

Portuguese: 
Quero entendê-la... esta fórmula
específica... perfeitamente, de forma que,
quando continuarmos modificando-a até chegarmos
à dimensão VC, as ideias estarão claras.
E, obviamente, se você ficar curioso
sobre as leis dos grandes números,
e diferentes manifestações do dentro-da-amostra
estar próximo do fora-da-amostra
e probabilidades de erro, este é um
terreno muito fértil, e um terreno
muito útil para se estudar.
Mas não é um assunto central do curso.
O assunto está apenas pedindo
emprestado uma peça como uma ferramenta
para conseguir o que ele quer.
Então, isto termina as perguntas aqui?
Vamos terminar o dia e
nos vemos na próxima aula.

English: 
I want to understand it-- this specific
formula-- perfectly, so when we
keep modifying it until we get to the
VC dimension, things are clear.
And, obviously, if you get curious about
the law of large numbers, and
different manifestations of in-sample
being close to out-of-sample and
probabilities of error, that is a very
fertile ground, and a very useful
ground to study.
But it is not a core subject
of the course.
The subject is only borrowing
one piece as a utility
to get what it wants.
So that ends the questions here?
Let's call it a day, and
we will see you next week.
