
Portuguese: 
LOCUTOR: O programa a seguir
é trazido a vocês pela Caltech.
Tradução feita por Luciana Rocha Pedro,
sob supervisão do PESC na COPPE-UFRJ.
YASER ABU-MOSTAFA: Sejam bem-vindos ao aprendizado
de máquinas e boas vindas ao nosso público
externo também.
Deixe-me começar com um roteiro do
curso e depois introduzir a matéria
da aula de hoje.
Como você pode ver no roteiro,
os tópicos possuem cores
e elas designam seu conteúdo
principal, se é matemático ou prático.
O aprendizado de máquinas
é um assunto muito amplo.
Ele varia desde a teoria muito abstrata até
a prática extrema, como em regras de ouro.
E a inclusão de um tópico no
curso depende da relevância
para o aprendizado de máquinas.
Assim, alguma matemática é útil, porque
lhe fornece a estrutura conceitual,

English: 
ANNOUNCER: The following program
is brought to you by Caltech.
YASER ABU-MOSTAFA: Welcome to machine
learning, and welcome to our online
audience as well.
Let me start with an outline of the
course, and then go into the material
of today's lecture.
As you see from the outline, the topics
are given colors, and that
designates their main content, whether
it's mathematical or practical.
Machine learning is
a very broad subject.
It goes from very abstract theory to
extreme practice as in rules of thumb.
And the inclusion of a topic in the
course depends on the relevance to
machine learning.
So some mathematics is useful because it
gives you the conceptual framework,

English: 
and then some practical aspects are
useful because they give you the way
to deal with real learning systems.
Now if you look at the topics, these
are not meant to be separate topics
for each lecture.
They just highlight the main
content of those lectures.
But there is a story line that goes
through it, and let me tell you what
the story line is like.
It starts here with: what is learning?
Can we learn?
How to do it?
How to do it well?
And then the take-home lessons.
There is a logical dependency that goes
through the course, and there's
one exception to that
logical dependency.
One lecture, which is the third one,
doesn't really belong here.
It's a practical topic, and the reason
I included it early on is because I

Portuguese: 
e, então, alguns aspectos práticos são
úteis, porque eles lhe fornecem o caminho
para lidar com sistemas
reais de aprendizagem.
Agora, se você olhar para os tópicos, eles
não estão destinados a serem tópicos separados
para cada aula.
Eles apenas destacam o conteúdo
principal dessas aulas.
Mas há uma história contada
por eles, e deixe-me lhes dizer
qual é esta história.
Ela começa aqui com:
o que é a aprendizagem?
Podemos aprender?
Como fazê-lo?
Como fazê-lo bem?
E, então, um resumo da ideia
geral do aprendizado de máquinas.
Há uma dependência
lógica durante o curso
e há uma exceção nessa
dependência lógica.
Uma aula, que é a terceira,
não pertence realmente aqui.
É um assunto prático e a razão pela
qual eu a incluí no início é porque

English: 
needed to give you some tools to play
around with, to test the
theoretical and conceptual aspects.
If I waited until it belonged normally,
which is to the second aspect of the
linear models which is down there, the
beginning of the course would be
just too theoretical
for people's taste.
And as you see, if you look at the
colors, it is mostly red in the
beginning and mostly blue in the end.
So it starts building the
concepts and the theory.
And then it goes on to the
practical aspects.
Now, let me start today's lecture.
And the subject of the lecture
is the learning problem.
It's an introduction to
what learning is.
And I will draw your attention
to one aspect of this slide,
which is this part.
That's the logo of the course.
And believe it or not,
this is not artwork.
This is actually a technical
figure that will come up
in one of the lectures.
I'm not going to tell you which one.

Portuguese: 
eu precisava lhe dar algumas ferramentas
para experimentar, para testar
os aspectos teóricos e conceituais.
Se eu esperasse até o momento
certo, que seria até a segunda parte
dos modelos lineares, que está
lá embaixo, o início do curso
seria muito teórico
para o gosto das pessoas.
E, como você pode ver, se você olhar para
as cores, temos, na maior parte dos tópicos,
vermelho no início e azul no final.
Então, o curso começa construindo
os conceitos e a teoria.
E, então, considera
os aspectos práticos.
Agora, deixe-me começar a aula de hoje.
E o tema da aula é o
problema de aprendizagem.
É uma introdução ao
que é a aprendizagem.
E eu chamarei a atenção
para uma parte deste slide,
que é esta figura.
Este é o logotipo do curso.
E, acredite ou não, isso
não é uma obra de arte.
Isto é, na verdade, uma
figura técnica que aparecerá
em uma das aulas.
Eu não direi qual.

English: 
So you can wait in anticipation until it
comes up, but this will actually be
a scientific figure that
we will talk about.
Now when we move to today's
lecture, I'm going to talk
today about the following.
Machine learning is a very broad
subject, and I'm going to start with
one example that captures the
essence of machine learning.
It's a fun example about movies
that everybody watches.
And then after that, I'm going to
abstract from the learning problem,
the practical learning problem,
aspects that are common to all
learning situations that
you're going to face.
And in abstracting them, we'll have the
mathematical formalization of the
learning problem.
And then we will get our first algorithm
for machine learning today.
It's a very simple algorithm, but it
will fix the idea about what is the
role of an algorithm in this case.
And we will survey the types of learning,
so that we know which part we

Portuguese: 
Assim, você pode esperar ansiosamente
até que apareça, mas essa será realmente
uma figura científica
que vamos analisar.
Agora, na aula de hoje, vamos estudar
hoje o seguinte.
O aprendizado de máquinas é um
assunto muito amplo e eu começarei com
um exemplo que captura a essência
do aprendizado de máquinas.
É um exemplo divertido sobre
filmes, que todo mundo assiste.
E, então, depois disso, eu vou
extrair do problema de aprendizagem,
do problema de aprendizado prático,
os aspectos que são comuns a todas
as situações de aprendizagem
que você enfrentará.
E, ao extraí-las, teremos
a formalização matemática
do problema de aprendizagem.
E, então, teremos o nosso primeiro algoritmo
para o aprendizado de máquinas, hoje.
É um algoritmo muito simples, mas
ele fixará a ideia sobre qual é
o papel de um algoritmo neste caso.
E vamos examinar os tipos de aprendizagem,
para que possamos saber qual parte

Portuguese: 
estamos enfatizando neste curso
e quais partes estão próximas.
E eu terminarei com um desafio,
um desafio muito interessante,
e é um desafio em mais de
um sentido, como você verá.
OK, então, deixe-me
começar com um exemplo.
O exemplo de aprendizado de
máquinas com o qual eu começarei
é como um espectador avaliaria um filme.
Então, este é um problema
interessante, e é interessante para nós
porque assistimos filmes, mas também muito
interessante para uma empresa que aluga filmes.
E, de fato, uma empresa, neste caso a
Netflix, queria melhorar o sistema interno
em apenas 10%.
Então, eles fazem recomendações quando você
se conecta, eles recomendam os filmes que
eles acham que você vai gostar, então eles
acham que você vai avaliá-los com notas altas.
E eles tinham um sistema e eles
queriam melhorar este sistema.
Então, quanto uma melhoria de 10%
no desempenho vale para a empresa?

English: 
are emphasizing in this course,
and which parts are nearby.
And I will end up with a puzzle, a very
interesting puzzle, and it's
a puzzle in more ways than
one, as you will see.
OK, so let me start with an example.
The example of machine learning that
I'm going to start with is how
a viewer would rate a movie.
Now that is an interesting problem, and
it's interesting for us because we
watch movies, and very interesting for
a company that rents out movies.
And indeed, a company which is Netflix
wanted to improve the in-house system
by a mere 10%.
So they make recommendations when you
log in, they recommend movies that
they think you will like, so they think
that you'll rate them highly.
And they had a system, and they
wanted to improve the system.
So how much is a 10% improvement in
performance worth to the company?

Portuguese: 
Valeu, na verdade, um milhão de dólares,
que foi pago ao primeiro grupo que
realmente conseguiu
obter a melhoria de 10%.
Então, você se pergunta, uma
melhoria de 10% em algo assim,
por que isso valeria
um milhão de dólares?
É porque, se as recomendações que
a empresa de filmes fizer estiverem
muito boas, você prestará mais atenção às
recomendações, é provável que você alugue
os filmes que eles recomendam
e eles ganharão muito dinheiro...
muito mais do que o milhão de
dólares que eles prometeram.
E isso é muito típico no
aprendizado de máquinas.
Por exemplo, o aprendizado de máquinas
tem aplicações em previsões financeiras.
Você pode imaginar que, a mínima
melhoria em uma previsão financeira
pode gerar um monte de dinheiro.
Então, o fato de que você pode realmente fazer
com que o sistema seja melhor usando o aprendizado
de máquinas é um aspecto muito
atraente da técnica em um amplo espectro
de aplicações.
Então, o que os donos
da Netflix fizeram?

English: 
It was actually $1 million that was
paid out to the first group that
actually managed to get
the 10% improvement.
So you ask yourself, 10% improvement
in something like that, why should
that be worth a million dollars?
It's because, if the recommendations
that the movie company makes are spot
on, you will pay more attention to the
recommendation, you are likely to rent
the movies that they recommend, and they
will make lots of money-- much
more than the million dollars
they promised.
And this is very typical
in machine learning.
For example, machine learning has
applications in financial forecasting.
You can imagine that the minutest
improvement in financial forecasting
can make a lot of money.
So the fact that you can actually push
the system to be better using machine
learning is a very attractive aspect of
the technique in a wide spectrum of
applications.
So what did these guys do?

English: 
They gave the data, and people started
working on the problem using different
algorithms, until someone managed
to get the prize.
Now if you look at the problem of
rating a movie, it captures the
essence of machine learning, and the
essence has three components.
If you find these three components in
a problem you have in your field, then
you know that machine learning is
ready as an application tool.
What are the three?
The first one is that
a pattern exists.
If a pattern didn't exist, there
would be nothing to look for.
So what is the pattern here?
There is no question that the way
a person rates a movie is related to how
they rated other movies, and is
also related to how other
people rated that movie.
We know that much.
So there is a pattern
to be discovered.
However, we cannot really pin
it down mathematically.

Portuguese: 
Eles deram os dados e as pessoas começaram
a trabalhar no problema utilizando
algoritmos diferentes, até que
alguém conseguiu receber o prêmio.
Agora, se você olhar para o problema
de avaliar um filme, ele capta
a essência do aprendizado de máquinas,
e a essência tem três componentes.
Se você encontrar esses três componentes
em um problema que você tem em sua área,
então você sabe que o aprendizado de máquinas
é uma opção de uma ferramenta para a aplicação.
Quais são os três componentes?
O primeiro é: existe um padrão.
Se um padrão não existisse,
não haveria nada para procurar.
Então, qual é o padrão aqui?
Não há dúvida de que a forma que uma pessoa
classifica um filme está relacionada à forma
como ela classifica outros filmes
e, também, está relacionada à forma
como outras pessoas
avaliaram esse filme.
Sabemos disso.
Portanto, há um padrão a ser descoberto.
Entretanto, não podemos
defini-lo matematicamente.

Portuguese: 
Eu não posso lhe pedir para escrever
um polinômio de ordem 17 que capte
como as pessoas avaliam filmes.
Assim, o fato de que há um
padrão e que não podemos defini-lo
matematicamente é a razão pela qual
consideraremos o aprendizado de máquinas.
Para "aprender a partir de dados".
Nós não poderíamos escrever o sistema
por conta própria, então vamos depender
dos dados para sermos capazes
de encontrar o sistema.
Existe um componente ausente,
que é muito importante.
Se você não o tiver,
você está sem sorte.
Nós temos que ter dados. Estamos
aprendendo a partir dos dados.
Então, se alguém bate à minha
porta com uma aplicação interessante
de aprendizado de máquinas e me diz o
quanto é excitante, o quão fantástica
a aplicação seria, quanto
dinheiro eles poderiam obter,
a primeira pergunta que eu
faço, quais dados você tem?
Se você tiver dados, podemos trabalhar.
Se você não tiver, você está sem sorte.
Se você tiver esses três
componentes, você tem o necessário
para aplicar o aprendizado de máquinas.
Agora, deixe-me lhes fornecer uma solução
para a avaliação de filmes, para você começar
a compreender a ideia.
Então, aqui está um sistema.

English: 
I cannot ask you to write a 17th-order
polynomial that captures how people
rate movies.
So the fact that there is a pattern,
and that we cannot pin it down
mathematically, is the reason why we
are going for machine learning.
For "learning from data".
We couldn't write down the system on our
own, so we're going to depend on
data in order to be able
to find the system.
There is a missing component
which is very important.
If you don't have that,
you are out of luck.
We have to have data. We
are learning from data.
So if someone knocks on my door with
an interesting machine learning
application, and they tell me how
exciting it is, and how great the
application would be, and how much
money they would make, the first
question I ask, what data do you have?
If you data, we are in business.
If you don't, you are out of luck.
If you have these three components,
you are ready to
apply machine learning.
Now let me give you a solution to the
movie rating, in order to start
getting a feel for it.
So here is a system.

English: 
Let me start to focus on part of it.
We are going to describe a viewer
as a vector of factors, a profile if
you will.
So if you look here for example, the
first one would be comedy content.
Does the movie have a lot of comedy?
From a viewer point of view,
do they like comedies?
Here, do they like action?
Do they prefer blockbusters, or
do they like fringe movies?
And you can go on all the way, even to
asking yourself whether you like the
lead actor or not.
Now you go to the content of the
movie itself, and you get the
corresponding part.
Does the movie have comedy?
Does it have action?
Is it a blockbuster?
And so on.
Now you compare the two, and you realize
that if there is a match--
let's say you hate comedy and the
movie has a lot of comedy--

Portuguese: 
Deixe-me concentrar em parte dele.
Vamos descrever um espectador como
um vetor de indicadores, um perfil,
se você quiser.
Então, se você olhar aqui, por exemplo, o
primeiro indicador seria conteúdo de comédia.
O filme tem um monte
de cenas engraçadas?
Do ponto de vista de um espectador,
será que eles gostam de comédias?
Aqui, eles gostam de ação?
Eles preferem sucessos de bilheteria
ou eles gostam de filmes estranhos?
E você pode ir por todo o caminho,
perguntando até mesmo se você gosta
do ator principal ou não.
Agora, você considera o conteúdo
do filme por si só e você tem
a parte correspondente.
O filme tem de comédia?
Ele tem ação?
É um sucesso de bilheteria?
E assim por diante.
Agora, você compara os dois e você percebe
que, se houver uma correspondência...
digamos que você odeie comédia e o filme
tenha um monte de cenas engraçadas...

Portuguese: 
então, provavelmente,
você não gostará dele.
Mas, se houver uma correspondência
entre tantas coordenadas,
e o número de indicadores aqui
poderia ser realmente 300 indicadores.
Então, provavelmente,
você gostará do filme.
E, se houver uma
incompatibilidade, provavelmente
você não gostará do filme.
Então, o que você faz,
você ajusta os indicadores do
filme e do espectador e, em seguida,
adiciona as contribuições de cada um.
E, então, como resultado disso,
você obtém a avaliação prevista.
Isso tudo é muito bom, exceto por um
problema, que é, isso não é realmente
aprendizado de máquinas.
Para produzir esse sistema, você
tem que assistir ao filme e analisar
o conteúdo.
Você tem que entrevistar o espectador
e perguntar sobre as suas preferências.
E, depois disso, você
as combina e tenta obter
uma previsão para a avaliação.
Agora, a ideia do aprendizado de máquinas
é que você não tem que fazer nada disso.
Tudo que você faz é sentar e saborear o
seu chá, enquanto a máquina está fazendo

English: 
then the chances are you're
not going to like it.
But if there is a match between so many
coordinates, and the
number of factors here could be
really like 300 factors.
Then the chances are you'll
like the movie.
And if there's a mismatch, the
chances are you're not
going to like the movie.
So what do you do,
you match the movie and the viewer
factors, and then you add the
contributions of them.
And then as a result of that, you
get the predicted rating.
This is all good except for one problem,
which is this is really not
machine learning.
In order to produce this thing, you have
to watch the movie, and analyze
the content.
You have to interview the viewer,
and ask about their taste.
And then after that, you combine
them and try to get
a prediction for the rating.
Now the idea of machine learning is that
you don't have to do any of that.
All you do is sit down and sip on your
tea, while the machine is doing

English: 
something to come up with
this figure on its own.
So let's look at the
learning approach.
So in the learning approach, we know
that the viewer will be a vector of
different factors, and different
components for every factor.
So this vector will be different
from one viewer to another.
For example, one viewer will have a big
blue content here, and one of them
will have a small blue content,
depending on their taste.
And then, there is the movie.
And a particular movie will have different
contents that correspond to those.
And the way we said we are computing the
rating, is by simply taking these
and combining them and
getting the rating.
Now what machine learning will do is
reverse-engineer that process.
It starts from the rating, and then
tries to find out what factors would be

Portuguese: 
algo para encontrar
esse sistema por si só.
Então, vamos analisar a
abordagem da aprendizagem.
Assim, na abordagem da aprendizagem,
sabemos que o espectador será um vetor
de indicadores diferentes, e componentes
diferentes para cada indicador.
Assim, este vetor será diferente
de um espectador para outro.
Por exemplo, um espectador
terá um grande teor de azul aqui
e outro terá um pequeno teor de
azul, dependendo da sua preferência.
E, então, há o filme.
E um filme específico terá conteúdos
diferentes que correspondem a estes indicadores.
E a maneira como dissemos que estamos calculando a
avaliação é simplesmente considerando estes indicadores,
combinando-os e obtendo a avaliação.
Agora, o que o aprendizado de máquinas
fará é a engenharia reversa desse processo.
Começa com a avaliação e, em seguida,
tenta descobrir quais indicadores seriam

Portuguese: 
consistentes com aquela avaliação.
Então, pense nisso desta maneira.
Você começa, digamos, com
indicadores completamente aleatórios.
Então, você considera esses indicadores,
apenas números aleatórios do começo ao fim,
e esses indicadores, números
aleatórios do começo ao fim.
Para cada usuário e para cada
filme, este é o seu ponto de partida.
Obviamente, não há nenhuma chance no
mundo de que, quando você considerar
o produto interno entre estes indicadores
que são aleatórios, que você obterá algo que
se pareça com a avaliação
que realmente existe, certo?
Mas o que você faz é considerar uma
avaliação que realmente existe e, então,
você começa a empurrar os indicadores, muito
ligeiramente, na direção dessa avaliação.
Fazendo com que a direção do produto
interno se aproxime da avaliação.
Agora, parece algo impossível.
Eu começo com tantos indicadores,
eles são todos aleatórios e eu
estou tentando ajustar uma avaliação.
Quais são as chances?
Bom, o importante é que você
fará isso, não para uma avaliação,
mas para 100 milhões de avaliações.

English: 
consistent with that rating.
So think of it this way.
You start, let's say, with
completely random factors.
So you take these guys, just random
numbers from beginning to end, and
these guys, random numbers
from beginning to end.
For every user and every movie,
that's your starting point.
Obviously, there is no chance in the
world that when you get the inner
product between these factors that are
random, that you'll get anything that
looks like the rating that actually
took place, right?
But what you do is you take a rating
that actually happened, and then you
start nudging the factors ever so
slightly toward that rating.
Make the direction of the inner product
get closer to the rating.
Now it looks like a hopeless thing. I
start with so many factors, they are
all random, and I'm trying to
make them match a rating.
What are the chances?
Well the point is that you are going to
do this not for one rating, but for
a 100 million ratings.

English: 
And you keep cycling through
the 100 million, over
and over and over.
And eventually, lo and behold, you
find that the factors now are
meaningful in terms of the ratings.
And if you get a user, a viewer here,
that didn't watch a movie, and you get
the vector that resulted from that
learning process, and you get the
movie vector that resulted from that
process, and you do the inner product,
lo and behold, you get a rating which
is actually consistent with how that
viewer rates the movie.
That's the idea.
Now this actually, the solution I
described, is one of the winning
solutions in the competition
that I mentioned.
So this is for real, this
actually can be used.
Now with this example in mind,
let's actually go to the
components of learning.
So now I would like to abstract from the
learning problems that I see, what

Portuguese: 
E você continua analisando
as 100 milhões, de novo,
e de novo, e de novo.
E, eventualmente, eis que você
descobre que os indicadores, agora,
são significativos em
termos das avaliações.
E, se você considerar um usuário, um espectador
aqui, que não assistiu a um filme, e você obtiver
o vetor que resultou desse processo
de aprendizagem, e você obtiver
o vetor do filme que resultou desse
processo, e você fizer o produto interno,
você obtém uma avaliação que,
na verdade, é consistente com
como aquele espectador avalia o filme.
Essa é a ideia.
Agora, isso realmente, a solução
que eu descrevi, é uma das soluções
ganhadoras na competição
que eu mencionei.
Então, isso é de verdade,
isso realmente pode ser usado.
Agora, com este exemplo em mente,
vamos analisar os
componentes da aprendizagem.
Então, agora, eu gostaria de extrair dos
problemas de aprendizagem que eu tenho,

Portuguese: 
quais são os componentes matemáticos
que compõem o problema de aprendizagem?
E eu usarei uma metáfora.
Eu usarei uma metáfora, agora,
de uma outra área de aplicação,
que é uma aplicação financeira.
Assim, a metáfora que vamos
usar é a aprovação de crédito.
Você solicita um cartão de
crédito e o banco quer decidir
se é uma boa ideia conceder um
cartão de crédito para você ou não.
Do ponto de vista do banco,
se eles ganharem dinheiro,
eles estão felizes.
Se eles perderem dinheiro,
eles não estão felizes.
Este é o único critério que o banco tem.
Agora, de forma semelhante, quando não
tínhamos uma fórmula mágica para decidir
como um espectador iria avaliar um
filme, o banco não tem uma fórmula mágica
para decidir se uma pessoa
merece crédito ou não.
O que eles farão, eles vão
depender dos registros históricos
de clientes anteriores, como foi o
seu comportamento de crédito e, então,
tentar reverter a engenharia do sistema
e, quando eles tiverem o sistema congelado,
eles vão aplicá-lo a um futuro cliente.
Esta é a ideia.
Quais são os componentes aqui?
Vamos analisar o modelo.
Primeiramente, você tem a
informação do requerente.

English: 
are the mathematical components that
make up the learning problem?
And I'm going to use a metaphor.
I'm going to use a metaphor now from
another application domain, which
is a financial application.
So the metaphor we are going to
use is credit approval.
You apply for a credit card, and the
bank wants to decide whether it's
a good idea to extend a credit
card for you or not.
From the bank's point of view,
if they're going to make
money, they are happy.
If they are going to lose money,
they are not happy.
That's the only criterion they have.
Now, very much like we didn't have
a magic formula for deciding how
a viewer will rate a movie, the bank
doesn't have a magic formula for
deciding whether a person
is creditworthy or not.
What they're going to do, they're going
to rely on historical records of
previous customers, and how their credit
behavior turned out, and then
try to reverse-engineer the system, and
when they get the system frozen,
they're going to apply it
to a future customer.
That's the deal.
What are the components here?
Let's look at it.
First, you have the applicant
information.

Portuguese: 
E a informação do requerente... você
olha para esta tabela e você pode ver que
há a idade, o sexo, quanto dinheiro que
você ganha, quanto dinheiro você deve
e todos os tipos de campos que
se acredita estarem relacionados
com a avaliação do mérito
de se obter crédito.
Mais uma vez, basicamente como fizemos
no exemplo dos filmes, não há dúvida
de que esses campos estão relacionados com
a avaliação do mérito de se obter crédito.
Eles não necessariamente a determinam de
forma única, mas eles estão relacionados.
E o banco não quer uma resposta perfeita.
Eles querem obter a decisão de crédito
o mais confiável possível.
Então, eles querem usar esse padrão
para ser capaz de encontrar
uma boa decisão.
E eles consideram essa entrada e eles
querem aprovar o crédito ou negá-lo.
Então, vamos formalizar isso.
Primeiramente, teremos uma entrada.
E a entrada é chamada
x. Surpresa, surpresa!
E esta entrada é a
solicitação do cliente.
Assim, podemos pensar nisso
como um vetor de dimensão d,

English: 
And the applicant information-- you
look at this, and you can see that
there is the age, the gender, how much
money you make, how much money you
owe, and all kinds of fields that are
believed to be related to the
creditworthiness.
Again, pretty much like we did in
the movie example, there is no question
that these fields are related
to the creditworthiness.
They don't necessarily uniquely
determine it, but they are related.
And the bank doesn't want a sure bet.
They want to get the credit decision
as reliable as possible.
So they want to use that pattern,
in order to be able to come up with
a good decision.
And they take this input, and they want
to approve the credit or deny it.
So let's formalize this.
First, we are going to
have an input.
And the input is called
x. Surprise, surprise!
And that input happens to be
the customer application.
So we can think of it as
a d-dimensional vector, the first

English: 
component is the salary, years in
residence, outstanding debt, whatever
the components are.
You put it as a vector, and
that becomes the input.
Then we get the output y. The output
y is simply the decision, either to
extend credit or not to extend
credit, +1 and -1.
And being a good or bad customer, that
is from the bank's point of view.
Now we have after that,
the target function.
The target function is a function
from a domain X, which is the
set of all of these x's.
So it is the set of vectors
of d dimensions.
So it's a d-dimensional Euclidean
space, in this case.
And then the Y is the set of y's.
Well, that's an easy one because
y can only be +1 or -1,
accept or deny.
And therefore this is just
a binary co-domain.
And this target function is the ideal
credit approval formula, which we
don't know.

Portuguese: 
a primeira componente é o salário,
anos na mesma casa, dívidas,
quaisquer que sejam as componentes.
Você as coloca como um vetor
e ele se torna a entrada.
Em seguida, nós temos a saída y.
A saída y é simplesmente a decisão,
conceder ou não o crédito, +1 e -1.
E ser um bom ou um mau cliente, isto
é baseado no ponto de vista do banco.
Agora, temos, depois
disso, a função alvo.
A função alvo é uma
função com um domínio X,
que é o conjunto de todos esses x's.
Então, é o conjunto de
vetores de dimensão d.
Então, é um espaço euclidiano
de dimensão d, neste caso.
E, então, o Y é o
conjunto de todos os y's.
Bom, esse é fácil, pois o
y pode ser apenas +1 ou -1,
aceitar ou negar.
E, portanto, este é apenas
um contra-domínio binário.
E essa função alvo é a fórmula
ideal de aprovação de crédito,
que nós não sabemos.

English: 
In all of our endeavors in machine
learning, the target function is
unknown to us.
If it were known, nobody
needs learning.
We just go ahead and implement it.
But we need to learn it because
it is unknown to us.
So what are we going
to do to learn it?
We are going to use data, examples.
So the data in this case is based on
previous customer application records.
The input, which is the information in
their applications, and the output,
which is how they turned
out in hindsight.
This is not a question of prediction
at the time they applied, but after
five years, they turned out
to be a great customer.
So the bank says, if someone has
these attributes again, let's approve
credit because these guys
tend to make us money.
And this one made us lose a lot of
money, so let's deny it, and so on.
And the historical records-- there are
plenty of historical records.
All of this makes sense when you're
talking about having 100,000 of
those guys.
Then you pretty much say, I will
capture what the essence of that
function is.

Portuguese: 
Em todos os nossos esforços no
aprendizado de máquinas, a função alvo
é desconhecida para nós.
Se fosse conhecida,
ninguém precisaria aprender.
Nós apenas prosseguiríamos
e a implementaríamos.
Mas precisamos aprendê-la, pois
ela é desconhecida para nós.
Então, o que faremos para aprendê-la?
Vamos usar os dados, os exemplos.
Assim, os dados, neste caso, são baseados em
registros de solicitações de clientes anteriores.
A entrada, que é a informação
nestas solicitações, e a saída,
que é como os clientes se
comportaram no retrospecto.
Esta não é uma questão de prever no
momento em que eles solicitaram crédito mas,
depois de cinco anos, se ele se
comportou como um bom cliente.
Assim, o banco diz, se alguém
tiver esses atributos novamente,
vamos aprovar o crédito, porque essas
pessoas tendem a nos render dinheiro.
E esta pessoa nos fez perder muito dinheiro,
então vamos negar o crédito, e assim por diante.
E os registros históricos...
há vários registros históricos.
Tudo isso faz sentido
quando você tiver 100.000
solicitações.
Então, você basicamente diz, eu
vou capturar qual é a essência
dessa função.

Portuguese: 
Então, estes são os dados e, em seguida,
você usa os dados, que são os registros
históricos, para obter a hipótese.
A hipótese é o nome formal que
vamos chamar a fórmula que obtemos
para aproximar a função alvo.
Assim, a hipótese vive no mesmo
espaço que a função alvo e,
se você considerar o valor da
g, supostamente a g aproxima a f.
Enquanto a f é desconhecida para
nós, a g é muito bem conhecida...
na verdade, nós a criamos... e
espera-se que ela aproxime bem a f.
Este é o objetivo da aprendizagem.
Portanto, esta notação será a
nossa notação para o resto do curso,
então acostume-se com ela.
A função alvo é sempre f,
a hipótese que produzimos,
que vamos nos referir como a hipótese final,
será chamada de g, os dados sempre terão
esta notação... existem N pontos,
que são o conjunto de dados.
E a saída é sempre y.
Portanto, esta é a
fórmula a ser utilizada.

English: 
So this is the data, and then you use
the data, which is the historical
records, in order to
get the hypothesis.
The hypothesis is the formal name we're
going to call the formula we get
to approximate the target function.
So the hypothesis lives in the same
world as the target function, and if
you look at the value of g, it supposedly
approximates f.
While f is unknown to us,
g is very much known--
actually we created it-- and the hope
is that it does approximate f well.
That's the goal of learning.
So this notation will be our notation
for the rest of the course, so get
used to it.
The target function is always f, the
hypothesis we produce, which we'll
refer to as the final hypothesis will be
called g, the data will always have
that notation-- there are capital N
points, which are the data set.
And the output is always y.
So this is the formula to be used.

English: 
Now, let's put it in a diagram in order
to analyze it a little bit more.
If you look at the diagram
here, here is the target
function and it is unknown--
that is the ideal approval which we will
never know, but that's what we're
hoping to get to approximate.
And we don't see it.
We see it only through the eyes
of the training examples.
This is our vehicle of understanding
what the target function is.
Otherwise the target function is
a mysterious quantity for us.
And eventually, we would like to
produce the final hypothesis.
The final hypothesis is the formula the
bank is going to use in order to
approve or deny credit, with the hope
that g hopefully approximates that f.
Now what connects those two guys?
This will be the learning algorithm.
So the learning algorithm takes the
examples, and will produce the final
hypothesis, as we described in the
example of the movie rating.
Now there is another component that
goes into the learning algorithm.

Portuguese: 
Agora, vamos construir um diagrama,
para analisarmos um pouco mais.
Se você olhar para
este diagrama, aqui está
a função alvo e ela é desconhecida...
esta é a aprovação ideal que
nunca saberemos, mas isso é o que
esperamos conseguir aproximar.
E nós não a vemos.
Nós a vemos apenas através dos
olhos dos exemplos de treinamento.
Esta é a nossa forma de
entender qual é a função alvo.
Fora isso, a função alvo é
uma função misteriosa para nós.
E, eventualmente, gostaríamos
de produzir a hipótese final.
A hipótese final é a
fórmula que o banco usará
para aprovar ou negar o crédito, com
a esperança de que a g aproxime a f.
Agora, o que conecta
esses dois componentes?
Isto será o algoritmo de aprendizagem.
Assim, o algoritmo de aprendizagem
considera os exemplos e vai produzir
a hipótese final, como descrito
no exemplo da avaliação de filmes.
Agora, há um outro componente que
aparece no algoritmo de aprendizagem.

English: 
So what the learning algorithm does, it
creates the formula from a preset
model of formulas, a set of candidate
formulas, if you will.
And these we are going to call the
hypothesis set, a set of hypotheses
from which we are going to
pick one hypothesis.
So from this H comes a bunch of small
h's, which are functions that can be
candidates for being the
credit approval.
And one of them will be picked by the
learning algorithm, which happens to
be g, hopefully approximating f.
Now if you look at this part of the
chain, from the target function to the
training to the learning algorithm to
the final hypothesis, this is very
natural, and nobody will
object to that.
But why do we have this
hypothesis set?
Why not let the algorithm
pick from anything?
Just create the formula, without being
restricted to a particular set of
formulas H.
There are two reasons, and
I want to explain them.
One of them is that there is no downside
for including a hypothesis
set in the formalization.

Portuguese: 
Então, o que o algoritmo de aprendizagem
faz, ele cria a fórmula a partir de um modelo
de fórmulas predefinido, um conjunto
de fórmulas candidatas, se você quiser.
E vamos chamá-las de conjunto de
hipóteses, um conjunto de hipóteses
a partir do qual vamos
escolher uma hipótese.
Assim, a partir deste H, temos um monte de
pequenos h's, que são funções que podem ser
candidatas para a aprovação de crédito.
E uma delas será escolhida pelo
algoritmo de aprendizagem, a g,
que esperamos aproximar a f.
Agora, se você analisar esta
parte do sistema, da função alvo,
passando pelo treinamento com o algoritmo
de aprendizagem, até a hipótese final,
isto é muito natural e
ninguém discordará disso.
Mas, por que temos este
conjunto de hipóteses?
Por que não deixar o algoritmo
escolher qualquer função?
Basta criar a fórmula, sem estar
restrita a um determinado conjunto
de fórmulas H.
Há duas razões e eu quero explicá-las.
Uma delas é que não há nenhuma
desvantagem com a inclusão de um conjunto
de hipóteses na formalização.

Portuguese: 
E há uma vantagem.
Então, deixe-me explicar porque não há nenhuma
desvantagem e, em seguida, explicar porque
há uma vantagem.
Não há nenhuma desvantagem pela simples
razão de que, do ponto de vista prático,
isso é o que você faz.
Você quer aprender, você diz,
eu vou usar uma fórmula linear.
Eu vou usar uma rede neural.
Eu vou usar uma máquina
de vetores de suporte.
Então, você já está impondo
um conjunto de hipóteses.
Se você for uma pessoa corajosa e você
não quiser se restringir de forma nenhuma,
muito bem, então o seu conjunto
de hipóteses é o conjunto de todas
as hipóteses possíveis.
Certo?
Portanto, não há perda de
generalidade em adicioná-lo.
Portanto, não há nenhuma desvantagem.
A vantagem não é óbvia aqui, mas ela
se tornará óbvia quando avançarmos
com a teoria.
O conjunto de hipóteses vai desempenhar
um papel central na teoria da aprendizagem.
Ele nos dirá: podemos aprender, quão
bem aprendemos e assim por diante.
Portanto, ter este conjunto como um
componente explícito na declaração do problema
fará com que a teoria flua naturalmente.
Então, é por isso que
temos este componente.

English: 
And there is an upside.
So let me describe why there is no
downside, and then describe why there
is an upside.
There is no downside for the simple
reason that, from a practical point of
view, that's what you do.
You want to learn, you say I'm going
to use a linear formula.
I'm going to use a neural network.
I'm going to use a support
vector machine.
So you are already dictating
a set of hypotheses.
If you happen to be a brave soul, and you
don't want to restrict yourself at
all, very well, then your hypothesis
set is the set of all possible
hypotheses.
Right?
So there is no loss of generality
in putting it.
So there is no downside.
The upside is not obvious here, but it
will become obvious as we go through
the theory.
The hypothesis set will play a pivotal
role in the theory of learning.
It will tell us: can we learn, and
how well we learn, and whatnot.
Therefore having it as an explicit
component in the problem statement
will make the theory go through.
So that's why we have this figure.

Portuguese: 
Agora, deixe-me focar nos
componentes da solução desse diagrama.
O que eu quero dizer com
os componentes da solução?
Se você olhar para o diagrama, a primeira
parte, que é o alvo... deixe-me tentar
expandi-lo...
então, a função alvo não
está sob seu controle.
Alguém bate à minha porta e
diz: eu quero aprovar crédito.
Essa é a função alvo, eu
não tenho controle sobre ela.
E, por falar nisso, aqui
estão os registros históricos.
Eu não tenho controle sobre eles,
então eles me fornecem os dados.
E você poderia, por favor,
me fornecer a hipótese final?
Isso é o que eu darei a eles no
final, antes de eu receber meu cheque.
Portanto, tudo isso está
completamente estabelecido.
Agora, vamos olhar para a outra parte.
O algoritmo de aprendizagem e o conjunto
de hipóteses que consideramos são
as suas ferramentas para a solução.
Estas são escolhas que você
faz para resolver o problema.

English: 
Now, let me focus on the solution
components of that figure.
What do I mean by the
solution components?
If you look at this, the first part,
which is the target-- let me try to
expand it--
so the target function is
not under your control.
Someone knocks on my door and says:
I want to approve credit.
That's the target function, I
have no control over that.
And by the way, here are
the historical records.
I have no control over that,
so they give me the data.
And would you please hand me
the final hypothesis?
That is what I'm going to give them at
the end, before I receive my check.
So all of that is completely dictated.
Now let's look at the other part. The
learning algorithm, and the hypothesis
set that we talked about,
are your solution tools.
These are things you choose, in
order to solve the problem.

Portuguese: 
E eu gostaria de investigar um
pouco o aspecto dessas escolhas
e lhe dar um exemplo, para que
você tenha uma ideia completa
de todo o sistema em sua mente.
Da função alvo, até o conjunto de
dados, até o algoritmo de aprendizagem,
o conjunto de hipóteses
e a hipótese final.
Então, aqui está o
conjunto de hipóteses.
Nós escolhemos a notação H para
o conjunto e o elemento será dado
pelo símbolo h.
Então, a h é uma função,
assim como a hipótese final g.
A g é apenas uma
delas, a que você seleciona.
Então, quando a selecionamos, nós a chamamos
de g. Se ela estiver no conjunto, genericamente,
nós a chamamos de h.
E, então, quando você as
combina, elas são referidas como
o modelo de aprendizagem.
Então, se você for perguntado qual é o modelo
de aprendizagem que você está usando, você está,
na verdade, escolhendo ambos, um conjunto
de hipóteses e um algoritmo de aprendizagem.
Vamos analisar o perceptron
em um momento, então este seria
o modelo do perceptron e este seria o
algoritmo de aprendizagem do perceptron.
Isto poderia ser uma rede neural e
isso seria a retropropagação do erro.
Isto poderia ser máquinas de vetores
de suporte de algum tipo, digamos

English: 
And I would like to take a little bit
of a look into what they look like,
and give you an example of them, so that
you have a complete chain for
the entire figure in your mind.
From the target function, to the data
set, to the learning algorithm,
hypothesis set, and the
final hypothesis.
So, here is the hypothesis set.
We chose the notation H for the
set, and the element will be given the
symbol small h.
So h is a function, pretty much
like the final hypothesis g.
g is just one of them
that you happen to elect.
So when we elect it, we call it g. If
it's sitting there generically, we
call it h.
And then, when you put them together,
they are referred to as
the learning model.
So if you're asked what is the learning
model you are using, you're
actually choosing both a hypothesis
set and a learning algorithm.
We'll see the perceptron in a moment,
so this would be the
perceptron model, and this would be the
perceptron learning algorithm.
This could be neural network, and
this would be back propagation.
This could be support vector
machines of some kind, let's say

Portuguese: 
a versão de funções de base radial,
e isso seria a programação quadrática.
Assim, cada vez que você tiver um modelo,
há um conjunto de hipóteses e, então,
há um algoritmo que
fará a busca e produzirá
uma dessas hipóteses.
Portanto, esta é a forma padrão
para a solução.
Agora, deixe-me considerar um simples
conjunto de hipóteses em detalhes,
para termos algo para implementar.
Assim, após a aula, você poderá realmente
implementar um algoritmo de aprendizagem
em dados reais, se você quiser.
Este não é um modelo glorioso. É um
modelo muito simples. Por outro lado,
é um modelo muito claro para
identificar o que estamos analisando.
Então, aqui está o modelo.
Você tem uma entrada, e a entrada
é x_1 até x_d, como dissemos...
um vetor com d dimensões... e
cada dimensão é um número real,
apenas para simplificar.
Portanto, este vetor
pertence aos números reais.
E estes são os atributos de um cliente.
Como dissemos, salário, anos na
mesma casa e assim por diante.

English: 
radial basis function version, and this
would be the quadratic programming.
So every time you have a model, there is
a hypothesis set, and then there is
an algorithm that will do the
searching and produce
one of those guys.
So this is the standard form
for the solution.
Now, let me go through a simple
hypothesis set in detail so we have
something to implement.
So after the lecture, you can actually
implement a learning algorithm on real
data if you want to.
This is not a glorious model. It's
a very simple model. On the other hand,
it's a very clear model to pinpoint
what we are talking about.
So here is the deal.
You have an input, and the input
is x_1 up to x_d, as we said--
d-dimensional vector-- and each of them
comes from the real numbers, just
for simplicity.
So this belongs to the real numbers.
And these are the attributes
of a customer.
As we said, salary, years in
residence, and whatnot.

English: 
So what does the perceptron model do?
It does a very simple formula.
It takes the attributes you have and
gives them different weights, w.
So let's say the salary is important,
the chances are w corresponding to the
salary will be big.
Some other attribute is
not that important.
The chances are the w that
goes with it is not that big.
Actually, outstanding
debt is bad news.
If you owe a lot, that's not good.
So the chances are the weight will
be negative for outstanding
debt, and so on.
Now you add them together, and you add
them in a linear form-- that's what
makes it a perceptron--
and you can look at this as
a credit score, of sorts.
Now you compare the credit
score with a threshold.
If you exceed the threshold, they
approve the credit card.
And if you don't, they
deny the credit card.
So that is the formula they
settle on.
They have no idea, yet, what the w's and
the threshold are, but they dictated the

Portuguese: 
Então, o que o modelo do perceptron faz?
Ele calcula uma fórmula muito simples.
Ele considera os atributos que você
tem e lhes dá diferentes pesos, w.
Então, digamos que o salário seja
importante, provavelmente o w correspondente
ao salário será grande.
Alguns dos outros atributos
não são tão importantes.
Provavelmente, o w
correspondente não é tão grande.
Na verdade, as dívidas
são uma má notícia.
Se você deve muito, isso não é bom.
Assim, provavelmente o peso
será negativo para as dívidas,
e assim por diante.
Agora, você os adiciona, e você
os adiciona de forma linear...
isto é o que o torna um perceptron...
e você pode analisar o resultado como
uma pontuação de crédito, algo assim.
Agora, você compara a pontuação
de crédito com um limiar.
Se você ultrapassar o limiar,
eles aprovam o cartão de crédito.
E, se você não ultrapassar,
eles negam o cartão de crédito.
Então, essa é a fórmula que
eles definiram.
Eles ainda não têm ideia de quais são
os w's e o limiar, mas eles estabeleceram

English: 
formula-- the analytic form that
they're going to use.
Now we take this and we put it
in the formalization we had.
We have to define a hypothesis h,
and this will tell us what is the
hypothesis set that has all the
hypotheses that have the same
functional form.
So you can write it down as this.
This is a little bit long, but there's
absolutely nothing to it.
This is your credit score, and this
is the threshold you compare to by
subtracting.
If this quantity is positive, you belong
to the first thing and you will
approve credit.
If it's negative, you belong here
and you will deny credit.
Well, the function that takes a real
number, and produces the sign +1 or
-1, is called the sign.
So when you take the sign of this thing,
this will indeed be +1 or
-1, and this will give
the decision you want.
And that will be the form
of your hypothesis.
Now let's put it in color, and you
realize that what defines h is your

Portuguese: 
a fórmula... a fórmula
analítica que eles usarão.
Então, agora, vamos considerar esse modelo
e colocá-lo na formalização que construímos.
Nós temos que definir uma
hipótese, h, e isso nos dirá qual é
o conjunto de hipóteses, que possui
todas as hipóteses que possuem
a mesma forma funcional.
Assim, você pode escrevê-la assim.
Esta fórmula é um pouco longa, mas não
há absolutamente nada de complicado.
Esta é a sua pontuação de crédito
e este é o limiar que você a compara
através da subtração.
Se esse valor for positivo,
você pertence à primeira condição
e você aprovará o crédito.
Se for negativo, você pertence
aqui e você negará o crédito.
Bom, a função que recebe um
número real e produz o sinal
+1 ou -1 é chamada de função sinal.
Então, quando você considera o
sinal desta expressão, isto, de fato,
será +1 ou -1, e fornecerá
a decisão que você quer.
E esta será a forma da sua hipótese.
Agora, vamos colocá-la em cores,
e você percebe que o que define a h

English: 
choice of w_i and the threshold.
These are the parameters that define
one hypothesis versus the other.
x is an input that will be
put into any hypothesis.
As far as we are concerned, when we are
learning for example, the inputs
and outputs are already determined.
These are the data set.
But what we vary to get one hypothesis
or another, and what the algorithm
needs to vary in order to choose the
final hypothesis, are those parameters
which, in this case, are
w_i and the threshold.
So let's look at it visually.
Let's assume that the data
you are working
with is linearly separable.
Linearly separable in this case, for
example, you have nine data points.
And if you look at the nine data
points, some of them were good
customers and some of them
were bad customers.
And you would like now to apply the
perceptron model, in order to separate
them correctly.
You would like to get to this situation,
where the perceptron, which
is this purple line, separates the blue
region from the red region or the

Portuguese: 
é a sua escolha do w_i e do limiar.
Estes são os parâmetros que definem
uma hipótese com relação à outra.
O x é uma entrada que será
inserida em qualquer hipótese.
Com relação ao nosso estudo, quando
estamos aprendendo através de exemplos,
as entradas e as saídas
já estão determinadas.
Elas são o conjunto de dados.
Mas, o que podemos variar para obter uma
hipótese ou outra, e o que o algoritmo
precisa variar, para escolher a
hipótese final, são estes parâmetros
que, neste caso, são o w_i e o limiar.
Então, vamos analisar isso visualmente.
Vamos supor que os dados que
você está trabalhando são
linearmente separáveis.
Linearmente separável, neste caso,
por exemplo, você tem nove pontos.
E, se você olhar para os nove pontos,
alguns deles eram bons clientes
e alguns deles eram clientes ruins.
E você gostaria, agora, de aplicar o
modelo do perceptron para separá-los
corretamente.
Você gostaria de obter esta
situação, na qual o perceptron,
que é esta reta roxa, separa a
região azul da região vermelha,

Portuguese: 
ou da região rosa e, de fato, todos
os bons clientes pertencem a uma região
e os clientes ruins pertencem à outra.
Então, você espera que um futuro
cliente, se ele estiver aqui ou aqui,
ele será classificado corretamente.
Se existir, na verdade, um padrão linear
simples para este problema a ser detectado.
Mas, quando você começa, você começa com
pesos aleatórios, e os pesos aleatórios
vão lhe fornecer qualquer reta.
Assim, a reta roxa, em
ambos os casos, corresponde
aos parâmetros roxos.
Uma escolha destes w's e do
limiar corresponde a uma reta.
Você os muda, você obtém uma outra reta.
Assim, você pode ver que o algoritmo
de aprendizagem está brincando com
estes parâmetros e, portanto,
movendo a reta, tentando chegar
a esta boa solução.
Agora, vamos ter uma
mudança simples na notação.
Ao invés de chamá-lo de limiar, vamos
tratá-lo como se ele fosse um peso.
Era menos o limiar. Agora,
vamos chamá-lo de mais w_0.
Nada mudou, tudo que você
precisa fazer é escolher o w_0

English: 
pink region, and indeed all the good
customers belong to one, and the bad
customers belong to the other.
So you have hope that a future customer,
if they lie here or lie
here, they will be classified
correctly.
If there is actually a simple linear
pattern to this to be detected.
But when you start, you start with
random weights, and the random weights
will give you any line.
So the purple line in both
cases corresponds to the
purple parameters there.
One choice of these w's and the
threshold corresponds to one line.
You change them, you get another line.
So you can see that the learning
algorithm is playing around with these
parameters, and therefore moving the
line around, trying to arrive at this
happy solution.
Now we are going to have a simple
change of notation.
Instead of calling it threshold, we're
going to treat it as if it's a weight.
It was minus threshold.
Now we call it, plus w_0.
Absolutely nothing, all you need
to do is choose w_0 to

Portuguese: 
como sendo menos o limiar.
Nada demais.
Então, por que fazemos isso?
Fazemos isso porque vamos
introduzir uma coordenada artificial.
Lembre-se que a
entrada era x_1 até x_d.
Agora, vamos adicionar o x_0.
Este não é um atributo do cliente,
mas uma constante artificial que
acrescentamos, que sempre será +1.
Por que estamos fazendo isso?
Você provavelmente já adivinhou.
Porque, quando você fizer isso, então,
de repente, a fórmula se simplifica.
Agora, você está somando a
partir de i=0, ao invés de i=1.
Então, você adicionou o termo
zero, e qual é o termo zero?
É o limiar, que você convenientemente
chamou de w_0, com um sinal positivo,
multiplicado por 1.
Assim, de fato, esta fórmula
será equivalente a esta.
Então, parece melhor.
E esta é a notação
padrão que vamos usar.
E, agora, vamos colocá-la como uma forma
vetorial, que simplificará as contas,
de modo que, neste caso, você terá
um produto interno entre um vetor w,
um vetor coluna, e um vetor x.

English: 
be minus the threshold.
No big deal.
So why do we do that?
We do that because we are going to
introduce an artificial coordinate.
Remember that the input
was x_1 through x_d.
Now we're going to add x_0.
This is not an attribute of
the customer, but
an artificial constant we add, which
happens to be always +1.
Why are we doing this?
You probably guessed.
Because when you do that, then all of
a sudden the formula simplifies.
Now you are summing from i equals
0, instead of i equals 1.
So you added the zero term,
and what is the zero term?
It's the threshold which you
conveniently call w_0 with a plus sign,
multiplied by the 1.
So indeed, this will be the formula
equivalent to that.
So it looks better.
And this is the standard notation
we're going to use.
And now we put it as a vector
form, which will simplify matters, so
in this case you will be having an inner
product between a vector w,
a column vector, and a vector x.

Portuguese: 
Assim, o vetor w seria w_0,
w_1, w_2, w_3, w_4, etc.
E x_0, x_1, x_2, etc.
E você faz o produto interno considerando
a transposta e você obterá uma fórmula
que é exatamente a
fórmula que você tem aqui.
Então, agora, nós temos esta fórmula
para a hipótese do perceptron.
Agora que temos o conjunto de hipóteses,
vamos analisar o algoritmo de aprendizagem
correspondente.
O conjunto de hipóteses lhe diz os
recursos com os quais você pode trabalhar.
Agora, precisamos do algoritmo
que analisará os dados,
os dados de treinamento que você
vai usar, e navegar através do espaço
de hipóteses para selecionar aquela
que será escolhida como a hipótese final
que você fornece ao seu cliente.
Então, este algoritmo é chamado de algoritmo
de aprendizagem do perceptron e ele implementa
esta função.
O que ele faz é o seguinte.
Ele considera os dados de treinamento.
Isso é sempre o que é um
algoritmo de aprendizagem faz.
Este é seu ponto de partida.

English: 
So the vector w would be w_0,
w_1, w_2, w_3, w_4, et cetera.
And x_0, x_1, x_2, et cetera.
And you do the inner product by taking
a transpose, and you get a formula
which is exactly the formula
you have here.
So now we are down to this formula
for the perceptron hypothesis.
Now that we have the hypothesis set,
let's look for the learning algorithm
that goes with it.
The hypothesis set tells you the
resources you can work with.
Now we need the algorithm that is
going to look at the data, the
training data that you're going to use,
and navigate through the space
of hypotheses, to bring the one that
is going to output as the final
hypothesis that you give
to your customer.
So this one is called the perceptron
learning algorithm, and it implements
this function.
What it does is the following.
It takes the training data.
That is always what a learning
algorithm does. This is
their starting point.

Portuguese: 
Portanto, ele considera os clientes existentes
e o comportamento de crédito existente
no retrospecto...
isso é o que ele usa...
e o que ele faz?
Ele tenta ajustar o w corretamente.
Então, ele realmente não gosta, de modo algum,
quando um ponto é classificado erroneamente.
Então, se um ponto for classificado
erroneamente, isso significa que o seu w não fez
o trabalho correto aqui.
Portanto, o que significa ser
um ponto mal classificado aqui?
Significa que, quando você aplicar
a sua fórmula, com o w atual...
o w é a variável que o
algoritmo vai ajustar...
aplicado a este x específico.
Então, o que acontece?
Você obtém algo que não é o
comportamento de crédito que você deseja.
Está classificado erroneamente.
Então, o que devemos fazer quando um
ponto está classificado erroneamente?
Nós temos que fazer algo.
Então, o que o algoritmo faz,
ele atualiza o vetor de pesos.
Ele altera os pesos, o que altera a
hipótese, de modo que ela se comporte
melhor naquele ponto específico.
E essa é a fórmula que ele aplica.

English: 
So it takes existing customers, and
their existing credit behavior in
hindsight--
that's what it uses--
and what does it do?
It tries to make the w correct.
So it really doesn't like at all
when a point is misclassified.
So if a point is misclassified,
it means that your w didn't do
the right job here.
So what does it mean to be
a misclassified point here?
It means that when you apply your
formula, with the current w--
the w is the one that the algorithm
will play with--
apply it to this particular x.
Then what happens?
You get something that is not the
credit behavior you want.
It is misclassified.
So what do we do when a point
is misclassified?
We have to do something.
So what the algorithm does, it
updates the weight vector.
It changes the weight, which changes
the hypothesis, so that it behaves
better on that particular point.
And this is the formula that it does.

Portuguese: 
Então, eu vou explicá-la em um momento.
Deixe-me, primeiramente, tentar explicar
o produto interno em termos de concordância
ou discordância.
Se você tiver o vetor x e o vetor
w desta forma, o produto interno
será positivo e o sinal será +1.
Se eles estiverem desta forma,
o produto interno será negativo
e o sinal será -1.
Assim, estar classificado erroneamente
significa que, ou eles estão desta forma
e a saída deveria ser -1, ou estão
dessa forma e saída deveria ser +1.
Isso é o que acontece quando a
classificação está errada, certo?
Então, se você olhar aqui, para esta fórmula,
ela considera o velho w e acrescenta algo
que depende do ponto
classificado erroneamente.
Em termos de ambos, o x_n e o y_n.
O y_n é apenas +1 ou -1.

English: 
So I'll explain it in a moment.
Let me first try to explain the inner
product in terms of agreement or
disagreement.
If you have the vector x and the vector
w this way, their inner product
will be positive, and the sign
will give you a +1.
If they are this way, the inner product
will be negative, and the sign
will be -1.
So being misclassified means that
either they are this way and the
output should be -1, or it's this
way and output should be +1.
That's what makes it misclassified,
right?
So if you look here at this formula, it
takes the old w and adds something
that depends on the misclassified
point.
Both in terms of the x_n and y_n.
y_n is just +1 or -1.

English: 
So here you are either adding a vector
or subtracting a vector.
And we will see from this diagram that
you're always doing so in such a way
that you make the point more likely
to be correctly classified.
How is that?
If y equals +1, as you see here,
then it must be that since the point
is misclassified, that
w dot x was negative.
Now when you modify this to w plus
y x, it's actually w plus x.
You add x to w, and when you add x to
w you get the blue vector instead of
the red vector.
And lo and behold, now the inner
product is indeed positive.
And in the other case when it's -1,
it is misclassified because they
were this way.
They give you +1 when
it should be -1.
And when you apply the rule, since
y is -1, you are actually
subtracting x.
So you subtract x and get this guy,
and you will get the correct
classification.
So this is the intuition behind it.
However, it is not the intuition
that makes this work.
There are a number of problems
with this approach.

Portuguese: 
Então, aqui, você está adicionando
um vetor ou subtraindo um vetor.
E veremos, a partir deste diagrama,
que você está sempre fazendo isso
de forma que você faça o ponto mais
provável de ser classificado corretamente.
Como é isso?
Se o y for igual a +1, como você vê
aqui, então, devemos ter, como o ponto
foi classificado erroneamente, o
produto interno de w e x era negativo.
Agora, quando você modificar o w para
w mais y x, na verdade é w mais x.
Você adiciona o x ao w e, quando você
adiciona o x ao w, você obtém o vetor azul,
ao invés do vetor vermelho.
E, eis que, agora o produto
interno é, de fato, positivo.
E, no outro caso, quando é
-1, está mal classificado,
porque estavam desta forma.
Fornece +1, quando deveria ser -1.
E, quando você aplicar a regra,
como o y é -1, você está, na verdade,
subtraindo o x.
Então, você subtrai o x e
obtém esse vetor e você obterá
a classificação correta.
Portanto, esta é a intuição
por trás da fórmula.
No entanto, não é a intuição
que faz com que ela funcione.
Há um número de problemas
com esta abordagem.

English: 
I just motivated that
this is not a crazy rule.
Whether or not it's a working
rule, that is yet to be seen.
Let's look at the iterations of
the perceptron learning algorithm.
Here is one iteration of PLA.
So you look at this thing, and you have
this current w corresponds to
the purple line.
This guy is blue in the red region.
It means it's misclassified.
So now you would like to adjust
the weights, that is move around
that purple line, such that the
point is classified correctly.
If you apply the learning rule, you'll
find that you're actually moving in
this direction, which means that the
blue point will likely be correctly
classified after that iteration.
There is a problem because, let's
say that I actually move
this guy in this direction.
Well this one, I got it right, but this
one, which used to be right,
now is messed up.
It moved to the blue region, right?

Portuguese: 
Eu apenas forneci uma motivação
de que esta não é uma regra maluca.
Se é ou não uma regra que
funciona, ainda veremos.
Vamos analisar as iterações do
algoritmo de aprendizagem do perceptron.
Aqui está uma iteração do PLA.
Então, você olha para essa
figura e você tem esse w atual,
corresponde à reta roxa.
Esse ponto é azul e
está na região vermelha.
Isso significa que está
classificado erroneamente.
Então, agora, você gostaria de
ajustar os pesos, ou seja, modificar
essa reta roxa, de forma que o
ponto seja classificado corretamente.
Se você aplicar a regra de aprendizagem,
você encontrará que você está, na verdade,
se movendo nesta direção, o que significa que
o ponto azul provavelmente será classificado
corretamente após esta iteração.
Há um problema, porque, vamos
dizer que eu realmente movesse
essa reta nessa direção.
Bom, este ponto, eu o classifiquei corretamente,
mas este ponto, que costumava estar correto,
agora está bagunçado.
Ele se mudou para a região azul, certo?

Portuguese: 
E, se você pensar sobre isso, eu estou
tentando cuidar de um ponto e eu posso estar
bagunçando todos os outros pontos,
porque eu não estou levando-os
em consideração.
Bom, a boa notícia para
o algoritmo de aprendizagem do perceptron é que,
tudo o que você precisa fazer é, para as iterações
1, 2, 3, 4, etc., escolha um ponto mal
classificado, qualquer um que você quiser.
E, em seguida, aplique a iteração a ele.
A iteração que acabamos de
analisar, que é esta aqui.
A de cima.
E é isso.
Se você fizer isso e os dados forem
originalmente linearmente separáveis, então,
você terminará com o caso no qual
você obterá uma solução correta.
Você obterá uma solução que classifica
todos os pontos corretamente.
Esta não é uma afirmação óbvia.
Ela exige uma prova.
A prova não é tão difícil.
Mas nos fornece o modelo de aprendizagem
mais simples possível que podemos pensar.
É um modelo linear e
este é o seu algoritmo.
Tudo que você precisa fazer é ter
muita paciência, pois 1, 2, 3, 4...

English: 
And if you think about it, I'm trying
to take care of one point, and I may be
messing up all other points, because
I'm not taking them into
consideration.
Well, the good news for the perceptron
learning algorithm is that all you need
to do, is for iterations 1,
2, 3, 4, et cetera, pick a misclassified
point, anyone you like.
And then apply the iteration to it.
The iteration we just talked about,
which is this one.
The top one.
And that's it.
If you do that, and the data was
originally linearly separable, then
you will end up with the case that you
will get to a correct solution.
You will get to something that
classifies all of them correctly.
This is not an obvious statement.
It requires a proof.
The proof is not that hard.
But it gives us the simplest possible
learning model we can think of.
It's a linear model, and
this is your algorithm.
All you need to do is be very patient,
because 1, 2, 3, 4-- this is

English: 
a really long.
At times it can be very long.
But it eventually converges.
That's the promise,
as long as the data is
linearly separable.
So now we have one learning model, and
if I give you now data from a bank--
previous customers and their credit
behavior-- you can actually run the
perceptron learning algorithm, and come up
with a final hypothesis g that you
can hand to the bank.
Not clear at all that it will be good,
because all you did was match the
historical records.
Well, you may ask the question: if I
match the historical records, does this
mean that I'm getting future customers
right, which is the
only thing that matters?
The bank already knows what happened
with the previous customers. It's just
using the data to help you
find a good formula.
The formula will be good or not good to
the extent that it applies to a new
customer, and can predict the
behavior correctly.
Well, that's a loaded question
which will be handled in
extreme detail, when we talk about
the theory of learning.
That's why we have to develop
all of this theory.
So, that's it.

Portuguese: 
este é um tempo realmente longo.
Às vezes, pode ser longo demais.
Mas, eventualmente, converge.
Esta é a promessa,
desde que os dados sejam
linearmente separáveis.
Portanto, agora, temos um modelo de aprendizagem
e, se eu lhe der, agora, os dados de um banco...
clientes anteriores e o seu comportamento
de crédito... você realmente pode executar
o algoritmo de aprendizagem do perceptron
e encontrar uma hipótese final g,
que você pode entregar ao banco.
Não está claro, de modo algum, que ela será
boa, porque tudo que você fez foi ajustar
os registros históricos.
Bom, você pode fazer uma pergunta:
se eu ajustar os registros históricos,
isso significa que eu estou prevendo
os futuros clientes corretamente,
que é a única coisa que importa?
O banco já sabe o que aconteceu com
os clientes anteriores. Ele está apenas
usando os dados para ajudá-lo
a encontrar uma boa fórmula.
A fórmula será boa ou
não se, ao ser aplicada
a um novo cliente, puder prever
o comportamento corretamente.
Bom, esta é uma pergunta
capciosa, que será tratada
com detalhes extremos, quando
estudarmos a teoria da aprendizagem.
É por isso que temos que
desenvolver toda essa teoria.
Então, é isso.

English: 
And that is the perceptron
learning algorithm.
Now let me go into the bigger picture
of learning, because what I talked
about so far is one type of learning.
It happens to be by far the most
popular, and the most used.
But there are other types of learning.
So let's talk about the premise of
learning, from which the different
types came about.
That's what learning is about.
This is the premise that is common
between any problem that you
would consider learning.
You use a set of observations,
what we call data, to uncover
an underlying process.
In our case, the target function.
You can see that this is
a very broad premise.
And therefore, you can see that people
have rediscovered that over and over
and over, in so many disciplines.

Portuguese: 
E esse é o algoritmo de
aprendizagem do perceptron.
Agora, deixe-me analisar o panorama geral
da aprendizagem, porque o que eu mencionei
até agora foi um tipo de aprendizagem.
Ele é, de longe, o mais
popular e o mais utilizado.
Mas há outros tipos de aprendizagem.
Então, vamos analisar a premissa
da aprendizagem, a partir da qual
os diferentes tipos surgiram.
É disso que se trata a aprendizagem.
Esta é a premissa que é
comum entre qualquer problema
que você consideraria aprendizagem.
Você usa um conjunto de observações,
que chamamos de dados, para descobrir
um processo subjacente.
No nosso caso, a função alvo.
Você pode ver que esta é
uma premissa muito ampla.
E, portanto, você pode ver que as pessoas
a redescobriram, de novo, e de novo,
e de novo, em muitas áreas.

Portuguese: 
Você pode pensar em uma área, além do
aprendizado de máquinas, que usa isso
como uma premissa exclusiva?
Alguém já fez cursos de estatística?
Em estatística, isso é o que eles fazem.
O processo subjacente é uma
distribuição de probabilidade.
E as observações são amostras
geradas por essa distribuição.
E você quer considerar
as amostras e prever
qual é a distribuição de probabilidade.
E, repetidamente, há várias
áreas com nomes diferentes.
Agora, quando estudamos os diferentes tipos
de aprendizagem, não é como se nos sentássemos
e olhássemos para o mundo e disséssemos,
isso parece diferente disto porque
as premissas parecem diferentes.
O que você faz é, você considera esta
premissa e a aplica em um contexto.
E isso exige uma certa quantidade
de matemática e algoritmos.
Se um determinado conjunto de
premissas o leva suficientemente longe
da matemática e dos algoritmos que
você usou em outras áreas, que meio

English: 
Can you think of a discipline, other than
machine learning, that uses that
as its exclusive premise?
Anybody have taken courses
in statistics?
In statistics, that's what they do.
The underlying process is
a probability distribution.
And the observations are samples
generated by that distribution.
And you want to take the samples, and
predict what the probability
distribution is.
And over and over, there are so many
disciplines under different names.
Now when we talk about different types
of learning, it's not like we sit down
and look at the world and say, this
looks different from this because the
assumptions look different.
What you do is, you take this premise
and apply it in a context.
And that calls for a certain amount
of mathematics and algorithms.
If a particular set of assumptions takes
you sufficiently far from the
mathematics and the algorithms you used
in the other disciplines, that

English: 
it takes on a life of its own.
And it develops its own math and
algorithms, then you declare it
a different type.
So when I list the types, it's not
completely obvious just by the slide
itself, that these should be
the types that you have.
But for what it's worth, these
are the most important types.
First one is supervised learning,
that's what we have
been talking about.
And I will discuss it in detail, and tell
you why it's called supervised.
And it is, by far, the concentration
of this course.
There is another one which is called
unsupervised learning, and
unsupervised learning
is very intriguing.
I will mention it briefly here, and then
we will talk about a very famous
algorithm for unsupervised learning
later in the course.
And the final type is reinforcement
learning, which is even more
intriguing, and I will
discuss it in a brief
introduction in a moment.
So let's take them one by one.
Supervised learning.
So what is supervised learning?

Portuguese: 
que assumiu vida própria.
E desenvolve a sua própria matemática
e algoritmos, então você a declara
um tipo diferente.
Então, quando eu listar os tipos, não
será completamente óbvio, apenas pelo slide
por si só, que estes deveriam
ser os tipos que você tem.
Mas, para o que importa, estes
são os tipos mais importantes.
O primeiro é o aprendizado
supervisionado, que é o que
estávamos estudando.
E eu vou discuti-lo em detalhes e lhe
dizer porque é chamado supervisionado.
E é, de longe, a
concentração deste curso.
Há um outro aprendizado, que é chamado
de aprendizado não supervisionado,
e o aprendizado não
supervisionado é muito intrigante.
Eu vou mencioná-lo brevemente aqui e, então,
vamos estudar um algoritmo de aprendizado
não supervisionado muito
famoso mais adiante do curso.
E o último tipo é o aprendizado
por reforço, que é ainda
mais intrigante, e eu vou
discuti-lo em uma breve
introdução, em um momento.
Então, vamos considerá-los um a um.
Aprendizado supervisionado.
Então, o que é o
aprendizado supervisionando?

Portuguese: 
Sempre que você tiver os dados, que
são fornecidos a você, com a saída
dada explicitamente... aqui está o
usuário e o filme e aqui está a avaliação.
Aqui está o cliente anterior e aqui
está o seu comportamento de crédito.
É como se um supervisor estivesse ajudando
você, para você ser capaz de classificar
os futuros pontos.
Por isso é chamado supervisionado.
Vamos considerar um exemplo de reconhecimento
de moedas, apenas para sermos capazes
de contrastá-lo com o aprendizado
não supervisionado, em um momento.
Digamos que você tenha uma máquina
automática de vendas e você gostaria de fazer
o sistema ser capaz de
reconhecer as moedas.
Então, o que você faz?
Você tem medidas físicas da moeda,
seremos simplistas e dizer que
medimos o tamanho e massa
da moeda que você insere.
Agora, as moedas serão moedas de vinte
e cinco, cinco, um e dez centavos.
25, 5, 1, e 10.
E, quando você adicionar os dados
a este diagrama, eles estarão assim.
Portanto, os 25 centavos, por exemplo, são
moedas maiores, então, elas estarão aqui.

English: 
Anytime you have the data that is
given to you, with the output
explicitly given-- here is the user
and movie, and here is the rating.
Here is the previous customer, and
here is their credit behavior.
It's as if a supervisor is helping you
out, in order to be able to classify
the future ones.
That's why it's called supervised.
Let's take an example of coin
recognition, just to be able to
contrast it with unsupervised
learning in a moment.
Let's say you have a vending machine,
and you would like to make
the system able to
recognize the coins.
So what do you do?
You have physical measurements of the
coin, let's be simplistic and say we
measure the size and mass
of the coin you put.
Now the coins will be quarters,
nickels, pennies, and dimes.
25, 5, 1, and 10.
And when you put the data in this
diagram, they will belong there.
So the quarters, for example, are
bigger, so they will belong here.

Portuguese: 
E as moedas de dez centavos,
nos EUA, são as menores de todas,
por isso elas são as menores aqui, e
haverá um espalhamento, por causa do erro
na medição, por causa da exposição
ao ambiente e assim por diante.
Então, digamos que estes sejam os seus dados
de treinamento e o aprendizado é supervisionado
porque os pontos estão coloridos.
Eu lhe dei estas moedas e disse que
elas são 25 centavos, 5 centavos, etc.
Então, você usa estas moedas para treinar
um sistema, e o sistema será, então,
capaz de classificar uma futura moeda.
Por exemplo, se mantivermos
a abordagem linear,
você poderia ser capaz de encontrar
retas de separação como estas.
E estas retas de separação vão
separar, com base nos dados,
as moedas de 10, de 1, de 5 e de 25.
E, uma vez que você tenha estas retas,
você pode dizer adeus aos dados.
Você não precisa mais deles.
E, quando você tiver uma futura moeda que,
agora, não tem rótulo, você não sabe qual é,
quando a máquina automática de vendas
estiver realmente funcionando, então,
a moeda estará em uma região ou outra e você
vai classificá-la de acordo com a região.
Portanto, este é o
aprendizado supervisionado.
Agora, vamos analisar o
aprendizado não supervisionado.

English: 
And the dimes in the US currency happen
to be the smallest of them,
so they are smallest here, and there
will be a scatter because of the error
in measurement, because of the exposure
to the elements, and whatnot.
So let's say that this is your
training data, and it's supervised
because things are colored.
I gave you those and told you they
are 25 cents, 5 cents, et cetera.
So you use those in order to train
a system, and the system will then be
able to classify a future one.
For example, if we stick to the
linear approach, you may be able to
find separator lines like those.
And those separator lines will
separate, based on the data, the 10
from the 1 from the
5 from the 25.
And once you have those,
you can bid farewell to the data.
You don't need it anymore.
And when you get a future coin that is
now unlabeled, you don't know what it
is, when the vending machine is actually
working, then the coin will
lie in one region or another, and you're
going to classify it accordingly.
So that is supervised learning.
Now let's look at unsupervised
learning.

English: 
For unsupervised learning, instead of
having the examples, the training data,
having this form which is the
input plus the correct
target-- the correct output--
the customer and how they behaved
in reality in credit,
we are going to have examples that have
less information, so much less it
is laughable.
I'm just going to tell you
what the input is.
And I'm not going to tell you what
the target function is at all.
I'm not going to tell you anything
about the target function.
I'm just going to tell you, here
is the data of a customer.
Good luck, try to predict the credit.
OK--
How in the world are we
going to do that?
Let me show you that the situation
is not totally hopeless.
That's what I'm going to achieve.
I'm not going to tell you
how to do it completely.
But let me show you that a situation
like that is not totally hopeless.
Let's go for the coin example.

Portuguese: 
Para o aprendizado não supervisionado, ao
invés dos exemplos, os dados de treinamento,
terem esta forma, que é a
entrada mais o alvo correto...
a saída correta...
o cliente e como ele se comportou,
na prática, com relação ao crédito,
vamos ter exemplos que têm
menos informação, tão menos que
é cômico.
Eu vou lhe dizer
apenas qual é a entrada.
E eu não vou lhe dizer qual é
a função alvo, de modo algum.
Eu não vou lhe dizer
nada sobre a função alvo.
Eu vou apenas lhe dizer, aqui
estão os dados de um cliente.
Boa sorte, tente prever o crédito.
Está bem...
Como assim nós vamos fazer isso?
Deixe-me lhes mostrar que a
situação não é totalmente impossível.
Isso é o que eu vou tentar alcançar.
Eu não vou lhe dizer como
fazê-lo completamente.
Mas deixe-me lhe mostrar que uma situação
como essa não é totalmente impossível.
Vamos voltar ao exemplo da moeda.

English: 
For the coin example, we have
data that looks like this.
If I didn't tell you what the
denominations are, the data
would look like this.
Right?
You have the measurements, but you don't
know, is that a quarter, is
it-- you don't know.
Now honestly, if you look at this
thing, you say I can know
something from this figure.
Things tend to cluster together.
So I may be able to classify those
clusters into categories, without
knowing what the categories are.
That will be quite
an achievement already.
You still don't know whether it's
25 cents, or whatever.
But the data actually made you
able to do something that is
a significant step.
You're going to be able to come
up with these boundaries.
And now, you are so close to
finding the full system.
So unlabeled data actually
can be pretty useful.
Obviously, I have seen the colored
ones, so I actually chose the
boundaries right because I still
remember them visually.
But if you look at the clusters and
you have never heard about that,

Portuguese: 
Então, para o exemplo da moeda,
temos dados que se parecem com isso.
Se eu não lhe dissesse
quais são as denominações,
os dados ficariam assim.
Certo?
Você tem as medidas, mas você
não sabe, está é 25 centavos...
você não sabe.
Agora, sinceramente, se você olhar para
essa figura, você diz, eu posso aprender
algo a partir desta figura.
Os pontos tendem a se agrupar.
Então, eu posso ser capaz de
classificar os grupos em categorias,
sem saber quais são as categorias.
Isso já será um grande feito.
Você ainda não sabe se é 25
centavos, ou o que quer que seja.
Mas, os dados realmente o
tornaram capaz de fazer algo que é
um passo significativo.
Você será capaz de
chegar a essas fronteiras.
E, agora, você está bem próximo
de encontrar o sistema completo.
Assim, dados sem rótulos podem
ser, na prática, muito úteis.
Agora, obviamente, eu vi os pontos
coloridos, então, eu realmente escolhi
as fronteiras corretamente, porque
eu ainda me lembro delas visualmente.
Mas, se você olhar para os grupos e você nunca
tivesse encontrado os resultados anteriores,

Portuguese: 
especialmente esses grupos podem
não se parecer com dois grupos.
Podem se parecer com um grupo.
Por isso, na prática, pode ser que isto
seja ambíguo e, de fato, no aprendizado
não supervisionado, o número
de clusters é ambíguo, às vezes.
E, então, o que você faz...
esta é a saída do seu sistema.
Agora, eu posso classificar
as moedas em tipos.
Eu vou apenas chamá-los
de tipos: tipo 1, tipo 2,
tipo 3, tipo 4.
Eu não tenho ideia de qual pertence a
qual mas, obviamente, se alguém vier com
um único exemplo de uma moeda de 25 centavos, de
1 centavo, etc., então, o sistema estará pronto.
Enquanto que, anteriormente, você tinha
que ter um monte de exemplos para escolher
exatamente onde colocar a fronteira.
E é por isso que um conjunto como esse,
que se parece com uma selva completa,
é, na verdade, útil.
Deixe-me lhe dar outro exemplo interessante
de aprendizado não supervisionado,
no qual eu lhe dou a entrada sem
a saída e você está, na verdade,
em uma situação melhor para aprender.

English: 
especially these guys might not
look like two clusters.
They may look like one cluster.
So it actually could be that this is
ambiguous, and indeed in unsupervised
learning, the number of clusters
is ambiguous at times.
And then, what you do--
this is the output of your system.
Now, I can categorize the
coins into types.
I'm just going to call them
types: type 1, type 2,
type 3, type 4.
I have no idea which belongs to which,
but obviously if someone comes with
a single example of a quarter, a dime, 
et cetera, then you are ready to go.
Whereas before, you had to have lots of
examples in order to choose where
exactly to put the boundary.
And this is why a set like that,
which looks like complete
jungle, is actually useful.
Let me give you another interesting
example of unsupervised learning,
where I give you the input without the
output, and you are actually in
a better situation to learn.

Portuguese: 
Digamos que a sua empresa ou a sua
escola, neste caso, esteja enviando-o
para um semestre no Rio de Janeiro.
Então, você está muito animado, e
você decide que é melhor você aprender
algumas palavras em português, para ser
capaz de falar a língua quando você chegar.
Não se preocupe, quando você chegar,
haverá um tutor que lhe ensinará
português.
Mas você tem um mês antes de ir
e você quer se ajudar o máximo possível.
Você olha ao redor e você descobre que o
único recurso que você tem é uma estação
de rádio em português em seu carro.
Então, o que você faz, você apenas
a sintoniza sempre que você dirigir.
E, por um mês inteiro, você
é bombardeado com português.
"Tudo bem", "Como vai", "Valeu",
expressões assim aparecem.
Depois de um tempo, sem saber
nada... é não supervisionado,
ninguém lhe disse o significado
de qualquer palavra...
você começa a desenvolver um
modelo da língua em sua mente.
Você sabe quais são as
expressões idiomáticas, etc.
Você está muito ansioso para
saber o que realmente "tudo bem"...
o que isso significa?
Você está pronto para aprender e,
quando você aprender, estará realmente
gravado na sua mente.

English: 
Let's say that your company or your
school in this case, is sending you
for a semester in Rio de Janeiro.
So you're very excited, and you
decide that you'd better learn some
Portuguese, in order to be able to
speak the language when you arrive.
Not to worry, when you arrive, there
will be a tutor who teaches you
Portuguese.
But you have a month to go,
and you want to help
yourself as much as possible.
You look around, and you find that the
only resource you have is a radio
station in Portuguese in your car.
So what you do, you just turn
it on whenever you drive.
And for an entire month, you're
bombarded with Portuguese.
"tudo bem", "como vai", "valeu",
stuff like that comes back.
After a while, without knowing anything--
it's unsupervised, nobody
told you the meaning of any word--
you start to develop a model of
the language in your mind.
You know what the idioms
are, et cetera.
You are very eager to know
what actually "tudo bem" 
-- what does that mean?
You are ready to learn, and once
you learn it, it's actually
fixed in your mind.

Portuguese: 
Então, quando você for lá, você
aprenderá a língua mais rapidamente do que
se você não tivesse passado
por esta experiência.
Assim, você pode pensar no aprendizado não
supervisionado, de uma forma ou de outra,
como uma forma de obter uma
representação de alto nível da entrada.
Se é extremamente alto nível como
em grupos... você esqueceu todos
os atributos e você me diz apenas um rótulo,
ou em um nível mais elevado, como neste caso...
uma melhor representação do que
apenas a entrada bruta em algum modelo
na sua mente.
Agora, vamos estudar o
aprendizado por reforço.
Neste caso, não é tão ruim quanto
o aprendizado não supervisionado.
Então, novamente, sem o benefício
do aprendizado supervisionado,
você não tem a saída correta.
O que você faz... Eu vou
lhe fornecer a entrada.
OK, muito obrigado, isso é muito gentil.
O que mais?
Eu vou lhe fornecer alguma saída.
A saída correta?
Não!
Alguma saída.

English: 
Then when you go there, you will learn
the language faster than if you didn't
go through this experience.
So you can think of unsupervised
learning, in one way or another, as
a way of getting a higher-level
representation of the input.
Whether it's extremely high level as
in clusters-- you forgot all the
attributes and you just tell me a label,
or higher level as in this-- a better
representation than just the
crude input into some model
in your mind.
Now let's talk about
reinforcement learning.
In this case, it's not as bad
as unsupervised learning.
So again, without the benefit of
supervised learning, you don't get
the correct output.
What you do is-- I will
give you the input.
OK, thank you very much,
that's very kind.
What else?
I'm going to give you some output.
The correct output?
No!
Some output.

English: 
OK, that's very nice, but doesn't
seem very helpful.
It looks now like unsupervised learning,
because in unsupervised learning I
could give you some output.
Here is a dime. Oh, it's a quarter.
It's some output!
Such output has no information.
The information comes from the next one.
I'm going to grade this output.
So that is the information
provided to you.
So I'm not explicitly giving you the
output, but when you choose an output,
I'm going to tell you how
well you're doing.
Reinforcement learning is interesting
because it is mostly our own
experience in learning.
Think of a toddler, and a hot
cup of tea in front of her.
She is looking at it, and
she is very curious.
So she reaches to touch. Ouch!
And she starts crying.
The reward is very negative
for trying.
Now next time she looks at it, and she
remembers the previous experience, and
she doesn't touch it.
But there is a certain level of pain,
because there is an unfulfilled
curiosity.

Portuguese: 
OK, isso é muito bom,
mas não parece muito útil.
Parece, agora, com o aprendizado não supervisionado,
pois no aprendizado não supervisionado,
eu poderia lhe fornecer alguma saída.
Aqui está 1 centavo.
Oh, uma de 25 centavos.
Isso é alguma saída!
Este tipo de saída não
tem nenhuma informação.
A informação aparece
na próxima componente.
Eu vou avaliar esta saída.
Portanto, essa é a informação
fornecida para você.
Então, eu não estou lhe fornecendo explicitamente
a saída, mas quando você escolher uma saída,
eu vou lhe dizer o quão bem
você está se desempenhando.
O aprendizado por reforço é interessante
porque é, principalmente, a nossa própria
experiência em aprendizagem.
Pense em uma criança e uma xícara
de chá quente em frente a ela.
Ela está olhando para a xícara
e ela está muito curiosa.
Então, ela se aproxima para tocar. Ouch!
E ela começa a chorar.
A recompensa é muito negativa ao tentar.
Agora, na próxima vez, ela olha para a
xícara e se lembra da experiência anterior
e ela não a toca.
Mas há um certo nível de dor, porque há
uma curiosidade insatisfeita.

English: 
And curiosity killed the cat. In
three or four trials, the toddler
tries again.
Maybe now it's OK.
And Ouch!
Eventually from just the grade of the
behavior of to touch it or not to
touch it, the toddler will learn not to
touch cups of tea that have smoke
coming out of them.
So that is a case of
reinforcement learning.
The most important application, or one
of the most important applications of
reinforcement learning, is
in playing games.
So backgammon is one of the games,
and think that you want
a system to learn it.
So what you want, you want to take the
current state of the board, and you
roll the dice, and then you decide
what is the optimal move in
order to stand the best chance to win.
That's the game.
So the target function is the
best move given a state.
Now, if I have to generate those things
in order for the system to

Portuguese: 
E a curiosidade matou o gato.
Em três ou quatro tentativas,
a criança tenta novamente.
Talvez, agora, esteja tudo bem.
E... Ouch!
Eventualmente, a partir apenas da
avaliação do comportamento de tocá-la
ou não tocá-la, a criança aprenderá a não
tocar em xícaras de chá que tenham fumaça
saindo delas.
Então, este é um caso do
aprendizado por reforço.
A aplicação mais importante, ou
uma das aplicações mais importantes
do aprendizado por reforço, é em jogos.
Então, o gamão é um tipo de
jogo e pense que você quer
um sistema para aprendê-lo.
Então, o que você quer, você quer
considerar o estado atual do tabuleiro
e você rola os dados e, em seguida,
você decide qual é o movimento ideal
para ter a melhor chance de vencer.
Esse é o jogo.
Assim, a função alvo é a
melhor jogada dado um estado.
Agora, se eu tenho que gerar essas
situações para que o sistema aprenda,

Portuguese: 
então, eu já tenho que ser
um bom jogador de gamão.
Então, agora, é um ciclo vicioso.
Agora, o aprendizado
por reforço vem a calhar.
O que você fará, você deixará
o computador escolher qualquer saída.
Um movimento maluco, tanto faz.
E, depois, você eventualmente
vê o que acontece.
Portanto, este computador está
jogando contra outro computador,
ambos querem aprender.
E você faz um movimento e,
eventualmente, você ganha ou perde.
Então, você propaga de volta o crédito,
por causa da vitória ou da derrota,
de acordo com uma fórmula
muito específica e sofisticada,
em todos os movimentos que aconteceram.
Agora, você acha que isso é completamente
impossível, porque talvez este não seja
o movimento que afetou o
resultado, foi um outro movimento.
Mas sempre se lembre, você
fará isso 100 bilhões de vezes.
Não você, o pobre computador.
Você está sentado bebendo o seu chá.
Um computador está fazendo isso,
jogando contra um adversário imaginário
e eles continuam jogando,
e jogando, e jogando.
E, em três horas de tempo de CPU, você
retorna ao computador... talvez não

English: 
learn, then I must be a pretty good
backgammon player already.
So now it's a vicious cycle.
Now, reinforcement learning
comes in handy.
What you're going to do, you
are going to have the
computer choose any output.
A crazy move, for all you care.
And then see what happens eventually.
So this computer is playing against
another computer, both of
them want to learn.
And you make a move, and eventually
you win or lose.
So you propagate back the credit
because of winning or losing,
according to a very specific and
sophisticated formula, into all the
moves that happened.
Now you think that's completely hopeless,
because maybe this is not the
move that resulted in this,
it's another move.
But always remember, that you are going
to do this 100 billion times.
Not you, the poor computer.
You're sitting down sipping
your tea.
A computer is doing this, playing
against an imaginary opponent, and
they keep playing and
playing and playing.
And in three hours of CPU time, you go
back to the computer-- maybe not three

Portuguese: 
em três horas, talvez três dias de tempo
de CPU... você retorna ao computador
e você tem um campeão de gamão.
Na verdade, isso é verdade.
O campeão do mundo, em algum momento, foi
uma rede neural que aprendeu da maneira que
eu descrevi.
Portanto, é realmente uma abordagem
muito atraente porque, no aprendizado
de máquinas, agora, temos uma
função alvo que não podemos modelar.
Isto cobre uma grande parte das
funções, eu já vi um monte delas.
Temos dados provenientes da função alvo.
Normalmente, eu tenho isso.
E, agora, temos a abordagem de
um homem preguiçoso para a vida.
Vamos sentar, deixar o
computador fazer todo o trabalho
e produzir o sistema que queremos.
Ao invés de estudar o problema
matematicamente, e escrever códigos,
e depuração...
Odeio depuração.
E, então, você continua.
Não, nós não faremos isso.
O algoritmo de aprendizagem
apenas trabalha e produz algo bom.
E nós recebemos o cheque.
Portanto, este é um bom negócio.

English: 
hours, maybe three days of CPU time--
you go back to the computer, and you
have a backgammon champion.
Actually, that's true.
The world champion, at some point, was
a neural network that learned the way
I described.
So it is actually a very attractive
approach, because in machine
learning now, we have a target function
that we cannot model.
That covers a lot of territory,
I've seen a lot of those.
We have data coming from
the target function.
I usually have that.
And now we have the lazy
man's approach to life.
We are going to sit down, and let the
computer do all of the work, and
produce the system we want.
Instead of studying the thing 
mathematically, and writing code, and
debugging--
I hate debugging.
And then you go. No,
we're not going to do that.
The learning algorithm just works,
and produces something good.
And we get the check.
So this is a pretty good deal.

Portuguese: 
Na verdade, é tão bom, que pode
ser bom demais para ser verdade.
Então, vamos realmente examinar
se tudo isso foi uma fantasia.
Então, agora, eu vou lhe fornecer
um desafio de aprendizagem.
Os seres humanos são muito
bons aprendizes, certo?
Então, eu vou, agora, lhe dar um
problema de aprendizagem da forma
que eu descrevi, um problema
de aprendizado supervisionado.
E esse problema de aprendizado supervisionado
lhe dará um conjunto de treinamento,
alguns pontos mapeados para +1,
alguns pontos mapeados para -1.
E, então, eu lhe darei um ponto
de teste que não tem rótulo.
Sua tarefa é olhar para os exemplos,
aprender a função alvo, aplicá-la
ao ponto de teste e, em seguida,
decidir qual é o valor da função.
Depois disso, eu vou perguntar,
quem decidiu que a função é +1
e quem decidiu que a função é -1.
OK? A proposta está clara.
E eu gostaria que o nosso público
externo fizesse a mesma coisa.

English: 
It actually is so good, it might
be too good to be true.
So let's actually examine if
all of this was a fantasy.
So now I'm going to give you
a learning puzzle.
Humans are very good learners, right?
So I'm now going to give you a learning
problem in the form that I
described, a supervised
learning problem.
And that supervised learning problem
will give you a training set, some
points mapped to +1, some
points mapped to -1.
And then I'm going to give you
a test point that is unlabeled.
Your task is to look at the examples,
learn the target function, apply it to
the test point, and then decide what
the value of the function is.
After that, I'm going to ask, who
decided that the function is +1,
and who decided that the
function is -1.
OK? It's clear what the deal is.
And I would like our online audience
to do the same thing.

English: 
And please text what the solution is.
Just +1 or -1.
Fair enough?
Let's start the game.
What is above the line are
the training examples.
I put the input as a three-by-three
pattern in order to be visually easy
to understand.
But this is just really nine
bits worth of information.
And they are ones and zeros,
black and white.
And for this input, this input, and this
input, the value of the target
function is -1.
For this input, this input, and this
input, the value of the target
function is +1.
Now this is your data set, this
is your training set.
Now you should learn the function.
And when you're done, could you please
tell me what your function will return
on this test point?
Is it +1 or -1.

Portuguese: 
E, por favor, envie qual é a solução.
Apenas +1 ou -1.
Justo?
Vamos começar o jogo.
O que está acima da reta são
os exemplos de treinamento.
Eu coloquei a entrada como um padrão de
três por três, para ser visualmente fácil
de entender.
Mas, na verdade, são apenas
nove variáveis com informações.
E elas são zeros e uns, preto e branco.
E, para esta entrada, esta
entrada e esta entrada,
o valor da função alvo é -1.
Para esta entrada, esta
entrada e esta entrada,
o valor da função alvo é +1.
Agora, este é o seu conjunto de dados,
este é o seu conjunto de treinamento.
Agora, você deve aprender a função.
E, quando você tiver terminado, você poderia,
por favor, me dizer o que a sua função retornará
neste ponto de teste?
Será +1 ou -1?

English: 
I will give everybody 30 seconds
before I ask for an answer.
Maybe we should have some
background music?
OK, time's up.
Your learning algorithm
has converged, I hope.
And now we apply it here, and I ask
people here, who says it's +1?
Thank you.
Who says it's -1?
Thank you.
I see that the online audience
also contributed?
MODERATOR: Yeah, the big
majority says +1.
PROFESSOR: But
are there -1's?
MODERATOR: Two -1's.
PROFESSOR: Cool.
I don't care if it's
a +1 or -1.
What I care about is that
I get both answers.
That is the essence of it.
Why do I care?

Portuguese: 
Eu darei a todos 30 segundos
antes de eu perguntar a resposta.
Talvez devêssemos ter
alguma música de fundo?
OK, o tempo acabou.
O seu algoritmo de aprendizagem
convergiu, eu espero.
E, agora, vamos aplicá-lo aqui, e eu
pergunto às pessoas, aqui, quem diz que é +1?
Obrigado.
Quem diz que é -1?
Obrigado.
Eu vejo que o público
externo também contribuiu?
MODERADOR: Sim, a grande maioria diz +1.
PROFESSOR: Mas existem -1's?
MODERADOR: Dois -1's.
PROFESSOR: Interessante.
Eu não me importo se é um +1 ou -1.
O que me interessa é que eu
obtenho ambas as respostas.
Essa é a essência do desafio.
Por que eu me importo?

English: 
Because in reality, this
is an impossible task.
I told you the target
function is unknown.
It could be anything,
really anything.
And now I give you the value of the
target function at 6 points.
Well, there are many functions that
fit those 6 points, and behave
differently outside.
For example, if you take the function
to be +1 if the top left square
is white, then this should
be -1, right?
If you take the function to be +1
if the pattern is symmetric--
let's see, I said it
the other way around.
So the top one is black,
it would be -1.
So this would be -1.

Portuguese: 
Porque, na prática, esta
é uma tarefa impossível.
Eu lhe disse que a função
alvo é desconhecida.
Poderia ser qualquer função,
realmente qualquer função.
E, agora, eu lhe forneço o valor
da função alvo em seis pontos.
Bom, há muitas funções que ajustam
esses seis pontos e se comportam
de forma diferente em novos pontos.
Por exemplo, se você considerar a função
como sendo +1 se o quadrado superior esquerdo
for branco, então, este
padrão deveria ser -1, certo?
Se você considerar a função como
sendo +1 se o padrão for simétrico...
vamos ver, eu disse ao contrário.
Então, o de cima é preto, seria -1.
Portanto, este seria -1.

Portuguese: 
Se for simétrica, isto seria +1.
Portanto, este seria +1,
porque esse padrão tem ambos...
este quadrado é preto e o
padrão também é simétrico.
Certo?
E você pode encontrar
infinitas variedades como esta.
E este problema não se
restringe apenas a este caso.
O problema aqui é óbvio.
A função é desconhecida.
Você realmente quer
dizer desconhecida, certo?
Sim, eu quero dizer.
Desconhecido... qualquer função?
Sim, isso mesmo.
Está bem.
Você me fornece uma amostra finita,
pode ter qualquer valor em novos pontos.
Como será possível dizer qual será
o aprendizado em novos pontos?
OK, isso soa correto.
Mas estamos em apuros, porque
essa é a premissa da aprendizagem.
Se o objetivo fosse memorizar
os exemplos que eu lhe dei,
isso seria memorização,
e não aprendizagem.
Aprender é descobrir um padrão
que se aplica a novos pontos.
E, agora, percebemos que, em novos
pontos, eu não posso dizer nada.
Será que isso significa que
a aprendizagem está condenada?

English: 
If it's symmetric, it would be +1.
So this would be +1, because
this guy has both-- this is
black, and also it is symmetric.
Right?
And you can find infinite
variety like that.
And that problem is not restricted
to this case.
The question here is obvious.
The function is unknown.
You really mean unknown, right?
Yes, I mean it.
Unknown-- anything?
Yes, I do.
OK.
You give me a finite sample,
it can be anything outside.
How in the world am I going to tell
what the learning outside is?
OK, that sounds about right.
But we are in trouble, because that's
the premise of learning.
If the goal was to memorize the examples
I gave you, that would be
memorizing, not learning.
Learning is to figure out a pattern
that applies outside.
And now we realize that outside,
I cannot say anything.
Does this mean that learning
is doomed?

English: 
Well, this is going to be
a very short course!
Well, the good news is that learning
is alive and well.
And we are going to show that, without
compromising our basic premise.
The target function will
continue to be unknown.
And we still mean unknown.
And we will be able to learn.
And that will be the subject
of the next lecture.
Right now, we are going to go for
a short break, after which we are going
to take the Q&A. 
We'll start the Q&A, and we will get
questions from the class here, and
from the online audience.
And if you'd like to ask a question, let
me ask you to go to this side of

Portuguese: 
Bom, esse será um curso bastante curto!
Bom, a boa notícia é que a
aprendizagem está viva e passa bem.
E nós vamos mostrar isso, sem
comprometer a nossa premissa básica.
A função alvo continuará
a ser desconhecida.
E ainda queremos dizer desconhecida.
E nós seremos capazes de aprender.
E este será o tema da próxima aula.
Agora, nós teremos uma pequena
pausa, após a qual teremos
o Perguntas e Respostas.
Vamos começar o Perguntas e Respostas
e aceitaremos perguntas da classe
e do público externo.
E, se você quiser fazer uma
pergunta, deixe-me lhe pedir para ir

English: 
the room where the mic is, so that
your question can be heard.
And we will alternate, if there are
questions here, we will alternate
between campus and off campus.
So let me start if there is
a question from outside.
MODERATOR: Yes, so the most common
question is, how do you determine if
a set of points is linearly
separable, and what do you do
if they're not separable.
PROFESSOR: The linear separability
assumption is a very
simplistic assumption, and doesn't
apply mostly in practice.
And I chose it only because it goes with
a very simple algorithm, which is
the perceptron learning algorithm.
There are two ways to deal with the
case of linear inseparability.
There are algorithms, and most
algorithms actually deal with that
case, and there's also a technique that
we are going to study next
week, which will take a set of points
which is not linearly separable, and
create a mapping that makes
them linearly separable.

Portuguese: 
para este lado da sala, onde está o microfone,
para que a sua pergunta possa ser ouvida.
E vamos alternar, se houver
perguntas aqui, vamos alternar
entre o campus e fora do campus.
Portanto, deixe-me começar,
se houver uma questão externa.
MODERADOR: Sim, então, a pergunta
mais comum é: como você determina
se um conjunto de pontos é
linearmente separável e o que você faz
se os pontos não forem separáveis.
PROFESSOR: A suposição
de separabilidade linear
é uma suposição muito simplista e não se
aplica na maior parte dos casos práticos.
E eu a escolhi apenas porque ela é
resolvida por um algoritmo muito simples,
que é o algoritmo de
aprendizagem do perceptron.
Há duas maneiras de lidar com o
caso da inseparabilidade linear.
Há algoritmos, e a maioria dos
algoritmos realmente lidam com
esse caso, e há também uma técnica
que vamos estudar na próxima aula,
que vai considerar um conjunto de
pontos que não é linearmente separável
e criar um mapeamento que torne
os pontos linearmente separáveis.

English: 
So there is a way to deal with it.
However, the question how do you
determine it's linearly separable, the
right way of doing it in practice is
that, when someone gives you data, you
assume in general it's not
linearly separable.
It will hardly ever be, and therefore
you take techniques that can deal with
that case as well.
There is a simple modification of the
perceptron learning algorithm, which
is called the pocket algorithm,
that applies the same rule with a very
minor modification, and deals with the
case where the data is not separable.
However, if you apply the perceptron
learning algorithm, that is guaranteed
to converge to a correct solution in the
case of linear separability, and
you apply it to data that is not
linearly separable, bad things happen.
Not only is it going not to converge,
obviously it is not going to converge
because it terminates when there are
no misclassified points, right?
If there is a misclassified point, then
there's a next iteration always.
So since the data is not linearly
separable, we will never come to
a point where all the points
are classified correctly.

Portuguese: 
Portanto, há uma maneira
de lidar com isso.
No entanto, a pergunta sobre como você
determina se eles são linearmente separáveis,
a maneira correta de fazê-lo, na prática, é a
seguinte, quando alguém lhe fornece os dados,
você assume, em geral, que os pontos
não são linearmente separáveis.
Quase nunca serão e, portanto, você
considera técnicas que possam lidar
com esse caso, também.
Existe uma modificação simples no
algoritmo de aprendizagem do perceptron,
que é chamada de algoritmo de bolso,
que aplica a mesma regra com uma
modificação muito pequena e lida
com o caso em que os
dados não são separáveis.
No entanto, se você aplicar o algoritmo de
aprendizagem do perceptron, que é garantido
de convergir para uma solução correta
no caso da separabilidade linear,
e aplicá-lo a dados que não são linearmente
separáveis, coisas ruins acontecem.
Não apenas ele não vai convergir,
obviamente não vai convergir
porque ele termina quando não há pontos
classificados erroneamente, certo?
Se há um ponto classificado erroneamente,
então, há sempre uma próxima iteração.
Então, como os dados não são
linearmente separáveis, nunca chegaremos
a um ponto em que todos os pontos
estão classificados corretamente.

English: 
So this is not what is bothering us.
What is bothering us is that, as you go
from one step to another, you can
go from a very good solution
to a terrible solution.
In the case of no linear separability.
So it's not an algorithm that you
would like to use, and just
terminate by force at an iteration.
A modification of it can be used this
way, and I'll mention it briefly when
we talk about linear regression
and other linear methods.
MODERATOR: There's also a question of
how does the rate of convergence of
the perceptron change with the
dimensionality of the data?
PROFESSOR: Badly!
That's the answer.
Let me put it this way.
You can build pathological cases, where
it really will take forever.
However, I did not give the perceptron
learning algorithm in the first
lecture to tell you that this is
the great algorithm that you
need to learn.
I gave it in the first lecture,
because this is simplest
algorithm I could give.
By the end of this course,
you'll be saying, what?
Perceptron?
Never heard of it.

Portuguese: 
Então, isto não é o que
está nos incomodando.
O que está nos incomodando é que, enquanto
você prossegue de uma etapa para a outra,
você pode passar de uma solução
muito boa para uma solução horrível.
No caso da não separabilidade linear.
Portanto, não é um algoritmo
que você gostaria de usar
e apenas terminar à
força em uma iteração.
Uma modificação pode ser usada com base nesta
ideia e eu vou mencioná-la rapidamente quando
estudarmos a regressão linear
e outros métodos lineares.
MODERADOR: Há também uma pergunta
sobre como a taxa de convergência
do perceptron varia com a
dimensionalidade dos dados?
PROFESSOR: Muito mal!
Esta é a resposta.
Deixe-me colocar desta forma.
Você pode construir casos patológicos nos
quais realmente vai demorar uma eternidade.
No entanto, eu não apresentei o
algoritmo de aprendizagem do perceptron
na primeira aula para lhe dizer
que este é o grande algoritmo que
você precisa aprender.
Eu o introduzi na primeira
aula porque este é o algoritmo
mais simples que eu poderia introduzir.
Ao final deste curso,
você estará dizendo, o quê?
Perceptron?
Nunca ouvi falar disso.

English: 
So it will go out of contention, after we
get to the more interesting stuff.
But as a method that can be used, it
indeed can be used, and can be
explained in five minutes
as you have seen.
MODERATOR: Regarding the items for
learning, you mentioned that there
must be a pattern.
So can you be more specific about that?
How do you know if there's a pattern?
PROFESSOR: You don't.
My answers seem to be very abrupt,
but that's the way it is.
When we get to the theory--
is learning feasible-- it will
become very clear that there is
a separation between the target
function-- there is
a pattern to detect--
and whether we can learn it.
It is very difficult for me to explain
it in two minutes, it will take a full
lecture to get there.
But the essence of it is that you take
the data, you apply your learning
algorithm, and there is something you
can explicitly detect that will
tell you whether you learned or not.
So in some cases, you're not
going to be able to learn.
In some cases, you'll be able to learn.

Portuguese: 
Então, ele sairá do contexto depois que
chegarmos aos métodos mais interessantes.
Mas, como um método que pode ser
utilizado, ele realmente pode ser usado,
e pode ser explicado em
cinco minutos como você viu.
MODERADOR: Com relação aos componentes
da aprendizagem, você mencionou
que deve haver um padrão.
Assim, você pode ser mais
específico com relação a isso?
Como você sabe se há um padrão?
PROFESSOR: Você não sabe.
Minhas respostas parecem ser
muito abruptas, mas é assim que é.
Quando estudarmos a teoria... a
aprendizagem é viável e outras ideias...
ficará bastante claro que existe
uma separação entre a função alvo...
há um padrão para detectar...
e quando podemos aprendê-lo.
É muito difícil para mim explicar
isso em dois minutos, vai demorar
uma aula inteira para você compreender.
Mas, a principal ideia é que, você recebe
os dados, você aplica o seu algoritmo
de aprendizagem e há algo que você
pode explicitamente detectar que
lhe dirá se você aprendeu ou não.
Assim, em alguns casos, você
não será capaz de aprender.
Em alguns casos, você
será capaz de aprender.

English: 
And the key is that you're going
to be able to tell by
running your algorithm.
And I'm going to explain that
in more details later on.
So basically, I'm also resisting
taking the data, deciding
whether it's linearly separable, looking
at it and seeing. You will
realize as we go through that it's
a no-no to actually look at the data.
What?
That's what data is for, to look at.
Bear with me.
We will come to the level where we ask
why don't we look at the data--
just looking at it and then saying:
It's linearly separable.
Let's pick the perceptron.
That's bad practice, for reasons
that are not obvious now.
They will become obvious, once we
are done with the theory.
So when someone knocks on my door with
a set of data, I can ask them all
kinds of questions about the data-- not
the particular data set that they gave
me, but about the general data that
is generated by their process.

Portuguese: 
E o importante é que
você será capaz de saber
ao executar o seu algoritmo.
E eu irei explicar isso em
mais detalhes futuramente.
Portanto, basicamente, eu também
estou resistindo a considerar os dados,
decidir se é linearmente
separável, olhando para ele e vendo.
Você perceberá, quando avançarmos com o curso,
que é realmente proibido olhar para os dados.
O quê?
Este é o propósito dos
dados, olhar para eles.
Tenha paciência comigo.
Nós avançaremos tanto que vamos perguntar
por que não olhamos para os dados...
apenas olhar para eles e, em seguida,
dizer: é linearmente separável.
Vamos escolher o perceptron.
Esta é uma prática ruim, por
razões que não são óbvias agora.
Elas se tornarão evidentes
quando terminarmos a teoria.
Assim, quando alguém bate à minha porta
com um conjunto de dados, eu posso fazer
todos os tipos de perguntas sobre os dados... não sobre
o conjunto de dados específico que eles me forneceram,
mas sobre os dados que são
gerados pelo mesmo processo.

Portuguese: 
Eles podem me dizer que esta variável
é importante, a função é simétrica,
eles podem me dar todos os tipos de
informação que eu vou considerar no modelo.
Mas eu vou tentar, o máximo que eu puder,
evitar olhar para o conjunto de dados
específico que eles me forneceram, para que eu não
adapte o meu sistema na direção desse conjunto de dados
e fique decepcionado quando um
outro conjunto de dados aparecer.
Você não quer ficar muito
perto do conjunto de dados.
Isso ficará muito claro
quando avançarmos com a teoria.
MODERADOR: Em geral, sobre
o aprendizado de máquinas,
como ele se relaciona a outras técnicas
estatísticas, especialmente técnicas econométricas?
PROFESSOR: A estatística é, como
eu disse, um aprendizado de máquinas
no qual o alvo...
não é uma função, neste caso... é
uma distribuição de probabilidade.
A estatística é uma área matemática.
E, portanto, você considera as suposições
que você precisa para ser capaz de,
rigorosamente, provar os resultados que
você tem e obter os resultados em detalhes.
Por exemplo, a regressão linear.
Quando estudarmos a regressão linear,
ela terá muito poucas premissas

English: 
They can tell me this variable is
important, the function is symmetric,
they can give you all kinds of
information that I will take to heart.
But I will try, as much as I can, to 
avoid looking at the particular data
set that they gave me, lest I should
tailor my system toward this data set,
and be disappointed when another
data set comes about.
You don't want to get too
close to the data set.
This will become very clear
as we go with the theory.
MODERATOR: In general about
machine learning, how does it
relate to other statistical, especially
econometric techniques?
PROFESSOR: Statistics is, in
the form I said, it's machine
learning where the target--
it's not a function in this case--
is a probability distribution.
Statistics is a mathematical field.
And therefore, you put the assumptions
that you need in order to be able to
rigorously prove the results you have,
and get the results in detail.
For example, linear regression.
When we talk about linear regression, it
will have very few assumptions, and

English: 
the results will apply to a wide range,
because we didn't make too many
assumptions.
When you study linear regression under
statistics, there is a lot of
mathematics that goes with it, lot of
assumptions, because that is the
purpose of the field.
In general, machine learning tries to make
the least assumptions and cover the
most territory. These go together.
So it is not a mathematical discipline,
but it's not a purely
applied discipline.
It spans both the mathematical, to
certain extent, but it is willing to
actually go into territory where we
don't have mathematical models, and
still want to apply our techniques.
So that is what characterizes
it the most.
And then there are other fields.
By doing machine learning,
you can find it under the name
computational learning,
or statistical learning.
Data mining has a huge intersection
with machine learning.
There are lots of disciplines around
that actually share some value.
But the point is, the premise that you
saw is so broad, that it shouldn't be

Portuguese: 
e os resultados se aplicarão a uma grande
variedade de situações, porque não fizemos muitas
suposições.
Quando você estuda a regressão linear em
estatística, existe uma grande quantidade
de matemática correspondente,
muitas suposições,
porque esse é o propósito dessa área.
Em geral, o aprendizado de máquinas tenta
fazer o mínimo de suposições e cobrir
uma maior área. Estas
afirmações aparecem juntas.
Portanto, não é uma área
matemática, mas não é puramente
uma área aplicada.
Ela abrange ambas, a matemática,
até certo ponto, mas está disposta a,
na verdade, entrar em um território
no qual não temos modelos matemáticos
e ainda queremos aplicar
as nossas técnicas.
Portanto, isso é o que melhor
caracteriza o aprendizado de máquinas.
E, então, há outras áreas. Ao
trabalhar com o aprendizado de máquinas,
você pode encontrá-lo com o nome
de aprendizagem computacional,
ou aprendizagem estatística.
A mineração de dados tem uma grande
interseção com o aprendizado de máquinas.
Há muitas áreas científicas que realmente
compartilham ideias com o aprendizado de máquinas.
Mas o importante é, a premissa que
você viu é tão ampla que não deveria

Portuguese: 
ser surpreendente que as pessoas, em momentos
diferentes, desenvolveram uma área específica,
com o seu próprio jargão,
para lidar com essa ideia.
Portanto, o que eu estou fornecendo a você é o
aprendizado de máquinas como um conhecimento geral
que pode ser aplicado o mais
amplamente possível em aplicações,
ambas aplicações práticas e científicas.
Você verá, aqui está uma situação, eu tenho
um experimento, aqui está uma função alvo,
eu tenho os dados.
Como eu produzo a função alvo
da melhor forma que eu quiser?
E, então, você aplica o
aprendizado de máquinas.
MODERADOR: Outra pergunta geral
sobre o aprendizado de máquinas.
Os algoritmos de aprendizado de máquinas
utilizam métodos globais de otimização
ou apenas métodos locais de otimização?
PROFESSOR: Obviamente,
é uma questão geral.
A otimização é uma ferramenta
para o aprendizado de máquinas.
Então, vamos escolher qualquer
otimização que faça o trabalho por nós.
E, às vezes, há um método de
otimização muito específico.

English: 
surprising that people at different times
developed a particular discipline
with its own jargon, to deal
with that discipline.
So what I'm giving you is machine
learning as the mainstream goes, and
that can be applied as widely as
possible to applications, both
practical applications and
scientific applications.
You will see, here is a situation, I
have an experiment, here is a target,
I have the data.
How do I produce the target
in the best way I want?
And then you apply machine learning.
MODERATOR: Also, in a general
question about machine learning.
Do machine learning algorithms perform
global optimization methods,
or just local optimization methods?
PROFESSOR: Obviously,
a general question.
Optimization is a tool
for machine learning.
So we will pick whatever optimization
that does the job for us.
And sometimes, there is a very
specific optimization method.

Portuguese: 
Por exemplo, em máquinas de vetores
de suporte, será a programação
quadrática.
É o método que funciona com SVM.
Mas a otimização não é algo que os
pesquisadores em aprendizado de máquinas
estudam pelo seu próprio bem.
Eles, obviamente, a estudam
para compreendê-la melhor
e escolher o método
de otimização correto.
Agora, a pergunta está
aludindo a algo que ficará
claro quando estudarmos as redes
neurais, que é um mínimo local
em relação a um mínimo global
e problemas semelhantes.
E é impossível colocar isso em
qualquer perspectiva antes de chegarmos
aos detalhes das redes neurais,
por isso eu vou adiar a resposta
até chegarmos a esta aula.
MODERADOR: Adicionalmente, esta é uma
pergunta sobre matemática, eu acho.
O conjunto de hipóteses, em um
sentido topológico, é contínuo?
PROFESSOR: O conjunto de hipóteses
pode ser qualquer coisa, em princípio.
Então, pode ser contínuo
e pode ser discreto.
Por exemplo, na próxima aula eu considerarei
um caso bem simples no qual temos
um conjunto de hipóteses finito,
para estabelecer uma certa ideia.

English: 
For example, in support vector
machines, it will be quadratic
programming.
It happens to be the one
that works with that.
But optimization is not something
that machine learning people
study for its own sake.
They obviously study it to understand
it better, and to choose the correct
optimization method.
Now, the question is alluding
to something that will
become clear when we talk about neural
networks, which is local minimum versus
global minimum.
And it is impossible to put this in
any perspective before we get the
details of neural networks,
so I will defer that until
we get to that lecture.
MODERATOR: Also, this is
a math question, I guess.
Is the hypothesis set, in a topological
sense, continuous?
PROFESSOR: The hypothesis
set can be anything, in principle.
So it can be continuous,
and it can be discrete.
For example, in the next lecture I take
the simplest case where we have
a finite hypothesis set, in order
to make a certain point.

Portuguese: 
Na prática, quase todos os conjuntos
de hipóteses que você encontra
são contínuos e infinitos.
Muito infinitos!
E o nível de sofisticação do
conjunto de hipóteses pode ser enorme.
E, mesmo assim, seremos capazes
de ver que, com uma condição,
que aparece na teoria, nós seremos capazes
de aprender, mesmo que o conjunto de hipóteses
seja enorme e complicado.
Há uma pergunta do público interno, sim?
ALUNO: Eu acho que eu entendi,
mais ou menos, a ideia geral,
mas eu não entendo o segundo exemplo que
você deu sobre a aprovação de crédito.
Então, como coletamos os nossos dados?
Devemos dar crédito a todos, ou
devemos fazer nossos dados tendenciosos,
porque não podemos
determinar os dados de...
não podemos determinar, deveríamos ter dado
crédito ou não para as pessoas que nós rejeitamos?
PROFESSOR: Correto.

English: 
In reality, almost all the hypothesis
sets that you find are
continuous and infinite.
Very infinite!
And the level of sophistication
of the hypothesis set can be huge.
And nonetheless, we will be able to see
that under one condition, which
comes from the theory, we'll be able to
learn even if the hypothesis set is
huge and complicated.
There's a question from inside, yes?
STUDENT: I think I understood, more or
less, the general idea, but I don't
understand the second example
you gave about credit approval.
So how do we collect our data?
Should we give credit to everyone, or
should we make our data biased,
because we cannot determine
the data of--
we can't determine, should we give credit
or not to persons we rejected?
PROFESSOR: Correct.

English: 
This is a good point. Every time
someone asks a question, the
lecture number comes to my mind.
I know when I'm going
to talk about it.
So what you describe is
called sampling bias.
And I will describe it in detail.
But when you use the biased data, let's
say the bank uses historical records.
So it sees the people who applied and
were accepted, and for those guys, it
can actually predict what the credit
behavior is, because it has their
credit history.
They charged and repaid and maxed
out, and all of this.
And then they decide: is this
a good customer or not?
For those who were rejected, there's
really no way to tell in this case
whether they were falsely rejected,
that they would have been good
customers or not.
Nonetheless, if you take the customer
base that you have, and base your
decision on it, the boundary
works fairly decently.
Actually, pretty decently, even for the
other guys, because the other guys
usually are deeper into the
classification region than the
boundary guys that you accepted,
and turned out to be bad.

Portuguese: 
Este é um bom argumento. Toda
vez que alguém faz uma pergunta,
o número da aula vem à minha mente.
Eu sei quando eu vou falar sobre isso.
Então, o que você descreve é
chamado de viés de amostragem.
E eu vou descrevê-lo em detalhes.
Mas, quando você usa dados tendenciosos,
digamos que o banco use os registros históricos.
Portanto, ele analisa as pessoas que solicitaram
e foram aceitas e, para essas pessoas,
ele pode realmente prever qual é o
comportamento de crédito, porque o banco tem
o seu histórico de crédito.
Eles cobraram, eles pagaram,
estouraram o limite e tudo isso.
E, então, eles decidem:
este é um bom cliente ou não?
Para aqueles que foram rejeitados, não há
realmente nenhuma maneira de dizer, neste caso,
se eles foram falsamente
rejeitados, se eles teriam sido
bons clientes ou não.
Entretanto, se você considerar
a base de clientes que você tem
e basear a sua decisão nela, a fronteira
de decisão funciona decentemente bem.
Na verdade, muito decentemente, mesmo para
as outras pessoas, porque as outras pessoas,
geralmente, estão mais no fundo
na região de classificação do que
as pessoas da fronteira que você
aceitou e que acabaram sendo ruins.

Portuguese: 
Mas a observação é bem colocada.
O conjunto de dados, neste caso,
não é totalmente representativo
e há um princípio específico na
aprendizagem que vamos estudar,
que é o viés de amostragem,
que lida com este caso.
Outra pergunta do público interno?
ALUNO: Você explicou que é preciso ter uma
grande quantidade de dados para aprender.
Assim, como você decide a quantidade
de dados que será necessária
para um problema específico, para
ser capaz de encontrar uma razoável...
PROFESSOR: Boa pergunta.
Então, deixe-me lhe dizer a resposta
teórica e a resposta prática.
A resposta teórica é que este é
exatamente o ponto crucial da parte teórica
que vamos estudar.
E, na teoria, veremos, podemos aprender?
E a quantidade de dados.
Então, tudo isso será
respondido de forma matemática.
Portanto, esta é a resposta teórica.
A resposta prática é: isto
não está sob o seu controle.
Quando alguém bate à sua porta: aqui
estão os dados, eu tenho 500 pontos.

English: 
But the point is well taken.
The data set in this case is not
completely representative, and there
is a particular principle in learning
that we'll talk about, which is
sampling bias, that deals
with this case.
Another question from here?
STUDENT: You explain that we need
to have a lot of data to learn.
So how do you decide how much amount
of data that is required for
a particular problem, in order to be
able to come up with a reasonable--
PROFESSOR: Good question.
So let me tell you the theoretical,
and the practical answer.
The theoretical answer is that this is
exactly the crux of the theory part
that we're going to talk about.
And in the theory, we are going
to see, can we learn?
And how much data.
So all of this will be answered
in a mathematical way.
So this is the theoretical answer.
The practical answer is: that's
not under your control.
When someone knocks on your door: Here
is the data, I have 500 points.

English: 
I tell him, I will give you
a fantastic system if you
just give me 2000.
But I don't have 2000, I have 500.
So now you go and you use your theory
to do something to your system, such
that it can work with the 500.
There was one case--
I worked with data in different
applications--
at some point, we had almost
100 million points.
You were swimming in data.
You wouldn't complain about data.
Data was wonderful.
And in another case, there were
less than 100 points.
And you had to deal with
the data with gloves!
Because if you use them the wrong way,
they are contaminated, which is
an expression we will see, and
then you have nothing.
And you will produce a system, and you
are proud of it, but you have no idea
whether it will perform well or not.
And you cannot give this to the customer,
and have the customer come
back to you and say: what did you do!?
So there is a question of, what
performance can you do given
what data size you have?

Portuguese: 
Eu digo a ele, vou lhe fornecer
um sistema fantástico se você
me der 2.000 pontos.
Mas eu não tenho 2.000,
eu tenho 500 pontos.
Então, agora, você prossegue e usa a sua
teoria para fazer algo com o seu sistema,
de forma que ele possa
trabalhar com os 500 pontos.
Houve um caso...
Eu trabalhei com dados em
diferentes aplicações...
em um momento, tínhamos
quase 100 milhões de pontos.
Você estava nadando em dados.
Você não iria reclamar sobre os dados.
Os dados eram maravilhosos.
E, em outro caso, havia
menos de 100 pontos.
E você tinha que lidar
com os dados com luvas!
Porque, se você os usar da maneira
errada, eles são contaminados,
que é uma expressão que veremos,
e então você não tem nada.
E você vai produzir um sistema, e você está
orgulhoso dele, mas você não tem nenhuma ideia
se ele terá um bom desempenho ou não.
E você não pode dar isso
para o cliente e ver o cliente
voltar e dizer: o que você fez?
Portanto, há uma questão sobre...
qual desempenho você pode ter
dada a quantidade de dados que você tem?

English: 
But in practice, you really have no
control over the data size in almost
all the cases, almost all
the practical cases.
Yes?
STUDENT: Another question I have
is regarding the hypothesis set.
So the larger the hypothesis set
is, probably I'll be able to
better fit the data.
But that, as you were explaining, might
be a bad thing to do because
when the new data point comes,
there might be troubles.
So how do you decide
the size of your--
PROFESSOR: You are asking all
the right questions, and all of
them are coming up.
This is again part of the theory,
but let me try to explain this.
As we mentioned, learning is about
being able to predict.
So you are using the data, not to
memorize it, but to figure out what
the pattern is.
And if you figure out a pattern that
applies to all the data, and it's
a reasonable pattern, then you
have a chance that it
will generalize outside.
Now the problem is that, if I give you
50 points, and you use a 7000th-order
polynomial, you will fit the
heck out of the data.

Portuguese: 
Mas, na prática, você realmente não
tem controle sobre o tamanho dos dados
em quase todos os casos,
quase todos os casos práticos.
Sim?
ALUNO: Outra questão que eu tenho é
com relação ao conjunto de hipóteses.
Assim, quanto maior o conjunto de
hipóteses, provavelmente eu serei capaz
de ajustar melhor os dados.
Mas isso, como você estava explicando,
pode ser algo ruim a se fazer, porque,
quando um novo ponto for
analisado, pode haver problemas.
Assim, como você decide
o tamanho do seu...
PROFESSOR: Você está perguntando
todas as perguntas certas
e todas elas serão estudadas.
Isto é, mais uma vez, parte da teoria,
mas deixe-me tentar explicar isso.
Como mencionamos, a aprendizagem
é sobre ser capaz de prever.
Então, você está usando os dados, não
para memorizá-los, mas para descobrir
qual é o padrão.
E, se você descobrir um padrão
que se aplica a todos os dados,
e for um padrão razoável,
então você tem uma chance de que
ele vai generalizar em novos casos.
Agora, o problema é que, se eu lhe
der 50 pontos e você usar um polinômio
de ordem 7.000, você vai
realmente ajustar os dados.

Portuguese: 
Você vai ajustá-los tão bem, com
tantos graus de liberdade extras,
mas você não aprendeu nada.
Você apenas memorizou
de forma sofisticada.
Você os colocou em uma forma
polinomial que, na verdade, contém toda
a informação sobre os dados que você tem
e algo a mais.
Então, você não espera, de modo algum, que
o modelo vai generalizar em novos casos.
E essa observação
intuitiva será formalizada
quando estudarmos a teoria.
Haverá uma medida para o conjunto
de hipóteses que você me fornece,
que mede a sofisticação
deste conjunto e lhe dirá,
com esta sofisticação, você precisa dessa
quantidade de dados para ser capaz de fazer
qualquer afirmação
sobre a generalização.
Então, é disso que se trata a teoria.
ALUNO: Suponha, quero dizer,
tudo o que discutimos aqui,
é como se eu tivesse um conjunto de dados, e
eu apliquei um algoritmo, e ele teve uma saída.
Mas, não seria também importante
ver, OK, nós encontramos a saída e,
usando isso, qual foi o retorno?
Existem técnicas nas quais
você considera o retorno
e tenta corrigir o seu...

English: 
You will fit it so much with so many
degrees of freedom to spare, but you
haven't learned anything.
You just memorized it in a fancy way.
You put it in a polynomial form, and
that actually carries all the
information about the
data that you have,
and then some.
So you don't expect at all that
this will generalize outside.
And that intuitive observation
will be formalized when we
talk about the theory.
There will be a measurement of the
hypothesis set that you give me, that
measures the sophistication of it,
and will tell you with that
sophistication, you need that amount
of data in order to be able to make
any statement about generalization.
So that is what the theory is about.
STUDENT: Suppose, I mean, here
whatever we discussed, it is like I
had a data set and I came up with
an algorithm, and gave the output.
But won't it be also important to see,
OK, we came up with the output, and
using that, what was the feedback?
Are there techniques where you take
the feedback and try to
correct your--

English: 
PROFESSOR: You are alluding
to different techniques here.
But one of them would be validation,
which is after you learn, you validate
your solution.
And this is an extremely established and
core technique in machine learning
that will be covered in
one of the lectures.
Any questions from the online audience?
MODERATOR: In practice, how many
dimensions would be considered easy,
medium, and hard for
a perceptron problem?
PROFESSOR: The hard,
in most people's mind before they
get into machine learning, is the
computational time.
If something takes a lot of time,
then it's a hard problem.
If something can be computed quickly,
it's an easy problem.
For machine learning, the bottleneck
in my case, has never been the
computation time, even in
incredibly big data sets.
The bottleneck for machine learning is
to be able to generalize outside the
data that you have seen.

Portuguese: 
PROFESSOR: Você está fazendo
alusão a diferentes técnicas aqui.
Mas uma delas seria a validação, que
é, depois que você aprende, você valida
a sua solução e assim por diante.
E esta é uma técnica muito bem estabelecida
e essencial no aprendizado de máquinas
que será abordada em uma das aulas.
Alguma pergunta do público externo?
MODERADOR: Na prática, quantas
dimensões seriam consideradas fácil,
médio e difícil para um
problema utilizando o perceptron?
PROFESSOR: Difícil, na mente da maioria das pessoas,
antes delas estudarem o aprendizado de máquinas,
é o tempo computacional.
Se algo demora um grande tempo,
então é um problema difícil.
Se algo pode ser calculado
rapidamente, é um problema fácil.
Para o aprendizado de máquinas,
o gargalo, no meu caso, nunca foi
o tempo computacional, mesmo em
conjuntos de dados extremamente grandes.
O gargalo para o aprendizado de máquinas é
a capacidade de generalizar em novos casos
os dados que você analisou.

Portuguese: 
Então, para responder a sua pergunta,
o perceptron se comporta mal em termos
do comportamento computacional.
Nós seremos capazes de prever o
seu comportamento de generalização
com base no número de dimensões
e na quantidade de dados.
Isso será determinado explicitamente.
E, portanto, o algoritmo do
perceptron é ruim computacionalmente,
mas bom em termos de generalização.
Se você realmente puder utilizar
perceptrons, as suas chances
de generalização são boas,
porque é um modelo simplista e,
portanto, a sua capacidade de
generalizar é boa, como veremos.
MODERADOR: Além disso, no exemplo você
explica o uso de uma função binária.
Então, você pode usar funções com
vários valores ou valores reais?
PROFESSOR: Correto.
Lembre-se que eu lhe disse que há
um tópico que está fora da sequência.
Houve uma sequência lógica para
o curso e, então, eu peguei parte
dos modelos lineares e coloquei bem
no início, para lhe dar algo um pouco
mais sofisticado do que os
perceptrons, para você experimentar.

English: 
So to answer your question, the
perceptron behaves badly in terms of
the computational behavior.
We will be able to predict its
generalization behavior, based on the
number of dimensions and
the amount of data.
This will be given explicitly.
And therefore, the perceptron algorithm
is bad computationally, good
in terms of generalization.
If you actually can get away with
perceptrons, your chances of
generalizing are good because
it's a simplistic
model, and therefore its ability to
generalize is good, as we will see.
MODERATOR: Also, in the example you
explain the use of binary function.
So can you use more multi-valued
or real functions?
PROFESSOR: Correct.
Remember when I told you that there is
a topic that is out of sequence.
There was a logical sequence to the
course, and then I took part of the
linear models and put it very early on,
to give you something a little bit
more sophisticated than perceptrons
to try your hand on.

English: 
That happens to be for
real-valued functions.
And obviously there are hypotheses that
cover all types of co-domains.
Y could be anything as well.
MODERATOR: Another question is, in
the learning process you showed, when
do you pick your learning algorithm,
when do you pick your hypothesis set,
and what liberty do you have?
PROFESSOR: The hypothesis set
is the most important aspect of
determining the generalization behavior
that we'll talk about.
The learning algorithm does play a role,
although it is a secondary role,
as we will see in the discussion.
So in general, the learning
algorithm has the form of
minimizing an error function.
So you can think of the
perceptron, what does
the algorithm do?
It tries to minimize the
classification error.
That is your error function, and
you're minimizing it using this

Portuguese: 
Esta parte utiliza
funções de valores reais.
E, obviamente, há hipóteses que cobrem
todos os tipos de contra-domínios.
O Y pode ser qualquer coisa também.
MODERADOR: Outra questão é, no processo
de aprendizagem que você apresentou,
quando você escolhe o seu algoritmo de aprendizagem,
quando você escolhe o seu conjunto de hipóteses
e qual liberdade você tem?
PROFESSOR: O conjunto de hipóteses
é o aspecto mais importante
para determinar o comportamento
da generalização que vamos estudar.
O algoritmo de aprendizagem desempenha
um papel, embora seja um papel secundário,
como veremos na discussão.
Assim, em geral, o algoritmo
de aprendizagem tem a forma
de minimizar uma função de erro.
Então, você pode pensar no perceptron,
o que o algoritmo faz?
Ele tenta minimizar o
erro de classificação.
Essa é a sua função de erro e
você está minimizando-a usando

Portuguese: 
esta regra de atualização específica.
E, em outros casos, veremos que
estamos minimizando uma função de erro.
Agora, o tipo de minimização é um
problema de otimização e, uma vez que
você determina que esta é, realmente,
a função de erro que você quer
minimizar, então, você prossegue e
minimiza o máximo que você puder usando
a técnica de otimização mais
sofisticada que você encontrar.
Portanto, a questão, agora, se traduz
em qual será a escolha da função de erro,
ou medida de erro,
que vai ajudar, ou não.
E isso será abordado, também, na próxima
semana, com o tópico Erro e Ruído.
Quando eu falar sobre o erro,
vamos estudar as medidas de erro
e isso se traduz diretamente para o
algoritmo de aprendizagem correspondente.
MODERADOR: De volta ao perceptron.
Então, o que acontece se a sua hipótese
lhe der exatamente zero, neste caso?
PROFESSOR: Então, lembre-se
que o valor que você calcula
e compara com o limiar era
a sua pontuação de crédito.
Então, eu lhe disse o que acontece se você
estiver acima do limiar e o que acontece
se você estiver abaixo do limiar.
Então, o que acontece se você
estiver exatamente no limiar?

English: 
particular update rule.
And in other cases, we'll see that we
are minimizing an error function.
Now the minimization aspect is
an optimization question, and once you
determine that this is indeed the
error function that I want to
minimize, then you go and minimize
as much as you can using the most
sophisticated optimization
technique that you find.
So the question now translates into
what is the choice of the error
function or error measure that
will help or not help.
And that will be covered also next week
under the topic, Error and Noise.
When I talk about error, we'll talk
about error measures, and this
translates directly to the learning
algorithm that goes with them.
MODERATOR: Back to the perceptron.
So what happens if your hypothesis
gives you exactly 0 in this case?
PROFESSOR: So remember that
the quantity you compute and
compare with the threshold
was your credit score.
So I told you what happens if you are
above threshold, and what happens if
you're below threshold.
So what happens if you're exactly
at the threshold?

English: 
Your score is exactly that.
The informal answer is that it depends
on the mood of the credit
officer on that day.
If they had a bad day,
you will be denied!
But the serious answer is that
there are technical ways of
defining that point.
You can define it as 0,
so the sign of 0 is 0.
In which case you are always making
an error, because you are never +1 or
-1, when you should be.
Or you could make it belong
to the +1 category or
to the -1 category.
There are ramifications for
all of these decisions
that are purely technical.
Nothing conceptual comes out of them.
That's why I decided not
to include it.
Because it clutters the main concept
with something that really has no
ramification.
As far as you're concerned, the easiest
way to consider it is that the
output will be 0, and therefore you will
be making an error regardless of
whether it's +1 or -1.
MODERATOR: Is there a kind of problem
that cannot be learned even if

Portuguese: 
A sua pontuação é exatamente o limiar.
A resposta informal é que
depende do humor do gerente
de crédito naquele dia.
Se ele teve um dia ruim,
o crédito será negado!
Mas, a resposta séria é que
existem maneiras técnicas
de definir esse ponto.
Você pode defini-lo como zero,
então o sinal do zero é zero.
Neste caso, você estará sempre cometendo
um erro, porque você nunca está
em +1 ou -1, quando você deveria estar.
Ou você poderia fazê-lo
pertencer à categoria +1
ou à categoria -1.
Há ramificações para
todas estas decisões
que são puramente técnicas.
Nada conceptual é
resultado dessa questão.
É por isso que eu decidi não incluí-la.
Porque ela atrapalha o conceito
principal com algo que realmente
não tem ramificação.
Com relação à sua decisão, a
maneira mais fácil é considerar que
a saída será zero e, portanto, você
estará cometendo um erro, independentemente
se for +1 ou -1.
MODERADOR: Existe algum tipo de
problema que não pode ser aprendido,

English: 
there's a huge amount of data?
PROFESSOR: Correct.
For example, if I go to my computer
and use a pseudo-random number
generator to generate the target over
the entire domain, then patently,
nothing I can give you will make
you learn the other guys.
So remember the three--
let me try to--
the essence of machine learning.
The first one was, a pattern exists.
If there's no pattern that exists,
there is nothing to learn.
Let's say that it's like a baby,
and stuff is happening, and the
baby is just staring. There is nothing
to pick from that thing.
Once there is a pattern, you can see
the smile on the baby's face.
Now I can see what is going on.
So whatever you are learning,
there needs to be a pattern.
Now, how to tell that there's
a pattern or not,
that's a different question.
But the main ingredient, there's a pattern.
The other one is we cannot pin
it down mathematically.

Portuguese: 
mesmo se houver uma
enorme quantidade de dados?
PROFESSOR: Correto.
Por exemplo, se eu for para o meu
computador e usar um gerador de números
pseudoaleatórios para gerar o alvo ao longo
de todo o domínio, então, evidentemente,
nada que eu possa lhe dar fará
você generalizar em novos pontos.
Portanto, lembre-se dos três...
deixe-me tentar...
a essência do aprendizado de máquinas.
A primeira era, um padrão existe.
Se não existir um padrão,
não há nada para aprender.
Digamos que seja como um bebê e
algumas coisas estão acontecendo
e o bebê está apenas olhando. Não há
nada para encontrar nesta situação.
Uma vez que existe um padrão, você
pode ver o sorriso no rosto do bebê.
Agora, eu posso ver o
que está acontecendo.
Então, o que quer que você esteja
aprendendo, é preciso haver um padrão.
Agora, como dizer se
há um padrão ou não,
esta é uma pergunta diferente.
Mas o ingrediente principal, há um
padrão. O outro é que não podemos defini-lo
matematicamente.

Portuguese: 
Se pudermos defini-lo
matematicamente e você decidir aplicar
a aprendizagem, então,
você é realmente preguiçoso.
Porque você poderia
apenas escrever o código.
Mas tudo bem.
Você pode usar a aprendizagem neste
caso, mas não é o método recomendado,
porque tem certos erros no
desempenho e outros problemas.
Enquanto que, se você tiver a definição
matemática, basta implementá-la
e você obterá a melhor solução possível.
E a terceira, você tem que ter
os dados, que é fundamental.
Então, você tem uma abundância de dados, mas a
primeira não é satisfeita, então você simplesmente
não vai aprender.
E, não é como se eu tivesse que responder a
cada uma dessas questões de forma aleatória.
A teoria vai capturar completamente
o que está acontecendo.
Assim, há uma razão muito
boa para termos quatro aulas
no roteiro com conteúdo
bastante matemático.
Isto não é para o bem da matemática.
Eu não gosto de fazer contas
matemáticas, se você quiser.
Eu escolho a matemática que é
necessária para estabelecer um conceito.
E estas aulas vão estabelecê-lo
e vale muito a pena ser paciente
e assisti-las.
Porque, uma vez que você as entender,
você basicamente terá todo o conhecimento

English: 
If we can pin it down mathematically,
and you decide to do
the learning, then you
are really lazy.
Because you could just write the code.
But fine.
You can use learning in this case, but
it's not the recommended method,
because it has certain errors
in performance.
Whereas if you have the mathematical
definition, you just implement it and
you'll get the best possible solution.
And the third one, you have data,
which is key.
So you have plenty of data, but the
first one is off, you are simply not
going to learn.
And it's not like I have to answer each
of these questions at random.
The theory will completely
capture what is going on.
So there's a very good reason for going
through four lectures in the
outline that are
mathematically inclined.
This is not for the sake of math.
I don't like to do math
hacking, if you will.
I pick the math that is necessary
to establish a concept.
And these will establish it, and they
are very much worth being patient with
and going through.
Because once you're done with them, you
basically have it cold about what

Portuguese: 
sobre quais são os componentes que tornam a
aprendizagem possível e como os estabelecemos
e todas as perguntas que foram feitas.
MODERADOR: Uma questão histórica.
Então, por que o perceptron está,
frequentemente, relacionado a um neurônio?
PROFESSOR: Eu vou discutir isso
em redes neurais mas, em geral,
quando você considera um neurônio e as
sinapses, e você encontra qual é a função
que está associada ao neurônio, você
descobre que o neurônio dispara, que é o +1,
se o sinal que chega a ele, que é, mais
ou menos, uma combinação de estímulos,
excede um determinado limiar.
Então, essa foi a inspiração
inicial, e a inspiração inicial
era que: o cérebro faz um trabalho
muito bom, então, talvez, se imitarmos
a função, vamos obter algo bom.
Mas você imita um neurônio e, em seguida,
você combina neurônios e você obtém
a rede neural que
você está considerando.
E eu vou discutir a analogia com
a biologia e a extensão em que
ela pode ser benéfica, quando
estudarmos as redes neurais,
porque este será o contexto
mais adequado para isso.

English: 
are the components that make learning
possible, and how do we tell, and all
of the questions that have been asked.
MODERATOR: Historical question.
So why is the perceptron often
related with a neuron?
PROFESSOR: I will discuss this
in neural networks, but in general,
when you take a neuron and synapses, and
you find what is the function that
gets to the neuron, you find that the
neuron fires, which is +1, if the
signal coming to it, which is roughly
a combination of the stimuli, exceeds
a certain threshold.
So that was the initial inspiration, and
the initial inspiration was
that: the brain does a pretty good
job, so maybe if we mimic the
function, we will get something good.
But you mimic one neuron, and then you
put it together and you'll get the
neural network that you
are talking about.
And I will discuss the analogy with
biology, and the extent that it can be
benefited from, when we talk
about neural networks, because
that will be the more proper
context for that.

English: 
MODERATOR: Another question is,
regarding the hypothesis set, are there
Bayesian hierarchical procedures
to narrow down the hypothesis set?
PROFESSOR: OK.
The choice of the hypothesis set and
the model in general is model
selection, and there's quite a bit of
stuff that we are going to talk about
in model selection, when we
talk about validation.
In general, the word Bayesian was
mentioned here-- if you
look at machine learning, there are
schools that deal with the subject
differently.
So for example, the Bayesian school
puts a mathematical framework
completely on it.
And then everything can be derived,
and that is based on Bayesian
principles.
I will talk about that at the very
end, so it's last but not least.
And I will make a very specific point
about it, for what it's worth.

Portuguese: 
MODERADOR: Outra questão é, com
relação ao conjunto de hipóteses,
existem procedimentos hierárquicos bayesianos
para diminuir o conjunto de hipóteses?
PROFESSOR: OK.
A escolha do conjunto de hipóteses
e do modelo, em geral, é a seleção
do modelo, e há um bocado de
coisas que nós vamos estudar
em seleção de modelo, quando
estudarmos a validação.
Em geral, a palavra bayesiana
foi mencionada aqui...
se você olhar para o aprendizado de
máquinas, há escolas que lidam com o assunto
de forma diferente.
Assim, por exemplo, a escola bayesiana
coloca uma estrutura matemática
sobre todo esse assunto.
E, em seguida, tudo pode
ser derivado e isto se baseia
nos princípios bayesianos.
Eu vou falar sobre isso bem no final do curso,
então estará por último, mas não é menos importante.
E eu vou frisar bastante este
assunto, pela sua relevância.

English: 
But what I'm talking about in the course
in all of the details, are the
most commonly useful methods
in practice.
That is my criterion for inclusion.
So I will get to that
when we get there.
In terms of a hierarchy,
there are a number of hierarchical
methods.
For example, structural risk
minimization is one of them.
There are methods of hierarchies,
and the ramifications of it in
generalization.
I may touch upon it, when I get
to support vector machines.
But again, there's a lot of theory,
and if you read a book on machine
learning written by someone from pure
theory, you would think that you are
reading about a completely
different subject.
It's respectable stuff, but
different from the other
stuff that is practiced.
So one of the things that I'm trying to
do, I'm trying to pick from all the
components of machine learning, the
big picture that gives you the
understanding of the concept, and
the tools to use it in practice.

Portuguese: 
Mas, o que eu quero apresentar
no curso, com todos os detalhes,
são os métodos úteis
mais comuns na prática.
Esse é o meu critério para a inclusão.
Então, analisaremos este
assunto quando chegarmos lá.
Em termos de uma hierarquia,
há um certo número de
métodos hierárquicos.
Por exemplo, a minimização do
risco estrutural é um deles.
Existem métodos de hierarquias
e as suas ramificações
em generalização.
Eu posso abordá-los quando estudarmos
as máquinas de vetores de suporte.
Mas, novamente, há um monte de teoria e,
se você ler um livro sobre o aprendizado
de máquinas escrito por alguém da
teoria pura, você poderia pensar que
você está lendo sobre um
assunto completamente diferente.
É um material respeitável,
mas diferente de outro
material, que é a prática.
Então, uma das coisas que eu estou
tentando fazer, eu estou tentando escolher,
entre todos os componentes do aprendizado de
máquinas, o panorama geral que forneça a vocês
a compreensão do conceito e as
ferramentas para utilizá-lo na prática.

English: 
That is the criterion for inclusion.
Any questions from the inside here?
OK, we'll call it a day, and
we'll see you on Thursday.

Portuguese: 
Este é o critério para a inclusão.
Alguma pergunta do público interno?
OK, vamos encerrar esta aula
e nos veremos na próxima aula.
