O Furacão Florence veio bem na hora...
.. em que eu estava trabalhando no StatQuest ...
Nuvens negras cobriram o céu ...
mas isto não parou o StatQuest ...
StatQuest!!!
StatQuest!!!
Olá, eu me chamo Josh Starmer, e seja bem vindo ao
StatQuest.
Hoje iremos falar sobre alguns fundamentos de Aprendizagem de Máquina.
Viés e Variância.
E eles serão explicados de maneira simples.
Suponha que nós medimos o peso e a altura
de um grupo de ratos e esboçamos os dados em um gráfico...
Ratos magros tem a tendência a serem baixos
e os mais pesados tendem a serem mais altos.
mas após um certo nível de peso, eles não crescem mais,
apenas se tornam mais obesos.
Dados esses dados, gostaríamos de predizer a altura de um rato
dado seu peso.
Por exemplo: se você me dissesse que
seu rato pesasse este tanto,
então iríamos predizer que ele é alto com este valor.
Numa situação ideal, iríamos saber a fórmula matemática exata
que descreve a relação entre peso
e altura.
Mas, neste caso, não a conhecemos
então iremos usar dois métodos de aprendizagem de máquina
para fazer uma aproximação dessa relação.
Ainda assim, eu vou deixar a relação "verdadeira"
descrita na figura para se ter uma referência.
A primeira coisa que iremos fazer, é dividir os dados em dois
conjuntos. Um para o treinamento do algoritmos de aprendizagem de máquina
e outro para o teste deles.
Os pontos azuis são o conjunto de treino
e os pontos verdes representam o conjunto de teste.
Aqui temos apenas o conjunto de treinamento:
O primeiro algoritmo de aprendizagem de máquina que iremos usar
é a Regressão Linear (também conhecida
como Mínimos Quadrados).
A Regressão Linear faz o ajuste de uma linha reta
ao conjunto de treinamento.
Note que linha reta não possui
a flexibilidade necessária para replicar fielmente o arco
na relação "verdadeira".
Não importa o quanto tentemos ajustar a linha,
ela nunca irá encurvar-se.
Portanto, a linha reta nunca irá representar bem
a relação verdadeira entre peso e altura
não importando o quão bem ajustemos ela ao conjunto de treinamento.
A incapacidade de um algoritmo de aprendizagem de máquina
como a Regressão Linear, de conseguir representar a
relação verdadeira é chamada de Viés (Bias)
Como a linha reta não pode ser curvada como a
relação "verdadeira", dizemos que ela possui uma quantidade relativamente alta
de viés.
Outro método de aprendizagem de máquina
poderia ajustar uma linha sinuosa ao conjunto de treinamento...
A linha sinuosa é bastante flexível,
e segue o conjunto de treinamento ao longo do arco da relação verdadeira.
Como a linha sinuosa consegue seguir o arco
da relação verdadeira entre peso e altura,
dizemos que ela possui pouco viés.
Podemos comparar o quão bem a Linha Reta e a Linha Sinuosa
se ajustam aos dados de treinamento,
calculando a soma dos quadrados.
Em outras palavras, medimos todas as distâncias das linhas de ajuste
aos dados, elevamos ao quadrado
e somamos todas elas.
Psst!
Eles são elevados ao quadrado, assim as distâncias "negativas"
não anulam o efeito das positivas.
Note que a linha sinuosa se ajusta tão bem aos dados,
que as distâncias entre ela e os dados
são todas zero.
Na disputa de ver se a linha reta
se ajusta aos dados do conjunto de treinamento melhor do que a linha sinuosa,
a linha sinuosa vence!
Mas lembre-se: até agora só calculamos
a Soma dos Quadrados sobre o conjunto de treinamento.
Ainda temos o conjunto de teste!
Agora calculemos a Soma dos Quadrados sobre o
conjunto de teste.
Na disputa de ver se a linha reta se ajusta ao
conjunto de teste melhor do que a linha sinuosa,
A linha reta vence!
Apesar de a linha sinuosa realizar um ótimo trabalho
ao tentar se ajustar ao conjunto de treinamento,
ela fez um trabalho terrível ao tentar se ajustar ao conjunto de teste.
Em termos de Aprendizado de Máquina,
a diferença de ajustes entre conjuntos de dados é chamada Variância.
A linha sinuosa possui um baixo viés,
pois é bastante flexível e consegue se ajustar bem à curva da relação "verdadeira"
entre peso e altura.
Mas a linha sinuosa possui alta variabilidade,
pois ela resulta em uma alta diferença de Soma de Quadrados
para conjuntos de dados diferentes.
Em outras palavras, é difícil de dizer o quanto
a linha sinuosa iria dar certo com outros conjuntos de dados.
Ela pode dar certo algumas vezes, mas em outras ela pode funcionar terrivelmente mal.
Por outro lado, a linha reta possui um viés relativamente alto,
pois ela não é capaz de representar bem a curva
da relação entre peso e altura.
Mas a linha reta possui uma variância relativamente baixa,
porque a Soma dos Quadrados resulta em valores similares
para conjuntos de dados diferentes.
Em outras palavras, a linha reta poderá nos dar apenas BOAS predições,
mas não predições ÓTIMAS,
mas ainda assim elas seriam consistentemente boas predições.
BAM!!!
Ah, não!
[Alerta de terminologia]
Como a linha sinuosa se ajusta muito bem ao conjunto de treinamento,
mas não ao conjunto de teste,
dizemos que a linha sinuosa está superajustada (overfitted)
Em Aprendizagem de Máquina, o algoritmo ideal possui baixo viés
e consegue adequadamente representar a relação verdadeira...
... E possui baixa variabilidade,
por produzir predições consistentes
sobre diferentes conjuntos de dados.
Isso pode ser feito ao encontrar o equilíbrio ideal entre
um modelo simples, e um modelo complexo.
Ah, não! Outro [Alerta de Terminologia]!
Três métodos bastante comuns
para se tentar encontrar um equilíbrio ideal entre um modelo simples
e modelos complicados são
a Regularização, o "Boosting" e o "Bagging"
O StatQuests sobre Florestas Aleatórias
mostra um exemplo do "bagging" em ação!
E iremos falar sobre Regularização e "Boosting"
em StatQuests futuros!
Duplo BAM!!!
Viva! Chegamos ao fim de mais um StatQuest incrível.
se você gostou desse StatQuest, e quer ver mais,
por favor, se inscreva. E se você desejar apoiar o StatQuest,
bem, por favor considere comprar uma ou duas
das minhas músicas originais.
Muito bem, até a próxima! Quest On!!!
