Se você se sentir confuso, não se preocupe...
A StatQuest está aqui ... StatQuest.
Olá, sou Josh Stormer e seja bem-vindo à StatQuest.
Hoje vamos cobrir outro fundamento do aprendizado de máquina...
A Matriz de Confusão, que será claramente explicada!
Imagine que temos esses dados médicos...
Nós temos algumas mensurações clínicas...
Como dor no peito, boa circulação sanguínea, obstrução arterial e peso...
...e queremos aplicar um método de aprendizado de máquina a eles...
para prever se alguém, irá ou não, desenvolver doença de cardíaca.
Para fazer isso, poderíamos usar um Regressão Logística...
ou K-Nearest Neighbors (KNN)...
ou Random Forest, ou ainda algum outro método. 
Há uma grande variedade de escolhas possíveis...
Então, como decidimos qual funciona melhor com nossos dados?
Começamos dividindo os dados em conjuntos de treinamento e teste...
Nota: Esta seria uma excelente oportunidade para utilizar a validação-cruzada
...e se você não estiver familiarizado com o termo, verifique o StatQuest.
Então, utilizando o conjunto de treinamento (Traning Dataset), 
treinamos todos os métodos nos quais estávamos interessados...
...e, em seguida, testamos cada um dos métodos 
com o conjunto de testes (Testing Dataset).
Agora precisamos identificar como se saiu cada 
método, quando comparados ao conjunto de teste.
Uma maneira de fazer isso, é criando uma Matriz de Confusão para cada método.
As linhas em uma matriz de confusão correspondem a
previsão do algoritmo de aprendizado de máquina...
...e as colunas correspondem ao que é tido como verdade (referência).
Como existem apenas duas categorias para escolher:
"Tem Doença Cardíaca" ou "Não Tem Doença Cardíaca"...
...então, o canto esquerdo da parte superior contém os Verdadeiros Positivos (TP).
Estes, são pacientes que tiveram doença cardíaca e
que foram corretamente identificados pelo algoritmo.
Os Verdadeiros Negativos (TN) estão no canto inferior direito.
Estes, são pacientes que não tiveram doença cardíaca,
e foram corretamente identificados pelo algoritmo.
O canto inferior esquerdo contém Falsos Negativos (FN)...
Falso negativos ocorrem quando um paciente tem doença 
cardíaca, mas o algoritmo disse que eles não tinham.
Por fim, o canto superior direito contém falsos positivos...
Falsos positivos são pacientes que não têm doença 
cardíaca, mas o algoritmo os rotulou como tendo.
Por exemplo, quando aplicamos a Random Forest aos dados de teste...
Havia 142 Verdadeiros Positivos, pacientes com doença 
cardíaca que foram corretamente classificados.
E 110 verdadeiros negativos, pacientes sem doença cardíaca que foram corretamente classificados.
No entanto, o algoritmo classificou erroneamente 29 pacientes "Com
 Doença Cardíaca", que foram rotulados como "Sem Doença Cardíaca"...
...Estes são os falsos negativos...
...e o algoritmo classificou erroneamente 22 
pacientes que não tinham doença cardíaca...
...dizendo que eles tinham. Estes são Falsos Positivos (FP).
Os números ao longo da diagonal (caixas verdes) nos dizem
 quantas amostras foram corretamente classificadas.
Os números que não estão na diagonal (caixas vermelhas), 
são amostras erroneamente classificadas pelo algoritimo.
Agora podemos comparar a Matriz de Confusão do Random Forest...
...com a Matriz de Confusão obtida quando usamos o K-Nearest Neighbors (KNN).
K-Nearest Neighbours foi pior do que o Random Forest 
na previsão de pacientes "Com Doença Cardíaca"...
...107 contra 142...
e pior na previsão de pacientes sem doença cardíaca...
...79 contra 110...
Então, se tivéssemos que escolher entre usar 
o Random Forests ou K-Nearest Neighbors...
...Nós escolheríamos o Random Forest.
Show!!!!
Por fim, podemos aplicar a regressão logística ao 
Dataset de Teste e criar uma matriz de confusão.
Essas duas matrizes de confusão são muito parecidas...
...e dificultam a escolha de qual método de aprendizagem
 de máquina é mais adequado para esses dados.
Nós vamos falar sobre métricas mais sofisticadas
como sensibilidade, especificidade, ROC e AOC...
...que podem nos ajudar a tomar uma decisão nas próximas StatQuests.
Agora que compreendemos uma Matriz de Confusão básica,
vamos dar uma olhada em matrizes mais complicadas.
Aqui está um novo conjunto de dados...
agora a questão é, com base no que a
s pessoas pensam sobre esses filmes...
Jurassic Park 3, Run for your Wife, Out Kold
 (soletrado com K) e Howard the Duck...
...podemos usar um método de aprendizado
 de máquina para prever seu filme favorito?
se as únicas opções para o filme favorito 
fossem Troll 2, Gore Police ou Cool As Ice...
...Então a matriz de confusão teria 3 linhas e 3 colunas...
Mas, assim como antes, a diagonal (caixas verdes) são 
onde o algoritmo de aprendizado fez as escolhas certas...
...e todo o restante, é onde o algoritmo errou.
Neste caso, o algoritmo de aprendizado 
de máquina não se saiu muito bem...
...mas você pode culpa-lo??? Esses filmes são todos terríveis.
SHOW!!!
Por fim, o tamanho da matriz de confusão é determinado
 pelo número de coisas que queremos prever (rotular/classificar).
no primeiro exemplo, estávamos apenas tentando prever 
duas coisas, se alguém tinha doença cardíaca ou não...
...e isso nos deu uma matriz de confusão com 2 linhas e 2 colunas.
No segundo exemplo, tínhamos três opções para escolher...
...e uma matriz de confusão com 3 linhas e 3 colunas.
Se tivéssemos quatro opções para escolher, 
obteríamos uma matriz de 4 linhas e 4 colunas...
...e se tivéssemos 40 opções para escolher, obteríamos
uma matriz de confusão com 40 linhas e 40 colunas.
Show de Bola!!!
Em resumo, uma Matriz de Confusão informa o que
 o algoritmo de aprendizado de máquina fez certo...
...e o que fez de errado.
Puxa!!! Chegamos ao fim de outra excelente StatQuest.
Se você gostou desta StatQuest e quer 
ver mais, por favor inscreva-se!
...e se você quiser apoiar o StatQuest, bem considere 
comprar uma ou duas das minhas músicas originais.
É isso ai, e até a próxima!!!
