
Portuguese: 
Divagando sobre o “Random Forest”.
Eu não me perderei graças ao StatQuest.
Olá, eu sou Joshua Stammer, seja bem-vindo ao StatQuest.
Hoje vamos iniciar a parte 1, de uma série de vídeos sobre o “Random Forest”.
Vamos falar sobre construir e avaliar o “Random Forest”.
Nota: “Random Forests” são criados a partir de árvores de decisão.
Então, se você ainda não as compreende 
assista ao StatQuest e atualize-se.
Árvores de decisão são fáceis de construir, fáceis de usar e de fáceis de interpretar,
mas na prática elas não são tão legais assim.
Citando o livro “Os Elementos do Aprendizado Estatístico”,
também conhecido como a “Bíblia do Aprendizado de Máquina”
Árvores tem um aspecto que as previne de ser 
a ferramenta ideal para o aprendizado preditivo,
sua imprecisão.
Em outras palavras, elas funcionam muito bem com 
os dados utilizados para criá-las,

English: 
Wandering around a random forest. I won't get lost because of stat quest
Hello, I'm Josh Dharma and welcome to stat quest today
We're gonna be starting part one of a series on random forests, and we're going to talk about building and evaluating random forests
Note random forests are built from decision trees. So if you don't already know about those check out my stat quest and beef up
Decision trees are easy to build easy to use and easy to interpret
But in practice they are not that awesome
to quote from the elements of statistical learning
Aka the Bible of machine learning
Trees have one aspect that prevents them from being the ideal tool for predictive learning
Namely in accuracy. In other words, they work great with the data used to create them

Chinese: 
在随机森林里瞎逛逛~🎵
有StatQuest在，我绝不会迷路~🎵
(｡･∀･)ﾉﾞ嗨。我是Josh Starmer
欢迎来的StatQuest! 今天我们要来学习随机森林理论的第一部分。
我们将会讨论如何建立和评估随机森林
注意！随机森林是由决策树构成的
所以，如果你不知道那是什么，快去看看我的StatQuests补充一下知识吧！！！
决策树是很容易建立，很容易去使用，很容易解释的。
但在现实世界，他们却没有那么棒。
以下摘自The Elements of Statistical Learning (即 The Bible of Machine Learning)
树的不准确性使得他们无法成为理想的预测学习工具。
换句话说，他们可以很好的对测试数据进行分类（用来创建决策树的数据）

Portuguese: 
Divagando sobre o “Random Forest”.
Eu não me perderei graças ao StatQuest.
Olá, eu sou Joshua Stammer, seja bem-vindo ao StatQuest.
Hoje vamos iniciar a parte 1, de uma série de vídeos sobre o “Random Forest”.
Vamos falar sobre construir e avaliar o “Random Forest”.
Nota: “Random Forests” são criados a partir de árvores de decisão.
Então, se você ainda não as compreende 
assista ao StatQuest e atualize-se.
Árvores de decisão são fáceis de construir, fáceis de usar e de fáceis de interpretar,
mas na prática elas não são tão legais assim.
Citando o livro “Os Elementos do Aprendizado Estatístico”,
também conhecido como a “Bíblia do Aprendizado de Máquina”
Árvores tem um aspecto que as previne de ser 
a ferramenta ideal para o aprendizado preditivo,
sua imprecisão.
Em outras palavras, elas funcionam muito bem com 
os dados utilizados para criá-las,

Chinese: 
但当被用来分类新的样本数据时，他们却表现平平，不够灵活。
好消息是随机森林把决策树的简洁性和灵活性结合，
使得预测精度有一个很大的提升。
让我们来创造一个随机森林吧！！！
第一步：创建一个引导数据集。
想象这四个样本是我们要用来建立决策树的全部数据
我知道这个数据集真的太太太太小了，但我们先假装它是...
要创建一个和原始数据集大小一样的引导数据集
我们只需要从原始数据集里随机地选择样本
一个重要的细节是
我们可以重复选择某一个样本
这是我们随机选择的第一个样本
所以，它是我们的引导数据集的第一个样本
这是我们从原始数据随机选择的第二个样本

Portuguese: 
Mas não são flexíveis o suficiente para a tarefa de 
classificar novas amostras.
A boa notícia, é que o “Random Forest” 
combina a simplicidade das árvores de decisão
com flexibilidade, resultando em grande melhoria na acurácia.
Então, vamos construir um “Random Forest”.
Passo 1, criar um “bootstrap dataset”
Imagine que estas 4 amostras são todo o dataset, 
a partir do qual criaremos uma árvore
Eu sei que parece muito pequeno, mas por hora, vamos imaginar.
Para criarmos um “bootstrap dataset” de mesmo tamanho do original,
vamos, aleatoriamente, selecionar amostras do dataset original.
O detalhe importante, é que nos é permitido 
selecionar a mesma amostra mais de uma vez.
Essa é primeira amostra aleatoriamente selecionada,
E é, portanto, a primeira amostra de nosso “bootstrap dataset”.
Essa é a segunda amostra aleatoriamente 
 selecionada do dataset original.

English: 
But they are not flexible when it comes to classifying new samples
The good news is that random forests combine the simplicity of decision trees with flexibility
Resulting in a vast improvement in accuracy
So let's make a random forest
step 1 create a bootstrap data set
imagine that these 4 samples are the entire data set that we are going to build a tree from I
Know it's crazy small, but just pretend for now
To create a bootstrap data set that is the same size as the original. We just randomly select samples from the original data set
The important detail is that we're allowed to pick the same sample more than once
This is the first sample that we randomly select
So it's the first sample in our bootstrap data set
This is the second randomly selected sample from the original data set

Portuguese: 
Mas não são flexíveis o suficiente para a tarefa de 
classificar novas amostras.
A boa notícia, é que o “Random Forest” 
combina a simplicidade das árvores de decisão
com flexibilidade, resultando em grande melhoria na acurácia.
Então, vamos construir um “Random Forest”.
Passo 1, criar um “bootstrap dataset”
Imagine que estas 4 amostras são todo o dataset, 
a partir do qual criaremos uma árvore
Eu sei que parece muito pequeno, mas por hora, vamos imaginar.
Para criarmos um “bootstrap dataset” de mesmo tamanho do original,
vamos, aleatoriamente, selecionar amostras do dataset original.
O detalhe importante, é que nos é permitido 
selecionar a mesma amostra mais de uma vez.
Essa é primeira amostra aleatoriamente selecionada,
E é, portanto, a primeira amostra de nosso “bootstrap dataset”.
Essa é a segunda amostra aleatoriamente 
 selecionada do dataset original.

English: 
So it's the second sample in our bootstrap data set
Here's the third randomly selected sample
So here it is in the bootstrap data set
Lastly here's the fourth randomly selected sample note. It's the same as the third and
Here it is
BAM we've created a bootstrap data set
Step2 for creating a random forest is to create a decision tree using the bootstrap dataset
But only use a random subset of variables or columns at each step in
This example, we will only consider two variables or columns at each step
Note, we'll talk more about how to determine the optimal number of variables to consider later
Thus instead of considering all four variables to figure out how to split the root node
We randomly select two in

Portuguese: 
É então, a segunda amostra de nosso “bootstrap dataset”.
Aqui, está a terceira amostra aleatória.
E, aqui está ela no “bootstrap dataset”.
Por fim, a quarta amostra aleatória selecionada.
Nota: É uma repetição da terceira 
 e aqui ela está
SHOW!!! Nós criamos um “bootstrap dataset”
O passo 2 para criar um “Random Forest”, é a criação de uma 
árvore de decisão usando o “bootstrap dataset”.
Mas, utilizando apenas um subset de variáveis aleatórias (ou colunas) a cada etapa.
Neste exemple nós vamos considerar apenas duas variáveis (ou colunas) a cada etapa.
Nota: Vamos falar mais adiante, sobre como determinar o número ótimo de variáveis.
Assim, ao em vez de considerarmos todas as 4 variáveis 
para determinar a divisão (split) do primeiro nó
Vamos selecionar, aleatoriamente, duas variáveis.

Chinese: 
所以，它是我们的引导数据集的第二个样本
这是第三个随机选择的样本
然后它在引导数据集的第三行
最后，这是第四个随机选择的样本
注意，这个样本和我们取的第三个样本是一样的
它在这，我们把它放在第四行
BAM!!!
我们已经创建了一个引导数据集啦！
创建随机森林的第二步
使用引导数据集创建决策树
但每一步我们只是用变量的（也可以说列）一个随机子集
在这个例子中，我们每一步只考虑两个变量。
注意，关于如何确定最优的变量个数，
我们会在以后讨论
因此，比起考虑所有的四个变量
来思考怎么分割根节点
我们随机选两个变量

Portuguese: 
É então, a segunda amostra de nosso “bootstrap dataset”.
Aqui, está a terceira amostra aleatória.
E, aqui está ela no “bootstrap dataset”.
Por fim, a quarta amostra aleatória selecionada.
Nota: É uma repetição da terceira 
 e aqui ela está
SHOW!!! Nós criamos um “bootstrap dataset”
O passo 2 para criar um “Random Forest”, é a criação de uma 
árvore de decisão usando o “bootstrap dataset”.
Mas, utilizando apenas um subset de variáveis aleatórias (ou colunas) a cada etapa.
Neste exemple nós vamos considerar apenas duas variáveis (ou colunas) a cada etapa.
Nota: Vamos falar mais adiante, sobre como determinar o número ótimo de variáveis.
Assim, ao em vez de considerarmos todas as 4 variáveis 
para determinar a divisão (split) do primeiro nó
Vamos selecionar, aleatoriamente, duas variáveis.

Portuguese: 
Nós, aleatoriamente, selecionamos “Boa Circulação Sanguínea” e “Obstrução Arterial”, 
como candidatos a separação do nó raiz.
Apenas para efeito de exemplo, assumamos que “Boa Circulação Sanguínea” 
teve melhor desempenho na separação das amostras.
Uma vez que utilizamos “Boa Circulação Sanguínea”, vamos esmaecer essa opção, 
para que possamos focar nas variáveis restantes
Agora, precisamos encontrar uma maneira de separar as amostras neste nó.
Assim como anteriormente, vamos aleatoriamente selecionar 2 variáveis 
dentre as três variáveis remanescentes.
E acabamos de criar a árvore, como usualmente, mas considerando apenas 
 um subconjunto de variáveis aleatórias a cada passo.
SHOW!!!
Nos criamos a árvore, 1) Usando um “bootstrap dataset” e, 2) considerando apenas 
 um subconjunto de variáveis aleatórias a cada passo.

English: 
This case we randomly selected good blood circulation and blocked arteries as candidates for the root node
Just for the sake of the example assume that good blood circulation. Did the best job separating the samples?
Since we used a good blood circulation, I'm going to gray it out so that we focus on the remaining variables
Now we need to figure out how to split samples at this node
just like for the route we randomly select two variables as candidates instead of all three remaining columns and
We just build the tree as usual, but only considering a random subset of variables at each step
double bound
we built a tree one using a bootstrap data set and
Two only considering a random subset of variables at each step
Here's the tree we just made

Chinese: 
在这个例子里，
我们随机选在良好的血液循环和动脉阻塞
作为根节点的候选。
为了这个例子，
我们假设良好的血液循环可以更好地区分开样本。
既然我们已经使用了良好的血液循环这个变量
我会把它变灰，然后我们关注剩余的变量
现在我们需要看看在这个节点上，
怎么分解样本
就像在根节点我们所做的那样
比起考虑剩下的所有列
我们随机选两个变量作为候选
然后，我们就像平时一样建立决策树
但在每一步，我们只考虑变量的随机子集
第二次BAM!!!
我们建立了一棵树
1）使用一个引用数据集
2）在每一步只考虑变量的随机子集
这就是我们刚刚建立的树

Portuguese: 
Nós, aleatoriamente, selecionamos “Boa Circulação Sanguínea” e “Obstrução Arterial”, 
como candidatos a separação do nó raiz.
Apenas para efeito de exemplo, assumamos que “Boa Circulação Sanguínea” 
teve melhor desempenho na separação das amostras.
Uma vez que utilizamos “Boa Circulação Sanguínea”, vamos esmaecer essa opção, 
para que possamos focar nas variáveis restantes
Agora, precisamos encontrar uma maneira de separar as amostras neste nó.
Assim como anteriormente, vamos aleatoriamente selecionar 2 variáveis 
dentre as três variáveis remanescentes.
E acabamos de criar a árvore, como usualmente, mas considerando apenas 
 um subconjunto de variáveis aleatórias a cada passo.
SHOW!!!
Nos criamos a árvore, 1) Usando um “bootstrap dataset” e, 2) considerando apenas 
 um subconjunto de variáveis aleatórias a cada passo.

Portuguese: 
Aqui está árvore que criamos.
Agora, retornamos ao “Passo 1” e repetimos: Crie um “bootstrap dataset” e construímos 
 uma árvore usando apenas um subconjunto de variáveis aleatórias a cada passo.
Idealmente, você fará isso por uma centena de vez (100), mas só temos espaço para seis (6),
mas você entendeu a ideia.
Usando amostras aleatórias (bootstrap) e considerando apenas 
um subconjunto de variáveis igualmente aleatórias,
resultam em uma grande variedade de árvores.
A variedade, é o que torna o “Random Forest” mais eficiente 
que árvores de decisão individuais.
Legal! Agora que criamos o “Random Forest” como o utilizamos?
Bem, primeiro utilizamos um novo paciente. Temos todas as aferições (variáveis) e 
 queremos inferir se o paciente tem ou não um problema cardíaco.
Pegamos os dados, o executamos a primeira árvore que construímos.
booboo dooba dooba dooba dooba (musica)

Portuguese: 
Aqui está árvore que criamos.
Agora, retornamos ao “Passo 1” e repetimos: Crie um “bootstrap dataset” e construímos 
 uma árvore usando apenas um subconjunto de variáveis aleatórias a cada passo.
Idealmente, você fará isso por uma centena de vez (100), mas só temos espaço para seis (6),
mas você entendeu a ideia.
Usando amostras aleatórias (bootstrap) e considerando apenas 
um subconjunto de variáveis igualmente aleatórias,
resultam em uma grande variedade de árvores.
A variedade, é o que torna o “Random Forest” mais eficiente 
que árvores de decisão individuais.
Legal! Agora que criamos o “Random Forest” como o utilizamos?
Bem, primeiro utilizamos um novo paciente. Temos todas as aferições (variáveis) e 
 queremos inferir se o paciente tem ou não um problema cardíaco.
Pegamos os dados, o executamos a primeira árvore que construímos.
booboo dooba dooba dooba dooba (musica)

English: 
Now go back to step one and repeat
Make a new bootstrap data set and build a tree considering a subset of variables at each step
Ideally you do this hundreds of times, but we only have space to show six, but you get the idea
Using a bootstrap sample and considering only a subset of variables at each step results in a wide variety of trees
The variety is what makes random forests more effective than individual decision trees
Sweet now that we've created a random forest. How do we use it?
Well first we get a new patient
We've got all the measurements and now we want to know if they have heart disease or not
So we take the data and run it down the first tree that we made

Chinese: 
现在，让我们回到第一步并不断重复
创建一个新的引导数据集
然后每次基于变量的一个子集建立一棵树
理想情况下，你重复100次
但现在我们的页面只允许我们做6个
但你懂的。
使用一个引导数据集样本
然后在每一步，只考虑变量的一个子集
这样我们可以创建很多种不同的树
这个多样性使得随机森林比单独一颗决策树更有效
酷毙了！
既然我们已经创建好随机森林了，我们怎么用它呢？
这个嘛，首先我们这来了个新病人
我们获得了他所有的测试结果
现在我们想要知道他是否有心脏病呢
所以我们把数据放到第一颗树来跑
嘟比嘟比嘟比嘟比嘟比嘟比嘟~🎵

Portuguese: 
A primeira árvore diz “SIM”, o paciente tem problemas cardíacos e,
acompanhamos o resultado aqui.
Agora, executamos a segunda árvore que criamos.
A segunda árvore também diz “SIM” e,
 acompanhamos o resultado aqui,
Então, repetimos para todas as árvores existentes.
Depois de perpassar todas as árvores existentes no “Random Forest”, 
 verificamos opção (classe) que recebeu mais votos.
Neste caso, a opção “SIM” recebeu mais votos, então concluímos 
 que o paciente tem problemas cardíacos.
SHOW!!!
Atenção!! Alerta de terminologia!
Rearranjar aleatoriamente os dados (bootstraping)  e utilizar uma 
agregação (votos) para a tomada de decisão, é chamado de “Bagging”.
Ok, agora que vimos como criar e utilizar o “Random Forest”,

English: 
Booboo, dooba, dooba, dooba dooba, dooba. Do the first tree says yes, the patient has heart disease and
We keep track of that here
now we run the data down the second tree that we made the second tree also says yes and
We keep track of that here. And then we repeat for all the trees we made
After running the data down all of the trees in the random forest. We see which option received more votes in
This case yes received the most votes so we will conclude that this patient has heart disease
BAM
Oh
No terminology alert
Bootstrapping the data plus using the aggregate to make a decision is called bagging
Okay, now we've seen how to create and use a random forest

Chinese: 
第一棵树告诉我们，答案是YES
这个病人有心脏病
我们把它记录下来
现在，我们用这个数据来跑第二颗树
第二棵树也说YES
然后我们把它记在这
然后我们对所有树都重复一遍
在用这个数据跑完所有的树以后
我们可以看到得到更多票数的答案
在这个例子里，YES得到了更多的票数
所以我们总结说这个病人有心脏病
BAM!!!
噢不！术语警告⚠
自举数据加上数据集成来进行决策，这被称为bagging
好了，我们已经学到怎么创建并使用随机森林了

Portuguese: 
A primeira árvore diz “SIM”, o paciente tem problemas cardíacos e,
acompanhamos o resultado aqui.
Agora, executamos a segunda árvore que criamos.
A segunda árvore também diz “SIM” e,
 acompanhamos o resultado aqui,
Então, repetimos para todas as árvores existentes.
Depois de perpassar todas as árvores existentes no “Random Forest”, 
 verificamos opção (classe) que recebeu mais votos.
Neste caso, a opção “SIM” recebeu mais votos, então concluímos 
 que o paciente tem problemas cardíacos.
SHOW!!!
Atenção!! Alerta de terminologia!
Rearranjar aleatoriamente os dados (bootstraping)  e utilizar uma 
agregação (votos) para a tomada de decisão, é chamado de “Bagging”.
Ok, agora que vimos como criar e utilizar o “Random Forest”,

Chinese: 
那我们怎么知道它是不是有什么好处呢
还记得我们创建引导数据集的时候吗
在引导数据集中，我们允许有重复
因此，这条记录并没有被包含在引导数据集里
通常来说，约有三分之一的原始数据集不会出现在引导数据集里
这就是那条没有出现在引导数据集的记录
嘶~~~
如果原始数据集要更大些
我们就会有更多的数据摆在这了
这个数据就叫做袋外数据（Out-Of-Bag Dataset）
如果让我来命名
我就叫它Out-Of-Boot Dataset
因为这些记录没有被包含在引导数据集里
唉不幸的是，这由不得我。
既然袋外数据没有在建立树的时候被使用

English: 
How do we know if it's any good
Remember when we created the bootstrapped data set
We allow duplicates in trees in the bootstrapped data set as
A result. This entry was not included in the bootstrap data set
Typically about one third of the original data does not end up in the bootstrap data set
Here's the entry that didn't end up in the bootstrapped dataset
If the original dataset were larger, we'd have more than just one entry over here
This is called the out-of-bag data set
If it were up to me
I would have named it thee out of boot data set since it's the entries that didn't make it into the bootstrap dataset
Unfortunately, it's not up to me
Since the out-of-bag data was not used to create this tree

Portuguese: 
Como sabemos se ele é acurado?
Lembram de quando criamos o “Bootstrap dataset”?
Nós permitimos a duplicação de amostras.
Como resultado, esta amostra aqui não foi usada no “Bootstrap dataset”,
tipicamente, 1/3 do dado original acaba não incorporado ao “Bootstrap dataset”.
Aqui está a amostra que não foi utilizada no “Bootstrapped dataset”
Psst...se o dataset original fosse maior, nós teríamos mais 
do que apenas uma entrada (amostra) aqui.
A estes dados chamamos de “Out-of-Bag dataset”
Se dependesse de mim, eu os nomearia “Out-of-Boot dataset”. Já que são 
compostos por amostras que não entraram no “Bootstrap dataset”.
Infelizmente, a nomenclatura não depende de mim.
Uma vez que os dados “Out-of-Bag” não foram utilizados para a criação desta árvore,

Portuguese: 
Como sabemos se ele é acurado?
Lembram de quando criamos o “Bootstrap dataset”?
Nós permitimos a duplicação de amostras.
Como resultado, esta amostra aqui não foi usada no “Bootstrap dataset”,
tipicamente, 1/3 do dado original acaba não incorporado ao “Bootstrap dataset”.
Aqui está a amostra que não foi utilizada no “Bootstrapped dataset”
Psst...se o dataset original fosse maior, nós teríamos mais 
do que apenas uma entrada (amostra) aqui.
A estes dados chamamos de “Out-of-Bag dataset”
Se dependesse de mim, eu os nomearia “Out-of-Boot dataset”. Já que são 
compostos por amostras que não entraram no “Bootstrap dataset”.
Infelizmente, a nomenclatura não depende de mim.
Uma vez que os dados “Out-of-Bag” não foram utilizados para a criação desta árvore,

Portuguese: 
nós podemos utiliza-los para verificar se a árvore rotula 
corretamente a amostra como sem problemas cardíacos.
Neste caso, a árvore rotula corretamente a amostra “Out-of-Bag” como “NÃO”.
Então, rodamos esta amostra “Out-of-Bag” pelas demais árvores 
(construídas de maneira independente).
Esta árvore aqui, classificou incorretamente a amostra “Out-of-Bag” como “SIM”.
Estas árvores, rotularam corretamente as amostras “Out-of-Bag” como “NÃO”
Uma vez que a classificação com mais votos vence, 
é esta classe que assinalamos à amostra “Out-of-Bag”.
Neste caso, a amostra “Out-of-Bag” é corretamente rotulada pelo “Random Forest”.
Nós então fazemos a mesma coisa para todas as amostras “Out-of-Bag” e todas as árvores.
Esta amostra “Out-of-Bag” foi corretamente rotulada.
Esta amostra “Out-of-Bag” foi incorretamente rotulada.

Chinese: 
我们可以用它来跑一跑，
看看它能不能成功被分类为‘无心脏病’
在这个例子里，我们的树成功地把这条记录分类为‘无心脏病’
然后，我们把这条袋外样本用每一个树都跑一遍
这棵树错误地把它标记成YES，有心脏病
这棵树正确地把它标记成NO，无心脏病
获得更多票数的标签获胜，
因此我们就把这个标签赋给袋外样本
在这个例子里，袋外样本被随机森林正确的标记了
然后，我们对所有的树的袋外样本都重复这些步骤
这个袋外样本也被正确标记了。
这个袋外样本被错误地标记了。

Portuguese: 
nós podemos utiliza-los para verificar se a árvore rotula 
corretamente a amostra como sem problemas cardíacos.
Neste caso, a árvore rotula corretamente a amostra “Out-of-Bag” como “NÃO”.
Então, rodamos esta amostra “Out-of-Bag” pelas demais árvores 
(construídas de maneira independente).
Esta árvore aqui, classificou incorretamente a amostra “Out-of-Bag” como “SIM”.
Estas árvores, rotularam corretamente as amostras “Out-of-Bag” como “NÃO”
Uma vez que a classificação com mais votos vence, 
é esta classe que assinalamos à amostra “Out-of-Bag”.
Neste caso, a amostra “Out-of-Bag” é corretamente rotulada pelo “Random Forest”.
Nós então fazemos a mesma coisa para todas as amostras “Out-of-Bag” e todas as árvores.
Esta amostra “Out-of-Bag” foi corretamente rotulada.
Esta amostra “Out-of-Bag” foi incorretamente rotulada.

English: 
We can run it through and see if it correctly classifies the sample as no heart disease
In this case the tree correctly labels the out of bag sample. No
Then we run this out of bag sample through all of the other trees that were built without it
This tree incorrectly labeled the out of bag sample. Yes
These trees correctly labeled the out of bag sample know
Since the label with the most votes wins is the label that we assign this out of bag sample in
This case the out of bag sample is correctly labeled by the random forest
We then do the same thing for all of the other out of bag samples for all of the trees
This out of bag sample was also correctly labeled
This out of bag sample was incorrectly labeled

English: 
Etc etc, etc
Ultimately we can measure how accurate our random forest is by the proportion of out-of-bag samples that were correctly
classified by the random forest
The proportion of out-of-bag samples that were incorrectly classified is the out of bag error
Okay, we now know how to one build a random forest to use a random forest and
three estimate the accuracy of a random forest
However now that we know how to do this we can talk a little more about how to do this
Remember when we built our first tree and we only use two variables
columns of data to make a decision at each step
Now we can compare the out-of-bag error for a random forest built using only two variables per step

Chinese: 
等等...等等...等等...
最终，我们可以通过袋外样本被正确分类的比例
来衡量我们的随机森林的准确性
没有被正确标记的袋外样本所占的比例被称为袋外错误
好了
我们现在知道怎么做了
1）建立随机森林
2）使用随机森林
3）评估随机森林的精度
但是，既然我们知道怎么评估精度了
我们可以就如何建立随机森林做更深入的探讨了
还记得我们建立第一棵树的时候，
我们在每一步选择节点的时候只用了两个变量
现在我们可以比较
每一步使用两个变量而创建的随机森林的袋外错误

Portuguese: 
etc...etc...etc...
Por fim, podemos medir quanto acurado foi o nosso “Random Forest” através da 
 proporção de amostras “Out-of-Bag” que foram corretamente classificadas.
A proporção de amostras “Out-of-Bag” incorretamente classificadas 
constituem o “Out-of-Bag error”.
Ok, nos agora sabemos como: 1) Construir um “Random Forest”, 2) Usar um “Random Forest”
 e 3) Estimar a acurácia de um “Random Forest”.
Entretanto, agora que sabemos como fazer isso...
Podemos conversar um pouco mais sobre como fazer isso...
Lembram de quando construímos nossa primeira árvore, e usamos apenas 2 (duas) 
variáveis para a tomada de decisão, por etapa?
Agora podemos comparar o “Out-of-Bag Error” de um “Random Forest” construído sobre duas variáveis por etapa...

Portuguese: 
etc...etc...etc...
Por fim, podemos medir quanto acurado foi o nosso “Random Forest” através da 
 proporção de amostras “Out-of-Bag” que foram corretamente classificadas.
A proporção de amostras “Out-of-Bag” incorretamente classificadas 
constituem o “Out-of-Bag error”.
Ok, nos agora sabemos como: 1) Construir um “Random Forest”, 2) Usar um “Random Forest”
 e 3) Estimar a acurácia de um “Random Forest”.
Entretanto, agora que sabemos como fazer isso...
Podemos conversar um pouco mais sobre como fazer isso...
Lembram de quando construímos nossa primeira árvore, e usamos apenas 2 (duas) 
variáveis para a tomada de decisão, por etapa?
Agora podemos comparar o “Out-of-Bag Error” de um “Random Forest” construído sobre duas variáveis por etapa...

Chinese: 
和每一步使用三个变量而创建的随机森林
然后，我们在不同的设置下进行测试
选择出结果最准确的随机森林
换句话说
1）我们建立随机森林
然后，2）估计随机森林的精度
然后，我们改变每一步使用的变量数
我们多次重复，最后选择最精确的一个
通常，我们从变量个数的平方根开始
然后在该数字上下的几个数中尝试
第三次BAM!!!
好耶！
我们终于结束了
下一周，我们将学习怎么处理缺失值
怎么聚类样本
好了，下次再见吧。

English: 
to a random forest built using three variables per step and
We test a bunch of different settings and choose the most accurate random forest
In other words one we build a random forest and then two we estimate the accuracy of a random forest
then we change the number of variables used per step and
We do this a bunch of times and then choose the one that is the most accurate
Typically we start by using the square of the number of variables and then try a few settings above and below that value
Triple bail
Hooray
We've made it to the end of another exciting static quest tune in next week
And we'll talk about how to deal with missing data and how to cluster the samples. All right, and tell them quest are armed

Portuguese: 
com um “Random Forest” construído usando 3 (três) variáveis por etapa...
e, testar uma série de parâmetros diferentes, para então 
 escolher o “Random Forest” mais acurado.
Em outras palavras, 1) nós construímos um “Random Forest”, 2) Estimamos a acurácia de um “Random Forest”...
E então, nós mudamos o número de variáveis utilizados, por etapa...
fazemos isso por algumas vezes, e escolhemos aquele que for mais acurado.
Tipicamente, utilizamos a raiz quadrada do número de variáveis, e então 
 testamos algumas parametrizações acima e a baixo desse valor.
SHOW!!!!
Chegamos ao fim de outro StatQuest.
Não perca o da próxima semana. Falaremos sobre como 
 tratar dados faltantes e como agrupar amostras.
Tudo de bom a todos e até o próximo QuestOn!

Portuguese: 
com um “Random Forest” construído usando 3 (três) variáveis por etapa...
e, testar uma série de parâmetros diferentes, para então 
 escolher o “Random Forest” mais acurado.
Em outras palavras, 1) nós construímos um “Random Forest”, 2) Estimamos a acurácia de um “Random Forest”...
E então, nós mudamos o número de variáveis utilizados, por etapa...
fazemos isso por algumas vezes, e escolhemos aquele que for mais acurado.
Tipicamente, utilizamos a raiz quadrada do número de variáveis, e então 
 testamos algumas parametrizações acima e a baixo desse valor.
SHOW!!!!
Chegamos ao fim de outro StatQuest.
Não perca o da próxima semana. Falaremos sobre como 
 tratar dados faltantes e como agrupar amostras.
Tudo de bom a todos e até o próximo QuestOn!
