
Turkish: 
StatQuest
kontrol et
 
Makine öğrenmesi hakkında konuşma. Evet StatQuest
kontrol et
Çapraz doğrulama hakkında konuşma
StatQuest
Merhaba, ben Josh Stormer ve StatQuest'e hoş geldiniz,bugün çapraz doğrulama hakkında konuşacağız ve anlaşılır bir biçimde açıklanacak
Tamam, bazı verilerle başlayalım
Göğüs ağrısı,  iyi kan dolaşımı değişkenlerini kullanmak istiyoruz
ve benzeri
Birinin kalp hastalığı olup olmadığını tahmin etmek için.
Sonra yeni bir hasta ortaya çıktığında
bu değişkenlerle ölçebiliriz ve
Kalp hastalığı olup olmadığını tahmin ederiz
Ancak, öncelikle hangi makine öğrenme yönteminin en iyi olacağına karar vermeliyiz
lojistik regresyon kullanabiliriz veya
K en yakın komşuları

Portuguese: 
StatQuest, veja só
falando de Aprendizagem de Máquina, yeah!
StatQuest, veja só
falando sobre Validação Cruzada, yeah!
StatQuest!!!
Olá, sou o Josh Starmer e bem-vindos ao StatQuest
Hoje falaremos sobre Validação Cruzada
e será claramente explicada.
Ok, vamos começar com alguns dados.
Usaremos as variáveis: dor no peito
boa circulação sanguínea, etc
para predizer se alguém tem doença cardíaca
Depois, quando um novo paciente aparecer
podemos medir essas variáveis
e predizer se ele tem doença cardíaca ou não
Contudo, primeiro temos que decidir
qual método de aprendizagem de máquina seria melhor.
Poderíamos usar Regressão Logística
ou K vizinhos mais próximos

English: 
StatQuest
Check it out
talking about
Machine-learning. Yeah StatQuest
Check it out
Talking about cross-validation
StatQuest
Hello, I'm Josh stormer and welcome to StatQuest today we're going to talk about cross validation and it's gonna be clearly explained
Okay, let's start with some data
We want to use the variables chest pain good blood circulation
Etc
To predict if someone has heart disease
Then when a new patient shows up
we can measure these variables and
Predict if they have heart disease or not
However, first we have to decide which machine learning method would be best
we could use logistic regression or
K nearest neighbors

Portuguese: 
ou Máquinas de Vetores de Suporte
e muitos outros métodos de aprendizagem de máquina.
Como decidimos qual deles usar?
Validação Cruzada nos permite comparar
diferentes métodos de aprendizagem de máquina
e ter uma ideia de como eles se sairiam na prática.
Imagine que essa coluna azul
representa todos os dados que coletamos sobre pessoas
com e sem doença cardíaca.
Precisamos fazer duas coisas com esses dados
1) Precisamos estimar os parâmetros
para os métodos de aprendizagem de máquina.
Em outras palavras
para usar Regressão Logística
temos que usar alguns dados
para estimar o formato desta curva.
No jargão da aprendizagem de máquina
estimar parâmetros é chamado de "treinar o modelo".
A segunda coisa que precisamos fazer com esses dados
é avaliar o quão bem os métodos de aprendizagem de máquina funcionam.
Em outras palavras

Turkish: 
Veya desktek vektör makinelerini ve
Daha birçok makine öğrenme yöntemi. 
Hangisini kullanacağımıza nasıl karar veririz?
Çapraz doğrulama, farklı makine öğrenme yöntemlerini karşılaştırmamıza ve uygulamada ne kadar iyi çalışacaklarına dair bir fikir edinmemize olanak tanır
Bu mavi sütunun kalp hastalığı olan ve olmayan insanlar hakkında topladığımız tüm verileri temsil ettiğini düşünün
Bu verilerle iki şey yapmamız gerekiyor
ilkinde, makine öğrenim yöntemleri için parametreleri tahmin etmemiz gerekiyor.
Başka bir deyişle lojistik regresyonu kullanmak için bu eğrinin şeklini tahmin etmek için bazı verileri kullanmalıyız
makine öğrenmesi dilinde
Parametrelerin tahmin edilmesine algoritmanın eğitimi denir
Bu verilerle yapmamız gereken ikinci şey, makine öğrenme yöntemlerinin ne kadar iyi çalıştığını değerlendirmektir?

English: 
Or support vector machines and
Many more machine learning methods. How do we decide which one to use?
Cross-validation allows us to compare different machine learning methods and get a sense of how well they will work in practice
Imagine that this blue column represented all of the data that we have collected about people with and without heart disease
We need to do two things with this data
One we need to estimate the parameters for the machine learning methods in
In other words to use logistic regression we have to use some of the data to estimate the shape of this curve
in machine learning lingo
Estimating parameters is called training the algorithm
The second thing we need to do with this data is evaluate how well the machine learning methods work in?

English: 
Other words we need to find out if this curve will do a good job categorizing new data in
In machine learning lingo
Evaluating a method is called testing the algorithm
Thus using machine learning lingo we need the data to
one train the machine learning methods and
to test the machine learning methods a
A terrible approach would be to use all the data to estimate the parameters ie to train the algorithm
Because then we wouldn't have any data left to test the method
Reusing the same data for both training and
Testing is a bad idea because we need to know how the method will work on data. It wasn't trained on a
Slightly better idea would be to use the first seventy-five percent of the data for training and the last 25% of the data for testing

Turkish: 
Diğer bir deyişle, bu eğrinin yeni verileri kategorilere ayırmak için iyi bir iş yapıp yapmayacağını bulmamız gerekir
makine öğrenmesi dilinde
Bir yöntemin değerlendirilmesine algoritmanın test edilmesi denir
Böylece makine öğrenme diinde  kullanarak
makine öğrenme yöntemlerini eğitmek ve
makine öğrenme yöntemlerini test etmek için verilere ihtiyacımız var
Korkunç bir yaklaşım, parametreleri tahmin etmek için tüm verileri kullanmak olacaktır (yani algoritmayı eğitmek için)
Çünkü o zaman yöntemi test etmek için hiç veri kalmazdı
Aynı verilerin hem eğitim hem de test için tekrar kullanılması kötü bir fikirdir, çünkü yöntemin veriler üzerinde nasıl çalışacağını bilmemiz gerekir.
Aynı verilerin hem eğitim hem de test için tekrar kullanılması kötü bir fikirdir, çünkü yöntemin veriler üzerinde nasıl çalışacağını bilmemiz gerekir.
Biraz daha iyi bir fikir, eğitim için verilerin ilk yüzde yetmiş beşini

Portuguese: 
precisamos descobrir se esta curva
fará um bom trabalho categorizando novos dados.
No jargão da aprendizagem de máquina
avaliar um método é chamado de "testar o modelo".
Assim,  usando jargão da aprendizagem de máquina
precisamos dos dados para:
1) Treinar os métodos de aprendizagem de máquina.
2) Testar os métodos de aprendizagem de máquina.
Uma péssima abordagem seria usar
todos os dados para estimar os parâmetros
isto é, para treinar o modelo...
porque então não haveria nenhum dado sobrando
para testar o método.
Reusar os mesmos dados tanto para treinamento
quanto para  testes é uma má ideia
porque precisamos saber como o modelo funcionará
em dados nos quais não foi treinado.
Uma ideia um pouco melhor
seria usar os primeiros 75% dos dados no treinamento

Turkish: 
ve test için verilerin son% 25'ini kullanmak olacaktır.
Daha sonra, her birinin test verilerini ne kadar iyi kategorize ettiğini görerek yöntemleri karşılaştırabiliriz
Ancak, eğitim için verilerin %75'ini ve test için verilerin son % 25'ini kullanmanın verileri bölmenin en iyi yolu olduğunu nasıl biliyoruz?
Ancak, eğitim için verilerin %75'ini ve test için verilerin son % 25'ini kullanmanın verileri bölmenin en iyi yolu olduğunu nasıl biliyoruz?
Test için verilerin ilk% 25'ini kullanırsak ne olur?
Ya da bu orta bloklardan biri?
Çapraz doğrulamayı test etmek için hangi bloğun en iyi olacağı konusunda çok fazla endişelenmek yerine hepsini teker teker kullanır ve sonuda sonuçları özetlenir.
Çapraz doğrulamayı test etmek için hangi bloğun en iyi olacağı konusunda çok fazla endişelenmek yerine hepsini teker teker kullanır ve sonuda sonuçları özetlenir.
Çapraz doğrulamayı test etmek için hangi bloğun en iyi olacağı konusunda çok fazla endişelenmek yerine hepsini teker teker kullanır ve sonuda sonuçları özetlenir.
örneğin çapraz doğrulama, yöntemi eğitmek için ilk üç bloğu kullanarak başlayacak ve
ardından yöntemi test etmek için son bloğu kullanın.
ve sonra yöntemin test verileriyle ne kadar iyi olduğuna bakın

Portuguese: 
e os últimos 25% dos dados para testes.
Poderíamos, então, comparar métodos observando quão bem
cada um categoriza os dados de testes.
Mas como sabemos que usar os primeiros 75% dos dados para treinamento
e os últimos 25% dos dados para testes
é o melhor jeito de dividir os dados?
e se usássemos os primeiros 25% dos dados para testes?
ou alguns desses blocos do meio?
Ao invés de nos preocuparmos muito com qual bloco
seria melhor para testes
Validação Cruzada usa todos
um de cada vez
e resume os resultados no final.
Por exemplo, a Validação Cruzada começaria
usando os 3 primeiros blocos para treinar o modelo.
e então usaria o último bloco para testar o modelo.
e então registra os resultados obtidos pelo modelo
com os dados de testes.

English: 
 
We could then compare methods by seeing how well each one categorized the test data
But how do we know that using the first?
Seventy-five percent of the data for training in the last 25% of the data for testing is the best way to divide up the data
What if we use the first 25% of the data for testing
Or what about one of these middle blocks?
Rather than worry too much about which block would be best for testing cross-validation uses them all one at a time and summarizes the results at the end
 
 
For example cross-validation would start by using the first three blocks to train the method and
then use the last block to test the method and
Then it keeps track of how well the method did with the test data

Portuguese: 
Depois utiliza essa combinação de blocos para treinar o modelo.
e este bloco é usado para testes
e então registra os resultados obtidos pelo modelo
com os dados de testes.
etc, etc, etc.
No final, todos os blocos de dados foram usados para testes
e podemos comparar métodos observando o quão bem desempenharam.
Nesse caso
Já que a Máquina de Vetores de Suporte fez o melhor trabalho
classificando os dados de testes
nós as usaremos!
BAM!!!
Nota: neste exemplo
Dividimos os dados em 4 blocos
Isto é chamado de Validação Cruzada de 4 dobras.
Contudo, o número de blocos é arbitrário.
Em um caso extremos
poderíamos dizer que cada paciente ou amostra é um bloco
Isto é chamado de Validação Cruzada "deixar um de fora"

Turkish: 
daha sonra yöntemi eğitmek için bu blokların kombinasyonunu kullanın
ve bu blok test için kullanılır
ve sonra yöntemin test verileriyle ne kadar uyumlu olduğuna bakılır
Vesaire
Vesaire
Sonunda, her veri bloğu test için kullanılır ve yöntemleri ne kadar iyi performans gösterdiklerini karşılaştırabiliriz
bu durumda, destek vektör makinesi test veri kümelerini sınıflandırmak için en iyi işi yaptığından, onu kullanacağız
BAM!!!
Not: bu örnekte, verileri 4 bloğa böldük. Buna dört kat çapraz doğrulama denir
Ancak, blok sayısı keyfidir.
Aşırı bir durumda, her bir hastayı (veya örneği) bir blok olarak adlandırabiliriz
Buna "Tek Çıkışlı Çapraz Doğrulama" denir

English: 
then it uses this combination of blocks to train the method and
this block is used for testing and
Then it keeps track of how well the method did with the test data, etc
Etc, etc
 
in the end every block of data is used for testing and we can compare methods by seeing how well they performed in
This case since the support vector machine did the best job classifying the test data sets. We'll use it
BAM!!!
Note: in this example, we divided the data into 4 blocks. This is called four-fold cross validation
However, the number of blocks is arbitrary
In an extreme case we could call each individual patient (or sample) a block
This is called "Leave One Out Cross Validation"

Turkish: 
Her örnek tek tek test edilir
Bununla birlikte, pratikte verileri on bloğa bölmek çok yaygındır. Buna 10 - Kat Çapraz Doğrulama denir
İki Kat BAM!!!
Bitirmeden önce son bir not
Diyelim ki bir "ayar parametresi" içeren bir yöntem kullanmak istedik - tahmin edilmeyen ancak bir tür tahmini olan bir parametre. (Örneğin, Ridge regresyonunun bir ayar parametresi vardır)
Diyelim ki bir "ayar parametresi" içeren bir yöntem kullanmak istedik - tahmin edilmeyen ancak bir tür tahmini olan bir parametre. (Örneğin, Ridge regresyonunun bir ayar parametresi vardır)
Ardından, bu ayar parametresi için en iyi değeri bulmaya yardımcı olmak için 10 kat çapraz doğrulamayı kullanabiliriz.
Ardından, bu ayar parametresi için en iyi değeri bulmaya yardımcı olmak için 10 kat çapraz doğrulamayı kullanabiliriz.
Minik Bam!
Yaşasın,  başka bir heyecan verici StatQuest'in sonuna geldik eğer StatQuest'i beğendiyseniz ve daha fazlasını görmek istiyorsanız lütfen abone olun,
Ve StatQuest'i iyi desteklemek istiyorsanız
Lütfen aşağıdaki beğen düğmesini tıklayın ve orijinal şarkılarımdan birini satın almayı düşünün

English: 
Each sample is tested individually
That said in practice it is very common to divide the data into ten blocks. This is called 10-fold cross-validation
Double BAM!!!
One last note before we're done
Say like we wanted to use a method that involved a tuning parameter a parameter that isn't estimated but is just sort of guessed
For example Ridge regression has a tuning parameter
Then we could use 10-fold cross validation
to help find the best value for that tuning parameter
Tiny Bam!
Hooray we've made it to the end of another exciting StatQuest if you like this StatQuest and want to see more please subscribe
And if you want to support StatQuest well
Please click the like button down below and consider buying one of my original songs

Portuguese: 
Cada exemplo é testado individualmente
Dito isso, na prática
é muito comum dividirmos os dados em 10 blocos
Isto é chamado de Validação Cruzada de 10 dobras
BAM EM DOBRO!!
Uma última nota antes de terminarmos...
Digamos que queiramos usar um método
que envolva o ajuste de um parâmetro
um parâmetro que não seja estimado
mas é meio que "chutado".
Por exemplo. Regressão das Cristas tem um parâmetro ajustado.
Então poderíamos usar Validação Cruzada de 10 dobras
para ajudar a encontrar o melhor valor para o parâmetro ajustado.
bam pequenininho!
Hooray! Chegamos ao final de mais uma excitante StatQuest!
Se gostou desta StatQuest e quer ver mais, por favor, subscreva-se.
e se quiser apoiar StatQuest
bem, por favor clique no botão de "gostei" abaixo
e considere comprar uma das minhas canções originais

Portuguese: 
Beleza! Até a próxima! Missão iniciada!

Turkish: 
Peki bir dahaki sefere kadar Quest on

English: 
Alright until next time quest on
