
English: 
So Katie, you told everybody about training and
test sets, and I hope people exercise it quite a bit.
Is that correct? >> Yes, that's right.
>> So now I'm going to talk about something that slightly generalizes this
called cross validation.
And to get into cross validation, let's first talk about problems with
splitting a data set into training and testing data.
Suppose this is your data.
By doing what Katie told you,
you now have to say what fraction of data is testing and what is training.
And the dilemma you're running into is you like to maximize both of the sets.
You want to have as many data points in the training sets to
get the best learning results, and you want the maximum number of data items in
your test set to get the best validation.
But obviously, there's an inherent trade-off here, which is every data point you
take out of the training set into the test is lost for the training set.
So we had to reset this trade-off.
And this is where cross validation comes into the picture.

Arabic: 
إذًا يا كاتي، حدَّثتِ الجميع عن مجموعات التدريب
والاختبار، وآمل أن يتدرب الناس على ذلك قليلًا.
هل هذا صحيح؟ >>نعم، ذلك صحيح.
>> إذًا سأتحدث الآن عن شيء يعمِّم هذه القاعدة،
يُسمى "التحقق التبادلي".
ولكي نبدأ بتناول التحقق التبادلي، فلنتحدث أولًا عن
المشاكل التي تحدث
مع تقسيم مجموعة بيانات إلى بيانات تدريب وبيانات
اختبار.
افترضوا هذا في بياناتكم.
حين تفعلون ما أخبرتكم به كاتي،
فسيكون عليكم الآن أن تقولوا أيّ بيانات هي بيانات
اختبار وأيّها بيانات تدريب.
والمعضلة التي ستمرّون بها هي أنكم تريدون زيادة كلتا
المجموعتين إلى الحد الأدنى.
أنتم ترغبون في الحصول على نفس الكمّ الكبير من نقاط
البيانات الموجود في مجموعات التدريب
للحصول على أفضل نتائج للتعلُّم، وتريدون أقصى عدد
ممكن من عناصر البيانات
في مجموعتكم المثلى لتحقيق أفضل تحقق.
لكن نقول بوضوح إن هناك عيب متأصل هنا؛ وهو أن كل نقطة
بيانات
تستخلصونها من مجموعة التدريب إلى الاختبار تخسرونها
في مجموعة التدريب.
إذًا علينا إعادة تعيين هذا العيب،
وهذا هو ما يمنح التحقق التبادلي أهميته في المشهد.

Portuguese: 
Katie, você falou sobre conjuntos de treinamento e
de testes. Espero que as pessoas treinem isso um pouco.
É isso mesmo? >> Sim, está certo.
>> Agora, falarei sobre algo que generaliza um pouco essa
validação cruzada.
Vamos falar primeiro sobre problemas
com a divisão de conjuntos de dados em dados de treinamento e de testes.
Imagine que estes sejam seus dados.
Ao fazer o que a Katie falou,
agora, você precisa dizer qual fração de dados está testando e o que está treinando.
Seu dilema é que você gosta de maximizar os dois conjuntos.
Você quer o máximo de pontos de dados nos conjuntos de treinamento
para obter os melhores resultados de aprendizado e o mínimo número de
itens de dados no conjunto de testes para obter a melhor validação.
Mas, obviamente, há uma troca inerente aqui: cada ponto de dados removido
do conjunto de treinamento para o teste é perdido para o conjunto de treinamento.
Por isso, redefinimos essa troca.
É aqui que a validação cruzada entra.

Chinese: 
Katie 你告诉大家关于训练和测试集的内容
我希望大家也做了一些练习
— 是的吗？ — 是的
现在我要讨论的内容是将其稍微推广了一下 
叫做交叉验证
在进入交叉验证之前 我们先来讨论一下
将数据集分拆为训练和测试数据的问题
假设这就是你的数据
用 Katie 教你的方法来做
现在你要说出哪个部分的数据是测试 哪个是训练
你进入的困境是希望将两个集合都做到最大化
你希望在训练集中有尽可能多的数据点
以获得最佳学习结果 同时也希望测试集中有最大数量的数据项
来获得最佳验证
但显然这里需要进行折衷 每当你从训练集中取出一个数据点拿去测试
训练集中就会少一个数据点
所以 我们要重新设定这个折衷
这就是涉及到交叉验证的地方

Portuguese: 
A ideia básica é que você solicite o conjunto de dados em k colunas de igual tamanho.
Por exemplo, se você tiver 200 pontos de dados
e dez colunas.
Rápido!
Qual é o número de pontos de dados por coluna?
Obviamente, é 20.
Você terá 20 pontos de dados em cada 10 colunas.
Aqui está a imagem.
Enquanto que, como mostrou a Katie, você escolhe apenas uma coluna
como teste e a outra como treinamento,
na validação cruzada k-fold, k experimentos de aprendizado separados são executados.
Em cada um deles, você escolhe um subconjunto k como conjunto de testes.
O restante, k menos uma coluna, é reunido no conjunto de treinamento.
Depois, você treina o algoritmo de aprendizado de
máquina e, como antes, testa o desempenho no conjunto de testes.
O segredo na validação cruzada é fazer isso várias vezes.
Neste caso, dez. Depois, você calcula a média dos desempenhos
dos dez conjuntos de testes diferentes mantidos,
calculando a média dos resultados de testes desses experimentos k.

English: 
The basic idea is that you partition the data set into k bins of equal size.
So example, if you have 200 data points.
And you have ten bins.
Very quickly.
What's the number of data points per bin?
Quite obviously, it's 20.
So you will have 20 data points in each of the 10 bins.
So here's the picture.
Whereas in the work that Katie showed you, you just pick one of those bins as
a testing bin and the other then as a training bin.
In k-fold cross validation, you run k separate learning experiments.
In each of those, you pick one of those k subsets as your testing set.
The remaining k minus one bins are put together into the training set,
then you train your machine learning algorithm and
just like before, you'll test the performance on the testing set.
The key thing in cross validation is you run this multiple times.
In this case ten times, and then you average the ten different testing set
performances for the ten different hold out sets, so
you average the test results from those k experiments.

Chinese: 
基本要点是将训练数据平分到相同大小的 k 个容器内
例如有 200 个训练数据点
有十个容器
很快便可得出
每个容器内有多少个数据点呢？
很明显 是 20
所以 10 个容器内分别有 20 个数据点
就是这样
然而在 Katie 讲述的操作中 你只是挑选其中一个容器
作为验证容器 另一个作为训练容器
在 k 折交叉验证中 你将运行 k 次单独的学习试验
在每次试验中 你将从这 k 个子集中挑选一个作为验证集
剩下 k-1 个容器放在一起作为训练集
然后训练你的机器学习算法
与以前一样 将在验证集上验证性能
交叉验证中的要点是这个操作会运行多次
在此例中为十次 然后将十个不同的测试集
对于十个不同的保留集的表现进行平均
就是将这 k 次试验的测试结果取平均值

Arabic: 
الفكرة الأساسية هي أنكم تقسِّمون مجموعة البيانات
إلى سلال k متساوية الحجم.
إذًا، على سبيل المثال، إذا كانت لديكم 200 نقطة
بيانات
ولديكم 10 سلال
فلتجيبوا بسرعة شديدة:
ما عدد نقاط البيانات لكل سلة؟
من الواضح جدًا أنه 20.
إذًا سيكون لديكم 20 نقطة بيانات في كلٍ من السلال
العشر.
إذًا ها هي الصورة.
بينما في العمل الذي عرضته عليكم كاتي التقطتم إحدى
هذه التلال
كسلة اختبار ثم التقطتم الأخرى كسلة تدريب،
ففي تحقق k التبادلي المطويّ تشغِّلون تجارب k تعليمية
منفصلة.
في كلتا هاتين الحالتين، تلتقطون إحدى مجموعات k
الفرعية تلك كمجموعة التدريب الخاصة بكم.
توضع سلال k-1 المتبقية معًا في مجموعة التدريب،
ثم تمارسون خوارزمية التعلُّم الآلي لديكم.
وتمامًا كما حدث بالسابق، ستختبرون الأداء على مجموعة
الاختبار.
الشيء الأساسي في التحقق التبادلي أنكم تشغِّلون هذا
لمرات متعددة،
وهي عشر مرات في هذه الحالة، ثم تقيسون نسبة أداءات
مجموعات الاختبار العشر المختلفة
للمجموعات إلى المجموعات العشر المواجِهة المختلفة؛
وبالتالي تقيسون متوسط نتائج الاختبار من تجارب k.

Portuguese: 
Obviamente, leva mais tempo de cálculo, porque agora você tem que executar
k experimentos de aprendizado separados,
mas a avaliação do algoritmo de aprendizado será mais preciso.
De certa forma, você usou todos os dados para
treinamento e testes, o que é legal.
Temos apenas uma pergunta.
Imagine que você tenha a opção de fazer a metodologia de teste de treinamento estático
sobre o qual a Katie falou ou a validação cruzada 10-fold, CV,
e quer minimizar o tempo de treinamento.
Minimize o tempo de execução depois do treinamento usando o algoritmo
de aprendizado de máquina para obter resultados depois do tempo de treinamento e maximizar a precisão.
Em cada uma dessas três situações, você pode escolher treinar/testar ou
validação cruzada 10-fold.
Dê um seu melhor palpite.
Qual você escolheria?
Para cada tempo mínimo de treinamento,
escolha um destes aqui, à direita.

English: 
So obviously, this takes more compute time because you now have to run
k separate learning experiments, but
the assessment of the learning algorithm will be more accurate.
And in a way, you've kind of used all your data for
training and all your data for testing, which is kind of cool.
Say we just ask one question.
Suppose you have a choice to do the static train test methodology that Katie
told you about, or you do say 10-fold cross validation, C.V., and
you really care about minimizing training time.
Minimize run time after training using your machine learning algorithm
to output past the training time and maximize accuracy.
In each of these three situations, you might pick either train/test or
10-fold cross validation.
Give me your best guess.
Which one would you pick?
So for each minimum training time,
pick one of the two over here on the right side.

Chinese: 
显然 这会花更多的计算时间 因为你要运行
k 次单独的学习试验
但学习算法的评估将更加准确
从某种程度上讲 你差不多使用了全部训练数据进行训练
以及全部训练数据进行验证 很酷
比如我们提一个问题
假设你可以选择按照 Katie 讲述的静态训练测试方法来操作
也可以按照 10 折交叉验证来操作
你实际关心的是将训练时间降至最低
使用机器学习算法进行训练后将运行时间降至最低
忽略训练时间 将查准率提至最高
在这三种情形下 你可以挑选训练/测试或者
10 折交叉验证
告诉我你的最佳猜测
你会选择哪一种？
对于每个最短的训练时间
请在右边选择两者之一

Arabic: 
إذًا نقول بوضوح إن هذا يستغرق وقت حساب أكبر، لأن
عليكم الآن أن تشغِّلوا
تجارب k التعليمية المنفصلة؛
لكن تقييم خوارزمية التعليم سيكون أكثر دقة.
وبشكل ما قد استخدمتم جميع بياناتكم الخاصة بالتدريب
وجميع بياناتكم الخاصة بالاختبار، وهذا رائع إلى حدٍ
ما.
لنقُل إننا نسأل سؤالًا واحدًا.
افترضوا أن لديكم خيار أداء المنهجية الإحصائية لاختبار
التدريب التي حدَّثتكم
عنها كاتي، أو لنقُل إنكم أجريتم تحقق تبادلي 10 أضعاف
وسيرة ذاتية
وتهتمون فعليًا بتقليل وقت التدريب إلى الحد الأدنى.
قلِّلوا وقت الركض بعد التمرين إلى الحد الأدنى باستخدام
خوارزمية التعلُّم الآلي لديكم
لإخراج تاريخ وقت التدريب وزيادة الدقة إلى حدها
الأقصى.
في كلٍ من هذه المواقف الثلاثة، ربما تلتقطون
التدريب/الاختبار
أو تحقق تبادلي 10 أضعاف.
أخبروني بأفضل تخميناتكم؛
أيّ هذين الشيئين ستلتقطون؟
إذًا، بالنسبة لكل وقت أدنى للتدريب،
التقطوا واحدًا من الاثنين الموجودين هنا على الجانب
الأيمن.
