
Portuguese: 
Decidimos que queremos descobrir qual é o conjunto de parâmetros que fornece
as melhores previsões para nossa variável de saída, mas como podemos fazer isso?
Usaremos um algoritmo chamado "gradiente descendente".
Primeiro, precisamos definir alguma função de custo, que denominaremos de J de theta maiúsculo.
Vamos usar o theta maiúsculo para representar todo o nosso conjunto de thetas,
com esta notação sendo usada até o fim da lição.
A função de custo serve para fornecer uma medida do desempenho
do nosso conjunto atual, ao modelar os dados observados.
Queremos minimizar o valor da função de custo.
Como discutimos agora há pouco, quando fazemos regressão linear,
nossa função de custo J de theta pode simplesmente medir a soma dos quadrados das
diferenças entre nossos valores previstos e observados.
Vou deixar isso um pouco formal dizendo que o J de theta maiúsculo é
igual a 1/2, vezes a soma de i igual a 1 a m, de Y previsto de Xi.
Menos Y observado i ao quadrado.

Arabic: 
حسنًا، لقد حددنا أننا نرغب في اكتشاف أي مجموعة من المعلمات تقدم
أفضل توقعات لمتغير الإخراج، ولكن كيف يمكننا القيام بذلك؟
.سنستخدم خوارزمية يطلق عليها اسم الانخفاض التدريجي
.أولاً، نحتاج إلى تعريف دالة تكلفة، التي سنطلق عليها اسم J الخاص بـ theta الكبيرة
،سوف أستخدم theta الكبيرة هنا، كي تمثل مجموعات theta بأكملها
.وسأستخدم هذه الإشارة فيما تبقى من الدرس
،يقصد بدالة التكلفة أن تقدم مقياسًا لمدى جودة أداء مجموعات theta الحالية
.في تصميم نماذج البيانات الملاحظة
.لذا، نود أن نقلل قيمة دالة التكلفة
،كما ناقشنا منذ قليل، عند قيامنا بعمل انحدار خطي
يمكن أن تقيس دالة التكلفة J الخاص بـ theta، مجموع مربعات
.الاختلافات بين القيم المتوقعة والملاحظة لدينا
،سوف أوضح ذلك قليلاً، وأقول أن قيمة J الخاص بـ theta الكبيرة تساوي نصف المجموع حيث i يساوي واحد إلى m
.في y المتوقعة في x i
.ناقص Y الملاحظة i تربيع

Japanese: 
どのパラメータが出力変数を
最も正確に予測できるか確かめることにします
どうすればいいでしょうか
これには勾配降下法を使います
まずは費用関数が必要です
J（θ）としましょう
これはすべてのθの値を表しています
レッスンの表記はこれで統一しましょう
費用関数は観測データのモデリングにおいて
θの正確さの基準を提供するので
値はできるだけ小さくします
前にもお話ししたとおり
線形回帰を使うときの費用関数J（θ）は
予測のYと観測されたYとの
誤差の二乗の合計です
これをさらに形式化しましょう
J（θ）とはiが1からmまで変化する場合の
Xがiの時の予測値Yと
実際の観測値Yiの誤差を二乗した各値を
すべて合計した半分です
Xがiの時の予測値Yは
nがゼロからNまで変化する場合の

English: 
So, we've determined that we want to figure out which set of parameters provide
the best predictions for our output variable, but how can we do that?
We'll use an algorithm called gradient descent.
First, we need to define some cost function, which we'll call J of big theta.
I'm going to use big theta here, to represent our entire set of thetas, and
I'll use this notation throughout the rest of this lesson.
The cost function is meant to provide a measure of how well our
current set of thetas does, at modeling the observed data.
So, we want to minimize the cost function's value.
As we discussed just a moment ago, when we're doing linear regression,
our cost function J of theta, can simply measure the sum of the squares of
the differences between our predicted and observed values.
I am going to formalize this a little bit, and say this, J of big theta, is
equal to one half, times the sum from i equals one to m, of y predicted of x i.
Minus Y observed i squared.

Japanese: 
θn掛けるXnのi乗の各値の合計です
複雑なのですが
色分けしたので見ていきましょう
まず最初はJ（θ）=1／2掛ける
すべてのデータポイントについての
入力変数Xの予測値Yから
観測値Yを引いた二乗の合計です
これは誤差の二乗の項で
すべてのデータポイントについて合計します
上の式と変わりません
こちらの式では入力変数を使って
予測値Yを計算します
n＝0からNまでについて
θn掛けるXnを合計します
それぞれの入力変数Xnに
重みのθを掛けたものを合計するのです
先ほどの合計と変わりません
しかしn＝0を追加したことを忘れないでください
モデルの定数項に相当し
どの入力変数にも対応しません

English: 
Where Y predicted x i, equals the sum of n from zero to big N, of theta n x n i.
So, there's a lot going on here, and I have color coded this.
So, why don't we walk through it.
First, we're just saying that J of big theta is equal to one half,
times the sum over all of our data points, of the predicted Y,
given our Xs, our input variables, minus the observed Y squared.
So, this is just our error squared term.
Summed over all the data points.
No different than the equation that we have up here.
Down here, we're just defining the way that we calculate the predicted
value of Y.
Given our input variables.
And the way that we do that, is that we say we sum from N equals zero,
to big N, of theta N times X N.
So, we're just saying that we sum up the X N each input variable,
times its weight, theta.
This is no different that the sum that we had, on the last slide.
Note that we include an N equals zero term here, which corresponds to a constant
term in our model, which doesn't correspond to any of the input variables.

Arabic: 
.حيث Y المتوقعة x i، تساوي مجموع n من صفر إلى N الكبيرة، في theta n x n i
.إذًا، هناك العديد من الأمور التي تتم هنا، وقد رمزت لها بالألوان
.حسنًا، لنتطرق إليها
أولاً، ما نقوله هو أن قيمة J الخاص بـ theta الكبيرة تساوي نصف
،المجموع الكلي لنقاط البيانات، من Y المتوقعة
.بافتراض أن Xs هي متغيرات الإدخال، ناقص Y الملحوظة تربيع
.إذًا، هذا هو الطرف المربع الخطأ
.يجمع نقاط البيانات بأكملها
.حيث لا يختلف عن المعادلة لدينا هنا بالأعلى
هنا بالأسفل، نعرِّف كيفية حساب القيمة المتوقعة
.لـ Y
.مع افتراض متغيرات الإدخال
والطريقة التي تمكننا من القيام بذلك، هي أن نقوم بالجمع من n تساوي صفر إلى
.N الكبيرة، في theta N ضرب X N
،حسنًا، ما نقوله هنا هو أننا نجمع X N مع كل متغير إدخال
.مضروبًا في وزنه، theta
.وهذا لا يختلف عن المجموع الناتج في الشريحة الأخيرة
،لاحظ أننا نضع الطرف N تساوي صفر هنا، الذي يتوافق مع طرف ثابت في النموذج لدينا
.حيث لا يتوافق مع أي من متغيرات الإدخال

Portuguese: 
Onde Y previsto Xi é igual à soma de n de zero a N maiúsculo, de theta N x n i.
Há muita coisa acontecendo aqui, e codifiquei isso em cores.
Que tal darmos uma olhada nisso?
Primeiro, só estamos dizendo que J de theta maiúsculo é igual é 1/2,
vezes a soma sobre todos os nossos pontos de dados, do Y previsto,
dados nossos Xs, nossas variáveis de entrada, menos o Y observado ao quadrado.
É apenas nosso termo de erro ao quadrado.
Somado por todos os nossos pontos de dados.
Não é diferente da equação que temos aqui.
Nessa parte, só estamos definindo a forma como calculamos o valor
previsto de Y.
Dadas nossas variáveis de entrada.
Dizemos que a forma como fazemos isso é somando de N igual a zero,
a N maiúsculo, de theta N vezes Xn.
Só estamos dizendo que somamos cada variável de entrada de Xn,
vezes seu peso, theta.
Isso não é diferente da soma que tínhamos, no último slide.
Observe que incluímos um N igual a zero aqui, o que corresponde a um termo
constante em nosso modelo, que não corresponde a qualquer uma das variáveis de entrada.

Japanese: 
線形代数に慣れている方には
θの転置行列にXを掛けると書いてもいいですね
線形代数になじみがなくても気にしないでください
左のものと意味は同じです
右側の方が理解しやすい人もいるでしょう

Arabic: 
،بالنسبة لمن هو على علم بالجبر الخطي، إذا أردنا ذلك
.يمكننا أن نعبر عن هذا كما يلي، theta المنقولة مضروبة في x
،إذا لم تكن على دراية بالجبر الخطي، فلا تقلق بشأن ذلك
،فما هي إلا طريقة أخرى للتعبير عن الشيء ذاته هنا
.الذي قد يكون فهمه أسهل بالنسبة إلى بعض الطلاب

Portuguese: 
Para aqueles que estão familiarizados com a álgebra linear, se quiséssemos,
também poderíamos expressar isso com theta transposto vezes x.
Se você não conhece álgebra linear, não se preocupe com isso.
Trata-se apenas de uma outra forma de expressar a mesma coisa,
mas que pode ser mais fácil para alguns estudantes compreenderem.

English: 
For those of you familiar with linear algebra, if we wanted to,
we could also express this as theta transposed times x.
If you don't know linear algebra, don't worry about this,
this is just another way of expressing the same thing here,
that might be easier for some students to comprehend.
