
Arabic: 
‫>> إذن هذه حقيقة بارزة عن قاعدة خوارزمية Q للتعلم،
‫وهي أنه إذا بدأنا بـ ^Q
‫من أي مكان، ثم قمنا بتحديثها وفقًا
‫للقاعدة التي تحدثنا عنها. Q، عندما
‫نرى انتقال s وa وr و's، ثم نقوم
‫بتحديث (s وa)، أي قيمة Q لكل من (s وa)، ونحرك ألفا
‫باتجاه r زائد غاما، والحد الأقصى a،
‫فيصبح لدينا في الأساس قيمة Q للحالة الأولية التي نرمز لها بـ 'S.
‫فطالما نفعل ذلك، يتحول هذا التقدير، ^q وS وA
‫إلى Q وS وA. وهو الحل الفعلي لمعادلة بيلمان. وأكتب
‫هذا بعلامة تعجب، لأنه
‫رمز مكون من سطر واحد فقط! إنه
‫رمز مكون من سطر واحد فقط، فكيف لا تكتب هذا على الفور؟
‫>> مم.
‫>> لكن، دعني فقط أقول، لأنهي هذا، أن هذا يكون حقيقيًا فقط إذا قمنا بالمرور بـ
‫S وA مرارًا بشكل لا نهائي. إذن كما تعلم، هذا تنبيه هام.
‫ليكون هذا صحيحًا، ولتقترب أنت
‫من الحل، يجب أن يستمر هذا لفترة طويلة. يجب
‫أن نمر بجميع الأزواج من الحالة والإجراء. كما يجب أن يتم تحديث معدلات التعلم

English: 
>> So this is a remarkable fact about this Q-learning
rule, and that is if we start Q hat off
pretty much anywhere, and then we update it according to
the rule that we talked about. Q for, for when
we see a transition s,a, r, s prime, then we
update (s,a), the Q value for (s,a), move it alpha
of the way towards r plus gamma, max a of
the, well basically the Q value of the state S prime.
Then as long as we do that, then this estimate, this q hat S A
goes to Q S A. The actual solution to the Bellman equation. And I write
this with an exclamation mark, because it's
like, it's one line of code! It's one
line of code, like, how could you not just go out and write this right now?
>> Hm.
>> But the, the, the, let me just, to finish is, this is only true if we
actually visit SA infinitely often. So you know, that's an important caveat.
That for this to, to actually hold true, for you to really converge
to the, the solution, it has to run for a long time. It
has to visit all state action pairs. The learning rates have to be

Chinese: 
>> 那么，这是“Q 学习规则”值得关注的一个事实，
如果我们在任何地方开始 Q^，
我们会根据之前谈到过的
规则对它进行更新。当我们看到一个
转换 s、a、r 和 S' 状态，
我们会更新 (s,a)、(s,a) 的 Q 值，
沿方向移动 α 到 r、γ 和
S' 状态 Q 值的最优化动作 A。
只要我们这么做，那么这个估算值 Q^ S A
就会变成 Q S A，这是贝尔曼方程的实际解法。我在写这个的时候，
附带了一个感叹号，因为
这像是，这是一行代码！这是一行
代码，现在不写更待何时呢？
>> 嗯。
>> 不过，如果我们无限次访问 SA，
这就是这么回事。它是一个重要的附加说明。
特别是当您真的收敛到这个解时，
这依然正确，它需要运行很长一段时间。它
还得访问所有的状态动作对。学习率需要以我们之前谈到过的

Portuguese: 
>> Este é um fato interessante sobre essa regra de aprendizado Q,
e isso se começarmos com o Q hat
em todos os locais e atualizarmos de acordo com
a regra que conversamos. Q para, em casos de
uma transição S, A, R, S prime, em seguida
atualizamos (S,A), o valor Q para (S,A) mover o alfa
em direção a R mais gama, máx a do
valor Q do estado S prime.
Então, contanto que a gente faça isso, essa estimativa, esse Q hat S A
vai para Q S A. A solução real para a equação Bellman. E eu escrevo isso
com um ponto de exclamação porque
é um código de uma linha! É um
código de uma linha! Você pode escrevê-lo agora!
>> Hum.
>> Mas, para terminar, isso só é verdadeiro se realmente
visitarmos o SA infinitamente com frequência. Então isso é importante.
Para isso ser verdadeiro, para você realmente convergir
a solução, ela tem que ser executada por um longo período. Ela
tem que visitar todos os pares de ação de estado. As taxas de aprendizado têm que ser

English: 
updated the way that we talked about before. The next states need to
be drawn from the actual transition probabilities but that's, that's cool, if we
actually are learning in some actual environment and the rewards need to be
drawn from the rewards function. So, this isn't so problematic. This is a
little bit problematic, but it is still very reassuring, this idea that we have
the right form of an update rule, so that the thing
that we converge to is the actual optimal solution to the MDP.
>> Cool. And we just have to wait til the
heat death of the universe, or infinity, and then we're done.
>> Yeah.

Arabic: 
‫بالطريقة التي تحدثنا عنها من قبل. يجب أن تُستمد الحالات التالية
‫من احتمالات الانتقال الفعلية لكن هذا رائع، إذا كنا
‫نتعلم في بيئة فعلية ويجب أن
‫يتم استنتاج النواتج من دالة النواتج. إذن، لا يبدو هذا معقدًا للغاية. هذا
‫معقد قليلاً، لكنه مازال مُطَمئنًا للغاية، ففكرة أن لدينا
‫الصيغة الصحيحة لقاعدة تحديث، فيصبح الشيء
‫الذي نقترب منه هو الحل الفعلي الأمثل لعمليات MDP.
‫>> رائع. ويجب علينا فقط الانتظار حتى الموت
‫الحراري للكون، أو إلى ما لا نهاية، ثم ينتهي الأمر.
‫>> أجل.

Portuguese: 
atualizadas da forma que conversamos anteriormente. Os próximos estados precisam ser
retirados das probabilidades de transição reais, mas não tem problema se
estivermos aprendendo em algum ambiente real e as recompensas precisarem ser
retiradas da função de recompensas. Isso não é problemático. Isso é um
pouco problemático, mas é muito bom saber que temos a
forma certa de uma regra de atualização, de modo que a coisa para a qual estamos
convergindo seja a real solução ideal do MDP.
>> Legal. E basta esperar até que o universo
sobreaqueça até a morte ou infinitamente e pronto.
>> Sim!

Chinese: 
方法对它进行更新。接下来的状态需要
从实际的转换概率中得出，
不过那非常棒，如果我们真的在某个特定的现实环境中
学习，奖励是需要从奖励函数中得出的。这不是什么大问题。就是有些麻烦，
不过我们还是可以放心的。
我们有一个更新规则的正确形式，
这样我们将收敛到 MDP 的最优解。
>> 太棒了。我们只需要等到宇宙热寂，
或者说无限大，然后我们就完成了。
>> 是的。
