
Korean: 
여러분이 파트 3를 보셨다는 가정을 하겠습니다.
역전파 알고리즘을 직관적인 방법으로 설명한 영상이었죠.
이제 조금 더 격식을 차려서, 관련된 미적분에 대해 살펴보려 합니다.
이것이 약간 혼란스러울수 있습니다.
그러니 중간중간 멈추고 숙고하라는 진리는 다른 곳에서와 마찬가지로 이 영상에도 적용되겠죠.
이 영상의 주 목표는 머신 러닝에서 일하는 사람들이
네트워크의 관점에서 연쇄 법칙(chain rule)을 생각하는지 보여주는 것입니다.
대부분의 미적분학 기초에서 접근하는 방법과는 꽤 다른 느낌이 들겁니다.
 
관련된 미적분이 불편하신 분들은
제가 만든 미적분에 관한 영상 시리즈를 보시면 됩니다.
아주 단순한 네트워크를 가지고 시작합시다.
한 층에 하나의 뉴런만 있는 네트워크죠.
이 네트워크는 3개의 가중치(weight)와 3개의 편향(bias)만으로 결정됩니다.
우리의 목표는 비용 함수(cost function)가 이런 변수에 대해서 얼마나 민감하게 변하는지 이해하는 것입니다.
그렇게 한다면 이런 것들(가중치, 편향)을 어떻게 바꾸는 것이

Turkish: 
Buradaki zor varsayım, bölüm 3'ü izlediğinizdir.
geri yayılım algoritmasının sezgisel bir adımını vermek.
Burada biraz daha resmi olacağız ve ilgili matematiğe dalacağız.
Bunun biraz kafa karıştırıcı olması normal.
bu yüzden düzenli aralıklarla durmak ve düşünmek için mantra kesinlikle burada herhangi bir yerde olduğu kadar geçerlidir.
Temel hedefimiz, insanların makine öğrenmesinde nasıl olduğunu göstermek.
ağlar bağlamında matematikten zincir kuralını genel olarak düşünmek,
hangi giriş kurslarının en çok konuya yaklaştığı konusunda farklı bir havası vardır.
İlgili hesaplardan rahatsız olanlar için,
Konuyla ilgili bir dizi var.
Son derece basit bir ağla başlayalım,
her katmanın içinde tek bir nöron bulunduğu bir tane.
Yani bu özel ağ 3 ağırlık ve 3 önyargı ile belirlenir,
ve amacımız, maliyet fonksiyonunun bu değişkenlere ne kadar hassas olduğunu anlamaktır.
Bu şekilde, bu şartlarda hangi ayarların yapıldığını biliyoruz.

Chinese: 
这集开始我们就假设你已经看过第三集了
那集让大家直观上感受反向传播算法的原理
在这集里  我们会更深入讲解一些其中的微积分理论
这个看不太懂很正常
所以  我们的六字格言“停一停想一想”在这依旧管用
这集我们的目标  是给大家展示在机器学习中
我们一般是怎么理解链式法则的
这点跟别的基础微积分课讲得会有点不一样
对于微积分不够熟悉的观众
我之前已经做了一整个系列了
我们从最最简单的网络讲起吧
每层只有一个神经元
图上这个网络就是由3个权重和3个偏置决定的
我们的目标是理解代价函数对于这些变量有多敏感
这样 我们就知道怎么调整这些变量

Russian: 
Трудно предположить, что вы смотрели часть 3,
дать интуитивно понятное прохождение алгоритма обратного распространения.
Здесь мы немного более формальны и углубимся в соответствующее исчисление.
Это нормально, что это немного сбивает с толку,
поэтому мантра для регулярной паузы и размышления, безусловно, применима и здесь, и везде.
Наша главная цель - показать, как люди в машинном обучении
обычно думают о правиле цепи из исчисления в контексте сетей,
который по-разному понимает, насколько большинство вводных курсов по исчислению подходят к предмету.
Для тех из вас, кого не устраивает соответствующее исчисление,
У меня есть целая серия на эту тему.
Давайте начнем с очень простой сети,
один, где каждый слой имеет один нейрон в нем.
Таким образом, эта конкретная сеть определяется 3 весами и 3 поправками,
и наша цель - понять, насколько чувствительна функция стоимости к этим переменным.
Таким образом, мы знаем, какие корректировки этих условий

French: 
Je suppose ici que vous ayez regardé la partie 3,
vous donnant l'intuition du fonctionnement de l'algorithme de rétropropagation.
Ici, nous allons être un peu plus formel et plonger dans le calcul sous-jacent.
Il est normal que cela soit un peu déroutant,
donc n'hésitez pas à faire pause régulièrement pour prendre le temps de réfléchir
Notre objectif principal est de montrer comment les gens en apprentissage automatique
se conçoivent la règle de la chaîne (théorème de dérivation des fonctions composées) dans le contexte des réseaux,
qui diffère de la façon dont la plupart des cours introductifs en analyse présentent le sujet.
Pour ceux d'entre vous qui sont mal à l'aise avec l'analyse,
j'ai fait toute une série sur le sujet.
Commençons par un réseau extrêmement simple,
celui où chaque couche est composé d'un seul neurone.
Donc ce réseau particulier est déterminé par 3 poids et 3 biais,
et notre objectif est de comprendre à quel point la fonction de coût est sensible à ces variables.
De cette façon, nous savons quelles modifications de ces termes

English: 
The hard assumption here is that you’ve watched part 3,
giving an intuitive walkthrough of the backpropagation algorithm.
Here, we get a bit more formal and dive into the relevant calculus.
It’s normal for this to be a little confusing,
so the mantra to regularly pause and ponder certainly applies as much here as anywhere else.
Our main goal is to show how people in machine learning
commonly think about the chain rule from the calculus in the context of networks,
which has a different feel for how much most introductory calculus courses approach the subject.
For those of you uncomfortable with the relevant calculus,
I do have a whole series on the topic.
Let’s just start off with an extremely simple network,
one where each layer has a single neuron in it.
So this particular network is determined by 3 weights and 3 biases,
and our goal is to understand how sensitive the cost function is to these variables.
That way we know which adjustments to these terms

Portuguese: 
A suposição difícil aqui é que você assistiu à parte 3,
que fornece um guia intuitivo do algoritmo de retropropação.
Aqui, somos um pouco mais formais e aprofundamos no cálculo relevante.
É normal que isto seja um pouco confuso,
então o mantra de pausar de vez em quando pra pensar se aplica do mesmo jeito.
Nosso principal objetivo é mostrar como o povo da aprendizagem de máquina
costuma pensar na regra da cadeia do cálculo no contexto de redes,
que é um pouco diferente de como a maioria dos cursos introdutórios de cálculo abordam o assunto.
Para aqueles que não se dão muito bem com cálculo,
eu tenho uma série inteira sobre o assunto.
Vamos começar com uma rede extremamente simples,
uma onde cada camada tem apenas um único neurônio.
Então essa rede específica é determinada por 3 pesos e 3 vieses,
e nosso objetivo é entender o quão sensível a função de custo é para essas variáveis.
Assim nós sabemos quais ajustes a esses termos

Spanish: 
Aqui la suposición dificil es que tu has mirado la parte 3,
dando una demostración intuitiva del algoritmo de la retropropagación.
Aquí,  obtenermos algo un pocomo mas formal y profundo en lo relavanta al cálculo.
Es normal estar un poco confundido para esto,
asi que el mantra,  pausa y piensa regularmente, ciertamente se aplica mucho aquí como en ningun otro lugar.
Nuestra meta principal es enseñarle a la gente el aprendizaje de máquinas,
comummente se piensa en la regla de la cadena del cálculo
tiene una diferente sensación por cuanto los cursos introductorios de calculo tratan el tema .
para los que se sientas incomodos con la relación del cálculo,
tengo una serie completa sobre el tema.
Digamos que inicias con una red extremadamente simple,
una en la cual cada capa tiene una sola  neurona dentro.
Entonces esta red en particular es determinada por 3 pesos y 3 biases,
y nuestra meta es entender que tan sensitiva es la función de coste para estas variables
de esa manera sabemos qué ajustes a estos términos

English: 
is going to cause the most efficient decrease to the cost function.
And we're just focus on the connection between the last two neurons.
Let's label the activation of that last neuron a with a superscript L, indicating which layer it’s in,
so the activation of this previous neuron is a^(L-1).
There are not exponents, they're just a way of indexing what we’re talking about,
since I want to save subscripts for different indices later on.
Let’s say that the value we want this last activation to be for a given training example is y.
For example, y might be 0 or 1.
So the cost of this simple network for a single training example is (a^(L) - y)^2.
We’ll denote the cost of this one training example as C_0.
As a reminder, this last activation is determined by a weight, which I'm going to call w^(L)
times the previous neuron’s activation,
plus some bias, which I’ll call b^(L),
then you pump that through some special nonlinear function

Chinese: 
才可以使得代价降低得最快
我们先来关注最后两个神经元吧
我给最后一个神经元的激活值一个上标L  表示它处在第L层
那么  前一个神经元的激活值就是a^(L-1)
这不是指数  而是用来标记我们正在讨论哪一层
过一会我会用到下标来表示别的意思
给定一个训练样本  我们把这个最终层激活值要接近的目标叫做y
那么y就要么是0  要么是1
那么这个简易网络对于单个训练样本的代价  就等于 (a^(L) - y)^2
对于这个样本  我们把这个代价值标记为C_0
还记得吗  最终层的激活值是这么算出来的—— 一个权重 w^(L)
乘上前一个神经元的激活值
再加上一个偏置b^(L)
最后把加权和塞进一个特定的非线性函数

Portuguese: 
vai diminuir a função de custo mais rapidamente.
Vamos focar somente na conexão entre os dois últimos neurônios.
Vamos rotular a ativação desse último neurônio com um sobrescrito L, indicando a camada em que ele está,
então a ativação desse neurônio anterior é a^(L-1);
Eles não são expoentes, são só um jeito de indexar o que estamos falando,
uma vez que quero salvar os subscritos para índices diferentes mais tarde.
Digamos que o valor que queremos que esta última ativação tenha para um exemplo de treinamento é y.
Por exemplo, y pode ser 0 ou 1.
Então o custo desta rede simples para um único exemplo de treinamento é  (a^(L) - y)^2.
Vamos indicar o custo deste exemplo de treinamento como C_0.
Lembrando que esta última ativação é determinada por um peso, que chamarei de w^(L)
vezes a ativação do neurônio anterior,
mais algum viés, que vou chamar de b^(L),
então você passa isso por alguma função não-linear especial

Spanish: 
van a causar el decresimiento mas eficiente a la función de coste.
Y solo nos estamos enfocando en la conecxión entre las dos neuronas.
Etiquetemos la activación de la última neurona  a con un superscript L, indicando en que capas esta (a^(L)),
asi que la activación de esta neurona previa es a^(L-1)
NO hay exponente, solo es una manera de indexar lo que estamos hablando,
ya que quiero guardar los subscripts para diferentes indices  para después,
Digamos que el valor que queremos, esta última activación sea para un ejemplo de entrenamiento dado es   y.
Por ejemplo,  y podría ser 0 o 1.
Así que el coste de esta red simple para un ejemplo de entrenamiento en particular es (a^(L) - y)^2.
Denotaremos el coste de este ejemplo de entrenamiento como C_0.
Como un recordatorio, esta última activación es determinada por el peso, el cual voy a llamar w^(L)
multiplicado por la activación previa de la neurona,
mas algún bias, el cual llamaré b^(L),
luego bombeas eso a travez de algúna función especial no linear

French: 
va entraîner la baisse la plus efficace de la fonction de coût.
Et nous nous concentrons sur la connexion entre les deux derniers neurones.
Notons l'activation de ce dernier neurone avec un exposant L, indiquant dans quelle couche il se trouve,
donc l'activation du neurone précédent est L-1.
Ce ne sont pas des exposants, c'est juste un indiçage,
et je souhaite utiliser l'indiçage inférieur plus tard pour une autre dénotation.
Disons que la valeur que nous voulons que cette dernière activation soit pour un exemple d'entraînement donné est y.
Par exemple, y pourrait être 0 ou 1.
Ainsi, le coût de ce réseau simple pour un seul exemple d'apprentissage est (a^(L) - y)^2.
Nous noterons le coût de cet exemple d'entraînement C_0.
On se rappelle que cette dernière activation est déterminée par un poids, que je vais appeler w^L
multiplié par l'activation du neurone précédent,
plus un certain biais, que j'appellerai b^L,
puis on injecte cela dans une fonction non linéaire spécifique

Korean: 
비용 함수를 가장 효율적으로 낮추는지 알게 될 것입니다.
그리고 우리는 마지막 2개의 뉴런 사이의 연결에만 집중할 것입니다.
마지막 층의 활성화 정도를 a에다 위첨자로 어느 층인지를 나타내는 L을 붙여 표현합시다.
그렇다면 그 전 뉴런의 활성화 정도는 a^(L-1)이 되겠죠.
지수가 아니라, 어느 층을 나타내는지 번호를 붙여주는 방법입니다.
아랫첨자는 나중에 다른 번호를 붙여줄 생각이기 때문에 그렇게 표시한 것입니다.
주어진 학습 예제에 대해 이 마지막 활성화 정도가 y가 되기를 원한다고 해보죠.
예를 들어, y는 0이거나 1일 수 있습니다.
그렇다면 하나의 학습 예제에 대한 이 단순한 네트워크의 비용은 (a^(L) - y)^2입니다.
이 하나의 학습 예제에 대한 비용을 C_0라 표기하겠습니다.
다시 말씀드리자면, 이 마지막 활성화 정도는 앞으로 w^(L)이라 부를 가중치(weight)와
이전 뉴런의 활성화 정도를 곱한것,
거기에 앞으로 b^(L)이라 부를 편향(bias)를 더한 것에 의해 결정됩니다.

Russian: 
собирается вызвать наиболее эффективное снижение функции стоимости.
И мы просто сосредоточены на связи между двумя последними нейронами.
Давайте обозначим активацию этого последнего нейрона "a" с верхним индексом "L", указывая, в каком слое он находится,
Таким образом, активация этого предыдущего нейрона является "a^(L-1)"
Здесь нет показателей, это просто способ индексации того, о чем мы говорим,
так как я хочу сохранить подписки для различных индексов позже.
Давайте предположим, что значение, которое мы хотим, чтобы эта последняя активация была для данного примера обучения, равно y.
Например, у может быть 0 или 1.
Таким образом, стоимость этой простой сети для одного примера обучения составляет (a ^ (L) - y) ^ 2.
Мы обозначим стоимость этого одного учебного примера как C_0.
Как напоминание, эта последняя активация определяется весом, который я собираюсь назвать w ^ (L)
раз активация предыдущего нейрона,
плюс некоторый уклон, который я назову б ^ (L),
затем вы прокачиваете это через какую-то специальную нелинейную функцию

Turkish: 
maliyet fonksiyonunda en etkin düşüşe neden olacaktır.
Ve biz sadece son iki nöron arasındaki bağlantıya odaklanıyoruz.
En son nöron a'nın aktivasyonunu, içinde L katmanı ile işaretleyelim, hangi katmanda olduğunu gösterelim.
bu önceki nöronun aktivasyonu bir ^ (L-1).
Üstadlar yok, onlar sadece neden bahsettiğimizi endekslemenin bir yolu.
Zira daha sonra farklı endekslere abone kaydetmek istiyorum.
Diyelim ki bu son aktivasyonun belirli bir eğitim örneği için olmasını istediğimiz değer y.
Örneğin, y 0 veya 1 olabilir.
Yani bu basit ağın tek bir eğitim örneği için maliyeti (a ^ (L) - y) ^ 2.
Bu eğitim örneğinin maliyetini C_0 olarak göstereceğiz.
Bir hatırlatıcı olarak, bu son aktivasyon w ^ (L) olarak adlandıracağım bir ağırlıkla belirlenir.
önceki nöronun aktivasyonunun birkaç katı,
artı b ^ (L) diyeceğim bazı önyargılar,
o zaman bunu bazı özel doğrusal olmayan fonksiyonlar vasıtasıyla pompalarsınız.

Turkish: 
Bir sigmoid veya bir ReLU gibi.
Eğer bu z toplam gibi özel bir isim verirsek, bu bizim için işleri kolaylaştıracak,
ilgili aktivasyonlarla aynı üst simge ile.
Yani bir çok terim var.
Kavramsallaştırmanın bir yolu da, ağırlık, önceki aktivasyon ve önyargı.
tamamen z'yi hesaplamak için kullanılır, ki bu da sırayla a.
ve nihayet, y sabiti ile birlikte, maliyeti hesaplayalım.
Ve elbette, bir ^ (L-1) kendi ağırlığından ve önyargısından etkilenir ve böyledir.
Ama şu anda buna odaklanmayacağız.
Bunların hepsi sadece sayılar, değil mi?
Ve her birinin kendi küçük sayı çizgisine sahip olduğunu düşünmek güzel olabilir.
İlk hedefimiz anlamaktır
Maliyet fonksiyonunun ağırlığımızdaki küçük değişikliklere ne kadar duyarlı olduğu w ^ (L).
Veya farklı ifadelerle, C ^ 'nin w ^ (L)' ye göre türevi nedir.
Bu “∂w” terimini gördüğünüzde,

French: 
comme un sigmoïde ou un ReLU.
Cela nous facilitera la tâche si nous donnons un nom spécial à cette somme pondérée, comme z,
avec le même exposant que l'activation correspondante.
Il y a donc beaucoup de termes.
Et une façon de conceptualiser cela est que le poids, l'activation précédente, et le biais
sont combinés pour calculer z, qui à son tour nous permet de calculer a,
qui, avec la constante y, nous permet de calculer le coût.
Et bien sûr, un a^(L-1) est influencé par son propre poids et son propre biais, et autres.
Mais nous n'allons pas nous concentrer là-dessus maintenant.
Tous ces termes ne ne sont que des chiffres, n'est-ce pas?
Et ça peut être utile de penser que chacun a sa propre petite ligne de valeurs possibles.
Notre premier objectif est de comprendre
à quel point la fonction de coût est sensible aux petits changements de notre poids w^(L).
En d'autres termes, quelle est la dérivée partielle de C par rapport à w^(L).
Quand vous voyez ce terme "∂w",

Portuguese: 
como uma sigmoide ou uma ReLU.
Na verdade vai ficar mais fácil pra nós se dermos um nome especial para essa soma ponderada, como z,
com o mesmo sobrescrito das ativações relevantes.
É termo pra caramba.
E uma forma de pensar nisso é que o peso, a ativação anterior, e o viés
juntos são usados pra calcular z, que por sua vez nos deixa calcular a,
que finalmente, junto da constante y, nos deixa calcular o custo.
E claro, a^(L-1) é influenciado por seu próprio peso e viés, e tal.
Mas não vamos focar nisso agora.
Tudo isso são apenas números, certo?
E pode ser legal pensar em cada um como tendo sua própria reta numérica.
Nosso primeiro objetivo é entender
o quão sensível a função de custo é a pequenas mudanças em nosso peso w^(L).
Em outras palavras, qual é a derivada de C em relação a w^(L).
Quando você ver esse termo “∂w",

English: 
like a sigmoid or a ReLU.
It's actually going to make things easier for us if we give a special name to this weighted sum, like z,
with the same superscript as the relevant activations.
So there are a lot of terms.
And a way you might conceptualize this is that the weight, the previous activation, and the bias
altogether are used to compute z, which in turn lets us compute a,
which finally, along with the constant y, let us compute the cost.
And of course, a^(L-1) is influenced by its own weight and bias, and such.
But we are not gonna focus on that right now.
All of these are just numbers, right?
And it can be nice to think of each one as having its own little number line.
Our first goal is to understand
how sensitive the cost function is to small changes in our weight w^(L).
Or phrased differently, what’s the derivative of C with respect to w^(L).
When you see this “∂w” term,

Russian: 
как сигмоид или ReLU.
На самом деле нам будет легче, если мы дадим специальное имя этой взвешенной сумме, например, z,
с тем же верхним индексом, что и соответствующие активации.
Так что здесь много терминов.
И способ, которым вы могли бы осмыслить это то, что вес, предыдущая активация и уклон
в целом используются для вычисления Z, что в свою очередь позволяет нам вычислить,
который, наконец, вместе с константой у, вычислим стоимость.
И, конечно, на ^ (L-1) влияет его собственный вес и уклон, и тому подобное.
Но мы не собираемся концентрироваться на этом прямо сейчас.
Все это просто цифры, верно?
И может быть приятно думать, что каждый из них имеет свою собственную маленькую числовую линию.
Наша первая цель - понять
насколько чувствительна функция стоимости к небольшим изменениям нашего веса w ^ (L).
Или по-другому, что является производной от С по w ^ (L).
Когда вы видите этот термин «∂w»,

Spanish: 
como  una sigmoid o una ReLU.
Eso de echo va a hacer las cosas mas fáciles para nosotros si nostros le damos  un nombre especial a esta suma ponderada, algo como Z,
con el mismo superscript como las activaciones relevantes,
Asi que hay un mont{on de términos.
Y una manera en la que podrías conceptualizar esto es que el peso, la activación previa, y el bias.
en conjunto son usadas para calcular z, que luego nos permite calcular a,
que finalmente, junto con la constante y, nos permite calcular el coste.
Y por su puesto, a^(L-1)  es influenciado por su propio peso y bias, y asi como los demás.
Pero nosotros no nos vamos a enfocar eso justo ahora.
Todos estos son solo números, verdad?
y puede ser bueno pensar en cada uno como que si tubiesen su priopia línea de números pequeña.
Nuesta primera meta es entender
cuan sensitiva es la función de coste para un cambio pequeño cambio en nuestro peso w^(L).
O parafraseado diferentemente, cuál es la derivada de C respecto de w^(L).
Cuando veas este término “∂w”,

Korean: 
이제 이걸 시그모이드(sigmoid)나 ReLU같은 특별한 비선형 함수에 집어넣는거죠.
만약 이 가중합(weighted sum)에 z같은 특별한 이름을 붙여준다면 편리할겁니다.
거기에 관련된 활성화 정도와 똑같은 윗첨자를 붙여주는거죠.
꽤 많은 표기법들이 나왔습니다.
아마 이렇게 이해하셨을겁니다. 가중치(weight), 이전 활성화 정도, 그리고 편향(bias)이
모두 사용돼 z를 계산하고, 이를 이용해 a를 계산하며,
최종적으로, 상수 y와 함께 쓰여, 비용을 계산한다는 것이죠.
그리고 물론  a^(L-1)은 자기 자신의 가중치(weight)와 편향(bias)에 영향을 받고, 하는 식이죠.
하지만 지금 당장 여기에 초점을 두진 않을겁니다.
이것들 전부 그냥 숫자들 맞죠?
각각이 모두 작은 수직선을 가지고 있다고 생각하면 좋을 것입니다.
우리의 첫 목적은 가중치 w^(L)의 작은 변화에
비용 함수가 얼마나 민감하게 반응하는지 이해하는 것입니다.
다르게 말하자면, C의 w^(L)에 대한 미분값이 무엇인가죠.
여러분이 “∂w”을 보면

Chinese: 
例如sigmoid ReLU之类的
给这个加权和一个名字会方便很多  就叫它z好了
跟对应的激活值用同一个上标
这里的项挺多
概括起来 我们拿这个权重 前一个激活值 和这个偏置值
一起来算出z  再算出a
最后再用上常量y  算出代价
当然  a^(L-1)是由它自己的权重和偏置决定的  以此类推
但我们现在重点不在那里
这些东西都是数字  没错吧
我们可以想象每个数字都对应一个数轴
我们第一个目标是理解
代价函数对权重w^(L)的微小变化有多敏感
或者换句话讲  求C对w^(L)的导数
当你看到∂w之类的项时

Turkish: 
0,01 gibi bir değişiklik gibi, "w için küçük bir dürtmek" anlamını düşünün.
Ve bu “∂C” terimini “maliyete bağlı dürtüsü ne olursa olsun” olarak düşünün.
İstediğimiz şey onların oranı.
Kavramsal olarak, bu küçük dürtmek w ^ (L) 'ye biraz dürtmek z ^ (L)' ye neden olur
ki bu da maliyeti doğrudan etkileyen bir ^ (L) 'de değişikliğe neden olur.
Bu yüzden bunu önce küçük bir değişikliğin z ^ (L) 'ye olan küçük değişimin w ^ (L)' deki küçük değişime oranına bakarak çözüyoruz.
Yani, z ^ (L) 'nin w ^ (L)' ye göre türevidir.
Aynı şekilde, ^ (L) 'deki bir değişikliğin, z ^ (L)' deki küçük değişime oranını,
ve ayrıca son dürtme ile C arasındaki oran ve bu ara dürtme bir ^ (L) 'ye olan oran.
Buradaki zincir kuralı.
bu üç oranın birlikte çarpılması bize C nin w ^ (L) 'deki küçük değişikliklere duyarlılığını verir.

Chinese: 
请把它当做这是对w的微小扰动  好比变个0.01
然后把∂C当做 “改变w对C的值造成的变化”
我们求的是这两个数的比值
概念上说  w^(L)的微小变化会导致z^(L)产生些变化
然后会导致a^(L)产生变化  最终影响到代价值
那么 我们把式子拆开  首先求z^(L)的变化量比上w^(L)的变化量
也就是求z^(L)关于w^(L)的导数
同理 考虑a^(L)的变化量 比上因变量z^(L)的变化量
以及最终的C的变化量 比上直接改动a^(L)产生的变化量
这不就是链式法则么
把三个比相乘  就可以算出C对w^(L)的微小变化有多敏感

Russian: 
Думайте об этом как о значении «какое-то крошечное толчок к w», как изменение на 0,01.
И думайте об этом термине «∂C» как означающем «каким бы ни был получаемый в результате толчок к стоимости».
То, что мы хотим, это их соотношение.
Концептуально, этот крошечный толчок к w ^ (L) вызывает некоторый толчок к z ^ (L)
что, в свою очередь, приводит к некоторому изменению ^ (L), что напрямую влияет на стоимость.
Поэтому мы разбиваем это, сначала посмотрев на отношение крошечного изменения к z ^ (L) к крошечному изменению w ^ (L).
То есть производная z ^ (L) по w ^ (L).
Аналогично, вы затем учитываете отношение изменения к ^ (L) к крошечному изменению z ^ (L), которое вызвало его,
а также отношение между последним толчком к C и этим промежуточным толчком к a ^ (L).
Это прямо здесь - цепное правило,
где умножение этих трех соотношений дает нам чувствительность C к небольшим изменениям w ^ (L).

English: 
think of it as meaning “some tiny nudge to w”, like a change by 0.01.
And think of this “∂C” term as meaning “whatever the resulting nudge to the cost is”.
What we want is their ratio.
Conceptually, this tiny nudge to w^(L) causes some nudge to z^(L)
which in turn causes some change to a^(L), which directly influences the cost.
So we break this up by first looking at the ratio of a tiny change to z^(L) to the tiny change in w^(L).
That is, the derivative of z^(L) with respect to w^(L).
Likewise, you then consider the ratio of a change to a^(L) to the tiny change in z^(L) that caused it,
as well as the ratio between the final nudge to C and this intermediate nudge to a^(L).
This right here is the chain rule,
where multiplying together these three ratios gives us the sensitivity of C to small changes in w^(L).

Portuguese: 
pense nele como significando "uma pequena mexida em w", algo como 0.01
E pense nesse "∂C" como "qualquer mexida resultante no custo".
O que queremos é a razão disso.
Teoricamente, essa pequena mexida em w^(L) causa alguma mexida em z^(L)
que por sua vez causa alguma alteração em a^(L), que influencia o custo diretamente.
Então vemos isso em partes, olhando primeiro a razão de uma pequena mudança em z^(L) vindo da pequena mudança em w^(L)
Ou seja, a derivada de z^(L) em relação a w^(L).
Da mesma forma, consideramos a razão de uma mudança em a^(L) para a pequena mudança em z^(L) que a causou
bem como a razão entre a última mexida em C e essa mexida intermediária em a^(L).
Isso bem aqui é a regra da cadeia,
onde o produto entre essas razões nos dá a sensibilidade de C a pequenas mudanças em w^(L).

Spanish: 
piensa que significa "Algún pequeño empujon para w", uno como de 0.01.
Y piensa que este  término “∂C”  esta diciendo "cualsea  el empujon resultante  al coste
nosotros queremos su proporción.
Conceptualmente, este pequeño empujón a w“∂C”  causa algun empujón a  z^(L)
que luego causa algún cambio a a^(L), que directamente influye el costo.
Asi que descomponemos ,primero mirando la proporción entre el cambio pequeño a z^(L) y el cambio pequeño en w^(L).
Eso es, la derivada de  z^(L)  con respecto de w^(L).
De la misma manera, luego consideras la proporción entre un cambio para a^(L)  y el cambio pequeño en z^(L)  que lo causo,
también como la proporción entre el empujón final para C y este empujón intermedio para a^(L).
Esto aquí es exactamente la regla de la cadena,
donde multiplicando juntos estas tres proporcionas nos da la sensibilidad de C para un pequeño cambio en w^(L).

French: 
pensez-y comme un tout petit décalage dans la valeur de w, par exemple de 0.01.
Et pensez à ce terme "∂C" comme le décalage provoqué sur la valeur du coût C.
Ce que nous voulons, c'est le ratio des deux.
Conceptuellement, ce minuscule décalage de w^(L) provoque un certain décalage de z^(L)
ce qui provoque à son tour un décalage de a^(L), ce qui influence directement le coût.
Nous décomposons donc ceci en examinant d'abord le ratio d'un minuscule changement de z^(L) sur un minuscule changement de w ^ (L).
C'est-à-dire, la dérivée partielle de z^(L) par rapport à w^(L).
De même, vous considérez alors le quotient d'un changement de a^(L) sur un minuscule changement de z^(L) qui l'a causé,
ainsi que le quotient entre le décalage final de C et le décalage intermédiaire de a^(L).
Ceci est la règle de la chaîne (FR = théorème de dérivation des fonctions composées),
qui nous permet, en multipliant ces trois fractions, d'obtenir la sensibilité de C aux petits changements de w^L.

Korean: 
그것이 0.01같이  "w에 가해진 아주 약간의 변화"라는 뜻이라고 생각하세요.
그리고이 "∂C"라는 용어는 "그 결과로 비용이 바뀌는 정도"라고 생각하시고요.
그 비율을 알고 싶은 겁니다.
개념적으로 보면, w^(L)의 약간의 변화는  z^(L)가 조금 변하게 하겠죠.
그렇다면 a^(L)에 변화가 조금 생길꺼고,  그 변화는 비용에 직접적인 영향을 미칠 것입니다.
그러면 이걸 쪼개기 위해 먼저 z^(L)의 작은 변화와 w^(L)의 작은 변화의 비율을 살펴볼 수 있겠죠.
그건 z^(L)의 w^(L)에 대한 미분값이 됩니다.
마찬가지로, 그 다음엔 z^(L)의 작은 변화와 그로 인한 a^(L)의 변화의 비율을 살펴보죠.
거기에 a^(L)에 생긴 중간 변화와 최종적으로 C에 생긴 변화의 비율 또한 살펴봅니다.
이것이 바로 연쇄 법칙(chain rule)입니다.
이 세 비율을 곱하는 것으로 C의 w^(L)의 작은 변화에 대한 민감도를 알 수 있는 것이죠.

Russian: 
Так что на экране прямо сейчас есть много символов,
так что найдите время, чтобы убедиться, что они все
потому что теперь мы собираемся вычислить соответствующие производные.
Производная C по отношению к ^ (L) оказывается равной 2 (a ^ (L) - y).
Обратите внимание, это означает, что его размер пропорционален
разница между выходом сети и тем, что мы хотим, чтобы это было.
Так что, если этот результат был совсем другим,
даже незначительные изменения могут оказать большое влияние на функцию стоимости.
Производная a ^ (L) по z ^ (L) является просто производной нашей сигмоидальной функции,
или любую нелинейность, которую вы решите использовать.
И производная от z ^ (L) по w ^ (L),
в этом случае получается просто ^ (L-1).
Теперь я не знаю о вас, но я думаю, что легко застрять с головой в этих формулах
не тратя времени на то, чтобы расслабиться и напомнить себе, что они на самом деле означают.
В случае этой последней производной,

Korean: 
이 화면을 보면, 꽤 많은 기호들이 많이 있습니다.
잠시 시간을 가지고 어느게 어느 것인지 정리해보세요.
이제 이걸 가지고 연관된 미분을 계산할 것입니다.
C의 a^(L)에 대한 도함수는 2(a^(L) - y)이 됩니다.
참고로, 이 크기가 네트워크의 출력과 비례한다는 뜻입니다.
바라던대로죠.
그래서 출력이 크게 다르다면,
아주 약간의 변화도 비용 함수에 큰 영향을 미치겠죠.
a^(L)를 z^(L)에 대해 미분한 것은 그냥 시그모이드 함수의 도함수입니다.
아님 쓰기로 한 다른 비선형 함수거나요.
그리고 Z^(L)을 w^(L)에 대해 미분한 것은
이 경우는 그냥 a^(L-1)이 되네요.
모르긴 모르지만, 이것들이 실제로는 다 무엇일지 잠깐 시간을 내어 생각해보지  않았다면
여기에서 막히기 딱 좋습니다.
마지막 미분을 보면,

French: 
A l'écran en ce moment, il y a un tas de symboles,
alors prenez un moment pour vous assurer d'avoir compris ce que chacun représente,
parce que maintenant nous allons calculer chacune des dérivées partielles.
La dérivée partielle de C par rapport à a^(L) est 2*(a^(L) - y).
Notez que cela signifie que sa taille est proportionnelle à
la différence entre la sortie du réseau et la valeur que nous voulons qu'elle soit.
Donc, si cette sortie était très différente,
même de légères modifications peuvent avoir un impact important sur la fonction de coût.
La dérivée partielle de a^(L) par rapport à z^(L) n'est que la dérivée de notre fonction sigmoïde,
ou quelle que soit la fonction d'activation que vous choisissez d'utiliser.
Et la dérivée partielle de z^(L) par rapport à w^(L),
est tout simplement a^(L-1).
Maintenant, je ne sais pas pour vous, mais je pense qu'il est facile de ne plus rien y voir là-dedans
sans prendre un moment pour s'asseoir et se rappeler de ce que chaque terme représente.
Dans le cas de cette dernière dérivée partielle,

Chinese: 
现在屏幕上多了一大坨符号
稍稍花点时间理解一下每个符号都什么意思吧
马上我们就要对各个求导了
C关于a^(L)的导数  就是2(a^(L) - y)
这也就意味着  导数的大小
跟网络最终输出减目标结果的差成正比
如果网络的输出差别很大
即使w稍稍变一点  代价也会改变非常大
a^(L)对z^(L)求导就是求sigmoid的导数
或就你选择的非线性激活函数
而z^(L)对w^(L)求导
结果就是a^(L-1)
对我自己来说   这里如果不退一步
好好想想这些公式的含义  很容易卡住
就最后这个导数来说

Portuguese: 
Tem muitos símbolos na tela agora,
então tenha certeza de que está claro o que todos eles são,
porque agora vamos calcular as derivadas relevantes.
A derivada de C em relação a a^(L) acontece de ser 2(a^(L) - y).
Observe que isso quer dizer que seu tamanho é proporcional à
diferença entre a saída atual da rede, e a saída esperada.
Então se essa saída foi muito diferente,
mesmo pequenas mudanças acabam tendo um grande impacto na função de custo.
A derivada de a^(L) em relação a z^(L) é apenas a derivada de nossa função sigmoide,
ou qualquer outra não-linearidade que você escolher.
E a derivada de z^(L) em relação a w^(L),
neste caso acontece de ser a^(L-1).
Agora não sei você, mas eu acho que é fácil ficar perdido nessas fórmulas
se você não tirar um tempo pra se lembrar do que elas significam.
No caso desta última derivada,

Turkish: 
Şu anda ekranda, bir sürü sembol var.
o yüzden, hepsinin ne olduğundan emin olmak için bir dakikanızı ayırın,
çünkü şimdi ilgili türevleri hesaplayacağız.
^ (L) 'ye göre C'nin türevi, 2 (a ^ (L) - y) olarak hesaplanır.
Dikkat, bu, boyutunun orantılı olduğu anlamına gelir.
Ağın çıktısı ile olmasını istediğimiz şey arasındaki fark.
Yani bu çıktı çok farklı olsaydı,
Küçük değişiklikler bile maliyet fonksiyonu üzerinde büyük bir etkiye sahiptir.
Z ^ (L) 'ye göre bir ^ (L)' nin türevi sigmoid fonksiyonumuzun bir türevidir,
ya da hangi doğrusallığı seçerseniz seçin.
Ve z ^ (L) 'nin w ^ (L)' ye göre türevi,
Bu durumda sadece bir ^ (L-1) olduğu ortaya çıkıyor.
Şimdi seni bilmiyorum, ama bence bu formüllerde baş aşağı durmak kolay.
arkanıza yaslanıp, gerçekte ne anlama geldiklerini kendinize hatırlatın.
Bu son türev durumunda,

Spanish: 
Asi que en la pantalla ahora mismo, hay un monton de símbolos
asi que tomate un tiempo para asegurarte de que esta en claro todo lo que ellos son,
porque ahora vamos a calcular las derivadas relevantes.
La derivada de C con respecto de a^(L)  se transforma para ser 2(a^(L) - y).
Nota, esto significa que su tamaño es proporcional a
a la diferencia entre la salida de la red, y la cosa que queremos que sea.
Asi que si esa salida fue muy diferente,
incluso ligeros cambios, tienden a tener un gran impacto en función de coste.
La derivada de a^(L)  con respecto de z^(L) es solo la derivada de nuestra función sigmoid.
o cualquier cosa no lineal que escojas usar.
Y la derivada de  z^(L)  con respecto de w^(L),
en este caso viene solo a  ser a^(L-1).
Ahora no se tu, pero pienso que es facil simentar estar formulas en tu cabeza.
sin tomar un momento para sentarte y recordad tu mismo lo que significan realmente.
En el caso de esta última derivada,

English: 
So on screen right now, there’s kinda lot of symbols,
so take a moment to make sure it’s clear what they all are,
because now we are gonna compute the relevant derivatives.
The derivative of C with respect to a^(L) works out to be 2(a^(L) - y).
Notice, this means that its size is proportional to
the difference between the network’s output, and the thing we want it to be.
So if that output was very different,
even slight changes stand to have a big impact on the cost function.
The derivative of a^(L) with respect to z^(L) is just the derivative of our sigmoid function,
or whatever nonlinearity you choose to use.
And the derivative of z^(L) with respect to w^(L),
in this case comes out just to be a^(L-1).
Now I don't know about you, but I think it’s easy to get stuck head-down in these formulas
without taking a moment to sit back and remind yourself what they all actually mean.
In the case of this last derivative,

Turkish: 
bu ağırlığa küçük bir dürtmenin son katmanı etkilediği miktar
önceki nöronun ne kadar güçlü olduğuna bağlıdır.
Unutma, burası “birlikte telleri birleştiren nöronlar” fikrinin geldiği yer.
Ve bunların tümü, sadece belirli bir eğitim örneğinin maliyetinin “^” (L) cinsinden türevidir.
Tam maliyet işlevi, tüm eğitim maliyetlerinde tüm bu maliyetlerin ortalama alınmasını içerdiğinden,
türevi, tüm eğitim örneklerinde bulduğumuz bu ifadenin ortalamasını gerektirir.
Ve elbette bu, gradyan vektörünün sadece bir bileşenidir,
hangi inşa edilmiştir
Maliyetin kısmi türevleri, tüm bu ağırlıklar ve önyargılara göre işlev görür.
Fakat ihtiyaç duyduğumuz kısmi türevlerden sadece biri olmasına rağmen,
işin% 50'sinden fazlası.
Önyargıya duyarlılık, örneğin, neredeyse aynıdır.
Sadece ∂z / ∂b için bu /z / ∂w terimini değiştirmemiz gerekiyor,

English: 
the amount that a small nudge to this weight influences the last layer
depends on how strong the previous neuron is.
Remember, this is where that “neurons that fire together wire together” idea comes in.
And all of this is the derivative with respect to w^(L) only of the cost for a specific training example.
Since the full cost function involves averaging together all those costs across many training examples,
its derivative requires averaging this expression that we found over all training examples.
And of course that is just one component of the gradient vector,
which itself is built up from
the partial derivatives of the cost function with respect to all those weights and biases.
But even though it was just one of those partial derivatives we need,
it's more than 50% of the work.
The sensitivity to the bias, for example, is almost identical.
We just need to change out this ∂z/∂w term for a ∂z/∂b,

Spanish: 
la medida de un empujon pequeño para este peso que influye la última capa
depende en cuan fuerte la neurona previa es.
Recuerda,  esto es donde  la idea de "neuronas que se  prenden juntas se enlazan juntas".
Y todo esto es la derivda con respecto de w^(L)  solo para el costo, para un ejemplo de entrenamiento en concreto.
Ya que la función de coste completa involucra promediar juntos todos estos costes a través de muchos ejemplos de entrenamiento,
su derivada requiere promediar esta expresión que encontramos en todos los ejemplos de entrenamiento.
Y por su puesto eso es solo una componente de vector gradiente,
que en si mismo esta contruido
desde  las derivada parciales de la función coste con respecto a todos los peso y biases.
Pero a pesar de que esto fue solo una de esas derivadas parcias que necesitamos,
es mas del 50%  del trabajo.
La sensibilidad del bias, por ejemplo, es casi idéntica.
Solo necesitamos reemplezar este término  ∂z/∂w  por  ∂z/∂b,

French: 
l'influence sur la dernière couche d'un petit décalage dans la valeur de ce poids
dépend de la force du neurone précédent.
Rappelez-vous, c'est ici qu'intervient l'idée « Les neurones qui s'excitent ensemble se lient entre eux. » (D.Hebb, 1949).
Et tout cela est la dérivée partielle par rapport à w^(L) du coût pour un seul exemple d'entraînement spécifique.
Puisque la fonction de coût complète implique de moyenniser tous ces coûts pour de nombreux exemples d'entraînement,
sa dérivée partielle nécessite de moyenniser l'expression que nous avons trouvée sur tous les exemples d'entraînement.
Et bien sûr, ce n'est qu'une composante du vecteur de gradient,
qui est lui-même construit à partir des
dérivées partielles de la fonction de coût par rapport à tous ces poids et biais.
Mais même si ce n'était que d'une de ces dérivés partielles dont nous avons besoin,
c'est plus de 50% du travail.
La sensibilité au biais, par exemple, est presque identique.
Nous avons juste besoin de changer ce terme ∂z/∂w pour un ∂z/∂b,

Russian: 
количество, на которое небольшой толчок к этому весу влияет на последний слой
зависит от того, насколько сильный предыдущий нейрон.
Помните, что именно здесь возникает идея «нейроны, которые сжигают вместе проволоку».
И все это является производной по отношению к w ^ (L) только стоимости для конкретного обучающего примера.
Поскольку функция полной стоимости включает в себя усреднение всех этих затрат по многим учебным примерам,
его производная требует усреднения этого выражения, которое мы нашли во всех обучающих примерах.
И, конечно, это только один компонент вектора градиента,
который сам построен из
частные производные функции стоимости относительно всех этих весов и смещений.
Но даже если это был только один из тех частных производных, которые нам нужны,
это более 50% работы.
Чувствительность к смещению, например, практически одинакова.
Нам просто нужно заменить этот термин termz / ∂w на ∂z / ∂b,

Chinese: 
这个权重的改变量∂w对最后一层的影响有多大
取决于之前一层的神经元
所谓“一同激活的神经元关联在一起”的出处即来源于此
不过这只是包含一个训练样本的代价对w^(L)的导数
由于总的代价函数是许许多多训练样本所有代价的总平均
它对w^(L)的导数就需要求  这个表达式之于每一个训练样本的平均
当然这只是梯度向量∇C的一个分量
而梯度向量∇C本身
则由代价函数对每一个权重和每一个偏置求偏导构成
求出这些偏导中的一个
就完成了一大半的工作量
对偏置的求导步骤也基本相同
只要把∂z/∂w替换成∂z/∂b即可

Portuguese: 
a quantidade de influência que uma pequena mexida neste peso tem na última camada
depende da força do neurônio anterior.
Lembre-se que é aqui que surge aquela ideia de que "neurônios que disparam juntos permanecem juntos".
E tudo isso é a derivada em relação a w^(L) do custo de apenas um exemplo de treinamento.
Uma vez que a função de custo completa envolve tirar a média de todos os custos entre muitos exemplos,
sua derivada requer tirar a média desta expressão que encontramos sobre todos os exemplos.
E é claro que isso é apenas um componente do vetor-gradiente,
que é feito a partir das
derivadas parciais da função de custo em relação a todos aqueles pesos e vieses.
Mas apesar de ser apenas uma das derivadas parciais que precisamos,
é mais de 50% do trabalho.
A sensitividade do viés, por exemplo, é quase idêntica.
Só temos que mudar esse termo ∂z/∂w para ∂z/∂b,

Korean: 
이 가중치에 생긴 작은 변화가 마지막 층에 미치는 영향의 양은
그 전 뉴런이 얼마나 강한지에 달려 있습니다.
기억해보면, "함께 발화하는 뉴런이 함께 연결된다"라는 아이디어가 여기에 적용된 것입니다.
이 모든 것은 w^(L)에 대해 특정한 학습 예제의 비용만을 미분한 것입니다.
전체 비용 함수는 수많은 예제의 비용들을 전부 평균낸 것과 관련이 있기 때문에,
그 미분을 구하려면 지금껏 찾은 식을 모든 학습 예제에 적용한 것을 평균내야 합니다.
물론 그건 그라디언트 벡터를 이루는 단 하나의 구성 요소일 뿐이고,
그 그라디언트 벡터는 비용 함수의
그 모든 가중치와 편향에 대한 편미분으로 이루어져 있습니다.
이게 비록 우리가 필요로 하는 편미분들 중 단 하나뿐이었지만,
우리가 할 일의 절반 이상은 한 셈입니다.
편향(bias)에 대한 민감도는, 예컨데, 거의 동일합니다.
우리가 해야할 것은  ∂z/∂w 부분을 ∂z/∂b로 바꾸는 것 뿐이고,

Turkish: 
Ve ilgili formüle bakarsanız, bu türev 1 olur.
Ayrıca, işte bu, geriye doğru yayılma fikrinin devreye girdiği yerdir.
Bu maliyet fonksiyonunun önceki katmanın aktivasyonuna ne kadar hassas olduğunu görebilirsiniz;
yani, zincir kuralı genişlemesinde bu ilk türev,
z'nin önceki aktivasyona duyarlılığı,
w ^ (L) ağırlık olarak çıkıyor.
Ve yine, bu aktivasyonu doğrudan etkilememize rağmen,
takip etmek yararlı olur
çünkü şimdi bu zincir kuralı fikrini geriye doğru yinelemeye devam edebiliriz
Maliyet fonksiyonunun önceki ağırlıklara ve önceki önyargılara ne kadar hassas olduğunu görmek için.
Ve bunun çok basit bir örnek olduğunu düşünebilirsiniz.
çünkü tüm katmanlar sadece 1 nöron içerdiğinden,
ve gerçek ağda işler katlanarak daha da karmaşıklaşacak.
Ama dürüst olmak gerekirse, katmanlara çoklu nöronlar verdiğimizde pek fazla bir değişiklik olmaz.
Gerçekten takip etmesi gereken birkaç endeks var.

Russian: 
И если вы посмотрите на соответствующую формулу, эта производная становится 1.
Кроме того, и вот тут-то и возникает идея распространения в обратном направлении,
вы можете увидеть, насколько чувствительна эта функция стоимости к активации предыдущего слоя;
а именно, эта начальная производная в разложении правила цепочки,
чувствительность z к предыдущей активации,
выходит вес w ^ (L).
И снова, хотя мы не сможем напрямую повлиять на эту активацию,
полезно отслеживать,
потому что теперь мы можем просто продолжать повторять эту идею правила цепи в обратном направлении
чтобы увидеть, насколько чувствительна функция стоимости к предыдущим весам и к предыдущим отклонениям.
И вы можете подумать, что это слишком простой пример,
поскольку все слои имеют только 1 нейрон,
и все станет намного сложнее в реальной сети.
Но, честно говоря, не так много изменений, когда мы даем слоям несколько нейронов.
На самом деле это всего лишь несколько индексов, которые нужно отслеживать.

Portuguese: 
E se você olhar a fórmula relevante, essa derivada acontece de ser 1.
Além disso, e agora é onde entra a ideia de propagar para trás,
você pode ver o quão sensível esta função de custo é para a ativação da camada anterior.
ou seja, esta derivada inicial na expensão da regra da cadeia,
a sensibilidade de z à ativação anterior,
acontece de ser o peso w^(L).
Novamente, mesmo não sendo capazes de influenciar a ativação diretamente,
ajuda se a acompanharmos,
porque agora é só continuarmos iterando essa ideia da regra da cadeia pra trás
para ver o quão sensível a função de custo é para os pesos e vieses anteriores.
Você pode pensar que este é um exemplo super simplificado,
porque todas as camadas tem só 1 neurônio,
e as coisas vão ficar exponencialmente mais complicadas na rede verdadeira.
Mas honestamente, não muda tanto assim quando damos vários neurônios para as camadas.
Na verdade são só mais alguns índices que temos de acompanhar.

English: 
And if you look at the relevant formula, that derivative comes to be 1.
Also, and this is where the idea of propagating backwards comes in,
you can see how sensitive this cost function is to the activation of the previous layer;
namely, this initial derivative in the chain rule expansion,
the sensitivity of z to the previous activation,
comes out to be the weight w^(L).
And again, even though we won’t be able to directly influence that activation,
it’s helpful to keep track of,
because now we can just keep iterating this chain rule idea backwards
to see how sensitive the cost function is to previous weights and to previous biases.
And you might think this is an overly simple example,
since all layers just have 1 neuron,
and things are just gonna get exponentially more complicated in the real network.
But honestly, not that much changes when we give the layers multiple neurons.
Really it's just a few more indices to keep track of.

Spanish: 
y  si  ves en la fórmula pertinente, esa derivada viene siendo 1
también, aquí es donde la idea de propagación hacia atras viene,
puedes ver cuan sensible es la función de coste para la activación de la capa previa,
es decir, esta derivada inicial en la expansión de la regla de la cadena,
la sensibilidad de z a la activación previa,
viene siendo el peso w^(L).
Y de nuevo, incluso si no seremos capaces de influenciar directamente esa activación,
Es de ayuda  mantenerle el rastro,
porque ahora solo podemos manterner iterando esta regla de la cadena hacia atras
para ver cuan sensible es la función de costo para los pesos y biases previos.
Y tu podrías pensar que esto es  un ejemplo demasiado simple
ya que todas las capas solo tienen 1 neurona,
y las cosas solo se van a poner exponencialmente más complicadas en la red verdadera.
Pero honestamente, no cambia mucho cuando damos múltiples neuronas a las capas.
Realmente solo es unos índices mas para mantenerles el rastro.

Chinese: 
对应的公式中可以看出 导数∂z/∂b等于1
这里也涉及到了反向传播的概念
我们来看下这个代价函数对上一层的激活值的敏感度
展开来说 链式法则的第一项
z对上一层激活值的敏感度
就是权重w^(L)
虽然 说过 我们不能直接改变激活值
但我们很有必要关注这个值
因为我们可以反向应用链式法则
来计算代价函数对之前的权重和偏置的敏感度
你可能觉得这个例子举得太简单了
毕竟每层只有一个神经元
而真实的神经网络会比这个例子复杂百倍
然而说真的 每层多加若干个神经元并不会复杂很多
真的 只不过多写一些下标罢了

Korean: 
관련된 공식을 보면, 그 도함수는 1이 됩니다.
그리고, '역으로 전파한다'는 개념이 여기에 적용되어,
비용 함수가 이전 층의 활성화 정도에 얼마나 민감한지 알 수 있습니다.
이름하여, 연쇄 법칙을 이용한 확장의 첫번째 도함수는,
이전 활성화 정도에 대한 z의 민감도인데,
가중치 w^(L)이 됩니다.
또다시, 그 직전의 활성화 정도에 직접적으로 영항을 줄 수는 없더라도,
추적하는데 도움이 됩니다.
왜냐면 이젠 이 연쇄 법칙이라는 발상을 거꾸로 반복해 나가며
비용 함수가 그 이전 가중치와 이전 편향에 얼마나 민감한지 알 수 있기 때문입니다.
이게 지나치게 단순화된 예제라고 생각하실 수도 있습니다.
왜냐면 모든 레이어가 단 하나의 뉴런만을 가지고 있기 때문이죠.
그리고 실제 네트워크에서는 지수적으로 복잡해질 거라고 말입니다.
하지만 솔직히, 각 층에 여러 뉴런이 있어도 크게 바뀌는건 아닙니다.
그냥 번호만 몇개 더 추적하는겁니다.

French: 
Et si vous regardez cette formule, on voit que la dérivée est égale à 1.
Par ailleurs, et c'est maintenant que l'idée de rétro-propagation entre en jeu,
vous pouvez voir à quel point cette fonction de coût est sensible à l'activation de la couche précédente;
à savoir, cette dérivée initiale dans le développement de la règle de la chaîne,
la sensibilité de z à l'activation précédente
est le poids w^(L).
Encore une fois, même si nous ne serons pas en mesure d'influencer directement cette activation,
il est utile d'en garder une trace
parce que maintenant nous pouvons continuer à répéter cette idée de règle de chaîne, à rebours,
pour voir à quel point la fonction de coût est sensible aux poids précédents et aux biais antérieurs.
Et vous pourriez penser que c'est un exemple trop simple,
puisque toutes les couches n'ont qu'un neurone,
et les choses vont devenir exponentiellement plus compliquées dans le vrai réseau.
Mais honnêtement, il n'y a pas tellement de changements lorsque nous mettons plusieurs neurones dans chaque couche.
C'est juste l'histoire de quelques indices en plus.

Turkish: 
Belirli bir katmanın aktivasyonu yerine, sadece bir ^ (L) olması,
Aynı zamanda, o katmanın hangi nöronu olduğunu belirten bir aboneye sahip olacak.
Devam edelim ve katmanı (L-1) indekslemek için k harfini ve katmanı (L) indekslemek için j harfini kullanalım.
Maliyet için, yine istenen çıktının ne olduğuna bakarız.
Ama bu sefer
bu son katman aktivasyonları ile istenen çıktı arasındaki farkların karelerini toplarız.
Yani, (a_j ^ (L) - y_j) ^ 2 değerinden bir miktar alırsınız.
Çok fazla ağırlık olduğundan,
her birinin nerede olduğunu takip etmek için birkaç endeksi olmalı.
Öyleyse bu kthth nöronunu j-th nöronuna w_ {jk} ^ (L) bağlayan kenarın ağırlığını diyelim.
Bu endeksler ilk başta biraz geri kalmış olabilir.
ancak Bölüm 1 videoda bahsettiğim ağırlık matrisini nasıl indeksleyeceğinize göre sıralanıyor.
Daha önce olduğu gibi, yine z gibi ilgili toplamlara bir isim vermek güzel

Russian: 
Вместо того, чтобы активировать данный слой просто будучи ^ (L),
он также будет иметь индекс, указывающий, какой это нейрон этого слоя.
Давайте продолжим и будем использовать букву k для индексации слоя (L-1) и j для индексации слоя (L).
Что касается стоимости, снова мы смотрим на то, каков желаемый результат.
Но в это время
мы складываем квадраты различий между этими последними активациями слоя и желаемым результатом.
То есть вы берете сумму за (a_j ^ (L) - y_j) ^ 2
Так как весов намного больше,
каждый должен иметь еще пару индексов, чтобы отслеживать, где он находится.
Итак, назовем вес ребра, соединяющего этот k-й нейрон с j-м нейроном, w_ {jk} ^ (L).
Поначалу эти индексы могут показаться немного отсталыми,
но это соответствует тому, как вы будете индексировать матрицу весов, о которой я говорил в видео части 1.
Как и прежде, все еще приятно дать имя соответствующей взвешенной сумме, например, z,

Chinese: 
我们用加上下标的神经元来表示L层的若干个神经元
而不是用a^(L)统称L层的激活值
现在用k来标注(L-1)层的神经元 j则是L层的神经元
要求代价函数 我们从期望的输出着手
计算上一层激活值和期望输出的差值的平方 然后求和
计算上一层激活值和期望输出的差值的平方 然后求和
即求(a_j^(L) - y_j)^2的和
由于权重的数量多了不少
那么每个权重要多用几个下标
我们记连接第k个神经元和第j个神经元的连线为w_{jk}^(L)
这些下标感觉像标反了 可能有点别扭
不过和第一集视频中的权重矩阵的下标是一致的
同样的 把加权和记为z 总是很方便

Korean: 
주어진 층의 활성화 정도를 단순하게 a^(L)이라고 표기하는 대신,
그 층의 어느 뉴런인지를 표기하는 아랫첨자를 붙이는 겁니다.
(L-1)번 레이어에 k를 이용해 번호를 매기고, (L)번 레이어는 j를 이용해 번호를 매겨봅시다.
비용을 알아보기 위해, 다시 한번 원하는 출력이 무엇인지 확인합시다.
그러나 이번엔
마지막 레이어의 활성화 정도와 원하는 출력 사이의 차이의 제곱을 더할 겁니다.
즉,  (a_j^(L) - y_j)^2의 합을 구한다는 것입니다.
가중치가 훨씬 많으므로,
각각이 어느 것인지 추적하기 위해 번호가 몇 개 더 필요합니다.
그러니 k번째 뉴런과 j번째 뉴런을 연결하는 간선(edge)의 가중치를 w_{jk}^(L) 라고 표기합시다.
이 번호는 처음 볼 땐 거꾸로 쓰인 것 같지만,
Part 1 비디오에서 어떻게 가중치 행렬에 번호를 매길지 말했던 것과 연관이 있습니다.
그 전처럼, 관련된 가중합에 z같은 이름을 주는게 좋고,

French: 
Au lieu que l'activation d'une couche donnée soit simplement a^(L),
il va aussi y avoir un indice sur l'emplacement du neurone dans la couche.
Allons-y, utilisons la lettre k pour indexer la couche (L-1), et j pour indexer la couche (L).
Pour le coût, encore une fois nous regardons ce que la sortie désirée est.
Mais cette fois
nous additionnons les carrés des différences entre ces activations de la dernière couche et la sortie désirée.
Autrement dit, vous prenez une somme sur (a_j^(L) - y_j)^2
Comme il y a beaucoup plus de poids,
chacun doit avoir des indices supplémentaires pour savoir où il se trouve.
Alors appelons le poids de l'arête reliant ce k-ème neurone au j-ème neurone w_ {jk}^(L).
Ces indices pourraient donner l'impression d'être dans la mauvais sens,
mais cela correspond à la façon dont vous indexeriez la matrice des poids dont j'ai parlé dans la vidéo de la partie 1.
Comme auparavant, il est toujours agréable de donner un nom à la somme pondérée, comme z,

Portuguese: 
Em vez da ativação de uma determinada camada ser apenas a^(L),
ela também vai ter um subscrito indicando de qual neurônio dessa camada ela é.
Vamos usar a letra k para indexar a camada (L-1), e j para indexar a camada (L).
Para o custo, novamente nós vemos qual é a saída desejada.
Só que dessavez
nós somamos os quadrados das diferenças entre essas últimas ativações das camadas e a saída desejada.
Ou seja, você pega a soma sobre  (a_j^(L) - y_j)^2
Uma vez que agora temos muito mais pesos,
cada um precisa ter alguns índices a mais para saber onde está.
Vamos chamar o peso da borda que conecta desse k-ésimo ao j-ésimo neurônio de  w_{jk}^(L).
Esses índices podem parecer estar invertidos a princípio,
mas eles se alinham com a forma que você deve indexar a matriz de pesos que falei no vídeo da Parte 1.
Assim como antes, ainda é bom dar um nome à soma ponderada em questão, tipo z,

English: 
Rather than the activation of a given layer simply being a^(L),
it's also going to have a subscript indicating which neuron of that layer it is.
Let’s go ahead and use the letter k to index the layer (L-1), and j to index the layer (L).
For the the cost, again we look at what the desired output is.
But this time
we add up the squares of the differences between these last layer activations and the desired output.
That is, you take a sum over (a_j^(L) - y_j)^2
Since there are a lot more weights,
each one has to have a couple more indices to keep track of where it is.
So let’s call the weight of the edge connecting this k-th neuron to the j-th neuron w_{jk}^(L).
Those indices might feel a little backwards at first,
but it lines up with how you’d index the weight matrix that I talked about in the Part 1 video.
Just as before, it’s still nice to give a name to the relevant weighted sum, like z,

Spanish: 
Mas bien, la activación de una capa dada viene siendo  a^(L),
También va a tener un subscript indicando cuál neurona de la capa es.
Vamos a adelantarnos y usar la letra K para el índice en la capa (L-1), y j para el indice de la capa (L).
Para el coste, de nuevo miramos cuál es el resultado deseado.
Pero esta vez
sumamos los cuadrados de las diferencias entre esta capa de activaciones y el resultado deseado.
Eso es,  tomas la suma de (a_j^(L) - y_j)^2
Ya que hay un montón de pesos más,
cada uno tiene que tener un par más indices para mantenerles rastro de donde está.
Así que llamemos al peso del borde  conectando esta neurona k-th a la neurona  j-th
Esos índices podrían persivir  un  pequeño retroceso al principio,
pero se alínea con cuanto tu indexaste  , la  Matriz ponderada de la que hable en el video 1.
justo  como antes,  todavía es bueno darle un nombre a la suma ponderada,   como z,

Korean: 
그러면 마지막 층의 활성화 정도는 시그모이드같은 특별한 함수에 z를 적용한게 됩니다.
제가 무슨 말을 하고 있는지 아시겠죠?
이건 한 레이어당 하나의 뉴런이 있던 경우와 본질적으로 같은 공식입니다.
약간 더 복잡해보일 뿐이죠.
그리고 확실히, 비용이 얼마나 특정한 가중치에
민감한지를 보여주는 연쇄법칙 도함수 표현은
본질적으로 똑같아 보입니다.
각 표현이 무슨 뜻인지 잠시 영상을 멈추고 생각해봐도 좋습니다.
다만, 여기에서 바뀐 것은,
비용의 (L-1)번 층 중 하나의 활성화 정도에 대한 도함수입니다.
이 경우, 뉴런이 비용 함수에 여러 경로를 통해 영향을 준다는 차이점이 생깁니다.
이 말은, 한편으론, 비용 함수에 한 역할을 하는 a_0^(L)에 영향을 미치기도 하지만.
마찬가지로 비용 함수에 한 역할을 하는 a_1^(L)에도 영향을 준다는 뜻입니다.
그리고 이걸 다 더하면 됩니다.

Turkish: 
Böylece son katmanın aktivasyonu, z'ye uygulanan sigmoid gibi sadece sizin özel fonksiyonunuzdur.
Ne demek istediğimi anlayabilirsin, değil mi?
Bunların hepsi esasen, her katman başına bir nöron durumunda daha önce sahip olduğumuz denklemlerdir;
sadece biraz daha karmaşık görünüyor.
Ve gerçekten de, zincir kuralı türevi ifadesi
maliyetin belirli bir ağırlığa ne kadar hassas olduğunu açıklamak
aslında aynı görünüyor.
İsterseniz bu terimlerin her birini duraklatmayı ve düşünmeyi size bırakıyorum.
Yine de burada ne değişiyor?
maliyetin katmandaki aktivasyonlardan birine göre türevidir (L-1).
Bu durumda, fark, nöronun maliyet fonksiyonunu birçok yoldan etkilemesidir.
Yani, bir yandan, maliyet fonksiyonunda rol oynayan a_0 ^ (L) 'yi etkiler,
ancak aynı zamanda maliyet fonksiyonunda da rol oynayan bir ^ ^ (L) üzerinde bir etkiye sahiptir.
Ve bunları eklemelisin.

Portuguese: 
para que a ativação da última camada seja apenas sua função especial, como a sigmoide, aplicada a z.
Dá pra ver o que quero dizer, certo?
Essas são praticamente as mesmas equações que tínhamos antes com as camadas de 1 neurônio;
só parece um pouco mais complicado.
E de fato, a expressão de derivada da regra da cadeia
que descreve o quão sensível o custo é para um peso específico
está praticamente do mesmo jeito.
Vou deixar que você pause e pense sobre cada um desses termos, se quiser.
Mas uma coisa que realmente muda aqui
é a derivada do custo em relação a uma das ativações na camada (L-1).
Neste caso, a diferença é que o neurônio influencia a função de custo por vários caminhos.
Ou seja, de um lado, ele influencia a_0^(L), que desempenha um papel na função de custo,
mas por outro lado ele influencia a_1^(L) que também desempenha um papel na função de custo.
E você tem que somar os dois.

Chinese: 
那么最后一层的激活值依然等于指定的函数在z处的函数值
你懂我的意思吧
现在的方程式和之前每层只有一个神经元的时候本质是一样的
只是看着复杂一些
链式法则形式的导数表达式所描述的
代价对某个权重的敏感度
也是一样的
这里观众可以暂停推导一下每一项的含义
唯一改变的是
代价对(L-1)层激活值的导数
此时  激活值可以通过不同的途径影响代价函数
就是说 神经元一边通过a_0^(L)来影响代价函数
另一边通过a_1^(L)来影响代价函数
得把这些都加起来

Russian: 
так что активация последнего слоя - это просто ваша специальная функция, такая как сигмоида, примененная к z.
Вы можете понять, что я имею в виду, верно?
Все это, по сути, те же уравнения, которые мы имели ранее в случае с одним нейроном на слой;
это выглядит немного сложнее.
И действительно, производное выражение цепочки правил
описывая, насколько чувствительна стоимость к определенному весу
выглядит по сути одинаково.
Я оставлю это вам, чтобы сделать паузу и подумать о каждом из этих терминов, если хотите.
Что здесь меняется, хотя,
является производной стоимости по отношению к одной из активаций в слое (L-1).
В этом случае разница в том, что нейрон влияет на функцию стоимости через несколько путей.
То есть, с одной стороны, это влияет на a_0 ^ (L), который играет роль в функции стоимости,
но это также влияет на a_1 ^ (L), который также играет роль в функции стоимости.
И вы должны добавить их.

Spanish: 
asi que la activación de la última capa es solo tu función especial, como la sigmoid, aplicada a z.
Puedes ver lo que quiero decir ,verdad
Todos estos son esencialmente la misma ecuación que tuvimos antes en el caso de la capa uno a uno;
Solo que se ve un poco mas complicada.
y en efecto, la expresión regla de la cadena de la derivada
describiendo cuan sensible es el coste para un peso en específico
se ve esencialmente lo mismo.
Lo dejaré para que pauses y piense cada uno de estos términos si quieres.
Qué es lo que cambia aquí,  reflexionando,
es la derivada del coste con respecto de una de las activaciones en la capa (L-1).
en este caso, la diferencia en la neurona influye la función de costo a través de múltiples caminos.
Eso es,  por un lado, esto influye a_0^(L),  que juega un role en la función de coste,
Pero también influye a a_1^(L), que también juega un role en la función de coste.
Y tu tienes que hacerles sentido.

French: 
de sorte que l'activation de la dernière couche est juste votre fonction d'activation, comme le sigmoïde, appliquée à z.
Vous pouvez voir ce que je veux dire, non?
Ce sont fondamentalement les mêmes équations que celles que nous avions auparavant dans le cas d'un neurone par couche.
Ca a juste l'air un peu plus compliqué.
Et en effet, le développement de la dérivée par la règle de la chaîne
décrivant la sensibilité du coût à un poids spécifique
a fondamentalement la même tête.
Je vais vous laisser faire une pause et réfléchir à chacun de ces termes si vous le souhaitez.
Ce qui change ici, cependant,
est la dérivée du coût par rapport à l'une des activations dans la couche (L-1).
Dans ce cas, la différence est que le neurone influence la fonction de coût sur plusieurs chemins.
C'est-à-dire, d'une part, il influence a_0^(L), qui joue un rôle dans la fonction de coût,
mais il a aussi une influence sur a_1^(L), qui joue aussi un rôle dans la fonction de coût.
Et vous devez les ajouter.

English: 
so that the activation of the last layer is just your special function, like the sigmoid, applied to z.
You can kinda see what I mean, right?
These are all essentially the same equations we had before in the one-neuron-per-layer case;
it just looks a little more complicated.
And indeed, the chain-rule derivative expression
describing how sensitive the cost is to a specific weight
looks essentially the same.
I’ll leave it to you to pause and think about each of these terms if you want.
What does change here, though,
is the derivative of the cost with respect to one of the activations in the layer (L-1).
In this case, the difference is the neuron influences the cost function through multiple paths.
That is, on the one hand, it influences a_0^(L), which plays a role in the cost function,
but it also has an influence on a_1^(L), which also plays a role in the cost function.
And you have to add those up.

English: 
And that... well that is pretty much it.
Once you know how sensitive the cost function is to the activations in this second to last layer,
you can just repeat the process for all the weights and biases feeding into that layer.
So pat yourself on the back!
If this all of these makes sense,
you have now looked deep into the heart of backpropagation,
the workhorse behind how neural networks learn.
These chain rule expressions give you the derivatives that determine each component in the gradient
that helps minimize the cost of the network by repeatedly stepping downhill.
Hhhhpf. If you sit back and think about all that,
that’s a lot of layers of complexity to wrap your mind around.
So don't worry if it takes time for your mind to digest it all.

Chinese: 
然后……就搞定了
只要计算出倒数第二层代价函数对激活值的敏感度
接下来只要重复上述过程 计算喂给倒数第二层的权重和偏置 就好了
现在长吁一口气吧！
如果这里明白了
那你就看明白了神经网络的主力——反向传播
那你就看明白了神经网络的主力——反向传播
链式法则表达式给出了决定梯度每个分量的偏导
使得我们能不断下探  最小化神经网络的代价
乌啦啦  光是静下来想一想
这些复杂的层层叠叠就很烧脑
消化这些知识会花一些时间  别气馁了

Korean: 
그리고... 뭐 이게 다입니다.
비용 함수가 이 두번째와 마지막 층 사이의 활성화 정도에 얼마나 민감한지를 알게 된다면,
그 층에 들어가는 모든 가중치와 편향에 이 과정을 반복해주면 됩니다.
자, 이제 스스로를 칭찬해도 됩니다.
이걸 전부 이해했다면,
역전파의 핵심을 깊이 파고들어본 것입니다.
그리고 역전파는 인공 신경망 학습의 심장이죠.
이런 연쇄 법칙 표현로 그라디언트의 각 구성 요소를 결정하는 도함수를 구할 수 있고,
이는 언덕 아래로 반복적으로 걸어 내려가며 네트워크의 비용을 최소화하는데 도움을 줍니다.
흐으으음. 편안히 앉아서 이걸 전부 생각해본다면,
정리해야할 복잡성의 층이 꽤나 많습니다.
이걸 다 이해하는데 시간이 걸린다고 걱정하진 마세요.

French: 
Et ça ... et bien c'est à peu près tout.
Une fois que vous savez à quel point la fonction de coût est sensible aux activations de la deuxième à la dernière couche,
vous pouvez simplement répéter le processus pour tous les poids et les biais alimentant cette couche.
Alors réjouissez-vous !
Si tout cela a du sens à vos yeux,
et bien vous avez regardé en détail le mécanisme interne de la rétro-propagation,
l'appareillage qui permet aux réseaux de neurones d'apprendre.
Ces développements par la règle de la chaîne vous fournissent les dérivées qui déterminent chaque composante dans le gradient
qui permet de minimiser le coût du réseau en descendant d'un cran de manière répétée.
Pfiouuu. Si vous vous asseyez et pensez à tout cela,
C'est beaucoup de niveaux de complexité auxquels s'habituer.
Donc, ne vous inquiétez pas s'il vous faut du temps pour digérer tout cela.

Portuguese: 
E isso... é basicamente tudo.
Uma vez que você souber o quão sensível a função de custo é a ativação da segunda camada para a última,
é só repetir o processo para todos os pesos e vieses que entram nessa camada.
Então se dê um tapinha nas costas!
Se tudo isso fizer sentido,
você agora olhou fundo no coração da retropropagação,
o motor por trás de como as redes neurais aprendem.
Essas expressões da regra da cadeia te dá as derivadas que determinam cada componente no gradiente
que ajuda a minimizar o custo da rede, descendo a ladeira repetidamente.
Hhhhpf. Se você parar pra pensar nisso tudo,
são muitas camadas de complexidade pra processar.
Então não se preocupe se precisar de um tempinho pra digerir tudo.

Russian: 
И это ... хорошо, это в значительной степени это.
Как только вы узнаете, насколько чувствительна функция стоимости к активациям этого второго до последнего слоя,
Вы можете просто повторить процесс для всех весов и смещений, подаваемых в этот слой.
Так похлопайте себя по спине!
Если это все имеет смысл,
Вы теперь заглянули глубоко в сердце обратного распространения,
рабочая лошадка в изучении нейронных сетей.
Эти выражения правила цепочки дают вам производные, которые определяют каждый компонент в градиенте
это помогает минимизировать стоимость сети, постоянно снижаясь.
Hhhhpf. Если вы будете сидеть сложа руки и думать обо всем этом,
это много уровней сложности, чтобы обернуть ваш разум вокруг.
Так что не волнуйтесь, если вашему разуму потребуется время, чтобы все это переварить.

Turkish: 
Ve bu ... pekala işte bu kadar.
Maliyet işlevinin bu ikinci ve son kattaki aktivasyonlara ne kadar hassas olduğunu öğrendikten sonra,
bu katmana beslenen tüm ağırlıklar ve önyargılar için işlemi tekrarlayabilirsiniz.
Bu yüzden arkana yaslan!
Bunların hepsi mantıklı geliyorsa,
şimdi geri yayılımın kalbine derin baktın,
sinir ağlarının nasıl öğrendiğinin ardındaki işgücü.
Bu zincir kuralı ifadeleri, gradyandaki her bileşeni belirleyen türevleri verir
Bu, ağ kullanımının art arda yokuş aşağı çekilerek maliyetini en aza indirmesine yardımcı olur.
Hhhhpf. Arkanıza yaslanıp bütün bunları düşünürseniz,
aklını sarmak için bir sürü karmaşıklık katmanı var.
Bu yüzden zihninizin hepsini sindirmesi zaman alırsa endişelenmeyin.

Spanish: 
y eso.... bueno eso mucho.
Una vez sepas cuan sensible  es la función de coste en las activaciones de esta segunda capa,
tu puedes solo repetir el proceso para todos los pesos y bias
Asi que date una palmada tu mismo en la espalda!
Si todo esto tiene sentido,
Tu has ahora visto a profundida en el corazón de la retropropagación,
EL caballo de trabajo detrás de cómo las rede aprenden.
Estas expresiones de la regla de la cadena te dan las derivadas que determinan cada componente en la gradiente
que ayudan a minimizar el costo de la red al n
Si regresas y piensas en todo eso,
es un montón capas de capas de complejidad para envolver alrededor de tu mente.
Asi que no te preocupes si le toma tiempo a tu mente digerirlo todo.
