
Chinese: 
本期我們來講反向傳播
也就是神經網絡學習的核心算法
稍微回顧一下我們之前講到哪裡之後
首先我要撇開公式不提 直觀地過一遍
這個演算法到底在做什麼
然後如果你們有人想認真看裡頭的數學
下一期影片我會解釋這一切背後的微積分
如果你看了前兩期影片
或者你已經有足夠背景知識 直接空降來這一期影片的話
你一定知道神經網絡是什麼 以及它如何前饋信息的
這裡我們考慮的經典例子就是手寫數字識別
數字的像素值被輸入到網絡第一層的784個神經元裡
這裡 我展示的是有2層16個神經元隱含層
10個神經元的輸出層 代表網絡最終給出的選擇
我也假設你們已經理解了上期說到的梯度下降法
理解了所謂學習就是指

German: 
Hier wird Rückpropagation behandelt,
Der Kernalgorithmus hinter dem Lernen von neuralen Netzwerken.
Nach einer kurzen Zusammenfassung,
werde ich intuitiv erklären, was der Algorithmus eigentlich tut,
ohne Formeln zu verwenden.
Für die, die sich für die Mathematik interessieren,
bespricht das nächste Video die zugrunde liegenden Berechnungen.
Wenn du die letzten zwei Videos gesehen hast,
oder du mit passendem Hintergrundwissen hier startest,
dann weißt du, was ein neurales Netzwerk ist und wie es Information verarbeitet.
Hier behandeln wir das klassische Beispiel hangeschriebener Ziffern,
deren Pixelwerte in die erste Ebene des Netzwerks gefüttert werden, die 784 Neuronen hat.
Ich habe ein Netzwerk mit zwei verborgenen Ebenen zu je 16 Neuronen verwendet,
das eine Ausgabeebene mit 10 Neuronen hat, welche die gewählte Ziffer anzeigt.
Ich gehe außerdem davon aus, dass du Gradientenabstiege verstehst, wie sie im letzten Video beandelt wurden
und weißt was wir damit meinen, dass

Portuguese: 
Vamos aqui atacar o algoritmo Backpropagation, ou Retropropagação...
O algoritimo núcleo por trás de como uma Rede Neural Artificial aprende...
Após uma rápida recapitulação sobre onde estamos,
a primeira coisa que farei é uma caminhada intuitiva pelo o quê o algoritmo realmente está fazendo..
sem qualquer referência a fórmulas,
então para todos aqueles que desejam mergulhar na matemática,
o próximo vídeo irá tratar do cálculo por trás de tudo isso.
Se você assistiu os últimos dois vídeos
ou se você está entrando neste video com a base apropriada,
você sabe o quê uma Rede Neural é e como ela alimenta informação à frente.
Aqui estamos analisando o clássico exemplo de reconhecimento de dígitos escritos a mão,
dos quais os valores de pixels são alimentados na primeira camada da rede com 784 neurônios.
E eu mostrei uma rede com duas camadas ocultas, cada uma possuindo 16 neurônios,
e uma camada de saída de 10 neurônios, indicando qual dígito a rede neural está escolhendo como resposta.
Eu também espero que você entenda o Gradiente Descendente como descrito no último vídeo,
e como o que nos referimos por aprendizado é o que

English: 
Here we tackle backpropagation,
the core algorithm behind how neural networks learn.
After a quick recap for where we are,
the first thing I'll do is an intuitive walkthrough for what the algorithm is actually doing
without any reference to the formulas,
Then for those of you who do want to dive into the math,
the next video goes into the calculus underlying all this.
If you watched the last two videos
or if you're just jumping in with the appropriate background,
you know what a neural network is and how it feeds forward information.
Here we're doing the classic example of recognizing handwritten digits,
whose pixel values get fed into the first layer of the network with 784 neurons.
And I've been showing a network with two hidden layers having just 16 neurons each,
and an output layer of 10 neurons, indicating which digit the network is choosing as its answer.
I'm also expecting you to understand gradient descent as described in the last video,
and how what we mean by learning is that

Turkish: 
Burada geri yayılımla mücadele ediyoruz.
sinir ağlarının nasıl öğrendiğinin arkasındaki temel algoritma.
Bulunduğumuz yerin kısa bir özetinden sonra,
Yapacağım ilk şey, algoritmanın gerçekte ne yaptığını anlatan sezgisel bir adım
formüllere referans olmadan,
O zaman matematiğe dalmak isteyenler için,
Bir sonraki video tüm bunların altında yatan hesabın içine giriyor.
Son iki videoyu izlediyseniz
ya da sadece uygun arka plana atlıyorsanız,
Bir sinir ağının ne olduğunu ve bilgiyi nasıl beslediğini biliyorsunuz.
Burada el yazısı rakamları tanımanın klasik örneğini yapıyoruz,
piksel değerleri 784 nöronla ağın ilk katmanına beslenir.
Ve her biri sadece 16 nörondan oluşan iki gizli katmanı olan bir ağ gösteriyorum.
ve 10 nörondan oluşan bir çıkış katmanı olup, ağın cevabı olarak hangi haneyi seçtiğini gösterir.
Son videoda anlatıldığı gibi, gradyan inişini anlamanızı da bekliyorum.
ve öğrenerek ne demek istediğimizi

Russian: 
Рассмотрим обратное распространение,
основной алгоритм обучения нейронных сетей.
После краткого напоминания о том, что мы узнали,
я расскажу о том, что на самом деле делает алгоритм
без ссылок на формулы.
Для тех из вас, кто хочет погрузиться в математику,
следующее видео рассматривает математическое обоснование, лежащее в основе всего этого.
Если вы посмотрели последние два видео
или вы просто пропустили, т.к. знакомы с этим, то
вы знаете, что такое нейронная сеть и как она передает информацию вперед.
Здесь мы делаем классический пример распознавания рукописных цифр,
чьи значения пикселей поступают в первый слой сети с 784 нейронами.
Я показываю сеть с двумя скрытыми слоями, имеющими всего 16 нейронов,
и выходной слой из 10 нейронов, указывающий, какую цифру выбирает сеть в качестве своего ответа.
Я также надеюсь, что вы поняли метод градиентного спуска, из последнего видео,
и как мы понимаем, что

Spanish: 
Aquí vamos a abordar la "Retropropagación", el algoritmo central por el cual las redes neuronales aprenden.
después de una pequeña  recapitulación de donde estábamos, la primera cosa que voy a hacer
es una demostración intuitiva de lo que el algoritmo realmente esta haciendo
sin referencia alguna a la fórmula.
Luego para los que quieran ir a la matemática,
el siguiente vídeo va sobre la matemática detrás de esto.
Si viste los últimos dos videos,
o si los saltaste con el apropiado conocimiento previo, tú sabes que es una red neuronal
y cómo se ajusta con la información. Lo que estamos haciendo
aquí es el ejemplo clásico de reconocimiento de dígitos escritos a mano,
cuyos valores de pixeles se ocultan  en la primera capa  de 784 neuronas.
He mostrado una una red con dis capa de solo 16 neuronas cada una,  y
una capa de salida con 10 neuronas, indicando qué
dígitos la red esa eligiendo como respuesta.
También espero que entiendas que es el descenso de gradiente
el cual fue descrito en el último vídeo,
y lo que queremos dar a entender por "Aprender", es que queremos encontrar

Korean: 
여기서 우리는 신경망이 학습을 하는지에 대한
핵심 알고리즘인 역전파에 대해 알아볼 겁니다
우리가 알고있는 부분을 간략히 요약 하고,
첫 번째로 알고리즘이 실제로 무엇을 하는지 어떠한 공식도 사용하지 않고
직관적으로 살펴보겠습니다.
수학적인 공식에 대해 더욱 알고 싶어 하는 사람들을 위해
다음 비디오는이 모든 것을 설명해주는 미적분학에 들어갑니다 ㅎㅎ.
마지막 두 개의 동영상을 본 경우
또는 적당한 배경지식을 가지고 이 영상을 본다면
당신은 신경망이 무엇인지, 그것이 어떻게 정보를 전달 하는지를 알고있을겁니다.
여기서 우리는 손으로 쓴 숫자를 인식하는 신경망의 예를 들겠습니다.
이 신경망은 입력층이 784개이고,
은닉층은 각각 16개의 신경을 가지고 있으며,
어떤 숫자인지 표시해줄 10개의 출력층이 있습니다.
저는 여러분들이 저번 영상에서 설명한 경사 하강법에 대해서 이해하고 있고
신경망이 배운다는 것이

Chinese: 
本期我们来讲反向传播
也就是神经网络学习的核心算法
稍微回顾一下我们之前讲到哪里之后
首先我要撇开公式不提 直观地过一遍
这个算法到底在做什么
然后如果你们有人想认真看里头的数学
下一期视频我会解释这一切背后的微积分
如果你看了前两期视频
或者你已经有足够背景  直接空降来这一期视频的话
你一定知道神经网络是什么  以及它如何前馈信息的
这里我们考虑的经典例子就是手写数字识别
数字的像素值被输入到网络第一层的784个神经元里
这里 我展示的是有2层16个神经元隐含层
10个神经元的输出层 代表网络最终给出的选择
我也假设你们已经理解了上期说到的梯度下降法
理解了所谓学习就是指

Chinese: 
我們要找到特定的權重偏置 從而使一個代價函數最小化
稍許提醒一下 計算一個訓練樣本的代價
你需要求出網絡的輸出
與期待的輸出
之間每一項的差的平方和
然後對於成千上萬個訓練樣本都這麼算一遍 最後取平均
這就得到了整個網絡的代價值
如果你嫌這還不夠複雜的話 上集內容也講到了
我們要求的是代價函數的負梯度
它告訴你如何改變所有連線上的權重偏置
才好讓代價下降得最快
本集的核心 反向傳播算法
正是用來求這個複雜到爆的梯度的
我希望大家能夠把上集中提到的一點牢牢記住
畢竟13000維的梯度向量

Chinese: 
我们要找到特定的权重偏置 从而使一个代价函数最小化
稍许提醒一下 计算一个训练样本的代价
你需要求出网络的输出
与期待的输出
之间每一项的差的平方和
然后对于成千上万个训练样本都这么算一遍 最后取平均
这就得到了整个网络的代价值
如果你嫌这还不够复杂的话 上集内容也讲到了
我们要求的是代价函数的负梯度
它告诉你如何改变所有连线上的权重偏置
才好让代价下降得最快
本集的中心 反向传播算法
正是用来求这个复杂到爆的梯度的
我希望大家能够把上集中提到的一点牢牢记住
毕竟13000维的梯度向量

Turkish: 
Hangi ağırlıkların ve önyargıların belirli bir maliyet fonksiyonunu en aza indirdiğini bulmak istiyoruz.
Hızlı bir hatırlatma olarak, tek bir eğitim örneğinin maliyeti için,
Yaptığınız şey ağın verdiği çıktıyı almak.
vermesini istediğiniz çıktıyla birlikte,
ve her bileşen arasındaki farkların karelerini toplarsınız.
On binlerce eğitim örneğiniz için bunu yaparak ve sonuçların ortalamasını alarak,
bu size ağın toplam maliyetini verir.
Ve sanki düşünmek için yeterli değil, son videoda açıklandığı gibi,
aradığımız şey, bu maliyet fonksiyonunun negatif gradyanı,
Bu, tüm bu bağlantıları, bütün ağırlıkları ve önyargıları nasıl değiştirmeniz gerektiğini söyler.
Böylece maliyeti en verimli şekilde düşürürsünüz.
Geri yayılım, bu videonun konusu,
Bu çılgın karmaşık gradyanı hesaplamak için kullanılan bir algoritma.
Ve son videodan aldığım fikir, şu anda zihninizde sıkıca tutmanızı istiyorum.
çünkü gradyan vektörünün 13000 boyutunda bir yön olarak düşünülmesi,

Spanish: 
cuales pesos  y BIASES minimizan una función de coste.
Como un pequeño recordatorio, para el coste
de un entrenamiento en particular,
lo que haces es tomar el output que la red da ,
y junto con la salida que quieres que ella de,  solo elevas al cuadrado
la diferencia entre cada componente.
Haciendo esto para todos los  miles ejemplos de datos de entrenamiento,
y promediando los resultados,  esto te da
el costo total de la red.
Y si eso no es suficiente para pensar,
como fue descrito en el último video, lo que estamos buscando
es la gradiente negativa de esta función de coste
que te diga lo que necesitas cambiar en los pesos y las BIASES
en estas conexiones , de manera que se reduzca el coste mas eficientemente .
La retropropagación , el tema de este vídeo ,
es el algoritmo para calcular es gradiente locamente complicada
Y la idea del último vídeo que realmente
quiero que tengas fresca en tu mente ahorita,
es que, por pensar en la gradiente como la dirección de 13,000 dimensiones

English: 
we want to find which weights and biases minimize a certain cost function.
As a quick reminder, for the cost of a single training example,
what you do is take the output that the network gives,
along with the output that you wanted it to give,
and you just add up the squares of the differences between each component.
Doing this for all of your tens of thousands of training examples, and averaging the results,
this gives you the total cost of the network.
And as if that's not enough to think about, as described in the last video,
the thing that we're looking for is the negative gradient of this cost function,
which tells you how you need to change all of the weights and biases, all of these connections,
so as to most efficiently decrease the cost.
Backpropagation, the topic of this video,
is an algorithm for computing that crazy complicated gradient.
And the one idea from the last video that I really want you to hold firmly in your mind right now
is that because thinking of the gradient vector as a direction in 13000 dimensions is,

German: 
wir herausfinden wollen, welche Gewichtungen und Verzerrungen eine spezielle Kostenfunktion minimieren.
Zur Erinnerung, für die Kosten eines einzelnen Trainingsbeispiels,
Was Sie tun, ist die Ausgabe, die das Netzwerk gibt,
zusammen mit der Ausgabe, die Sie geben wollten,
und Sie addieren einfach die Quadrate der Unterschiede zwischen jeder Komponente.
Tun Sie dies für all Ihre Zehntausende von Trainingsbeispielen und mitteln Sie die Ergebnisse,
Dies gibt Ihnen die Gesamtkosten des Netzwerks.
Und als ob das nicht genug wäre, um darüber nachzudenken, wie im letzten Video beschrieben,
die Sache, nach der wir suchen, ist der negative Gradient dieser Kostenfunktion,
was sagt Ihnen, wie Sie alle Gewichte und Voreingenommenheiten ändern müssen, all diese Verbindungen,
um die Kosten so effizient wie möglich zu senken.
Backpropagation, das Thema dieses Videos,
ist ein Algorithmus zur Berechnung dieses verrückten komplizierten Gradienten.
Und die eine Idee aus dem letzten Video, von der ich wirklich möchte, dass du dich fest im Kopf hältst
ist das, weil das Denken des Gradientenvektors als eine Richtung in 13000 Dimensionen ist,

Russian: 
мы хотим найти, какие веса и смещения сводят к минимуму определенную функцию стоимости.
В качестве быстрого напоминания о стоимости одного учебного примера,
то, что вы делаете, - это результат, который выдает сеть,
наряду с выходом, который вы хотели, бы получить,
и вы просто добавляете квадраты разности между каждым компонентом.
Выполняя это для всех ваших десятков тысяч примеров обучения и усредняя результаты,
вы получаете общую стоимость сети.
И, так как этого недостаточно для ответа, как описано в последнем видео,
то, мы ищем отрицательный градиент этой функции стоимости,
который показывает, как вам нужно изменить все веса и смещения каждого соединения,
чтобы наиболее эффективно снизить стоимость.
Обратное распространение, тема этого видео,
является алгоритмом вычисления этого сумасшедшего сложного градиента.
И одна из идей из последнего видео, которую я хочу донести проще,
состоит в том, что, поскольку мысли о векторе градиенте как о направлениях в 13000 измерениях,

Korean: 
오차 함수를 최소화 시키는 가중치와 편향을 구하는 것이라는 것을 알고 있다고 가정하겠습니다.
오차에 관한 한가지 학습데이터를 살펴봅시다.
우리가 해야할 것은 신경망이 출력한것과
신경망이 출력하기를 바랬던 값들을
가져와 차이를 구한후 모두 더합니다.
이걸 수천가지의 학습 데이터에 대해 수행하고 평균을 얻으면
당신은 신경망의 모든 오차를 구할수 있습니다.
그리고 저번 영상에서 설명한것 처럼
우리가 찾고있는 것은 이 오차 함수의 음의 기울기입니다.
이것은 모든 가중치와 편향,이 모든 연결을 어떻게 변경해야 하는지를 알려줍니다.
이러한 방식으로 가장 효율적으로 오차함수를 줄일 수 있습니다.
이 영상의 주제인 역전파는
그 많은 복잡한 기울기를 계산하기위한 알고리즘입니다.
그리고 저번 영상에서 설명한 것을 지금 잘 기억하기를 바랍니다.
왜냐하면 기울기 벡터를 13000차원의 방향으로 생각하는것은

Portuguese: 
desejamos encontrar quais pesos e ajustes minimizam uma certa função custo.
Como um simples lembrete, para o custo de um simples exemplo de treinamento,
o que você faz é considerar a saída que a Rede gera,
em conjunto com a saída que você desejava que ela gerasse,
e você apenas adiciona os quadrados da diferença entre cada componente.
Fazendo isso para todas as suas dezenas de milhares de exemplos e tirando a média dos resultados,
isso lhe dá o custo total da Rede Neural.
E como se isso não fosse o bastante para pensar a respeito, como descrito no último vídeo,
o que você está olhando é o gradiente negativo da função custo,
que te diz como você deve alterar todos os pesos e ajustes, todas essas conexões,
então, para reduzir de forma mais eficiente o custo,
Backpropagation, o tópico desse vídeo,
é um algoritmo para calcular esse gradiente complicado e maluco.
E uma idéia do último vídeo que eu realmente desejo que você fixe fortemente em sua mente agora
é porque pensar no vetor gradiente como uma direção em 13.000 dimensões é,

Chinese: 
说它是难以想象都不为过
所以这里大家请记住另一套思路
梯度向量每一项的大小是在告诉大家
代价函数对于每个参数有多敏感
比如说 你走了一段我讲的过程
计算了负梯度
对应这条线上这个权重的一项等于3.2
而对应这条边上的一项等于0.1
你可以这么来理解
第一个权重对代价函数的值有32倍的影响力
如果你稍微改变一下第一个权重
它对代价值造成的变化
就是改变第二个权重同等大小下的32倍
就我个人而言 我刚开始学习反向传播的时候
我觉得最容易搞混的部分就是各种符号和上标下标
不过 一旦你捋清了算法的思路

Korean: 
우리가 상상 할 수 있는 범위를 넘어서는 것이기 때문입니다.
그것에 대해 생각할 수있는 또 다른 방법이 있습니다.
각 오차는 오차함수가 각 가중치 및 편차에
얼마나 민감한지를 나타낸다고 생각하는 것입니다.
예를 들어, 제가 설명하려고하는 과정을 거쳐서
음의 기울기를 계산하면,
이 가중치에 대한 기울기 계산값은 3.2로 나오고,
이 가중치에 대한 기울기 계산값은 0.1로 나옵니다.
당신이 해석 할 수있는 방법은
오차함수의 출력은 기울기가 0.1인 가중치 보다 기울기가 3.2인 가중치가 32배 더 민감하다고 해석할 수 있습니다.
그래서 만약 기울기가 3.2인 가중치의 값을 조금 조정한다면
오차함수의 출력에 변화를 줄 것입니다.
그리고 그 변화는두 번째 가중치의 조정이주는 것보다 32배 더 클것입니다.
개인적으로, 제가 처음으로 역전파에 대해 배울 때
가장 혼란스러운 부분은 표기법과 그 모든것을  나타내는 지수였다고 생각합니다.
하지만 일단이 알고리즘의 각 부분이 실제로하고있는 것을 알면

Portuguese: 
para colocá-lo levemente, além do escopo de nossas imaginações,
há outra maneira de você pensar a respeito disso:
A magnitude de cada componente aqui está lhe dizendo
quão sensível a função custo é para cada peso e ajuste.
Por exemplo, digamos que você passe pelo processo que estou prestes a descrever,
e você calcula o gradiente negativo,
e o componente associado com o peso nessa borda aqui é 3.2,
enquanto o componente associado a essa borda aparece como 0.1.
A maneira como você interpretaria isso é que
o custo da função é 32 vezes mais sensível a mudanças naquele primeiro peso.
Então, se você fosse mexer esse valor só um pouquinho,
isso vai causar alguma mudança no custo,
e essa mudança é 32 vezes maior do que a mesma oscilação para o segundo peso.
Pessoalmente, quando eu estava aprendendo sobre retropropagação,
Eu acho que o aspecto mais confuso era apenas a notação e a indexação de tudo.
Mas uma vez que você abra o que cada parte desse algoritmo está realmente fazendo,

Spanish: 
es , por ponerlo así, mas allá
del alcance de nuestra imaginación, pero hay otra manera de pensarlo.
La magnitud de cada componente
te esta diciendo que tan sensible es la función de coste en cada peso y bias.
Por ejemplo,  digamos que vas al proceso describiendo
y calculas la gradiente negativa,
y la componente asociada aquí  con este eje
sale como 3.20, mientras que la componente asociada con
este aquí con este eje
es 0.10, la manera en que interpretas eso es
que el coste de la función 3.2 veces mas sensible
de esa manera primero, luego si meneas ese valor solo un poco
le va a costar algo al coste, y ese cambio
es 3.2 veces mas grande que
el que produces meneando el otro valor.
Personalmente , la primea vez que aprendí de la retropropagación ,
creo que el aspecto mas confuso
es la notación,
Pero una vez ya estés envuelto en lo que cada una de las partes de este algoritmo hacen realmente ,

Russian: 
мягко говоря, вне сферы нашего воображения,
есть еще один способ, которым вы можете думать об этом:
Величина каждого компонента здесь говорит вам
насколько чувствительна функция стоимости к каждому весу и смещению.
Например, вы повторяете процесс, который я описываю,
и вы вычисляете отрицательный градиент,
и компонент, связанный с весом на этом крае, составляет 3,2,
в то время как компонент, связанный с этим ребром, отображается как 0,1.
Таким образом,
стоимость функции в 32 раза более чувствительна к изменениям первого веса.
Поэтому, если вы хотите немного изменить значение,
то это вызовет некоторое изменение стоимости,
и это изменение в 32 раза больше, чем то, что даст такое же изменение второго веса.
Когда я впервые узнал о обратном распространении,
мне казалось, что самым запутанным аспектом было обозначение и индекс.
Но как только вы разворачиваете  каждую часть этого алгоритма,

Chinese: 
說它是難以想像都不為過
所以這裡大家請記住另一套思路
梯度向量每一項的大小是在告訴大家
代價函數對於每個參數有多敏感
比如說 你走了一段我講的過程
計算了負梯度
對應這條線上這個權重的一項等於3.2
而對應這條邊上的一項等於0.1
你可以這麼來理解
第一個權重對代價函數的值有32倍的影響力
如果你稍微改變一下第一個權重
它對代價值造成的變化
就是改變第二個權重同等大小下的32倍
就我個人而言 我剛開始學習反向傳播的時候
我覺得最容易搞混的部分就是各種符號和上標下標
不過 一旦你釐清了算法的思路

English: 
to put it lightly, beyond the scope of our imaginations,
there's another way you can think about it:
The magnitude of each component here is telling you
how sensitive the cost function is to each weight and bias.
For example, let's say you go through the process I'm about to describe,
and you compute the negative gradient,
and the component associated with the weight on this edge here comes out to be 3.2,
while the component associated with this edge here comes out as 0.1.
The way you would interpret that is that
the cost of the function is 32 times more sensitive to changes in that first weight.
So if you were to wiggle that value just a little bit,
it's gonna cause some change to the cost,
and that change is 32 times greater than what the same wiggle to that second weight would give.
Personally, when I was first learning about backpropagation,
I think the most confusing aspect was just the notation and the index chasing of it all.
But once you unwrap what each part of this algorithm is really doing,

German: 
um es leicht zu sagen, jenseits unserer Vorstellungen,
Es gibt noch eine andere Möglichkeit, darüber nachzudenken:
Die Größe jeder Komponente hier sagt dir
wie sensibel die Kostenfunktion für jedes Gewicht und jede Abweichung ist.
Nehmen wir an, Sie durchlaufen den Prozess, den ich beschreiben möchte,
und Sie berechnen den negativen Gradienten,
und die Komponente, die mit dem Gewicht an dieser Kante verbunden ist, kommt hier 3,2 heraus,
während die mit dieser Kante verbundene Komponente hier als 0,1 herauskommt.
Die Art, wie Sie das interpretieren würden, ist das
Die Kosten der Funktion sind 32 Mal empfindlicher für Änderungen in diesem ersten Gewicht.
Wenn du also diesen Wert nur ein bisschen wackeln würdest,
es wird einige Änderungen an den Kosten verursachen,
und diese Änderung ist 32-mal größer als das, was das gleiche Wackeln auf das zweite Gewicht geben würde.
Als ich zum ersten Mal etwas über Backpropagation
Ich denke, der verwirrendste Aspekt war nur die Notation und der Index, der alles jagte.
Aber wenn du einmal entpackt hast, was jeder Teil dieses Algorithmus wirklich macht,

Turkish: 
hayal gücümüzün kapsamı dışına hafifçe koymak,
düşünebileceğiniz başka bir yol var:
Buradaki her bir bileşenin büyüklüğü size söylüyor
Maliyet fonksiyonunun her ağırlık ve önyargı için ne kadar hassas olduğu.
Örneğin, anlatacağım süreçten geçtiğinizi varsayalım.
ve negatif degradeyi hesaplarsınız
ve bu kenardaki ağırlıkla ilişkili bileşen 3.2 olarak ortaya çıkıyor,
bu kenar ile ilişkili bileşen burada 0.1 olarak ortaya çıkar.
Bunu yorumlama şekliniz bu
işlevin maliyeti, bu ilk ağırlıktaki değişikliklere karşı 32 kat daha hassastır.
Öyleyse, bu değeri biraz kıpırdatmak isteseydiniz,
maliyetinde bir miktar değişikliğe neden olacak,
ve bu değişim, aynı ikinci kelebeğin aynı kıvrımının verdiğinden 32 kat daha fazladır.
Şahsen, geri yayılmayı ilk öğrendiğimde,
En kafa karıştırıcı yön, sadece gösterimde ve hepsini takip eden endeks olduğunu düşünüyorum.
Fakat bu algoritmanın her bir parçasının gerçekte ne yaptığını çözdüğünüzde,

Chinese: 
算法的每一步其實都挺直觀的
其實就是把許許多多微小的調整一層進一層地進行下去而已
所以 開始講解時 我將完全拋棄所有的符號
給大家一步步解釋
每一個訓練樣本會對權重偏置的調整造成怎樣的影響
因為代價函數牽扯到
對成千上萬個訓練樣本的代價取平均值
所以我們調整每一步梯度下降用的權重偏置
也會基於所有的訓練樣本
原理上是這麼說
但為了計算效率 之後咱們會討個巧
從而不必每一步都非得要計算所有的訓練樣本
還需要說明一點
我們現在只關註一個訓練樣本 就這張2
這一個訓練樣本會對調整權重和偏置造成怎樣的影響呢?
現在假設網絡還沒有完全訓練好
那麼輸出層的激活值看起來就很隨機

Russian: 
каждый отдельный элемент на самом деле довольно понятен.
Получается множество небольших корректировок, которые накладываются друг на друга.
Поэтому я собираюсь пренебречь обозначениями
и просто рассмотрю результаты того, как
каждый пример обучения звасисит от веса и смещения.
Поскольку функция стоимости включает
усредную определенную стоимость по всем десяткам тысяч примеров обучения,
способ, которым мы корректируем веса и смещения для одного шага уменьшения градиента
также зависит от каждого отдельного примера,
или, скорее, должен,
но для вычислительной эффективности позже мы собираемся сделать небольшой трюк
чтобы вы не нуждались в каждом конкретном примере для каждого отдельного шага.
Другое дело,
что мы собираемся сосредоточить наше внимание на одном примере: изображение цифры 2.
Какое влияние должен иметь этот пример тренировки на то, как корректируются веса и смещения?
Допустим, мы находимся в точке, где сеть еще недостаточно подготовлена,
поэтому активации на выходе будут выглядеть довольно случайными,

English: 
each individual effect that it's having is actually pretty intuitive.
It's just that there's a lot of little adjustments getting layered on top of each other.
So I'm gonna start things off here with a complete disregard for the notation,
and just step through those effects that
each training example is having on the weights and biases.
Because the cost function involves
averaging a certain cost per example over all the tens of thousands of training examples,
the way that we adjust the weights and biases for a single gradient descent step
also depends on every single example,
or rather in principle it should,
but for computational efficiency we're going to do a little trick later
to keep you from needing to hit every single example for every single step.
Another case right now,
all we're gonna do is focus our attention on one single example: this image of a 2.
What effect should this one training example have on how the weights and biases get adjusted?
Let's say we're at a point where the network is not well trained yet,
so the activations in the output are gonna look pretty random,

Portuguese: 
cada efeito individual que está ocorrendo é realmente muito intuitivo.
Apenas há um monte de pequenos ajustes ficando em camadas uns sobre os outros.
Então eu vou começar as coisas aqui com um completo desrespeito pela notação,
e apenas percorrer os efeitos que
cada exemplo de treinamento está tendo sobre os pesos e ajustes.
Por que a função custo envolve
calcular a média de um determinado custo por exemplo em todas as dezenas de milhares de exemplos de treinamento,
a maneira como ajustamos os pesos e ajustes para um único passo de descida de gradiente
também depende de cada exemplo,
ou melhor, em princípio, deveria,
mas para eficiência computacional vamos fazer um pequeno truque depois
para evitar que você precise acertar todos os exemplos para cada etapa.
Outro caso agora,
tudo o que vamos fazer é focar nossa atenção em um único exemplo: essa imagem de um 2.
Que efeito esse exemplo de treinamento deve ter sobre como os pesos e ajustes são ajustados
Digamos que estamos num ponto em que a rede ainda não está bem treinada,
então as ativações na saída vão parecer bem aleatórias,

Korean: 
각 개별 효과는 실제로 꽤 직관적입니다.
단지, 수많은 작은 조정들이 서로 겹쳐져 있을 뿐입니다.
그래서 저는 표기법을 완전히 무시하고 시작할 것입니다.
그리고 각각의 훈련 예제가
가중치와 편향에 미치는 영향을 살펴보겠습니다.
왜냐하면 오차함수는
수만 가지의 훈련예제 대해 
예제당 특정 오차를 평균화하기 때문에,
단일 경사하강법 단계에서 가중치와 편향를 조정하는 방식
또한 모든 예제에 따라 다르며
오히려 원칙적으로 그래야 합니다만
계산 효율성을 위해 각 단계마다 모든 예를 볼 필요가 없도록
약간의 방법을 쓸 것입니다.
또 다른 방법으로,
우리가 지금 하려는 것은 한 가지 예에 집중하는 것입니다.바로 이 2의 이미지 입니다.
이 한 가지 훈련 사례가 가중치와 편향을 조정하는 방법에 어떻게 영향을 미칠까요?
우리가 아직 네트워크가 잘 훈련되지 않은 시점에 있다고 가정 해 보겠습니다.
결과물은 꽤 무작위 처럼 보일 것입니다.

Spanish: 
cada efecto individual que tenga
sera intuitivo, es solo que hay un montón de ajuste pequeños
de una capa encima de otra.
Voy a empezar las cosas con indiferencia completa por
la notación, solo ire a pasos a travez de esos efectos
que cada ejemplo de entrenamiento esta teniendo en sus peso y biases
debido a que la función de coste envuelve promediar
cierto coste por  todos los ejemplos de entrenamiento
La manera en que ajustamos
los pesos y biases para un un paso
del descenso de gradiente también depende en cada ejemplo en particular.
O mas bien ,  en principio debería,
pero por eficiencia computacional vamos  a hacer un pequeño truco después
para alejarte de la necesidad acertar cada ejemplo
para cada paso en particular.Ahora, Otro caso  ,
todo lo que vamos a hacer es enfocar nuestra atención en un ejemplo en particular,
esta imagen , una de un  2, qué efecto debería tener este entrenamiento
en cómo los pesos y biases se van a ajustar
Digamos que estamos en un punto donde la red no esta bien entrenada aún.
de manear que las activaciones son muy aleatorias ,

Turkish: 
Sahip olduğu her bireysel etki aslında oldukça sezgiseldir.
Sadece üst üste dizilmiş birçok küçük ayar var.
Bu yüzden burada gösterime tam bir ihmalle başlayacağım.
ve sadece o etkileri
Her eğitim örneğinde ağırlıklar ve önyargılar var.
Çünkü maliyet fonksiyonu
onbinlerce eğitim örneğinin tamamında belirli bir maliyetin ortalama olarak alınması,
Tek bir degrade iniş adımı için ağırlıkları ve önyargıları ayarlama şeklimiz
ayrıca her örneğe bağlı
veya daha doğrusu prensipte olması gereken,
Fakat hesaplama verimliliği için daha sonra küçük bir numara yapacağız.
Her adım için her bir örneğe ulaşmanıza gerek kalmaması için.
Şu anda başka bir dava,
Yapacağımız tek şey dikkatimizi tek bir örnek üzerinde yoğunlaştırmak: Bu 2'nin görüntüsü.
Bu eğitim örneğinin, ağırlıkların ve önyargıların nasıl düzeltildiği üzerinde ne gibi bir etkisi olmalı?
Ağın henüz iyi eğitilmediği bir noktada olduğumuzu varsayalım,
bu yüzden çıktıdaki aktivasyonlar oldukça rastgele görünecek.

Chinese: 
算法的每一步其实都挺直观的
其实就是把许许多多微小的调整一层进一层地进行下去而已
所以 开始讲解时 我将完全抛弃所有的符号
给大家一步步解释
每一个训练样本会对权重偏置的调整造成怎样的影响
因为代价函数牵扯到
对成千上万个训练样本的代价取平均值
所以我们调整每一步梯度下降用的权重偏置
也会基于所有的训练样本
原理上是这么说
但为了计算效率 之后咱们会讨个巧
从而不必每一步都非得要计算所有的训练样本
还需要说明一点
我们现在只关注一个训练样本 就这张2
这一个训练样本会对调整权重和偏置造成怎样的影响呢?
现在假设网络还没有完全训练好
那么输出层的激活值看起来就很随机

German: 
jeder einzelne Effekt, den er hat, ist eigentlich ziemlich intuitiv.
Es ist nur so, dass viele kleine Anpassungen übereinander geschichtet werden.
Also fange ich hier mit einer völligen Missachtung der Notation an,
und treten Sie einfach durch diese Effekte
Jedes Trainingsbeispiel hat auf die Gewichte und Voreingenommenheiten.
Weil die Kostenfunktion beinhaltet
Durchschnitt von bestimmten Kosten pro Beispiel über alle Zehntausende von Trainingsbeispielen,
die Art und Weise, wie wir die Gewichte und Neigungen für einen einzelnen Gradientabstieg anpassen
hängt auch von jedem einzelnen Beispiel ab,
oder eher im Prinzip sollte es,
aber für die rechnerische Effizienz werden wir später einen kleinen Trick machen
damit Sie nicht jedes einzelne Beispiel für jeden einzelnen Schritt lösen müssen.
Ein anderer Fall gerade jetzt,
Alles, was wir tun werden, ist unsere Aufmerksamkeit auf ein einziges Beispiel zu richten: dieses Bild eines 2.
Welchen Effekt sollte dieses eine Trainingsbeispiel auf die Anpassung der Gewichte und Verzerrungen haben?
Nehmen wir an, wir befinden uns an einem Punkt, an dem das Netzwerk noch nicht gut ausgebildet ist.
also werden die Aktivierungen in der Ausgabe ziemlich zufällig aussehen,

Portuguese: 
talvez algo como 0,5, 0,8, 0,2, e assim por diante.
Agora não podemos alterar diretamente essas ativações, só temos influência sobre os pesos e ajustes,
mas é útil saber quais ajustes nós queremos que aconteçam na camada de saída,
e como queremos classificar a imagem como 2,
queremos que o terceiro valor seja empurrado para cima, enquanto todos os outros são empurrados para baixo
Além disso, os tamanhos desses empurrões devem ser proporcionais a
quão longe cada valor atual está do seu valor alvo.
Por exemplo, o aumento para aquele neurônio de ativação de número 2 é
de certo modo, mais importante que a diminuição do neurônio de número 8,
que já está bem perto de onde deveria estar.
Então, ampliando ainda mais, vamos nos concentrar apenas nesse neurônio,
aquele cuja ativação desejamos aumentar.
Lembre-se, essa ativação é definida como
uma certa soma ponderada de todas as ativações na camada anterior, além de um ajuste,

Russian: 
может быть, что-то вроде 0,5, 0,8, 0,2, и так далее.
Мы не можем напрямую изменять эти активации, мы можем влиять только на вес и смещение,
но полезно отслеживать, какие корректировки должны быть для этого выходного слоя,
и поскольку мы хотим, чтобы он классифицировал изображение как 2,
мы хотим, чтобы третье значение увеличивалось, а все остальные уменьшались.
Более того, размеры этих изменений должны быть пропорциональны тому,
насколько большая разница между текущим и целевым значеним.
Например, увеличение к активации нейронов номер 2
является более важным, чем уменьшение числа нейронов числа 8,
который уже близок к тому, где он должен быть.
Поэтому, увеличивая масштаб, давайте сосредоточимся только на этом нейроне,
активация которого мы хотим увеличить.
Помните, что активация определяется как
определенную взвешенную сумму всех активаций в предыдущем слое плюс смещение,

German: 
vielleicht etwas wie 0,5, 0,8, 0,2, weiter und weiter.
Jetzt können wir diese Aktivierungen nicht direkt ändern, wir haben nur Einfluss auf die Gewichte und Verzerrungen,
aber es ist hilfreich, zu verfolgen, welche Anpassungen wir für diese Ausgabeschicht vornehmen sollten.
und da wir wollen, dass das Bild als 2 klassifiziert wird,
wir wollen, dass der dritte Wert angestupst wird, während alle anderen gestoßen werden.
Außerdem sollten die Größen dieser Nudges proportional zu sein
wie weit entfernt jeder aktuelle Wert von seinem Zielwert entfernt ist.
Zum Beispiel ist der Anstieg auf diese Anzahl 2 Neuronenaktivierung,
in gewisser Hinsicht wichtiger als die Abnahme auf das Neuron Nummer 8,
Das ist schon ziemlich nah dran wo es sein sollte.
Also, weiter heranzoomen, konzentrieren wir uns nur auf dieses eine Neuron,
derjenige, dessen Aktivierung wir erhöhen möchten.
Denken Sie daran, dass die Aktivierung definiert ist als
eine bestimmte gewichtete Summe aller Aktivierungen in der vorherigen Schicht plus einer Verzerrung,

Chinese: 
也许就会出现0.5 0.8 0.2 等等等等
我们并不能直接改动这些激活值  只能改变权重和偏置值
但记住我们想要输出层出现怎样的变动  还是很有用的
因为我们希望图像最终的分类结果是2
我们希望第三个输出值变大  其他数值变小
并且变动的大小应该与现在值和目标值之间的差呈正比
并且变动的大小应该与现在值和目标值之间的差呈正比
举个例子 增加数字”2”神经元的激活值
就应该比减少数字”8”神经元的激活值来得重要
因为后者已经很接近它的目标了
那好 我们更进一步 就来关注下这一个神经元
我们要让这里面的激活值变大
还记得这个激活值是
把前一层所有激活值的加权和 加上一个偏置

Turkish: 
belki 0,5, 0,8, 0,2, gibi ve üstünde bir şey.
Şimdi bu aktivasyonları doğrudan değiştiremiyoruz, sadece ağırlıklar ve önyargılar üzerinde etkimiz var,
ancak bu çıktı katmanında hangi ayarlamalar yapılması gerektiğini takip etmek faydalı olacaktır,
ve görüntüyü 2 olarak sınıflandırmasını istediğimizden,
üçüncü değerin dürtülmesini, diğerlerinin dürtülmesini istiyoruz.
Ayrıca, bu dürtüklerin büyüklükleri ile orantılı olmalıdır
Her bir mevcut değerin hedef değerinden ne kadar uzakta olduğu.
Örneğin, bu 2 numaralı nöron aktivasyonundaki artış,
Bir anlamda, 8 numaralı nöronun azalmasından daha önemli,
olması gereken yere zaten oldukça yakın.
Bu yüzden daha fazla yakınlaştırıp, sadece bu nörona odaklanalım,
aktivasyonunu artırmak istediğimiz kişi.
Unutmayın, bu aktivasyon olarak tanımlanır.
önceki katmandaki tüm aktivasyonların belirli bir ağırlıklı toplamı, artı bir önyargı,

Spanish: 
algo como 0.5, 0.8, 0.2
y demas,
No pedemos directamente cambiar
esas activaciones , solo podemos influenciar los pesos y las biases
, pero es de ayuda mantener rastro des los ajustes que nos gustaría
poner en esa capa de salida,
Ya que queremos clasificar la imagen como un 2
, queremos que ese tercer valor sea empujado hacia arriba mientras
que todos los demás sean empujados hacia abajo.
Mas aún, los tamaños de estos empujones
deberían ser proporcionales a qué tan lejos cada
valor es del objetivo.
por ejemplo, el incremento para esas dos activaciones de neuronas
es en cierto sentido mas importante
que el descenso de la neurona número ocho,
que de echo esta ya muy cerca a donde debería.
Asi que haciendo zoom mas profundamente, enfocandonos en solo
en una neurona, la que sus activaciones
deseamos que incrementen , recuerda  que "Activación " esta definido como
cierta suma ponderada
de todas las activaciones en las capas previas
mas un bias a la que todos estan conectados

Chinese: 
也許就會出現0.5、0.8、0.2 等等等等
我們並不能直接改動這些激活值 只能改變權重和偏置值
但記住我們想要輸出層出現怎樣的變動 還是很有用的
因為我們希望圖像最終的分類結果是2
我們希望第三個輸出值變大 其他數值變小
並且變動的大小應該與現在值和目標值之間的差呈正比
並且變動的大小應該與現在值和目標值之間的差呈正比
舉個例子 增加數字”2”神經元的激活值
就應該比減少數字”8”神經元的激活值來得重要
因為後者已經很接近它的目標了
那好 我們更進一步 就來關注下這一個神經元
我們要讓這裡面的激活值變大
還記得這個激活值是
把前一層所有激活值的加權和 加上一個偏置

Korean: 
0.5, 0.8, 0.2와 같은 값일 수 있습니다.
이제 우리는 이러한 출력 자체를 변화시킬수는 없으며, 가중치 및 편향에만 변화를 줄 수 있습니다.
하지만 여기서 출력층의 어떤 값이 조정되어야 될지 아는것은 유용합니다.
우리는 이 이미지를 2로 분류하기를 원하기 때문에,
우리는 세 번째 값이 출력되기를 원하고 다른 모든 것은 내립니다.
또한 이러한 조정의 크기는 다음과 비례해야합니다.
각 현재 값이 목표 값에서 얼마나 떨어져 있는지.
예를 들어, 그 숫자 2 뉴런 활성화에 대한 증가는,
숫자 8 뉴런에 대한 증가 보다는 중요합니다.
그것은 이미 있어야 할 곳에 아주 가깝습니다.
그러니깐 더 자세히 보면서
우리가 활성화를 원하는 이 뉴런에 초점을 맞추어 봅시다.
그 활성화는 다음과 같이 정의됩니다.
이전 계층의 모든 활성화에 대한 특정 가중치 합계와 편향

English: 
maybe something like 0.5, 0.8, 0.2, on and on.
Now we can't directly change those activations, we only have influence on the weights and biases,
but it is helpful to keep track of which adjustments we wish should take place to that output layer,
and since we want it to classify the image as a 2,
we want that third value to get nudged up, while all of the others get nudged down.
Moreover, the sizes of these nudges should be proportional to
how far away each current value is from its target value.
For example, the increase to that number 2 neurons activation is,
in a sense, more important than the decrease to the number 8 neuron,
which is already pretty close to where it should be.
So zooming in further, let's focus just on this one neuron,
the one whose activation we wish to increase.
Remember, that activation is defined as
a certain weighted sum of all of the activations in the previous layer, plus a bias,

Russian: 
которые подключены к чему-то вроде функции сигмовидного сгибания или ReLU,
Таким образом, есть три разных способа, которые могут объединяться, чтобы помочь увеличить эту активацию:
вы можете увеличить смещение, вы можете увеличить вес,
и вы можете изменить активацию нейронов в предыдущем слое.
Сосредоточив внимание на том, как следует регулировать вес,
обратите внимание на то, как веса имеют разные уровни влияния:
связи с самыми яркими нейронами из предыдущего слоя имеют наибольший эффект,
поскольку эти веса умножаются на большие значения активации.
Поэтому, если вы должны увеличить один из этих весов,
он фактически оказывает более сильное влияние на конечную функцию стоимости
чем увеличение весов связей с тусклыми нейронами,
по крайней мере, насколько это касается одного примера обучения.
Помните, когда мы говорили о градиентном уменьшении,
мы не просто заботимся о том, нужно ли увеличивать или уменьшать каждый компонент,
мы заботимся о том, какие из них дают вам наибольший эффект.
Это, кстати, несколько напоминает теорию в области нейронауки

Portuguese: 
que foi tudo ligado a algo como a função sigmóide ou uma ReLU, ou
Unidade Linear Retificada,
Portanto, existem três caminhos diferentes que podem se unir para ajudar a aumentar essa ativação:
você pode aumentar o ajuste, você pode aumentar os pesos,
e você pode alterar as ativações da camada anterior.
Concentrando-se apenas em como os pesos devem ser ajustados,
observe como os pesos realmente têm diferentes níveis de influência:
as conexões com os neurônios mais brilhantes da camada anterior têm o maior efeito:
já que esses pesos são multiplicados por valores de ativação maiores.
Então, se você fosse aumentar um desses pesos,
ele na verdade tem uma influência mais forte na função de custo final
do que aumentar os pesos de conexões com neurônios ocultos,
pelo menos no que diz respeito a este exemplo de treinamento.
Lembre-se quando falamos sobre gradiente descendente,
não nos importamos se cada componente deve ser empurrado para cima ou para baixo,
nós nos preocupamos com o que lhe dá o maior retorno para o seu recurso.
Isto, a propósito, é pelo menos um tanto reminiscente de uma teoria na neurociência.

Spanish: 
como la función sigmoid  o RALU
Hay tres avenidas diferentes que se mantienen aumentando juntas
esa activación, tu puedes incrementar el bias ,  puedes incrementar los pesos,
y  puedes cambiar las activaciones de la capa anterior .
Enfocándose solo en cómo los pesos deberían ser ajustados,
nota como los pesos realmente tienen niveles de influencia diferenciándose.
Las conecciones con las neuronas mas iluminadas  de la capa precedente  tienen el mayor efecto,
ya que esos pesos están multiplicados  por un valor largo de activación.
Así que, si fuimos incrementando uno de esos pesos,
este de echo tiene una influencia fuerte en la  función de coste .
mas que incrementando los pesos de las conexiones con neuronas no definidas  .
al menos hasta que este ejemplo de entrenamiento esté concernido.
Recuerda que cuando hablamos de el descenso de gradiente.
no solo nos importaba si cada componente se empujaba hacia arriba o abjo,
nos importa cuales te dan la mayor explosión para tu carga.
Esto es, por cierto, al menos algo recordativo de una teoría en neurociencia

Turkish: 
bunların hepsi sigmoid cisimleşme işlevi veya bir ReLU gibi bir şeye bağlanmış,
Dolayısıyla, bu aktivasyonu arttırmaya yardımcı olmak için bir araya getirilebilecek üç farklı yol var:
önyargıyı artırabilir, ağırlıkları artırabilirsin,
ve aktivasyonları önceki katmandan değiştirebilirsiniz.
Sadece ağırlıkların nasıl ayarlanması gerektiğine odaklanarak,
ağırlıkların gerçekte farklı etki seviyelerine sahip olduğunu görün:
önceki katmandaki en parlak nöronlarla olan bağlantıların en büyük etkiye sahip olması,
çünkü bu ağırlıklar daha büyük aktivasyon değerleri ile çarpılır.
Yani eğer bu ağırlıklardan birini arttırırsanız,
Aslında nihai maliyet fonksiyonu üzerinde daha güçlü bir etkiye sahiptir
dimmer nöronlarla bağlantı ağırlıklarını artırmaktan,
en azından bu eğitim örneğine gelince.
Degrade inişinden bahsettiğimizi hatırla.
Biz sadece her bir parçanın aşağı yukarı dürtülüp kalkmamasını önemsemiyoruz,
hangilerinin paranın karşılığını en çok verdiğini umursuyoruz.
Bu, bu arada, en azından sinirbilim alanındaki bir teoriyi andırıyor.

Chinese: 
再通过sigmoid ReLU之类的挤压函数 最后算出来的吧
所以要增加这个激活值 我们有三条大路可走
一增加偏置 二增加权重
或者三改变上一层的激活值
先来看如何调整权重
各个权重它们的影响力各不相同
连接前一层最亮的神经元的权重 影响力也最大
因为这些权重会与大的激活值相乘
所以至少对于这一个训练样本而言
增大了这几个权重值 对最终代价函数造成的影响
就比增大连接黯淡神经元的权重所造成的影响
要大上好多倍
请记住当我们说到梯度下降的时候
我们并不只看每个参数是该增大还是减小
我们还看该哪个参数的性价比最高
顺便一提  这有一点点像描述生物中

English: 
which has all been plugged into something like the sigmoid squishification function or a ReLU,
So there are three different avenues that can team up together to help increase that activation:
you can increase the bias, you can increase the weights,
and you can change the activations from the previous layer.
Focusing just on how the weights should be adjusted,
notice how the weights actually have differing levels of influence:
the connections with the brightest neurons from the preceding layer have the biggest effect,
since those weights are multiplied by larger activation values.
So if you were to increase one of those weights,
it actually has a stronger influence on the ultimate cost function
than increasing the weights of connections with dimmer neurons,
at least as far as this one training example is concerned.
Remember when we talked about gradient descent,
we don't just care about whether each component should get nudged up or down,
we care about which ones give you the most bang for your buck.
This, by the way, is at least somewhat reminiscent of a theory in neuroscience

German: 
die alle in etwas wie die sigmoid Squishification-Funktion oder eine ReLU gesteckt wurde,
Es gibt also drei verschiedene Wege, die sich zusammenschließen, um diese Aktivierung zu verstärken:
Sie können die Verzerrung erhöhen, Sie können die Gewichte erhöhen,
und Sie können die Aktivierungen von der vorherigen Ebene ändern.
Konzentrieren Sie sich nur darauf, wie die Gewichte angepasst werden sollen,
Beachten Sie, wie die Gewichte tatsächlich unterschiedliche Einflussniveaus haben:
die Verbindungen mit den hellsten Neuronen aus der vorhergehenden Schicht haben den größten Effekt,
da diese Gewichte mit größeren Aktivierungswerten multipliziert werden.
Wenn Sie also eines dieser Gewichte erhöhen würden,
es hat tatsächlich einen stärkeren Einfluss auf die ultimative Kostenfunktion
als die Gewichte von Verbindungen mit Dimmerneuronen zu erhöhen,
zumindest was dieses eine Trainingsbeispiel betrifft.
Denken Sie daran, wenn wir über Gradientenabstieg sprachen,
Wir kümmern uns nicht nur darum, ob jede Komponente nach oben oder unten geschubst wird,
wir kümmern uns darum, welche Ihnen am meisten für Ihr Geld geben.
Dies erinnert übrigens zumindest etwas an eine neurowissenschaftliche Theorie

Chinese: 
再通過sigmoid ReLU之類的擠壓函數 最後算出來的吧
所以要增加這個激活值 我們有三條大路可走
一增加偏置 二增加權重
或者三改變上一層的激活值
先來看如何調整權重
各個權重它們的影響力各不相同
連接前一層最亮的神經元的權重 影響力也最大
因為這些權重會與大的激活值相乘
所以至少對於這一個訓練樣本而言
增大了這幾個權重值 對最終代價函數造成的影響
就比增大連接黯淡神經元的權重所造成的影響
要大上好多倍
請記住當我們說到梯度下降的時候
我們並不只看每個參數是該增大還是減小
我們還看該哪個參數的性價比最高
順便一提 這有一點點像描述生物中

Korean: 
은 시그모이드 함수나 다른 ReLU와 같은 함수와 연결되어 있습니다.
따라서 활성화를 높이기 위해 함께 조화을 이룰 수있는 세 가지 방법이 있습니다.
편향을 증가시키거나, 가중치를 증가시키거나, 또는
이전 레이어의 활성도를 변경할 수 있습니다.
가중치를 조정하는 방법에만 초점을 맞추고,
가중치의 실제 영향 수준이 다른지 확인하십시오.
앞의 레이어에서 가장 밝은 뉴런과의 연결이 가장 큰 효과를 냅니다.
가중치에는 더 큰 활성 값이 곱해지기 때문입니다.
그래서 만약 당신이 그 중 하나의 가중치를 늘린다면,
어두운 뉴런과의 연결 가중치를 높이는 것보다
오차함수에 실제로 더 강한 영향을 미칩니다.
적어도이 한 가지 훈련 예를들 수 있습니다.
경사 하강법에 대해서 이야기했을 때 기억하십시오.
우리는 각 구성 요소가 어떻게 조정되어야하는지,
우리는 오차함수의 값을 줄이는것에 관심을 둡니다.
그건 그렇고, 적어도 신경 과학의 이론을 연상케합니다

Chinese: 
神经元的网络如何学习的一个理论
“赫布理论”  总结起来就是“一同激活的神经元关联在一起”
这里 权重的最大增长 即连接变得更强的部分
就会发生在已经最活跃的神经元
和想要更多激发的神经元之间
可以说 看见一个2时激发的神经元
会和”想到一个2”时激发的神经元联系地更紧密
这里解释一下 我个人对人工神经网络是否真的在
模仿生物学上大脑的工作 没有什么发言权
“一同激活的神经元关联在一起”这句话是要打星号注释的
但作为一个粗略的对照 我觉得还是挺有意思的
言归正传 第三个能够增加这个神经元激活值的方法
就是改变前一层的激活值
更具体地说 如果所有正权重连接的神经元更亮
所有负权重连接的神经元更暗的话

German: 
wie biologische Netzwerke von Neuronen lernen
Hebbianische Theorie - oft zusammengefasst in der Phrase "Neuronen, die zusammen Draht feuern".
Hier sind die größten Zunahmen zu Gewichten, die größte Stärkung der Verbindungen,
passiert zwischen Neuronen, die am aktivsten sind,
und diejenigen, die wir aktiver werden wollen.
In gewissem Sinne sind die Neuronen, die feuern, während sie eine 2 sehen,
werden stärker mit denen verbunden, die schießen, wenn sie an eine 2 denken.
Um es klar zu sagen, ich bin wirklich nicht in der Lage, auf die eine oder andere Weise etwas zu sagen
darüber, ob künstliche Netzwerke von Neuronen sich wie biologische Gehirne verhalten,
und diese Feuer-zusammen-Draht-zusammen-Idee kommt mit ein paar sinnvollen Sternchen.
Aber als sehr lockere Analogie finde ich es interessant zu bemerken.
Wie auch immer, der dritte Weg, wie wir dazu beitragen können, die Aktivierung dieses Neurons zu erhöhen
Durch Ändern aller Aktivierungen in der vorherigen Ebene
wenn nämlich alles, was mit dem Neuron Nummer 2 mit einem positiven Gewicht verbunden war, heller wurde,
und wenn alles, was mit einem negativen Gewicht verbunden ist, schwächer wurde,

Korean: 
생물의 신경망이 어떻게 학습되는지
Hebbian theory - 종종 "함께 연결되는 뉴런"이라는 구에서 요약됩니다.
여기에서 가장 큰 가중치 증가, 가장 큰 연결 강화,
가장 활동적인 뉴런 사이에서 발생하며,
우리는 더 활성화 되기를 바랍니다.
어떤 의미에서 볼 때, 2가 보일때 켜지는 뉴런들은
2에 대해 생각할 때 더 밝아집니다.
분명히 말하자면, 저는 인공신경망의 네트워크가  생물학적인 뇌와 같은 방식으로 움직이는 것과
뉴런들이 서로 연관 되고 자극할 수 있다라는
이 문장에 대하여 뭐라고 할 수 있는 위치에 있지는 않습니다.
그러나 저는 아주 흥미로운 점을 발견했습니다.
어쨌든,이 뉴런의 활성화를 증가시킬 수있는 방법 중 세 번째 방법입니다.
이전 계층의 모든 활성화를 변경하는 것입니다.
즉 2와 연결된 모든 양의 가중치 신경은 밝아집니다.
음의 가중치와 관련된 모든 신경이 더 밝아지면,

English: 
for how biological networks of neurons learn
Hebbian theory - often summed up in the phrase “neurons that fire together wire together”.
Here, the biggest increases to weights, the biggest strengthening of connections,
happens between neurons which are the most active,
and the ones which we wish to become more active.
In a sense, the neurons that are firing while seeing a 2,
get more strongly linked to those firing when thinking about a 2.
To be clear, I really am not in a position to make statements one way or another
about whether artificial networks of neurons behave anything like biological brains,
and this fires-together-wire-together idea comes with a couple meaningful asterisks.
But taken as a very loose analogy, I do find it interesting to note.
Anyway, the third way that we can help increase this neuron's activation
is by changing all the activations in the previous layer,
namely, if everything connected to that digit 2 neuron with a positive weight got brighter,
and if everything connected with a negative weight got dimmer,

Spanish: 
sobre cómo las redes biológicas de neuronas aprenden
"Teoría de Hebbian"-  regularmente resumida en la frase "Neuronas que se prenden y conectan juntas "
Aquí, el mayor incremento en los pesos y la mayor rigidez en las conexiones,
ocurre entre las neuronas las cuales son las mas activas.
y las que desearíamos que se volviesen mas activas.
En cierto sentido, las neuronas que se entan prendiendo mientras se ven un 2
se vinculan  mas fuertemente a esas que se prenden cuando piensan en un 2.
Para ser claro,  realmente no estoy en  posición de hacer declaraciones de una manera u otra
sobre si una red artificial de neuronas se comporta para nada como cerebros biológicos.
Y esta idea de prenderse juntos- conectarse juntos  viene con un par asteriscos significativos.
Pero tomado como una analogía libre, encuentro muy interesante notar
Como sea, La tercera manera que podemos ayudar a esta activación de neuronas
Es tomar todas las activaciones en la capa previa,
es decir, si todo lo conectado a esa neurona de dígito 2 ,con con un peso positivo , se iluminó
y si todo lo conectado con un peso negativo se apago,

Portuguese: 
como redes biológicas de neurônios aprendem
Teoria de Hebbian - frequentemente resumida na frase “neurônios que disparam juntos se conectam juntos”.
Aqui, o maior aumento dos pesos, o maior fortalecimento das conexões,
acontece entre os neurônios que são os mais ativos,
e os que queremos que se tornem mais ativos.
Em certo sentido, os neurônios que estão disparando ao ver um 2,
ficar mais fortemente ligado aos que disparam quando pensam em um 2.
Para ser claro, eu realmente não estou em posição de fazer declarações de uma forma ou de outra.
sobre se redes artificiais de neurônios se comportam como cérebros biológicos,
e esta ideia de "neurônios que disparam juntos se conectam juntos" vem com um par de asteriscos significativos.
Mas tomado como uma analogia muito solta, acho interessante notar.
De qualquer forma, a terceira maneira que podemos ajudar a aumentar a ativação deste neurônio
é mudando todas as ativações na camada anterior,
ou seja, se tudo conectado a esse neurônio de dígito 2 com um peso positivo fica mais brilhante,
e se tudo relacionado com um peso negativo diminuiu,

Turkish: 
nöronların biyolojik ağlarının nasıl öğrendiği için
Hebbian teorisi - genellikle “bir araya ateş eden nöronlar” ifadesinde özetlendi.
Burada, ağırlıklarda en büyük artışlar, bağlantılarda en büyük güçlenme,
en aktif olan nöronlar arasında gerçekleşir,
ve daha aktif olmak istediklerimiz.
Bir anlamda, 2'yi görürken ateşleyen nöronlar,
2 hakkında düşünürken ateş edenlerle daha güçlü bağlantı kurun.
Açık olmak gerekirse, ifadeleri bir şekilde veya başka bir şekilde yapacak bir konumda değilim.
Yapay nöron ağlarının biyolojik beyin gibi bir şey yapıp yapmadığı hakkında,
ve bu birlikte-beraber-beraberce beraberce bir fikir, birkaç anlamlı yıldızla birlikte gelir.
Ama çok gevşek bir benzetme olarak alındığında, not etmeyi ilginç buluyorum.
Her neyse, bu nöronun aktivasyonunu arttırmaya yardımcı olmamızın üçüncü yolu
önceki katmandaki tüm aktivasyonları değiştirerek,
yani, bu basamak 2 nöronuna pozitif ağırlığı olan her şey daha parlak hale gelirse,
ve negatif bir ağırlığa bağlı olan her şey kararırsa,

Russian: 
как изучают биологические нейронные сети
Теория Hebbian - часто суммируется во фразе «нейроны, которые запускаются вместе,  соединяются».
Здесь наибольшее увеличение веса, наибольшее усиление связей,
происходит между наиболее активными нейронами,
и те, которые мы хотим активизировать.
В некотором смысле, нейроны, стреляющие, видя 2,
сильнее привязывайтесь к тем, кто стреляет, думая о 2.
Чтобы быть ясным, я действительно не в состоянии делать заявления так или иначе
о том, как искусственные сети нейронов ведут себя как биологические мозги,
и эта идея объединяет вместе целую пару значащих звездочек.
Но, как очень простая аналогия, мне интересно отметить.
Во всяком случае, третий способ, которым мы можем помочь увеличить активацию нейрона
это изменение всех активаций в предыдущем слое,
а именно, если все, что связано с этой цифрой 2 нейроном с положительным весом, стало ярче,
и если все, что связано с отрицательным весом, уменьшилось,

Chinese: 
神經元的網絡如何學習的一個理論
“赫布理論” 總結起來就是“一同激活的神經元關聯在一起”
這裡 權重的最大增長 即連接變得更強的部分
就會發生在已經最活躍的神經元
和想要更多激發的神經元之間
可以說 看見一個"2"時激發的神經元
會和”想到一個2”時激發的神經元聯繫地更緊密
這裡解釋一下 我個人對人工神經網絡是否真的在
模仿生物學上大腦的工作 沒有什麼發言權
“一同激活的神經元關聯在一起”這句話是要打星號註釋的
但作為一個粗略的對照 我覺得還是挺有意思的
言歸正傳 第三個能夠增加這個神經元激活值的方法
就是改變前一層的激活值
更具體地說 如果所有正權重連接的神經元更亮
所有負權重連接的神經元更暗的話

Chinese: 
那么数字2的神经元就会更强烈地激发
和改权重的时候类似 我们想造成更大的影响
就要依据对应权重的大小 对激活值做出呈比例的改变
当然 我们并不能直接改变激活值
我们手头只能控制权重和偏置
但就光对最后一层来说 记住我们期待的变化还是很有帮助的
不过别忘了 从全局上看 这只不过是数字2的神经元所期待的变化
我们还需要最后一层其余的神经元的激发变弱
但这其余的每个输出神经元
对于如何改变倒数第二层 都有各自的想法
所以 我们会把数字2神经元的期待
和别的输出神经元的期待全部加起来
作为对如何改变倒数第二层神经元的指示
这些期待变化不仅是对应的权重的倍数

German: 
dann würde das Neuron Nummer 2 aktiver werden.
Und ähnlich wie bei der Gewichtsveränderung wirst du den meisten Knall für dein Geld bekommen
indem Sie Änderungen suchen, die proportional zur Größe der entsprechenden Gewichte sind.
Nun können wir diese Aktivierungen natürlich nicht direkt beeinflussen,
Wir haben nur Kontrolle über die Gewichte und Voreingenommenheiten.
Aber genauso wie bei der letzten Ebene ist es hilfreich, nur die gewünschten Änderungen zu notieren.
Aber denken Sie daran, wenn Sie hier einen Schritt herauszoomen, das ist nur das, was das Neuron mit der Ziffer 2 will.
Denken Sie daran, wir wollen auch, dass alle anderen Neuronen in der letzten Schicht weniger aktiv werden,
und jedes dieser anderen Ausgangsneuronen
hat seine eigenen Gedanken darüber, was mit dieser vorletzten Schicht passieren soll.
Also, der Wunsch dieses Digit 2 Neuron
wird zusammen mit den Wünschen aller anderen Ausgangsneuronen addiert
was mit dieser vorletzten Schicht passieren soll.
Wiederum im Verhältnis zu den entsprechenden Gewichten,

Turkish: 
o zaman bu 2. basamak nöron daha aktif hale gelirdi.
Ve ağırlık değişimlerine benzer şekilde paranın karşılığını en iyi şekilde alacaksın
karşılık gelen ağırlıkların büyüklüğü ile orantılı olan değişiklikler arayarak.
Şimdi, elbette, bu aktivasyonları doğrudan etkileyemiyoruz.
sadece ağırlıklar ve önyargılar üzerinde kontrolümüz var.
Ancak, son katmanda olduğu gibi, istenen değişikliklerin neler olduğuna dair bir not tutmanız yararlı olacaktır.
Fakat burada bir adımı uzaklaştırırken, bu sadece 2. basamak nöronun istediği şey budur.
Unutma, son katmandaki tüm diğer nöronların daha az aktif olmasını istiyoruz.
ve diğer çıkış nöronlarının her biri
bu ikinci-son katmana ne olması gerektiği hakkında kendi düşünceleri vardır.
Yani, bu rakam 2 nöronun arzusu
diğer tüm çıkış nöronlarının arzularıyla birlikte eklenir
Çünkü bu ikinci-son katmana ne olmalı.
Yine, karşılık gelen ağırlıklarla orantılı olarak,

Russian: 
то эта цифра 2 нейрона станет более активной.
И, подобно изменениям веса, вы получите максимальную отдачу от своего доллара
путем поиска изменений, которые пропорциональны размеру соответствующих весов.
Теперь, конечно, мы не можем напрямую влиять на эти активации,
мы имеем только контроль над весами и предубеждениями.
Но так же, как и в последнем слое, полезно просто отметить, что это за желаемые изменения.
Но имейте в виду, уменьшая на один шаг здесь, это только то, что хочет эта цифра 2.
Помните, мы также хотим, чтобы все остальные нейроны в последнем слое стали менее активными,
и каждый из этих других выходных нейронов
имеет свои собственные мысли о том, что должно произойти с этим вторым-последним слоем.
Итак, желание этой цифры 2 нейрона
добавляется вместе с желаниями всех других выходных нейронов
что должно произойти с этим вторым-последним слоем.
Опять же, пропорционально соответствующим весам,

English: 
then that digit 2 neuron would become more active.
And similar to the weight changes, you're going to get the most bang for your buck
by seeking changes that are proportional to the size of the corresponding weights.
Now of course, we cannot directly influence those activations,
we only have control over the weights and biases.
But just as with the last layer, it's helpful to just keep a note of what those desired changes are.
But keep in mind, zooming out one step here, this is only what that digit 2 output neuron wants.
Remember, we also want all of the other neurons in the last layer to become less active,
and each of those other output neurons
has its own thoughts about what should happen to that second-to-last layer.
So, the desire of this digit 2 neuron
is added together with the desires of all the other output neurons
for what should happen to this second-to-last layer.
Again, in proportion to the corresponding weights,

Korean: 
그 자리 2 뉴런은 더 활동적이 될 것입니다.
그리고 가중치 변화와 유사하게, 당신은 당신의 돈을 위해 가장 많은 것을 얻을 것입니다.
해당 가중치의 크기에 비례하는 변경 사항을 찾습니다.
물론 우리는 이러한 활성화에 직접적으로 영향을 줄 수는 없지만,
우리는 단지 가중치와 편견을 제어 할 수 있습니다.
그러나 마지막 레이어와 마찬가지로 원하는 변경 사항이 무엇인지 메모하는 것이 좋습니다.
하지만 여기서 한 걸음 더 자세히 살펴보면, 이것은 숫자 2 출력 뉴런이 원하는 것일뿐입니다.
우리는 또한 마지막 레이어의 다른 모든 뉴런들이 덜 활동적이되기를 바랍니다.
그 각각의 출력 뉴런들
그 두 번째 - 마지막 층에서 일어날 일에 대한 생각을 가지고 있습니다.
그래서,이 자리의 욕망은 2 뉴런
다른 모든 출력 뉴런의 욕구와 함께 추가됩니다.
마지막 두 번째 레이어에서 일어날 일에 대해
다시, 대응하는 가중치에 비례하여,

Chinese: 
那麼數字2的神經元就會更強烈地激發
和改權重的時候類似 我們想造成更大的影響
就要依據對應權重的大小 對激活值做出呈比例的改變
當然 我們並不能直接改變激活值
我們手頭只能控制權重和偏置
但就光對最後一層來說 記住我們期待的變化還是很有幫助的
不過別忘了 從全局上看 這只不過是數字2的神經元所期待的變化
我們還需要最後一層其餘的神經元的激發變弱
但這其餘的每個輸出神經元
對於如何改變倒數第二層 都有各自的想法
所以 我們會把數字2神經元的期待
和別的輸出神經元的期待全部加起來
作為對如何改變倒數第二層神經元的指示
這些期待變化不僅是對應的權重的倍數

Portuguese: 
então esse neurônio de dígito 2 se tornaria mais ativo.
E semelhante às mudanças de peso, você obterá o maior retorno para seu investimento
buscando mudanças que sejam proporcionais ao tamanho dos pesos correspondentes.
Agora, claro, não podemos influenciar diretamente essas ativações,
nós só temos controle sobre os pesos e ajustes.
Mas, assim como na última camada, é útil apenas observar quais são essas alterações desejadas.
Mas tenha em mente, diminuindo um passo aqui, isso é apenas o que esse neurônio de saída de dígito 2 quer.
Lembre-se, também queremos que todos os outros neurônios da última camada se tornem menos ativos,
e cada um desses outros neurônios de saída
tem seus próprios pensamentos sobre o que deve acontecer com essa segunda e última camada.
Então, o desejo deste neurônio de dígito 2
é adicionado junto com os desejos de todos os outros neurônios de saída
para o que deveria acontecer com essa segunda e última camada.
Mais uma vez, proporcionalmente aos pesos correspondentes,

Spanish: 
entonces esa neurona con dígito 2 se volvería mas activa.
Y similarmente a los cambios de los pesos,  tu vas  obtener explosión para tu carga
al buscar cambios que sean proporcionales al tamaño del pesos correspondientes
Ahora, por su puesto , nosotros no podemos directamente influir  esas activaciones,
solo podemos tener control sobre los pesos y biases.
Pero, como con la última capa,  es de ayuda solo mantener una nota de cuales son eso cambios deseados.
Peor ten en mente,( alejándonos un paso aquí ),  esto es solo lo que esa neurona de dígito 2 quiere que salga
Recuerda , También queremos que las todas las otras neuronas en la última capa se vuelvan menos activas.
y cada una de esas otras neuronas de salida
tiene su propios pensamientos acerca de lo que debería pasar a esa segunda  a última capa.
Asi que, el deseo de esta neurona de dígito 2
esta sumado junto con los deseos de todas las demás neuronas de salida
para lo que debería pasar  esta segunda a última capa ,
De nuevo, en proporción a los correspondientes pesos,

Chinese: 
也是每个神经元激活值改变量的倍数
这其实就是在实现”反向传播”的理念了
我们把所有期待的改变加起来
就得到了一串对倒数第二层改动的变化量
有了这些
我们就可以重复这个过程
改变影响倒数第二层神经元激活值的相关参数
从后一层到前一层 把这个过程一直循环到第一层
放眼大局
还记得我们只是在讨论
单个训练样本对所有权重偏置的影响吗？
如果我们只关注那个“2”的要求
最后  网络只会把所有图像都分类成是“2”
所以你要对其他所有的训练样本 同样地过一遍反向传播
记录下每个样本想怎样修改权重与偏置
最后再取一个平均值

Spanish: 
Y en proporción a cómo cada una de esas neuronas necesita cambiar
Esto que esta aquí es donde viene la idea de propagación hacia atrás.
Al añadir juntos todos todos estos efectos deseados,
basicametes obtienes una lista de empujones que quieres que le pasen desde la segunda a la última capa,.
Y una ves los tengas,
tu puedes recursivamete  aplicar el mismo proceso
a los pesos  y BIASES relevantes que determinan esos valores,
repitiendo el mismo proceso, solo caminé a través y de regreso de la red.
Y alejandos un poco más,
recuerda que todo esto es solo
cómo un entrenamiento en particular desea empujar una de esos pesos y bieases.
Si solo escucháramos qué quería ese 2,
La red por último sería incentivada a solo clasificar todas las imágenes como un 2.
Asi que, vas a través de esta misma rutina de retropropagación para cualquier otros ejemplo de entrenamiento,
grabando  cómo cada uno de ellos le gustaría cambiar los pesos y biases,
y luego promedias juntos esos cambios deseados.

Russian: 
и пропорционально тому, как каждый из этих нейронов должен измениться.
Здесь прямо возникает идея распространения назад.
Объединив все эти желаемые эффекты,
вы в основном получаете список подтасовки, которые вы хотите выполнить со вторым до последнего уровня.
И как только вы их получите,
вы можете рекурсивно применять тот же процесс
к соответствующим весам и смещениям, которые определяют эти значения,
повторяя тот же процесс, я просто прошел и двинулся назад по сети.
И немного увеличивая масштаб,
помните, что все это просто
как один пример тренинга хочет подтолкнуть каждый из этих весов и предубеждений.
Если мы будем слушать только то, что хотели,
сеть в конечном итоге будет стимулировать просто классифицировать все изображения как 2.
Итак, что вы делаете, вы проходите эту же процедуру backprop для каждого другого примера обучения,
записывая, как каждый из них хотел бы изменить вес и предубеждения,
и вы усреднили эти желаемые изменения.

Portuguese: 
e proporcionalmente ao quanto cada um desses neurônios precisa mudar.
Isso aqui é onde a ideia de se propagar para trás entra.
Somando todos esses efeitos desejados,
você basicamente consegue uma lista de impulsos que você quer que aconteçam na penúltima camada.
E uma vez que você as tenha,
você pode aplicar recursivamente o mesmo processo
aos pesos e ajustes relevantes que determinam esses valores,
Repetindo o mesmo processo, eu apenas atravessei e me movimentei para trás através da rede.
E diminuindo um pouco mais,
lembre-se que tudo isso é apenas
como um único exemplo de treinamento deseja empulsionar cada um desses pesos e ajustes.
Se nós apenas escutarmos o que aquele 2 queria,
a rede seria, em última instância, incentivada apenas para classificar todas as imagens como 2.
Então, o que você faz é passar por essa mesma rotina backpropagation para todos os outros exemplos de treinamento,
registrando como cada um deles gostaria de alterar os pesos e os ajustes,
e você calculou a média dessas mudanças desejadas.

German: 
und im Verhältnis dazu, wie viel jedes dieser Neuronen ändern muss.
Genau hier kommt die Idee der Rückwärtsverbreitung ins Spiel.
Indem man all diese gewünschten Effekte zusammenfügt,
Sie erhalten im Prinzip eine Liste von Stupsern, die Sie mit der vorletzten Ebene erreichen möchten.
Und wenn du diese hast,
Sie können den gleichen Prozess rekursiv anwenden
zu den relevanten Gewichten und Verzerrungen, die diese Werte bestimmen,
Ich wiederhole denselben Prozess und gehe gerade rückwärts durch das Netzwerk.
Und etwas weiter herauszoomen,
Erinnere dich, dass das alles gerecht ist
wie ein einzelnes Trainingsbeispiel jede dieser Gewichte und Neigungen anstoßen möchte.
Wenn wir nur hören, was das 2 wollte,
Das Netzwerk würde letztendlich einen Anreiz erhalten, alle Bilder als 2 einzustufen.
Also, was Sie tun, ist, dass Sie für jedes andere Trainingsbeispiel dieselbe Backprop-Routine durchlaufen.
Aufzeichnung, wie jeder von ihnen die Gewichte und die Neigungen ändern möchte,
und Sie gemittelt zusammen diese gewünschten Änderungen.

Turkish: 
ve bu nöronların her birinin ne kadar değişmesi gerektiği ile orantılı olarak.
Buradaki, geriye doğru yayılma fikrinin geldiği yerdir.
İstenilen tüm bu efektleri bir araya getirerek,
Temelde, ikinci-son katmanın başına gelmek istediğiniz dürtmelerin bir listesini alırsınız.
Ve bunlara sahip olduktan sonra,
aynı işlemi tekrarlı olarak uygulayabilirsiniz
bu değerleri belirleyen ilgili ağırlık ve önyargılara,
aynı işlemi tekrarlayarak sadece ağ üzerinden yürüdüm ve geriye doğru yürüdüm.
Ve biraz daha uzaklaştırarak,
bunların sadece adil olduğunu hatırla
Tek bir eğitim örneğinin, bu ağırlıkların ve önyargıların her birini dürtmek istemesi.
Sadece 2'nin ne istediğini dinlersek,
Ağ, sonuçta sadece tüm görüntüleri 2 olarak sınıflandırmak için teşvik edilecektir.
Öyleyse, yaptığınız diğer her eğitim örneği için aynı backprop rutini geçiyorsunuz.
her birinin ağırlıkları ve önyargıları nasıl değiştirmek istediklerini kaydetmek,
ve birlikte bu istenen değişikliklerin ortalamasını aldınız.

English: 
and in proportion to how much each of those neurons needs to change.
This right here is where the idea of propagating backwards comes in.
By adding together all these desired effects,
you basically get a list of nudges that you want to happen to the second-to-last layer.
And once you have those,
you can recursively apply the same process
to the relevant weights and biases that determine those values,
repeating the same process I just walked through and moving backwards through the network.
And zooming out a bit further,
remember that this is all just
how a single training example wishes to nudge each one of those weights and biases.
If we only listen to what that 2 wanted,
the network would ultimately be incentivized just to classify all images as a 2.
So what you do is you go through this same backprop routine for every other training example,
recording how each of them would like to change the weights and the biases,
and you averaged together those desired changes.

Korean: 
그리고 각각의 신경 세포가 변화 할 필요가있는 양에 비례하여.
바로 여기가 거꾸로 전파하려는 아이디어가 나오는 곳입니다.
이러한 모든 원하는 효과를 모두 합하면,
당신은 근본적으로 당신이 두 번째에서 마지막 층으로 일어나기를 원하는 뉘앙스 목록을 얻습니다.
그리고 일단 당신이 그것들을 가지고 있으면,
재귀 적으로 동일한 프로세스를 적용 할 수 있습니다.
그 값들을 결정하는 관련 가중치들과 편향들,
방금 걸어서 돌아가서 네트워크를 통해 뒤로 이동하는 동일한 프로세스를 반복합니다.
그리고 조금 더 축소하면,
이것이 단지 모든 것임을 기억하십시오.
어떻게 하나의 훈련 예가 그 무게와 편견의 각각을 조금씩 움직이기를 바랄 것인가.
우리가 원하는 것만 듣는다면,
네트워크는 궁극적으로 모든 이미지를 2로 분류하기 위해 인센티브가 부여됩니다.
그래서 당신이하는 일은 다른 모든 트레이닝 예제에 대해 동일한 백 드롭 루틴을 수행하는 것입니다.
각자가 가중치와 편견을 어떻게 바꾸고 싶은지 기록하고,
원하는 변화를 함께 평균했습니다.

Chinese: 
也是每個神經元激活值改變量的倍數
這其實就是在實現”反向傳播”的理念了
我們把所有期待的改變加起來
就得到了一串對倒數第二層改動的變化量
有了這些
我們就可以重複這個過程
改變影響倒數第二層神經元激活值的相關參數
從後一層到前一層 把這個過程一直循環到第一層
著眼大局
還記得我們只是在討論
單個訓練樣本對所有權重偏置的影響嗎？
如果我們只關注那個“2”的要求
最後 網絡只會把所有圖像都分類成是“2”
所以你要對其他所有的訓練樣本 同樣地過一遍反向傳播
記錄下每個樣本想怎樣修改權重與偏置
最後再取一個平均值

English: 
This collection here of the averaged nudges to each weight and bias is,
loosely speaking, the negative gradient of the cost function referenced in the last video,
or at least something proportional to it.
I say “loosely speaking”, only because I have yet to get quantitatively precise about those nudges.
But if you understood every change that I just referenced,
why some are proportionally bigger than others,
and how they all need to be added together,
you understand the mechanics for what backpropagation is actually doing.
By the way, in practice it takes computers an extremely long time
to add up the influence of every single training example, every single gradient descent step.
So here's what's commonly done instead:
You randomly shuffle your training data, and then divide it into a whole bunch of mini-batches,
let's say, each one having 100 training examples.
Then you compute a step according to the mini-batch.
It's not going to be the actual gradient of the cost function,

Korean: 
각 체중과 편견에 대한 평균 nudges의 여기 수집은,
느슨하게 말하면, 마지막 비디오에서 참조 된 비용 함수의 음의 기울기,
적어도 그것에 비례하는 어떤 것.
나는 "느슨하게 말하면서"말합니다. 왜냐하면 나는 아직 그 찌름에 대해 정량적으로 정확한 것을 얻지 못했기 때문입니다.
그러나 제가 방금 언급 한 모든 변화를 이해한다면,
왜 일부는 다른 것보다 비례 적으로 더 큽니다.
그들 모두를 어떻게 함께 추가해야하는지,
당신은 backpropagation이 실제로하고있는 것에 대한 메 커닉을 이해합니다.
그건 그렇고, 실제로 그것은 컴퓨터를 매우 오랜 시간이 걸립니다.
모든 단일 교육 예, 모든 단일 그래디언트 디센트 단계의 영향을 추가합니다.
여기에 일반적으로 수행되는 작업이 있습니다.
학습 데이터를 무작위로 섞은 다음이를 전체 배치로 나눕니다.
각자 100 개의 훈련 예를 가지고 있다고 가정 해 봅시다.
그런 다음 미니 배치에 따라 단계를 계산합니다.
비용 함수의 실제 그래디언트가 될 수는 없습니다.

Turkish: 
Bu toplama burada her ağırlık ve önyargı için ortalama dürtmeler,
gevşekçe konuşursak, son videoda belirtilen maliyet işlevinin negatif gradyanı,
veya en azından bununla orantılı bir şey.
“Gevşek konuşuyorum” diyorum, çünkü henüz bu dürtüler hakkında niceliksel olarak kesinleşemedim.
Ama az önce başvuruda bulunduğum her değişikliği anladıysanız,
neden bazılarının orantılı olarak diğerlerinden daha büyük olduğu,
ve hepsinin nasıl bir araya getirilmesi gerektiğine,
geri yayılımın gerçekte ne yaptığının mekaniğini anlıyorsun.
Bu arada, pratikte bilgisayarları çok uzun zaman alıyor
Her bir eğitim örneğinin, her bir degrade iniş adımının etkisini eklemek.
Yani burada yaygın olarak ne yapılır:
Antrenman verilerinizi rastgele karıştırırsınız ve daha sonra bunları bir dizi küçük gruba bölersiniz,
Diyelim ki her biri 100 eğitim örneğine sahip.
Sonra mini partiye göre bir adım hesaplarsınız.
Maliyet fonksiyonunun gerçek degradesi olmayacak,

Chinese: 
這裡一系列的權重偏置的平均微調大小
不嚴格地說 就是上期影片提到的代價函數的負梯度
至少是其標量的倍數
這裡的不嚴格 指的是我還沒有準確地解釋如何量化這些微調
但如果你清楚我提到的所有改動
為什麼有些數字是其他數字的好幾倍
以及最後要怎麼全部加起來
你就懂得了反向傳播的真實工作原理
順帶一提 實際操作中 如果梯度下降的每一步
都用上每一個訓練樣本來計算的話 那麼花的時間就太長了
所以我們一般會這麼做
首先把訓練樣本打亂 然後分成很多組minibatch
每個minibatch就當包含100個訓練樣本好了
然後你算出這個minibatch下降的一步
這不是代價函數真正的梯度

Portuguese: 
Esta coleção aqui dos impulsos médios para cada peso e ajuste é,
vagamente falando, o gradiente negativo da função custo referenciada no último vídeo,
ou pelo menos algo proporcional a isso.
Eu digo "vagamente falando", só porque ainda preciso ser quantitativamente preciso sobre esses toques.
Mas se você entendeu todas as mudanças que acabei de referenciar,
porque alguns são proporcionalmente maiores que outros,
e como todos eles precisam ser adicionados juntos,
Você entende a mecânica do que a retropropagação está realmente fazendo.
By the way, na prática, os computadores levam um tempo extremamente longo
para somar a influência de cada exemplo de treinamento, cada passo de descida de gradiente.
Então aqui está o que é comumente feito:
Você aleatoriamente embaralha seus dados de treinamento e os divide em um monte de mini-lotes,
digamos, cada um com 100 exemplos de treinamento.
Então você calcula um passo de acordo com o mini-lote.
Não vai ser o gradiente real da função de custo,

Russian: 
Эта коллекция здесь усредненных подтасовков к каждому весу и смещению,
свободно говоря, отрицательный градиент функции стоимости, упомянутый в последнем видео,
или, по крайней мере, что-то пропорциональное ему.
Я говорю «свободно говоря», только потому, что мне еще предстоит получить количественную информацию об этих подтасовках.
Но если вы понимаете все изменения, о которых я только что говорил,
почему некоторые из них пропорционально больше других,
и как все они должны быть объединены вместе,
вы понимаете механику того, что на самом деле делает backpropagation.
Кстати, на практике компьютеры занимают очень много времени
чтобы добавить влияние каждого отдельного примера обучения, каждого шага спуска градиента.
Итак, вот что обычно делается:
Вы произвольно перетасовываете свои данные обучения, а затем делите его на целую кучу мини-партий,
допустим, каждый из них имеет 100 учебных примеров.
Затем вы вычисляете шаг в соответствии с мини-пакетом.
Это не будет фактическим градиентом функции стоимости,

Chinese: 
这里一系列的权重偏置的平均微调大小
不严格地说  就是上期视频提到的代价函数的负梯度
至少是其标量的倍数
这里的不严格  指的是我还没有准确地解释如何量化这些微调
但如果你清楚我提到的所有改动
为什么有些数字是其他数字的好几倍
以及最后要怎么全部加起来
你就懂得了反向传播的真实工作原理
顺带一提 实际操作中 如果梯度下降的每一步
都用上每一个训练样本来计算的话 那么花的时间就太长了
所以我们一般会这么做
首先把训练样本打乱 然后分成很多组minibatch
每个minibatch就当包含100个训练样本好了
然后你算出这个minibatch下降的一步
这不是代价函数真正的梯度

German: 
Diese Sammlung hier der gemittelten Nudges zu jedem Gewicht und Bias ist,
lockerer gesagt, der negative Gradient der Kostenfunktion, die im letzten Video referenziert wurde,
oder zumindest etwas proportional dazu.
Ich sage "locker gesagt", nur weil ich über diese Stöße noch quantitativ genau zu sein brauche.
Aber wenn du jede Veränderung verstanden hast, die ich gerade angesprochen habe,
warum einige proportional größer sind als andere,
und wie sie alle zusammen addiert werden müssen,
Sie verstehen die Mechanismen für die tatsächliche Backpropagation.
Übrigens, in der Praxis dauert es sehr lange, bis der Computer fertig ist
um den Einfluss jedes einzelnen Trainingsbeispiels, jeden einzelnen Gradientenabstiegsschritts zu addieren.
Also, hier ist, was normalerweise getan wird:
Sie mischen zufällig Ihre Trainingsdaten und teilen sie dann in eine ganze Reihe von Mini-Chargen auf,
Sagen wir mal, jeder hat 100 Trainingsbeispiele.
Dann berechnen Sie einen Schritt entsprechend dem Mini-Batch.
Es wird nicht der tatsächliche Gradient der Kostenfunktion sein,

Spanish: 
Aquí, esta colección de los empujones promediados para cada peso y bias es ,
de manera superficial, la gradiente negativa de la función de coste referida en el último video,
o al menos algo proporcional.
digo "de manera superficial", solo porque tengo ser quantitavimente preciso acerca de esos empujones.
Pero si entendiste cada cambio que referí ,
por qué algunos son proporcionalmente mayores que otros
y cómo todos ellos necesitan ser sumados juntos ,
entonces tu entiendes la mecánica de la retropropagación está haciendo en realidad.
Por cierto, en la práctica a las computadoras les tema un tiempo extremadamente largo
para sumar la influencia de cada ejemplo de entrenamiento en partícular, cada  paso del descenso de gradiente
Asi que , esto es lo que  se hace comunmente en lugar :
Barajas aleatoriamente tus datos de entrenamiento, y luego los divides en montón de mini lotes,
digamos, cada uno teniendo 100 ejemplos de entrenamiento.
Luego tu calculas un paso de acuerdo al mini lote
No va a ser la gradiente real de la función de coste,

Chinese: 
毕竟计算真实梯度得用上所有的样本 而非这个子集
所以这也不是下山最高效的一步
然而 每个minibatch都会给你一个不错的近似
而且更重要的是 你的计算量会减轻不少
你如果想把网络沿代价函数的表面下山的路径画出来的话
它看上去会有点像醉汉漫无目的地遛下山  但起码步伐很快
而不像是细致入微的人 踏步之前先准确地算好下坡的方向
然后再向那个方向谨小慎微地慢慢走一步
这个技巧就叫做“随机梯度下降”
内容挺多的 我们先小结一下好不好
反向传播算法算的是
单个训练样本想怎样修改权重与偏置
不仅是说每个参数应该变大还是变小
还包括了这些变化的比例是多大  才能最快地降低代价
真正的梯度下降

Spanish: 
la cual depende de todos los datos de entrenamiento, no de este pequeño sub conjunto.
Entonces,  no es el paso mas eficiente hacia abajo de la colina,
Pero cada mini lote te da una muy buena aproximación,
Y mas importantemente, te da una significante aceleración computacional .
Si ubieses ido a la gráfica de la trayectoria de tu red debajo  de la superficie relevante de la función coste,
Sería mas como si un hombre borracho sin objetivo descendiendo una colina, pero tomando pequeños pasos;
mas que un hombre cuidadosamente calculando la dirección hacia abajo de cada paso;
antes de tomar un paso muy lento y cuidadoso en esa dirección.
Esta técnica es referida como "Descenso de gradiente estocástico"
Hay  muncho allí, asi que solo sumemoslo para nosotros mismos, deberiamos ?
La retropropagación es el algoritmo
para determinar cómo un ejemplo de entrenamiento en particular le gustaría empujar los pesos y biases,
no solo en términos  de si deben ir hacia  arriba o abajo,
si no que en términos de que proporciones relativas a esos cambios causan el decrecimiento mas rápido del coste.
U verdadero paso de descenso de gradiente

Portuguese: 
que depende de todos os dados de treinamento, não deste minúsculo subconjunto.
Portanto, não é o passo mais eficiente morro abaixo.
Mas cada mini-lote dá-lhe uma boa aproximação,
e mais importante, dá-lhe uma velocidade computacional significativa
Se você fosse traçar a trajetória de sua rede sob a superfície de custo relevante,
seria um pouco mais como um homem bêbado tropeçando sem rumo por uma colina, mas dando passos rápidos;
em vez de um homem calculista que determina a direção exata de descida de cada degrau
antes de dar um passo muito lento e cuidadoso nessa direção.
Essa técnica é conhecida como “Descendente de Gradiente Estocástico”.
Há muita coisa acontecendo aqui, então vamos resumir para nós mesmos, vamos?
Backpropagation é o algoritmo
para determinar como um único exemplo de treinamento gostaria de impulsionar os pesos e ajustes,
não apenas em termos de subir ou descer,
mas em termos de que proporções relativas a essas mudanças causam a redução mais rápida do custo.
Um verdadeiro passo descendente de gradiente

Chinese: 
畢竟計算真實梯度得用上所有的樣本 而非這個子集
所以這也不是下山最高效的一步
然而 每個minibatch都會給你一個不錯的近似
而且更重要的是 你的計算量會減輕不少
你如果想把網絡沿代價函數的表面下山的路徑畫出來的話
它看上去會有點像醉漢漫無目的地遛下山 但起碼步伐很快
而不像是細緻入微的人 踏步之前先準確地算好下坡的方向
然後再向那個方向謹小慎微地慢慢走一步
這個技巧就叫做“隨機梯度下降”
內容挺多的 我們先小結一下好不好
反向傳播算法算的是
單個訓練樣本想怎樣修改權重與偏置
不僅是說每個參數應該變大還是變小
還包括了這些變化的比例是多大 才能最快地降低代價
真正的梯度下降

German: 
Das hängt von allen Trainingsdaten ab, nicht von dieser kleinen Teilmenge.
Es ist also nicht der effizienteste Schritt bergab.
Aber jede Minibatch gibt Ihnen eine ziemlich gute Annäherung,
und, noch wichtiger, es gibt Ihnen eine erhebliche Rechengeschwindigkeit.
Wenn Sie die Flugbahn Ihres Netzwerks unter der relevanten Kostenoberfläche darstellen würden,
es wäre ein wenig mehr wie ein Betrunkener, der ziellos über einen Hügel stolpert, aber schnelle Schritte unternimmt;
eher als ein sorgfältig berechnender Mann, der die genaue Abwärtsrichtung jedes Schrittes bestimmt
bevor Sie einen sehr langsamen und sorgfältigen Schritt in diese Richtung machen.
Diese Technik wird als "stochastischer Gradientenabstieg" bezeichnet.
Da passiert eine Menge, also fassen wir es einfach für uns zusammen, oder?
Backpropagation ist der Algorithmus
um zu bestimmen, wie ein einzelnes Trainingsbeispiel die Gewichte und Neigungen anstoßen möchte,
nicht nur in Bezug darauf, ob sie nach oben oder unten gehen sollten,
aber in Bezug auf die relativen Anteile zu diesen Veränderungen verursacht die schnellste Abnahme der Kosten.
Ein echter Gradientabstieg

Korean: 
이 작은 부분 집합이 아닌 모든 훈련 데이터에 의존합니다.
따라서 내리막 길이 가장 효율적인 단계는 아닙니다.
하지만 각 미니 배치는 꽤 좋은 근사값을 제공하지만,
더욱 중요한 것은 계산 속도가 현저히 빠름을 의미합니다.
관련 비용면에서 네트워크의 궤적을 그리려면,
술 취하는 남자가 언덕을 목적없이 우연히 마주 치는 것과 조금 더 비슷하지만 빠른 발걸음을 내딛을 것입니다.
각 단계의 정확한 내리막 방향을 결정하는 신중하게 계산하는 사람이 아니라
그 방향으로 매우 천천히 조심스럽게 걸음.
이 기법을 "확률 적 구배 강하"라고합니다.
여기에 많은 일이 일어나고 있습니다. 그래서 우리 자신을 위해 요약 해 보겠습니다.
역 전파는 알고리즘입니다.
하나의 훈련 예가 가중치와 편향을 조금씩 움직이기를 원하는지를 결정하기 위해,
그들이 위 또는 아래로 가야하는지에 관해서뿐만 아니라,
그러나 그 변화에 대한 상대적인 비율이 비용을 가장 빠르게 감소시키는 측면에서 볼 때.
진정한 그래디언트 디센트 단계

Russian: 
который зависит от всех данных обучения, а не от этого крошечного подмножества.
Так что это не самый эффективный шаг вниз.
Но каждая мини-партия действительно дает вам довольно хорошее приближение,
и что более важно, это дает вам значительную вычислительную скорость.
Если бы вы построили траекторию своей сети под соответствующей ценовой поверхностью,
это было бы немного больше, как пьяный человек, бесцельно спотыкающийся с холма, но делая быстрые шаги;
а не тщательно вычисляющий человек, определяющий точное направление спуска на каждом шаге
прежде чем делать очень медленный и осторожный шаг в этом направлении.
Этот метод называется «стохастическим градиентным спуском».
Здесь много чего происходит, поэтому давайте просто подытожим это для себя, не так ли?
Backpropagation - алгоритм
для определения того, как один пример тренинга хотел бы подтолкнуть веса и предубеждения,
не только с точки зрения того, должны ли они подниматься или опускаться,
но с точки зрения того, что относительные пропорции к этим изменениям приводят к самому быстрому снижению стоимости.
Истинный шаг спуска градиента

Turkish: 
Bu, bu küçük altküme değil, tüm eğitim verilerine bağlı.
Bu yüzden yokuş aşağı en etkili adım değil.
Ancak her mini parti size oldukça iyi bir yaklaşım sunuyor.
ve daha da önemlisi, size önemli bir hesaplama hızı verir.
Ağınızın yörüngesini ilgili maliyet yüzeyinin altına yerleştirecekseniz,
biraz daha tepeden aşağı tökezleyen, ancak hızlı adımlar atan sarhoş bir adam gibi olurdu;
Her adımın tam yokuş aşağı yönünü belirleyen dikkatli bir şekilde hesaplanan bir adam yerine
bu yönde çok yavaş ve dikkatli bir adım atmadan önce.
Bu teknik “stokastik gradyan iniş” olarak adlandırılır.
Burada bir sürü şey oluyor, o yüzden hadi kendimiz için özetleyelim mi?
Geri yayılım algoritması
Tek bir eğitim örneğinin ağırlıkları ve önyargıları nasıl dürtmek istediğini belirlemek için,
Sadece aşağı mı yukarı mı çıkmaları gerektiği konusunda değil,
ancak bu değişikliklere göreceli oranların ne kadar olması maliyette en hızlı düşüşe neden olur.
Gerçek bir degrade iniş adımı

English: 
which depends on all of the training data, not this tiny subset.
So it's not the most efficient step downhill.
But each mini batch does give you a pretty good approximation,
and more importantly, it gives you a significant computational speed up.
If you were to plot the trajectory of your network under the relevant cost surface,
it would be a little more like a drunk man stumbling aimlessly down a hill, but taking quick steps;
rather than a carefully calculating man determining the exact downhill direction of each step
before taking a very slow and careful step in that direction.
This technique is referred to as “stochastic gradient descent”.
There's kind of a lot going on here, so let's just sum it up for ourselves, shall we?
Backpropagation is the algorithm
for determining how a single training example would like to nudge the weights and biases,
not just in terms of whether they should go up or down,
but in terms of what relative proportions to those changes cause the most rapid decrease to the cost.
A true gradient descent step

Russian: 
будет включать в себя выполнение этого для всех ваших десятков и тысяч учебных примеров
и усреднение желаемых изменений, которые вы получаете.
Но это вычислительно медленно.
Поэтому вместо этого вы произвольно подразделяете данные на эти мини-партии
и вычислить каждый шаг в отношении мини-партии.
Неоднократно проходя через все мини-партии и делая эти корректировки,
вы сходитесь к локальному минимуму функции стоимости,
то есть ваша сеть будет в конечном итоге делать действительно хорошую работу на примерах обучения.
Таким образом, со всем сказанным, каждая строка кода, которая будет внедрять backprop
фактически соответствует тому, что вы сейчас видели, по крайней мере, в неформальном плане.
Но иногда знание того, что делает математика, - это только половина битвы,
и просто представлять чертову вещь, где она становится все запутанной и запутанной.
Итак, для тех из вас, кто хочет глубже,
следующее видео проходит те же идеи, которые были представлены здесь
но в терминах основного исчисления,
что, надеюсь, сделает его немного более знакомым, поскольку вы видите эту тему в других ресурсах.
Прежде всего стоит подчеркнуть, что

Korean: 
수십, 수천 건의 교육 사례에 대해이 작업을 수행해야합니다.
당신이 얻는 원하는 변화를 평균화하는 것입니다.
하지만 계산 속도가 느립니다.
그래서 대신에 데이터를 이러한 작은 배치로 무작위로 세분합니다.
미니 배치와 관련하여 각 단계를 계산할 수 있습니다.
반복적으로 모든 미니 배치를 검토하고 이러한 조정을 수행하면,
당신은 비용 함수의 지역 최소값으로 수렴 할 것이며,
말하자면 네트워크가 교육 사례에서 실제로 잘 수행 될 것입니다.
그래서 모든 말로는, 역행을 구현할 코드의 모든 라인이
적어도 비공식적 인면에서 지금 본 내용과 일치합니다.
그러나 때때로 수학이하는 것이 전투의 절반에 불과하다는 것을 알기 때문에,
그리고 그 빌어 먹을 일을 나타내는 것은 그것이 혼란스럽고 혼란스러워지는 곳입니다.
그래서 더 깊은 곳으로 가고 싶은 당신들에게는,
다음 비디오는 방금 여기에 제시된 것과 동일한 아이디어를 거칩니다.
그러나 밑에있는 미적분학의 관점에서,
다른 리소스에서이 주제를 보면서 좀 더 익숙해 져야합니다.
그 전에 강조 할 가치가있는 것은

Portuguese: 
envolveria fazer isso para todas as suas dezenas e milhares de exemplos de treinamento
e calculando a média das mudanças desejadas que você obtém.
Mas isso é computacionalmente lento.
Então, ao invés disso, você subdivide aleatoriamente os dados para esses mini-lotes
e calcula cada passo em relação a um mini-lote.
Repetidamente passando por todos os mini lotes e fazendo esses ajustes,
você convergirá para um mínimo local da função de custo,
isto é, sua rede vai acabar fazendo um bom trabalho nos exemplos de treinamento.
Então, com tudo isso dito, cada linha de código que iria entrar em execução backpropagation
corresponde de fato a algo que você viu agora, pelo menos em termos informais.
Mas às vezes sabendo o que a matemática faz é apenas metade da batalha,
e apenas representando essa coisa é onde fica tudo embaralhado e confuso
Então, para aqueles de vocês que querem ir mais fundo,
o próximo vídeo passa pelas mesmas ideias que acabamos de apresentar aqui
mas em termos do cálculo subjacente,
o que deve torná-lo um pouco mais familiar à medida que você vê o tópico em outros recursos.
Antes disso, uma coisa que vale a pena enfatizar é que

Spanish: 
involucraría hacer esto para todos tus  decenas y miles de ejemplos de entrenamiento
y promediar los cambios deseados que obtienes.
Pero eso computacionalmete lento
Asi que en cambio, aleatoriamente subdivides la información es estos mini lotes
y coputas cada paso con respecto a un mini lote.
Repetidamente yendo a traves de todos los mini lotes y haciendo estos ajustes ,
llegaras hacia un mínimo local de la función de coste,
lo cual quiere decir que tu red va a finalizar haciendo un muy buen trabajo en los datos de entrenamiento
Asi que con todo eso dicho, cada linea de código que iría en la implementación de la retropropagación
de echo corresponde con algo que acabas de ver ahora, al menos términos informales ,
Pero a veces sabiendo donde va la mate solo hace la mitad de la batalla,
y solo representando la maldita cosa es donde se vuelve confuso.
asi que para esos de ustedes que quieren ir  mas profundo,
el siguiente video va a través  de las misma ideas que fueron aquí  presentadas
pero en términos del cálculo subyacente
el cual ojalá  debería hacer esto un poco más familiar así como lo ves en otras fuentes
Antes de eso, una cosa que vale la pena enfatizar

Chinese: 
得對好幾萬個訓練範例都這麼操作
然後對這些變化值取平均
但算起來太慢了
所以你會先把所有的樣本分到各個minibatch中去
計算一個minibatch來作為梯度下降的一步
計算每個minibatch的梯度 調整參數 不斷循環
最終你就會收斂到代價函數的一個局部最小值上
此時就可以說 你的神經網絡對付訓練數據已經很不錯了
總而言之 我們實現反向傳播算法的每一句代碼
其實或多或少地都對應了大家已經知道的內容
但有時 了解其中的數學原理只不過是完成了一半
如何把這破玩意兒表示出來又會搞得人一頭霧水
那麼 在座的如果想深入探討的話
下一期影片中我們會把本期的內容用微積分的形式呈現出來
下一期影片中我們會把本期的內容用微積分的形式呈現出來
希望看過以後再看其他資料時會更容易接受一些吧
收尾之前 我想著重提一點

Turkish: 
bunu onlarca ve binlerce eğitim örneğiniz için yapmayı içerir.
ve aldığınız istenen değişikliklerin ortalamasının alınması.
Ancak bu hesaplama yavaş.
Bunun yerine verileri rastgele olarak bu mini gruplara bölersiniz
ve her adımı bir mini partiye göre hesaplayın.
Mini partilerin hepsinden tekrar tekrar geçerek bu ayarlamaları yapmak,
Maliyet fonksiyonunun yerel bir minimumuna yakınlaşacaksınız,
Yani, ağınız eğitim örneklerinde gerçekten iyi bir iş çıkarmaya başlayacak.
Tüm bunlarla birlikte, backprop uygulamasına girecek olan her kod satırı
Aslında şimdiye kadar gördüğünüz bir şeye karşılık gelir, en azından gayrı resmi terimlerle.
Ama bazen matematiğin ne yaptığını bilmek savaşın sadece yarısıdır.
ve sadece kahrolası şeyi temsil etmek, her şeyin karışıp karıştığı yerdir.
Yani daha derine gitmek isteyenler için,
Bir sonraki video, burada sunulan fikirlerin aynısını anlatıyor
fakat temel hesap açısından,
umarım konuyu diğer kaynaklarda gördüğünüz gibi biraz daha aşina yapmalısınız.
Ondan önce, vurgulamaya değer bir şey

English: 
would involve doing this for all your tens and thousands of training examples
and averaging the desired changes that you get.
But that's computationally slow.
So instead you randomly subdivide the data into these mini-batches
and compute each step with respect to a mini-batch.
Repeatedly going through all of the mini batches and making these adjustments,
you will converge towards a local minimum of the cost function,
which is to say, your network is going to end up doing a really good job on the training examples.
So with all of that said, every line of code that would go into implementing backprop
actually corresponds with something that you have now seen, at least in informal terms.
But sometimes knowing what the math does is only half the battle,
and just representing the damn thing is where it gets all muddled and confusing.
So for those of you who do want to go deeper,
the next video goes through the same ideas that were just presented here
but in terms of the underlying calculus,
which should hopefully make it a little more familiar as you see the topic in other resources.
Before that, one thing worth emphasizing is that

German: 
Das würde bedeuten, dies für all Ihre Zehntausende von Trainingsbeispielen zu tun
und mitteln Sie die gewünschten Änderungen, die Sie erhalten.
Aber das ist rechnerisch langsam.
Stattdessen unterteilen Sie die Daten zufällig in diese Mini-Chargen
und Berechnen jedes Schrittes in Bezug auf einen Minibatch.
Wiederholt alle Mini-Chargen durchlaufen und diese Anpassungen vornehmen,
Sie werden auf ein lokales Minimum der Kostenfunktion konvergieren,
Das heißt, Ihr Netzwerk wird am Ende eine wirklich gute Arbeit an den Trainingsbeispielen leisten.
Also mit all dem gesagt, jede Codezeile, die in die Implementierung von Backprop einfließen würde
entspricht tatsächlich etwas, was Sie jetzt gesehen haben, zumindest informell.
Aber manchmal zu wissen, was die Mathematik macht, ist nur die halbe Miete,
und nur das verdammte Ding zu repräsentieren ist, wo es alles verwirrt und verwirrend ist.
Also für diejenigen von euch, die tiefer gehen wollen,
Das nächste Video geht durch die gleichen Ideen, die hier vorgestellt wurden
aber in Bezug auf den zugrunde liegenden Kalkül,
Das sollte hoffentlich ein wenig vertrauter werden, wenn Sie das Thema in anderen Quellen sehen.
Davor ist eines hervorzuheben

Chinese: 
得对好几万个训练范例都这么操作
然后对这些变化值取平均
但算起来太慢了
所以你会先把所有的样本分到各个minibatch中去
计算一个minibatch来作为梯度下降的一步
计算每个minibatch的梯度 调整参数 不断循环
最终你就会收敛到代价函数的一个局部最小值上
此时就可以说 你的神经网络对付训练数据已经很不错了
总而言之 我们实现反向传播算法的每一句代码
其实或多或少地都对应了大家已经知道的内容
但有时 了解其中的数学原理只不过是完成了一半
如何把这破玩意儿表示出来又会搞得人一头雾水
那么 在座的如果想深入探讨的话
下一期视频中我们会把本期的内容用微积分的形式呈现出来
下一期视频中我们会把本期的内容用微积分的形式呈现出来
希望看过以后再看其他资料时会更容易接受一些吧
收尾之前 我想着重提一点

Chinese: 
反向傳播算法在內 所有包括神經網絡在內的機器學習 要讓它們工作
咱需要一大坨的訓練數據
我們用的手寫數字的範例之所以那麼方便
是因為存在著一個MNIST數據庫
裡面所有的樣本都已經人為標記好了
所以機器學習領域的人 最熟悉的一個難關
莫過於獲取標記好的訓練數據了
不管是叫別人標記成千上萬個圖像
還是去標記別的類型的數據也罷
於是這裡就可以順勢隆重介紹今天的讚助商 CrowdFlower
為數據科學家 機器學習團隊創建訓練數據而專門打造的軟件平台
為數據科學家 機器學習團隊創建訓練數據而專門打造的軟件平台
他們允許你上傳文本音頻或者圖像數據
然後讓真人為你標記
你可能聽說過Human-in-the-loop“人為介入”法
這裡其實正是如此
利用人類的智慧來訓練出機器的智能
這裡他們還部署了很多智能的質量控制機制
保證數據乾淨準確

Turkish: 
Bu algoritmanın çalışması için ve bu sadece sinir ağlarının ötesinde her türlü makine öğrenmesi için geçerlidir.
Çok fazla eğitim verilerine ihtiyacınız var.
Bizim durumumuzda, el yazısı rakamları böyle güzel bir örnek yapan bir şey
MNIST veritabanının var olduğu
insanlar tarafından etiketlenmiş pek çok örnekle.
Makine öğreniminde çalışanlarınızın aşina olacağı ortak bir zorluk
Sadece ihtiyacınız olan etiketli eğitim verilerini alıyorsanız,
İnsanlara on binlerce görüntüyü etiketleyip etiketlemediği
ya da ne tür başka bir veri türü ile uğraşıyorsanız.
Ve bu aslında bugünün son derece alakalı sponsoruna gerçekten güzel bir şekilde geçiş yapıyor - CrowdFlower,
hangi bir yazılım platformu
veri bilimcileri ve makine öğrenim ekiplerinin eğitim verisi yaratabileceği yerler.
Metin veya ses veya görüntü verilerini yüklemenizi sağlar,
ve gerçek insanlar tarafından açıklamalı olsun.
Daha önce döngü içindeki insan yaklaşımını duymuş olabilirsiniz,
ve esasen burada bahsettiğimiz şey bu:
“Makine zekasını yetiştirmek için insan zekasını kullanma”.
Bir sürü akıllı kalite kontrol mekanizmasını kullanıyorlar
Verileri temiz ve doğru tutmak,

English: 
for this algorithm to work, and this goes for all sorts of machine learning beyond just neural networks,
you need a lot of training data.
In our case, one thing that makes handwritten digits such a nice example
is that there exists the MNIST database
with so many examples that have been labeled by humans.
So a common challenge that those of you working in machine learning will be familiar with
is just getting the labeled training data that you actually need,
whether that's having people label tens of thousands of images
or whatever other data type you might be dealing with.
And this actually transitions really nicely to today's extremely relevant sponsor - CrowdFlower,
which is a software platform
where data scientists and machine learning teams can create training data.
They allow you to upload text or audio or image data,
and have it annotated by real people.
You may have heard of the human-in-the-loop approach before,
and this is essentially what we're talking about here:
“leveraging human intelligence to train machine intelligence”.
They employ a whole bunch of pretty smart quality control mechanisms
to keep the data clean and accurate,

Portuguese: 
para este algoritmo funcionar, e isso vale para todos os tipos de aprendizado de máquina além das redes neurais,
você precisa de muitos dados de treinamento.
No nosso caso, uma coisa que torna os dígitos manuscritos um bom exemplo
é que existe o banco de dados MNIST
com tantos exemplos que foram rotulados por humanos.
Então, um desafio comum que aqueles de vocês que trabalham em aprendizado de máquina estarão familiarizados com
é apenas receber os dados de treinamento rotulados que você realmente precisa
se isso é ter pessoas rotulando dezenas de milhares de imagens
ou qualquer outro tipo de dados que você esteja lidando.
E isso realmente transita muito bem para o patrocinador extremamente relevante de hoje - CrowdFlower,
que é uma plataforma de software
onde os cientistas de dados e as equipes de aprendizado de máquina podem criar dados de treinamento.
Eles permitem que você envie dados de texto ou áudio ou imagens,
e anotado por pessoas reais.
Você pode ter ouvido falar da abordagem do modelo que requer interação humana antes,
e isso é essencialmente o que estamos falando aqui:
“Alavancar a inteligência humana para treinar inteligência de máquina”.
Eles empregam um monte de mecanismos de controle de qualidade muito inteligentes
para manter os dados limpos e precisos,

Spanish: 
para trabajar este este algoritmo, y  esto es para todo tipo de máquina de aprender mas allá de redes neuronales,
necesitas un monton de datos de entrenamiento
en nuestro caso, una cosa que hace a los dígitos escritos a mano un buen ejemplo,
es que existe la base de datos MNIST
con muchísimos ejemplos que  han sido etiquetados por humanos
Asi que un reto común con el que estarán familiarizados  esos de ustedes que trabajan con máquinas de aprender
es solo tener etiquetados los datos de entrenamiento que realmente necesitan,
Ya sea teniendo personas etiquetando  decenas de miles de imágenes
O cual sea otra tipo de dato que con el que podrías tratar.
Y esto realmente se transfiere muy bien a los extremadamente relevantes patrocinador de hoy   -CrowdFlower-,
donde científicos de la información y equipos de maquinas de aprender puede crear datos de entrenamiento.
Ellos te permiten subir texto o audio o datos de imagen
y tenerla anotada por gente real.
Puede que hayas  escuchado antes de los "Humanos-en-el-lazo"
Esto es esencialmente de lo que aquí estamos hablando
"Dejando que la inteligencia humana entrenar a la inteligencia de las máquinas "
Ellos emplean un montón de mecanismos de control de calidad muy inteligentes
para mantener los datos limpios y correctos,

Russian: 
для того, чтобы этот алгоритм работал, и это касается всех видов машинного обучения за пределами только нейронных сетей,
вам нужно много учебных данных.
В нашем случае одна вещь, которая делает рукописные цифры таким приятным примером
заключается в том, что существует база данных MNIST
с таким количеством примеров, которые были обозначены людьми.
Таким образом, общая задача, с которой вы работаете в машинном обучении, будет знакома с
просто получает обозначенные данные обучения, которые вам действительно нужны,
независимо от того, имеют ли люди метки десятки тысяч изображений
или каким-либо другим типом данных, с которым вы можете иметь дело.
И на самом деле это действительно очень выгодно для сегодняшнего чрезвычайно важного спонсора - CrowdFlower,
которая является программной платформой
где ученые данных и команды машинного обучения могут создавать учебные данные.
Они позволяют загружать текстовые или аудио- или графические данные,
и его аннотируют реальные люди.
Возможно, вы слышали о человеке в петле подход раньше,
и это в основном то, о чем мы говорим здесь:
«Использование человеческого интеллекта для обучения машинному интеллекту».
Они используют целую кучу довольно умных механизмов контроля качества
чтобы данные были чистыми и точными,

German: 
für diesen Algorithmus zu arbeiten, und dies gilt für alle Arten von maschinellem Lernen über nur neuronale Netze hinaus,
Sie benötigen eine Menge Trainingsdaten.
In unserem Fall ist eine Sache, die handschriftliche Ziffern macht, ein schönes Beispiel
ist, dass es die MNIST-Datenbank gibt
mit so vielen Beispielen, die von Menschen beschriftet wurden.
Eine gemeinsame Herausforderung, die diejenigen von Ihnen, die im maschinellen Lernen arbeiten, kennen
erhält nur die etikettierten Trainingsdaten, die du tatsächlich brauchst,
Ob die Leute Zehntausende von Bildern beschriften sollen
oder welchen anderen Datentyp Sie auch haben mögen.
Und das ändert sich wirklich sehr gut zum heutigen äußerst relevanten Sponsor - CrowdFlower,
Das ist eine Software-Plattform
Hier können Data Scientists und Machine Learning Teams Trainingsdaten erstellen.
Sie erlauben Ihnen, Text oder Audio- oder Bilddaten hochzuladen,
und haben es von echten Menschen kommentiert.
Vielleicht haben Sie schon einmal von dem "Human-in-the-Loop" -Ansatz gehört.
und das ist im Wesentlichen, worüber wir hier sprechen:
"Menschliche Intelligenz nutzen, um Maschinenintelligenz zu trainieren".
Sie verwenden eine ganze Reihe von ziemlich schlauen Qualitätskontrollmechanismen
um die Daten sauber und genau zu halten,

Chinese: 
反向传播算法在内 所有包括神经网络在内的机器学习 要让它们工作
咱需要一大坨的训练数据
我们用的手写数字的范例之所以那么方便
是因为存在着一个MNIST数据库
里面所有的样本都已经人为标记好了
所以机器学习领域的人 最熟悉的一个难关
莫过于获取标记好的训练数据了
不管是叫别人标记成千上万个图像
还是去标记别的类型的数据也罢
于是这里就可以顺势隆重介绍今天的赞助商 CrowdFlower
为数据科学家 机器学习团队创建训练数据而专门打造的软件平台
为数据科学家 机器学习团队创建训练数据而专门打造的软件平台
他们允许你上传文本音频或者图像数据
然后让真人为你标记
你可能听说过Human-in-the-loop“人为介入”法
这里其实正是如此
利用人类的智慧来训练出机器的智能
这里他们还部署了很多智能的质量控制机制
保证数据干净准确

Korean: 
이 알고리즘이 작동하려면, 이것은 모든 종류의 기계가 단지 신경 네트워크를 넘어서서 배우는 것,
당신은 많은 훈련 데이터가 필요합니다.
우리의 경우, 자필 자국을 만드는 좋은 예가 좋은 예입니다.
MNIST 데이터베이스가 존재한다는 것입니다.
인간에 의해 분류 된 수많은 사례가 있습니다.
따라서 기계 학습 분야에서 일하고있는 사람들이
당신이 실제로 필요로하는 분류 된 훈련 자료를 얻는 것뿐입니다.
사람들이 수만 장의 이미지를 표시하는지 여부
또는 다른 데이터 유형을 처리 할 수 ​​있습니다.
그리고 이것은 실제로 오늘날의 매우 관련이있는 스폰서 - CrowdFlower,
소프트웨어 플랫폼
데이터 과학자 및 기계 학습 팀이 교육 데이터를 생성 할 수 있습니다.
그들은 당신이 텍스트 또는 오디오 또는 이미지 데이터를 업로드 할 수 있도록,
실제 사람들이 주석을 달았습니다.
이전에 human-in-the-loop 방식에 대해 들어 본 적이 있을지 모르지만,
이것은 본질적으로 우리가 여기서 말하고있는 것입니다 :
"인간 지능을 활용하여 기계 지능을 훈련".
그들은 꽤 똑똑한 품질 관리 메커니즘을 사용합니다.
데이터를 깨끗하고 정확하게 유지하려면,

Chinese: 
他們已經協助測試過上千次AI項目數據了
更好玩的是 這回大家能領到一件免費T恤
訪問3b1b.co/crowdflower
或者是屏幕上簡介中的唯一指定鏈接
你註冊完新賬號 建立好新項目
你們就可以獲得一件免費的T恤了
這件我還挺喜歡的 很cool的
那麼感謝CrowdFlower對本期的支持
也感謝所有Patreon上的資助人一路對本系列的資助

German: 
und sie haben geholfen, Tausende von Daten und KI-Projekten zu testen und abzustimmen.
Und was macht am meisten Spaß, es gibt tatsächlich ein kostenloses T-Shirt für Sie.
Wenn du zu 3b1b.co/crowdflower gehst,
oder folgen Sie dem Link auf dem Bildschirm und in der Beschreibung,
Sie können ein kostenloses Konto erstellen und ein Projekt ausführen,
und sie schicken dir ein kostenloses T-Shirt, sobald du den Job erledigt hast.
Und das Shirt ist eigentlich ziemlich cool, ich mag es sehr.
Vielen Dank an CrowdFlower für die Unterstützung dieses Videos.
und vielen Dank auch an alle, die Patreon bei der Unterstützung dieser Videos unterstützt haben.

Korean: 
또한 수천 가지의 데이터 및 AI 프로젝트를 테스트하고 조정할 수 있도록 도와주었습니다.
그리고 가장 재미있는 것은, 실제로 당신들을위한 무료 티셔츠가 있습니다.
3b1b.co/crowdflower에 가면,
또는 화면의 링크와 설명을 따르십시오.
무료 계정을 만들고 프로젝트를 실행할 수 있습니다.
그리고 일을 마치면 무료 셔츠를 보내 줄 것입니다.
그리고 셔츠는 실제로 꽤 멋지다. 나는 그것을 아주 좋아한다.
이 비디오를 지원 한 CrowdFlower 덕분에,
또한이 비디오를 지원하는 데 도움을 준 Patreon의 모든 사람들에게 감사드립니다.

Spanish: 
Y ellos han ayudado a entrenar test y afinar miles de datos y proyecto de IA.
Y lo que es mas divertido, allí hay de echo una playera gratis para ustedes muchachos .
si van a 3b1b.co/crowdflower,
o si siguen el link en la pantalla y en la descripción
tu puedes crea un cuenta gratuita e iniciar un proyecto
y ellos te mandarán una playera gratis una vez hayas echo el trabajo.
la camisa es realmente  muy genial , un poco como esta
asi que ,Gracias  a  CrowdFlower por ayudar este  video,
y también  gracias a todos en Patreon que están ayudando estos vídeos.

Turkish: 
ve binlerce veri ve AI projesini test etmeye ve ayarlamaya yardımcı oldular.
Ve en eğlenceli olanı, aslında sizin için ücretsiz bir tişört var.
3b1b.co/crowdflower’a giderseniz,
veya ekrandaki ve açıklamadaki bağlantıyı izleyin,
ücretsiz bir hesap oluşturabilir ve bir proje çalıştırabilirsiniz,
ve işi yaptıktan sonra sana bedava bir gömlek gönderecekler.
Ve gömlek aslında oldukça havalı, bundan hoşlanıyorum.
Bu videoyu desteklediği için CrowdFlower'a teşekkürler,
Patreon'daki herkese bu videoları desteklemeye yardımcı olan herkese teşekkürler.

Chinese: 
他们已经协助测试过上千次AI项目数据了
更好玩的是 这回大家能领到一件免费T恤
访问3b1b.co/crowdflower
或者是屏幕上简介中的唯一指定链接
你注册完新账号 建立好新项目
你们就可以获得一件免费的T恤了
这件我还挺喜欢的 很cool的
那么感谢CrowdFlower对本期的支持
也感谢所有Patreon上的资助人一路对本系列的资助

Russian: 
и они помогли подготовить тест и настроить тысячи данных и проектов ИИ.
И что самое интересное, на самом деле в этом есть бесплатная футболка для вас, ребята.
Если вы перейдете к 3b1b.co/crowdflower,
или следуйте по ссылке на экране и в описании,
вы можете создать бесплатную учетную запись и запустить проект,
и они отправят вам свободную рубашку, как только вы это сделаете.
И рубашка на самом деле довольно крутая, мне это очень нравится.
Поэтому благодаря CrowdFlower для поддержки этого видео,
и благодарю вас также всем, кто находится в Patreon, помогая поддержать эти видео.

English: 
and they've helped to train test and tune thousands of data and AI projects.
And what's most fun, there's actually a free t-shirt in this for you guys.
If you go to 3b1b.co/crowdflower,
or follow the link on screen and in the description,
you can create a free account and run a project,
and they'll send you a free shirt once you've done the job.
And the shirt it's actually pretty cool, I quite like it.
So thanks to CrowdFlower for supporting this video,
and thank you also to everyone on Patreon helping support these videos.

Portuguese: 
e eles ajudaram a treinar testes e ajustes de milhares de dados e projetos de inteligência artificial.
E o que é mais divertido, na verdade tem uma camiseta grátis para vocês.
Se você for para 3b1b.co/crowdflower,
ou siga o link na tela e na descrição,
você pode criar uma conta gratuita e executar um projeto
e eles lhe enviarão uma camiseta grátis assim que você terminar o trabalho.
E a camisa é realmente muito legal, eu gosto bastante disso.
Então, graças ao CrowdFlower por apoiar este vídeo
e agradeço também a todos no Patreon que ajudaram a apoiar esses vídeos.
