
English: 
StatQuest breaks it down into bite-sized pieces hooray
Hello, I'm Josh stormer and welcome to stat quest in this StatQuest
We're going to go through principle component analysis PCA one step at a time using singular value decomposition
SVD
You'll learn about what PCA does
How it does it and how to use it to get deeper insight into your data
Let's start with a simple dataset
We've measured the transcription of two genes gene 1 and gene 2 in 6 different mice
Note if you're not into mice and genes
think of the mice as individual samples and
The genes as variables that we measure for each sample
For example the samples could be students in high school and the variables could be test scores in math and reading

Chinese: 
StatQuest帮你层层揭露 hooray
你好 我是Josh Stormer 欢迎来到StatQuest
在本期StatQuest 我们会用SVD一步一步了解PCA
SVD（奇异值分解）
你会学到PCA是做什么的
它怎么运作 以及如何用它来对你的数据进行深入挖掘
让我们从一个简单的数据集开始
我们测量了6只小白鼠的基因转录 基因1和基因2
如果你不想谈小白鼠和基因的话题
把小白鼠看作个体样本
把基因想成是我们为每个样本测量的变量
例如，样本可以是高中生，变量可以是数学和阅读测试的成绩

Korean: 
StateQuest는 통계를 한입 크기로 잘라냅니다 야호!!!
안녕하세요, 저는 Josh Stormer 입니다. 이번 StatQuest에 오신 것을 환영합니다
특이값 분해(SVD)를 통해 주성분 분석(PCA)을 한 번에 한 스텝씩 완성해갈 것입니다
PCA가 무엇을 하는 것인지 배우게 될 것입니다
어떻게 하는지, 데이터에 대한 더 깊은 인사이트를 얻기 위해 어떻게 사용하는지요
간단한 데이터세트를 통해 설명을 시작해보겠습니다
6마리의 서로 다른 쥐에서 유전자 1, 유전자 2라는 두 개의 유전자를 측정해보겠습니다
쥐와 유전자에 관심이 없는 경우 주의하십시오
쥐를 개별 샘플로 생각하시고
유전자를 각각의 샘플에 대해 측정하려는 변수로 이해하십시오
예를 들어, 그 샘플은 고등학교 학생들일 수도 있고 변수는 수학과 읽기 시험 점수일 수 있습니다

Russian: 
СтатКвест ломает это на
на части
размером с байт
Орей!
Привет, я Джордж Стамер
Добро пожаловать на СтатКвест
В этом выпуске СтатКвест мы  пройдем  метод главных
компонент (PCA)
по шагам, используя сингулярное разложение(SVD).
Вы изучите что делает PCA,
как он это делает, и как с помощью него проникнуть глубже в ваши данные.
 
Давайте начнем с небольшого набора данных.
 
Мы измерили транскрипцию двух генов, ген 1 и ген 2
у шести разных мышей.
ЗАПОМНИТЕ: если вам не близки мыши или гены
Думайте о мышах как об отдельных образцах
а о генах как о переменных, которые измерены для каждого образца.
 
Например, образцами могут быть ученики старшей школы.
а переменными могут быть результаты

Portuguese: 
StatQuest divide-o em pedaços pequenos
Olá, sou Josh stormer e bem-vindo à missão stat neste StatQuest
Vamos passar pela análise de componentes principais do PCA, uma etapa de cada vez, usando decomposição de valor singular
SVD
Você aprenderá sobre o que o PCA faz
Como ele faz e como usá-lo para obter uma visão mais profunda dos seus dados
Vamos começar com um conjunto de dados simples
Medimos a transcrição de dois genes gene 1 e gene 2 em 6 ratos diferentes
Observe se você não gosta de ratos e genes
pense nos ratos como amostras individuais e
Os genes como variáveis ​​que medimos para cada amostra
Por exemplo, as amostras podem ser alunos do ensino médio e as variáveis ​​podem ser notas de teste em matemática e leitura

Russian: 
тестов в математике и чтении,
Или образцами могут быть бизнес-предприятия.
а переменными могут быть рыночная капитализация и число
сотрудников.
Хорошо, а теперь вернемся к мышам и генам.
Потому что я генетик и работаю в отделе генетики.
Если вы измерили только один ген
вы можете нанести данные на линию.
Относительно больше значения у мышей 1, 2, 3.
 
Значения для мышей 4, 5 и 6 относительно меньше.
 
Даже этот простой график показывает нам
что мыши 1, 2,3
сходны друг с другом,
больше чем с мышами 4, 5, 6.
Если мы измерим два гена
то можем нанести данные
на двухмерный x/y график
Ген один на оси Х  и покрывает одно из двух
измерений в двухмерном
графике.

English: 
Or the samples could be businesses, and the variables could be market capitalization and the number of employees
Ok now we're back to mice and genes because I'm a geneticist and I work in a genetics department if
We only measure one gene. We can plot the data on a number line
mice 1 2 & 3 have relatively high values and
mice 4 5 & 6 have relatively low values
Even though it's a simple graph it shows us that mice 1 2 & 3 are more similar to each other than they are to
mice 4 5 & 6
If we measured two genes then we can plot the data on a two-dimensional XY graph
Gene 1 is the x-axis and spans one of the two dimensions in this graph

Portuguese: 
Ou as amostras podem ser empresas e as variáveis ​​podem ser capitalização de mercado e número de funcionários
Ok, agora voltamos aos ratos e genes porque sou geneticista e trabalho em um departamento de genética, se
Nós medimos apenas um gene. Podemos plotar os dados em uma linha numérica
os camundongos 1 2 e 3 têm valores relativamente altos e
os ratos 4 5 e 6 têm valores relativamente baixos
Embora seja um gráfico simples, ele nos mostra que os ratos 1 2 e 3 são mais semelhantes entre si do que são
ratos 4 5 e 6
Se medimos dois genes, podemos plotar os dados em um gráfico XY bidimensional
O gene 1 é o eixo x e abrange uma das duas dimensões deste gráfico

Korean: 
또는 샘플은 기업들일 수 있고 변수는 시가 총액과 직원 수일 수 있습니다
좋아요 이제 쥐와 유전자 예시로 돌아가보겠습니다 왜냐면 제가 유전학자이고 유전학 부서에서 일하기 때문입니다.
우리는 오직 하나의 유전자만 측정합니다. 숫자 선에 데이터를 표시할 수 있습니다.
쥐 1, 2, 3은 상대적으로 높은 값을 가지고 있고
쥐 4, 5, 6은 상대적으로 낮은 값을 가지고 있습니다
단순한 그래프임에도 불구하고 쥐 1, 2, 3은 다른 쥐 4, 5, 6보다 서로 더 비슷합니다
우리가 만약 두 개의 유전자를 측정한다면, 2차원 X Y 그래프에 데이터를 표시할 수 있습니다
유전자 1은 X축에 표시되며 이 그래프 2차원 중 하나에 걸쳐있습니다

Chinese: 
或者样本可以是企业，变量可以是市值和员工数
现在我们回到老鼠和基因上，因为我是遗传学家，在遗传学部门工作
如果我们只测量一个基因。我们可以将数据绘在一个数轴上
小鼠1 2和3具有相对较高的值
小鼠4 5和6的值相对较低
即使这是一个简单的图，它也展示了小鼠1 2和3彼此之间的相似性要比它们与
小鼠4 5和6之间的相似性强
如果我们测量两个基因，则可以将数据绘制在一个二维XY图上
基因1是x轴，在这张图里涵盖了二维中一个维度

English: 
Gene - is the y-axis and spans the other dimension
we can see that mice 1 2 & 3 cluster on the right side and
mice 4 5 & 6 cluster on the lower left-hand side
if we measured three genes we would add another axis to the graph and make it look 3d ie
three dimensional
The smaller dots have larger values for gene three and are further away
The larger dots have smaller values for gene three and are closer
If we measured for jeans however we can no longer plot the data
for jeans require four dimensions
All
So we're going to talk about how PCA can take four or more Jean measurements and thus
four or more dimensions of data and make a two dimensional PCA plot

Korean: 
유전자 2는 Y축이고 나머지 다른 차원에 걸쳐있습니다
쥐 1, 2, 3 군집이 오른편에 있는 것을 알 수 있고
쥐 4, 5, 6 군집이 왼쪽 하단에 위치한 것을 알 수 있습니다
우리가 세 개의 유전자를 측정한다면, 그래프에 또다른 축을 추가해서 3차원으로 만들 것입니다
작은 점들은 유전자 3에 대해 더 큰 값을 가지고 더 멀리 떨어저 있습니다
더 큰 점들은 유전자 3에 대해 더 작은 값을 가지고 더 가까이 있습니다
4개의 유전자에 대해 측정한다면, 이제 데이터를 더 이상 표시할 수 없게 됩니다
4개의 유전자를 위해 4차원이 필요하기 때문입니다
그래서 이제 PCA가 어떻게 4개 이상의 유전자 측정을 할 수 있는지 말해보려고 합니다
즉, 4개 이상의 차원에 존재하는 데이터에 대해 2차원 PCA 플롯을 만들어보겠습니다

Chinese: 
基因2是y轴并跨越了另一个维度
我们可以看到小鼠1 2和3在右侧聚集
小鼠4 5和6集中在左下侧
如果我们要测量三个基因，我们将在图上添加另一个坐标轴，使其看起来像3d，即
三维
这些较小的点对基因3有较大的值，并且距离较远
这些较大的点有较小的基因3值，并更近
如果我们测量4个基因，我们将无法再绘制数据
4个基因需要四个维度
:(
所以我们会讨论PCA如何进行四个或更多基因测量，即
四个或更多维度的数据，并制作二维的PCA图

Portuguese: 
Gene - é o eixo y e abrange a outra dimensão
podemos ver que os ratos 1 2 e 3 se agrupam no lado direito e
camundongos 4 5 e 6 agrupam no lado inferior esquerdo
se medíssemos três genes, adicionaríamos outro eixo ao gráfico e pareceríamos 3d.
tridimensional
Os pontos menores têm valores maiores para o gene três e estão mais distantes
Os pontos maiores têm valores menores para o gene três e estão mais próximos
Se medimos para jeans, no entanto, não podemos mais plotar os dados
para jeans exigem quatro dimensões
Todos
Então, vamos falar sobre como o PCA pode fazer quatro ou mais medições de Jean e, assim,
quatro ou mais dimensões de dados e faça um gráfico PCA bidimensional

Russian: 
ген 2 на оси y, покрывает противоположное измерение.
 
Мы видим что мыши 1,2,3 образуют кластер справа от
 
и мыши 4.5,6 кластер
на нижней левой стороне
Если мы измерили три гена
мы можем добавить одну ось в график, и сделать его типа "3D"
т.е. трехмерным
точка меньшего размера имеет большее значение  для гена 3 и "находиться дальше"
 
точка большего размера имеет меньшее значение для гена 3
и находится "ближе".
 
Если мы измерили четыре гена, мы не можем
больше строить графики-4 гена
нужно расположить в 4-х измерениях.
Оу-оу
Мы начинаем говорить о  том, как PCA может взять 4 или больше измеренных генов
 
(4 или больше измерений данных), и
сделать двухмерный PCA график

English: 
This plot will show us that similar mice cluster together
We'll also talk about how PCA can tell us which gene or variable is the most valuable for clustering the data?
For example PCA might tell us that gene 3 is responsible for separating samples along the x axis
Lastly, we'll talk about how PCA can tell us how accurate the 2d graph is?
To understand what PCA does and how it works let's go back to the dataset that only had two genes
We'll start by plotting the data
Then we'll calculate the average measurement for gene 1 and
the average measurement for gene 2
With the average values we can calculate the center of the data

Russian: 
Этот график покажет нам  что мыши со сходными значениями
образуют кластеры.
Мы также будем говорить о том
как PCA сможет сказать нам: какой ген(или переменная)
является наиболее подходящим для объединения данных в кластеры.
Например, PCA может сказать нам
что ген 3 подходит для разделения образцов
вдоль оси х
Позднее, мы будем говорить о том
как PCA может сказать нам насколько точным является 2-D график.
Для понимания того что делает PCA, и как это работает
Давайте вернемся к набору данных
только с двумя генами.
Начнем с нанесения данных на график.
Далее мы найдем среднее значение для гена 1
И среднее значение для гена 2
Имея средние значения мы можем рассчитать центр данных.
 

Korean: 
이 플롯은 비슷한 쥐가 함께 군집한다는 것을 보여줄 것입니다
PCA가 어떤 유전자 또는 변수가 데이터 클러스터링에 가장 중요한지에 대해 어떻게 알려줄 수 있는지도 살펴볼 것입니다
예를 들어, PCA는 유전자 3이 X축을 따라서 샘플을 구분하는데 가장 중요하다고 말해줄 수도 있습니다
최종적으로, 어떻게 PCA가 2차원 그래프에 대해 얼마나 정확하게 말해줄 수 있는지에 대해 얘기해볼려고 합니다
PCA가 무엇을 하는지 그리고 어떻게 작동하는지를 알아보기 위해 오직 2개의 유전자만 가지고 있는 데이터 예시로 돌아가보겠습니다
데이터를 표시하는 것에서 시작하겠습니다
그러고나서 유전자 1과 유전자 2의 평균 측정값을 계산할 것입니다
평균값을 통해 데이터의 중심을 계산할 수 있습니다

Chinese: 
这一块将向我们显示相似的小鼠聚集在一起
我们还将讨论PCA如何告诉我们哪个基因或变量对数据聚类最有价值？
例如，PCA可能告诉我们基因3承担了沿x轴分离样本
最后，我们将讨论PCA告诉我们2d图形准确性的启示
要了解PCA的功能及其工作原理，让我们回到只有两个基因的数据集
我们将从绘制数据开始
然后，我们计算基因1和
基因2的平均测量数
通过平均值，我们可以计算数据的中心

Portuguese: 
Esse gráfico nos mostrará que ratos semelhantes se agrupam
Também falaremos sobre como o PCA pode nos dizer qual gene ou variável é o mais valioso para agrupar os dados?
Por exemplo, o PCA pode nos dizer que o gene 3 é responsável pela separação de amostras ao longo do eixo x
Por fim, falaremos sobre como o PCA pode nos dizer a precisão do gráfico 2D.
Para entender o que o PCA faz e como ele funciona, voltemos ao conjunto de dados que tinha apenas dois genes
Começaremos plotando os dados
Em seguida, calcularemos a medida média para o gene 1 e
a medida média para o gene 2
Com os valores médios, podemos calcular o centro dos dados

Russian: 
Мы сосредоточимся на том, что происходит с графиком
относительно этой точки.
Исходные данные нам больше не нужны.
Сейчас мы сдвинем  данные так что
центр данных будет точкой (0.0) графика.
Помните: Смещение данных не изменяет
позиции данных на графике относительно
друг-друга.
Эта точка по прежнему имеет наивысшее значение.
а эта точка расположена правее остальных.
Теперь , когда данные отцентрированы, мы можем
попытаться  выровнять их на линию.
Давайте сделаем это.
Мы начнем с того что нарисуем случайную линию
проходящую через начало данных.
далее мы поворачиваем линию пока данные не выровняются к ней
насколько возможно хорошо.
при этом она должна проходить через начало координат
В итоге, к этой линии данные выровнены наилучшим образом.
 
но я забегаю вперед, Сперва, нам надо поговорить

Portuguese: 
A partir deste ponto, focaremos no que acontece no gráfico, não precisamos mais dos dados originais
Agora vamos mudar os dados para que o centro fique no topo da origem no gráfico
A mudança de nota dos dados não mudou a maneira como os pontos de dados são posicionados um em relação ao outro
este ponto ainda é o mais alto e
Este ainda é o ponto mais à direita
Etc
Agora que os dados estão centralizados na origem
Podemos tentar ajustar uma linha a ele para fazer isso
Começamos desenhando uma linha aleatória que passa pela origem
Em seguida, giramos a linha até que ela se ajuste aos dados da melhor maneira possível, pois ela precisa passar pela origem
Em última análise, esta linha se encaixa melhor

Chinese: 
从这一刻开始，我们将专注于图中发生的情况，我们不再需要原始数据
现在我们移动数据，使中心位于图形中的原点(0,0)之上
注意，移动数据并不会改变数据点彼此之间的相对位置
这一点仍然是最高的
这仍然是最右的一点
等等
现在数据以原点为中心了
我们可以尝试为其拟合一条线
我们首先绘制一条穿过原点的随机线
然后我们旋转线，直到它尽可能地拟合数据，和仍然穿过原点的情形下
最终，这条线的拟合度最好

Korean: 
이 점에서부터 그래프에 무엇이 발생하는지에 집중할 것이고 원본 데이터는 더 이상 필요하지 않습니다
이제 그래프 원점 위에 중심이 오도록 데이터를 이동하겠습니다
데이터 이동이 데이터 점들의 상대적인 분포를 변화시키지 않았다는 것을 알아주십시오
이 점은 여전히 가장 높은 위치에 있는 것이고
이 점은 여전히 가장 오른쪽에 있습니다
기타 나머지도 그렇습니다
이제 데이터가 원점을 중심으로 위치하기 때문에
라인에 맞게 할 수 있습니다
그 원점을 통과하는 랜덤한 선을 그리는 것으로 시작하겠습니다
그러고나서 원점을 통과하면서도 데이터에 맞을 때까지 선을 회전시킵니다
궁극적으로 이 선이 가장 적합합니다

English: 
From this point on we'll focus on what happens in the graph we no longer need the original data
Now we'll shift the data so that the center is on top of the origin in the graph
Note shifting the data did not change how the data points are positioned relative to each other
this point is still the highest one and
This is still the rightmost point
Etc
Now that the data are centered on the origin
We can try to fit a line to it to do this
We start by drawing a random line that goes through the origin
Then we rotate the line until it fits the data as well as it can given that it has to go through the origin
Ultimately this line fits best

English: 
But I'm getting ahead of myself first we need to talk about how PCA decides if a fit is good or not
So let's go back to the original random line that goes through the origin
To quantify how good this line fits the data PCA projects the data onto it
And then it can either measure the distances from the data to the line and try to find the line that minimizes those distances
Or it. Can try to find the line that maximizes the distances from the projected points to the origin
If those options don't seem equivalent to you
We can build intuition by looking at how these distances shrink when the line fits better
While these distances get larger when the line fits better

Russian: 
как PCA решает: хорошо выровнены данные
или нет.
Давайте вернемся к исходному
"случайная линия, проходящая через начало координат"
Чтобы посчитать насколько хорошо данные
соотносятся с этой линией.
PCA проецирует данные на нее,
и тогда может определить расстояния между
данными и линией и найти линия для которой расстояния
минимальны.
Или может найти линию
с максимальными расстояниями от  данных до начала
координат.
Если обе эти опции не кажутся вам равнозначными.
мы можем создать это интуитивно, глядя как расстояния сокращаются
когда линия лучше соответствует данным.
в то время как эти расстояния
увеличиваются  в когда линия лучше соответствует данным.
Чтобы математически понять что происходит,
 

Portuguese: 
Mas como estou me adiantando primeiro, precisamos falar sobre como o PCA decide se um ataque é bom ou não
Então, vamos voltar à linha aleatória original que passa pela origem
Para quantificar quão boa essa linha se ajusta aos dados, o PCA projeta os dados nela
E então ele pode medir as distâncias dos dados para a linha e tentar encontrar a linha que minimiza essas distâncias
Ou isso. Pode tentar encontrar a linha que maximiza as distâncias dos pontos projetados até a origem
Se essas opções não parecerem equivalentes a você
Podemos criar intuição observando como essas distâncias diminuem quando a linha se encaixa melhor
Enquanto essas distâncias aumentam quando a linha se encaixa melhor

Korean: 
그렇지만 먼저 적합한 정도가 얼마나 좋은지 나쁜지에 대해 PCA가 어떻게 결정하는지 보겠습니다
원점을 관통하는 랜덤한 선 예시로 돌아가보겠습니다
이 선이 데이터에 얼마나 적합한지를 정량화하기 위해 PCA는 데이터를 투영합니다
그러고나서 선에서 데이터까지의 거리를 측정하고  이 거리를 최소화하는 선을 찾습니다
또는 원점에서 투영된 점들까지의 거리를 최대화하는 선을 찾습니다
만약 이러한 옵션들이 와닿지 않는다면
선이 적합할 때 이런 거리가 어떻게 줄어드는지를 보면서 직관을 기를 수 있습니다
반면에 이 선이 적합할수록 거리는 커질 수도 있습니다

Chinese: 
但我现在说的内容有点“超纲”，首先我们需要谈PCA如何判定拟合度的高低
因此，让我们回到最开始这条经过原点的随机线
为了量化这条线拟合数据的程度，PCA将数据投影到该线上
然后它可以测量数据到线的距离，并尝试找到使这些距离最小的线
或者可以尝试找到使投影点到原点的距离最大的线
如果你没能理解这两种方法的意义
你可以观察当线更拟合时，这些距离如何缩小来理解
而当线更拟合时，这些距离会变大

Korean: 
수학적 방식으로 이해하기 위해, 한 점을 고려해보겠습니다
이 점은 고정되어 있고 원점으로부터의 거리도 그렇습니다
다른 말로 하면, 점에서부터 원점까지의 거리는
빨간색 점선이 회전할 때 변화하지 않습니다
점을 선에 투영할 때
검은색 점선과 빨간색 점선 사이에 직각을 이루게 됩니다
이 말은 a, b, c 처럼 옆에 라벨을 붙이면
b와 c의 반비례적 관계를 피타고라스 정리를 통해 설명할 수 있다는 것입니다
a 그리고 a 제곱이 변하지 않기 때문에
b가 커지면
c는 반드시 작아져야만 합니다

Portuguese: 
Agora, para entender o que está acontecendo de maneira matemática, vamos considerar apenas um ponto de dados
Esse ponto é fixo e também a distância da origem em
Por outras palavras, a distância do ponto à origem
Não muda quando a linha pontilhada vermelha gira
Quando projetamos o ponto na linha
Temos um ângulo reto entre a linha pontilhada preta e a linha pontilhada vermelha
isso significa que se rotularmos os lados como este
bec
Então podemos usar o teorema de Pitágoras para mostrar como B e C estão inversamente relacionados
Como a e, portanto, um quadrado não muda
se B ficar maior
então C deve ficar menor

Russian: 
давайте рассмотрим одну точку на графике .
Положение точки определено,  и  расстояние от начала координат также.
 
Другими словами,  расстояние между
точкой и началом координат не изменяется
во время вращения красной пунктирной линией.
Когда мы проецируем точку на линию..
получается прямой угол между черной пунктирной линией
и красной пунктирной линией.
Это значит, что если мы отметим стороны
таким образом..а, в
и с
то можем использовать теорему Пифагора чтобы показать
как в и с обратно соотносятся
между собой.
Так как а(и его а  квадрат)  не изменяется.
 
Значение в больше
а значение с должно быть больше.
Также, если значение с больше

English: 
Now to understand what is going on in a mathematical way, let's just consider one data point
This point is fixed and so is its distance from the origin in
Other words the distance from the point to the origin
Doesn't change when the red dotted line rotates
When we project the point onto the line
We get a right angle between the black dotted line and the red dotted line
that means that if we label the sides like this a
b and c
Then we can use the Pythagorean theorem to show how B and C are inversely related
Since a and thus a squared doesn't change
if B gets bigger
then C must get smaller

Chinese: 
现在，用数学方式来解释，让我们只考虑一个数据点
这个点是固定的，它距原点的距离也是固定的
换句话说，该点到原点的距离不会改变
不管红色虚线怎么旋转
当我们将这个点投影到线上时
我们得到黑色虚线和红色虚线之间的直角
这意味着如果我们像这样标记侧边：
a b和c
我们就可以使用勾股定理来证明B和C是逆相关的
由于a（因此a的平方）固定不变
当b变大
那么c肯定变小

Korean: 
마찬가지로 c가 커지면, b는 작아져야만 합니다
그러므로 PCA는 선까지의 거리를 줄일 수도 있고
원점에서 투영된 점까지의 거리를 최대화할 수도 있습니다
제가 이렇게  설명하는 이유는
직관적으로, 점에서 선까지의 거리인 b를 최소화하는 것이 좋기 때문입니다.
하지만 원점에서 투영된 점까지의 거리인 c를 계산하는게 더 쉽습니다
그래서 PCA가 가장 적합한 선을 찾는 방식은
원점에서부터 투영된 점들 간의 거리 제곱의 합을 최대화하는 것입니다
그래서 이 선을 위해
PCA는 데이터를 여기에 투영하고
원점에서부터 이 점까지의 거리를 측정합니다
이거를 d1 이라고 불러보겠습니다

Chinese: 
同样得，如果c变大，那么b一定会变小
因此，PCA可以最小化与线之间的距离，或者
最大化从投影点到原点的距离
我费劲大张旗鼓描述这一点是想表达
直观地讲，最小化b，即点到线的距离，是合理的
但是实际上c，即投影点到原点的距离，更容易计算
所以PCA找到拟合线是通过
最大化从投影点到原点的距离的平方和
所以对于这条线
PCA将数据投影到上面
然后测量从该点到原点的距离
让我们称它为d1

Russian: 
значение в меньше.
Итак, PCA может как минимизировать расстояние к линии..
 
так и найти максимальное расстояние от
проецированной точки к началу координат.
Причина по которой  я объясняю это так дотошно, интуитивно ,
в том что имеет смысл минимизировать в
 
расстояние от точки к линии..
но на самом деле легче посчитать с,
расстояние от проецированной точки к началу координат,
поэтому PCA  находит линию наилучшего соответствия
с помощью максимальной суммы квадратов расстояний  от проецированных точек к началу координат.
 
Итак, для этой линии
PCA проецирует точки на нее
и затем измеряет расстояние от этой точки до
до начала координат(назовем это d1)
Запомните, я собираюсь отслеживать расстояния

English: 
Likewise if C gets bigger, then B must get smaller
Thus PCA can either minimize the distance to the line or
Maximize the distance from the projected point to the origin
The reason I'm making such a fuss about this is that
Intuitively, it makes sense to minimize B. And the distance from the point to the line
But it's actually easier to calculate C the distance from the projected point to the origin
so PCA finds the best fitting line by
Maximizing the sum of the squared distances from the projected points to the origin
So for this line
PCA projects the data onto it and
Then measures the distance from this point to the origin
Let's call it d sub1

Portuguese: 
Da mesma forma, se C aumentar, B deve diminuir
Assim, o PCA pode minimizar a distância da linha ou
Maximize a distância do ponto projetado até a origem
A razão pela qual estou fazendo tanto barulho sobre isso é que
Intuitivamente, faz sentido minimizar B. E a distância do ponto à linha
Mas é realmente mais fácil calcular C a distância do ponto projetado até a origem
para que o PCA encontre a melhor linha de ajuste
Maximizando a soma das distâncias ao quadrado dos pontos projetados até a origem
Então, para esta linha
O PCA projeta os dados nele e
Em seguida, mede a distância deste ponto até a origem
Vamos chamá-lo d sub1

Russian: 
которые мы здесь измеряем
и когда PCA измеряет расстояние от этой точки
к началу координат
мы назовем это d2, d3
d4, d5
d6
Здесь все  6 расстояний что мы измерили.
и следующим действием мы возведем их в квадрат.
расстояния возведены в квадрат поэтому эти отрицательные значения
не сокращают эти позитивные значения.
Тогда мы складываем все эти квадраты расстояний.
равно сумма квадратов расстояний
 
конечно мы можем назвать это СК(расстояний).
сумма квадратов расстояний
теперь мы поворачиваем линию..
проецируем данные на линию
и тогда сумма квадратов расстояний
проецированных точек к началу координат

Portuguese: 
Note que vou acompanhar a distância à medida que medimos aqui e
Em seguida, o PCA mede a distância desse ponto até a origem. Vamos chamar isso de D 2
Então mede d3
d4
d5 e d6
Aqui estão todas as seis distâncias que medimos
A próxima coisa que fazemos é esquadrinhar todos eles
As distâncias são ao quadrado para que valores negativos não cancelem valores positivos
Então, somamos todas essas distâncias ao quadrado e isso é igual à soma das distâncias ao quadrado
Como diminutivo. Vamos chamar isso de distâncias SS ou soma das distâncias ao quadrado
Agora giramos a linha
projetar os dados na linha e
Em seguida, some as distâncias ao quadrado dos pontos projetados até a origem

Chinese: 
注意，我会记下我们测量的距离
然后PCA测量从该点到原点的距离。我们叫它d2
然后测量d3
d4
d5和d6
这是我们测量的所有6个距离
下一步 我们计算所有距离的平方
距离被开平方了，因此负值不会抵消正值
然后我们将所有这些开平方的距离求和，等于平方距离的总和（SSD）
为了简便，我们称其为SS(距离)，或距离平方之和
现在我们旋转这条线
将数据投影到线上
然后加总从投影点到原点的距离的平方

Korean: 
여기서 측정한 거리는 계속 추적할 것입니다
PCA는 원점에서 이 점까지의 거리를 측정합니다. 이를 d2라고 부르겠습니다.
그러고나서 d3를 측정합니다
d4
d5와 d6
여기 우리가 측정한 6개의 모든 거리가 있습니다
그 다음으로 할 것은 그 값들을 모두 제곱하는 것입니다
거리가 제곱이 되면서 음수 값은 양수 값을 없애지 못합니다
그리고 이 거리 제곱값을 다 더하면 거리 제곱의 합이 됩니다
간단히 하면, 이를 SS 거리 또는 거리 제곱의 합으로 부르겠습니다
이제 선을 회전시키겠습니다
데이터를 그 선에 투영하고
투영된 선에서부터 원점까지의 거리 제곱을 다 더합니다

English: 
Note I'm going to keep track of the distance as we measure up here and
Then PCA measures the distance from this point to the origin. We'll call that D 2
Then it measures d3
d4
d5 and d6
Here are all six distances that we measured
The next thing we do is Square all of them
The distances are squared so that negative values don't cancel out positive values
Then we sum up all these squared distances and that equals the sum of the squared distances
For short. We'll call this SS distances or sum of squared distances
Now we rotate the line
project the data onto the line and
Then sum up the squared distances from the projected points to the origin

Korean: 
이 작업을 투영된 점과 원점 사이의 가장 큰 제곱합을 만들어내는 선을 만날때까지 반복합니다
궁극적으로 가장 큰 거리 제곱합을 만드는 선을 만나게 됩니다
이 선을 주요 성분 1 또는 짧게 말하면 PC1이라고 부릅니다
PC1은 0.25 만큼의 경사가 있습니다
다시 말하면 유전자 1 축을 따라서 4 단위마다 움직이면
유전자 2 축을 따라 1 단위만큼 올라가게 됩니다
이 말은 유전자 1 축을 따라서 대부분의 데이터가 분산되어있고
아주 적은 데이터가 유전자 2를 따라 분산되어 있다는 것입니다
PC1에 대해 생각하는 한가지 방법은 칵테일 레시피입니다

Chinese: 
然后重复，直到得到一条有着最大的投影点到原点距离平方和的线
最终，我们得到这条线，它有最大的平方和（距离）
此线叫做主成份1（或PC1）
PC1的斜率是
0.25
换句话说，我们沿着基因1轴每向外移动4个单位
我们沿着基因2轴上升一个单位
这意味着数据大部分沿着基因1轴分布
沿着基因2轴只扩散了一点点
一种理解PC1的方法是想象成鸡尾酒配方

English: 
And we repeat until we end up with the line with the largest sum of square
distances between the projected points and the origin
Ultimately we end up with this line it has the largest sum of squared distances
This line is called principal component one or PC one for short
PC one has a slope of
0.25 in
Other words for every four units that we go out along the gene 1 axis
We go up one unit along the gene to access
That means that the data are mostly spread out along the gene one axis and
Only a little bit spread out along the gene to access
One way to think about PC one is in terms of a cocktail recipe

Portuguese: 
E repetimos até terminar com a linha com a maior soma de quadrados
distâncias entre os pontos projetados e a origem
Por fim, acabamos com esta linha que possui a maior soma de distâncias ao quadrado
Essa linha é chamada componente principal um ou PC um para abreviar
PC um tem uma inclinação de
0.25 in
Por outras palavras, para cada quatro unidades que saímos ao longo do eixo do gene 1
Subimos uma unidade ao longo do gene para acessar
Isso significa que os dados são espalhados principalmente ao longo do eixo do gene e
Apenas um pouco se espalhou ao longo do gene para acessar
Uma maneira de pensar sobre o PC é em termos de uma receita de coquetel

Russian: 
и мы повторяем  это пока не остановимся
на линии с наибольшей суммой  квадратов расстояний.
между проецированными точками и началом координат
в итоге мы остановились на этой линии. С наибольшей СК(расстояний)
 
 
эта линия называется основной компонентой(PC1 для краткости)
 
PC1 имеет наклон 0.25
 
Другими словами
для каждых четырех единиц что мы откладываем по оси гена 1
мы откладываем одну единицу по оси гена 2
 
Это значит что данные сильнее распределены по
оси гена 1
и распределены совсем немного по оси
гена 1
Один из способов думать о PC1 как о
как о рецепте коктейля

Korean: 
PC1을 만들기 위해서
유전자 1의 4개 파트를 섞습니다
유전자 2의 1개 파트를 가지고요
얼음 위에 붓고 제공합니다!
유전자 1대 유전자 2의 비율은
데이터가 어떻게 분산되어 있는지 설명할 때 유전자 1이 더 중요하다는 것을 알려줍니다
오우 이런, 용어 경보에요
수학자들은 이런 칵테일 레시피를 유전자 1과 2의 선형 결합이라고 부릅니다
이걸 말하는 이유는 누군가가 PC1을 변수들의 선형 결합이라고 말하기 때문입니다
이게 그들이 말하는 것입니다
별 거 아니에요
PC1을 위한 레시피는 4만큼 움직이고 1만큼 올라가서 이 점까지 도달하는 것입니다

Portuguese: 
fazer um PC
misture quatro partes do gene um
com uma parte do gene para
Despeje sobre o gelo e sirva
A proporção do gene 1 - gene -
Informa que o gene 1 é mais importante quando se trata de descrever como os dados estão espalhados
Oh, nenhum alerta de terminologia
os matemáticos chamam essa receita de coquetel de uma combinação linear dos genes 1 e 2 I
mencione isso porque quando alguém diz que PC 1 é uma combinação linear de variáveis
É disso que eles estão falando
Não é grande coisa
A receita para um PC com mais de 4 anos e mais 1 nos leva a este ponto

English: 
to make PC one
mix four parts gene one
with one part gene to
Pour over ice and serve
The ratio of gene 1 - gene -
Tells you that gene 1 is more important when it comes to describing how the data are spread out
Oh, No terminology alert
mathematicians call this cocktail recipe a linear combination of genes 1 & 2 I
mention this because when someone says PC 1 is a linear combination of variables
This is what they're talking about
It's no big deal
The recipe for PC one going over 4 and up 1 gets us to this point

Chinese: 
为了制作PC1
混合4份的基因1
和1份基因2
倒入冰块上桌！
基因1对基因2的比例
告诉我们在描述数据如何分布时，基因1的影响更大
哦不！术语警告！
数学家将此鸡尾酒配方称为基因1和2的线性组合
提及这一点是因为当有人说PC1是变量们的线性组合时
它们是在讲这个
没啥大不了的
PC1的食谱走过4格、上移1格让我们来到这个点

Russian: 
чтобы сделать PC1 необходимо
смешать 4 единицы гена 1
с одной частью гена 2
добавить льда и подать!
отношение гена 1 к гену 2 говорит нам что ген 1
имеет большее значение, если мы описываем
распределение данных.
Осторожно термины!
Математики называют этот рецепт коктейля  :
"линейная комбинация" генов 1 и 2
 
я упоминаю это, потому что когда
говорит что "PC1 это линейная комбинация
переменных
это то, о чем они говорят.
рецепт для PC1, поместить 4 на оси и 2 сверху, дает нам
 
эту точку.
Мы можем посчитать длину
длину красной линии с помощью теоремы Пифагора.

English: 
We can solve for the length of the red line using the Pythagorean theorem the old a squared
equals B squared
plus C squared
Plugging in the numbers gives us a equals four point one two
So the length of the red line is four point one two
When you do pca with SVD the recipe for PC one is scaled so that this length equals one
All we have to do to scale the triangle so that the red line is one unit long is to divide each side by
four point one two
For those of you keeping score
Here's the math worked out that shows that all we need to do is divide all three sides by four point one two
Here are the scaled values
the new values change our recipe
But the ratio is the same we still use four times as much gene one as gene two

Russian: 
а в квадрате равно в в квадрате
и а в квадрате равно  в квадрате плюс с в квадрате
подставляя значения получаем
4.12
Итак, длина красной линии
4,12
когда вы выполняете PCA c CVD, рецепт для PC1
 
масштабируется так что длина равна 1
все что нам нужно сделать это масштабировать треугольник
так что красная линия это 1
и необходимо поделить какждую сторону на
4.12
Для тех которые вы продолжаете масштабировать, здесь
формула выводится чтобы показать
что все что нам нужно сделать, это поделить
все 3 стороны на 4.12
Здесь все значения масштабированы.
новые значения меняют наш рецепт
но соотношение одно
мы продолжаем использовать в 4 раза больше
значений гена 1 чем гена 2

Portuguese: 
Podemos resolver o comprimento da linha vermelha usando o teorema de Pitágoras, o antigo a ao quadrado
é igual a B ao quadrado
mais C ao quadrado
Ligar os números nos dá igual a quatro pontos um dois
Portanto, o comprimento da linha vermelha é de quatro pontos um dois
Quando você faz o pca com SVD, a receita para PC one é escalada para que esse comprimento seja igual a um
Tudo o que precisamos fazer para escalar o triângulo, de modo que a linha vermelha tenha uma unidade de comprimento, é dividir cada lado por
quatro ponto um dois
Para aqueles de vocês mantendo a pontuação
Aqui está a matemática elaborada que mostra que tudo o que precisamos fazer é dividir os três lados por quatro pontos um dois
Aqui estão os valores escalados
os novos valores mudam nossa receita
Mas a proporção é a mesma, ainda usamos quatro vezes mais o gene um do que o gene dois

Korean: 
우리는 빨간 선의 길이를 피타고라스 정리를 활용해서 구할 수 있습니다
오래된 내용이죠 ... a 제곱은 b 제곱 더하기 c 제곱입니다
숫자로 대입하면 a는 4.12로 계산됩니다
따라서 빨간 선의 길이는 4.12 가 됩니다
PCA를 SVD(특이값 분해)와 같이 할 경우 PC1을 위한 레시피는 조정되어서 길이가 1이 됩니다
우리가 해야하는 것은 삼각형을 조정해서 빨간 선을 1 단위로 만들고 4.12로 각각의 사이드를 나누는 것입니다
점수를 매기는 분들을 대상으로
수학적으로 계산하기 위해서 우리가 해야하는 것은 세 개의 사이드를 4.12로 전부 나누는 것입니다
이 값이 조정된 값들입니다
새로운 값은 우리의 레시피를 변화시킵니다
그러나 비율은 같은데요, 우리는 여전히 유전자 2의 4배만큼 유전자 1을 사용합니다

Chinese: 
我们可以使用勾股定理来求解红线的长度
古早的 a2=b2+c2
代入数字得到 a=4.12
所以红线的长度是4.12
当您用SVD算PCA时，PC1的配方被缩放，以使该长度等于1
要缩放三角形使得红线长度为1单位，我们要做的就是将每边除以4.12
对于那些深究的人
这是计算出的数学结果，它表明我们需要做的就是将所有三个边除以4.12
这是换算值
新的数值改变了我们的配方
但是比率是相同的，我们用的基因1仍然是基因2的四倍

English: 
So now we are back to looking at the data
the best fitting line and the unit vector that we just calculated oh
No another terminology alert this one unit long vector
consisting of
0.97 parts gene one and
0.24 two parts gene two is called the singular vector or the eigenvector for PC one and
the proportions of each gene are called loading scores
Also while I'm at it
pca calls the sums of squares of the distances
for the best fit line the eigenvalue for pc 1
In the square root of the eigenvalue for pc. One is called the singular value for PC one
BAM that's a lot of terminology

Portuguese: 
Então agora voltamos a olhar para os dados
a melhor linha de ajuste e o vetor unitário que acabamos de calcular oh
Nenhuma outra terminologia alerta esse vetor de uma unidade
consiste em
0,97 partes do gene um e
0,24 duas partes do gene dois é chamado vetor singular ou vetor próprio para PC um e
as proporções de cada gene são chamadas de pontuação de carregamento
Também enquanto estou nisso
pca chama a soma dos quadrados das distâncias
para a melhor linha de ajuste, o valor próprio para pc 1
Na raiz quadrada do valor próprio para pc. Um é chamado de valor singular para PC one
BAM que é muita terminologia

Korean: 
이제 다시 한 번 데이터를 보겠습니다
데이터, 가장 적합한 선, 우리가 방금 계산한 단위 벡터
오우 이런, 또다른 용어 경보에요!!! 이 1 단위 벡터는
유전자 1의 0.97 파트와
유전자 2의 0.242 파트로 구성되어 있고, 이는 PC1을 위한 단일 벡터 또는 고유 벡터입니다
각각의 유전자 비율은 적재 점수라고 불립니다
또한 그것을 하는 동안
PCA는 가장 잘 맞는 선에 대한 거리 제곱합 SS를
PC1을 위한 고유 벡터라고 부릅니다
PC1 고유벡터의 제곱 루트는 PC1을 위한 특이값이라고 불립니다
빼앰!!! 많은 용어가 있네요

Chinese: 
所以现在我们回看数据、
最佳拟合线和我们刚刚计算出的单位向量
哦不！又是一个术语警告！这个单位长的向量
（由0.97个基因1和0.24个基因2组成）
被称为PC1的奇异向量或特征向量
每个基因的比例称为载荷得分
同时
pca把最佳拟合线距离的平方和成为
PC1的特征值
而pc1特征值的平方根称为PC1的奇异值
BAM！！！好多术语！！！

Russian: 
теперь вернемся и посмотрим на данные
линию наилучшего соответствия
и вектор который мы только что вычислили
О нет! Терминологическое предупреждение!
этот длинный вектор из 1 единицы
состоит из 0.97 частей гена 1 и 0.242 частей
гена 2
он называется сингулярный вектор
или "собственный вектор" для PC1
и пропорции для каждого вектора называются "отметки загрузки"
 
Так же, раз уж об этом зашел разговор, PCA
называет сумму квадратов расстояний для линии с лучшим
соответствием- собственным значением для PC1
СК(расстояний для PC1) =собственное значение PC1
а квадратный корень от PC1  =
сингулярное значение для PC1
 
БАМ! как много терминологии
теперь, когда все наши PC1 вычисленны

English: 
Now that we've got pc1 all figured out, let's work on PC to
Because this is only a two-dimensional graph
PC 2 is simply the line through the origin that is perpendicular to PC 1 without any further
optimization that has to be done
And this means that the recipe for PC 2 is negative 1 parts gene 1 to 4 parts. Gene 2
If we scale everything so that we get a unit vector the recipe is
negative zero point two for two parts gene one and zero point nine seven parts gene -
this is the singular vector for PC - or the eigenvector for PC -
These are the loading scores for PC to
they tell us that in terms of how the values are projected onto PC -
Gene - is four times as important as gene one

Korean: 
이제 우리가 PC1에 대해 모두 알아냈으니 이제 PC2에 대해 알아보겠습니다
왜냐면 이게 단지 2차원 그래프이기 때문에
PC2는 단순히 원점을 통과해서 PC1과 직교하는데
그 어떠한 최적화 작업도 필요 없습니다
이 말은 PC2를 위한 레시피가 유전자 1의 -1 파트 대비 유전자 2의 4파트라는 것입니다
모든 것을 조정해서 단위 벡터를 얻는다면 그 레시피는
유전자 1의 -0.242 파트와 유전자 2의 0.97 파트이고
이는 PC2를 위한 단일 벡터 또는 고유 벡터입니다
그리고 이 값들은 PC2를 위한 적재 점수입니다
이는 이 값들이 어떻게 PC2에 투영되어서
유전자 2가 유전자 1의 4배만큼 중요한지를 보여줍니다

Chinese: 
现在我们已经弄清楚了PC1，换PC2了！！！
因为这只是一个二维图
PC2就是一条通过原点的线，垂直于PC1，没有更多需要做的优化了
这意味着PC2的配方为-1份基因1兑上4份基因2
如果我们缩放它们来获得单位向量，则配方为
-0.242份基因1和0.97份基因2
这是PC2的奇异向量或PC2的特征向量
这些是PC2的载荷得分
这告诉我们，关于这些值怎么投影到PC2这一点上
基因2的影响程度是基因1的4倍

Russian: 
давайте поработаем с  PC2,
поскольку это только 2D график
PC2  всего лишь линия проходящая через начало координат
перпендикулярно линии PC1
без какой-либо бушующей оптимизации, которая должна быть сделана.
это значит что рецепт PC2 это
минус 1  часть гена 1
и 4 части гена 2
если мы масштабируем все, то получим единичный вектор
рецепт состоит -0.242 части гена 1.
и 0.97 частей гена 2
 
это сингулярный вектор для PC2 или
или Собственный вектор  для PC2
Это загрузочные отметки для PCA2
Они говорят нам что, в понимании того как значения
проецированы в PC2,  ген 2 в 4 раза
значительнее гена 1
 

Portuguese: 
Agora que descobrimos o pc1, vamos trabalhar no PC para
Porque este é apenas um gráfico bidimensional
PC 2 é simplesmente a linha através da origem que é perpendicular ao PC 1 sem mais
otimização que precisa ser feita
E isso significa que a receita para PC 2 é negativa em 1 parte do gene 1 em 4 partes. Gene 2
Se escalarmos tudo para obtermos um vetor unitário, a receita será
ponto zero negativo dois para duas partes do gene um e ponto zero nove sete partes do gene -
este é o vetor singular para PC - ou o vetor próprio para PC -
Essas são as pontuações de carregamento do PC para
eles nos dizem que em termos de como os valores são projetados no PC -
Gene - é quatro vezes mais importante que o gene um

Russian: 
Далее, собственное значение для PC2 это сумма квадратов
расстояний расстояний
между проецированными точками и началом координат.
Хоорай! мы вывели PC1 и PC2!!!
 
нарисовав финальный PCA плот..
мы просто поворачиваем все пока
PC1 не станет горизонтально.
итак, мы используем проекции точек чтобы
чтобы найти где образцы заходят на PCA график.
например, эта проецированная точка
соответствует образцу 6.
значит образец 6 идет сюда
образец 2 идет сюда.
и образец 1 сюда.
т.е.
Двойной БАМ!!!
Это как сделать PCA, используя сингулярное разложение(SVD)
Окей - последняя вещь, пока мы не нырнули

Chinese: 
最后，pc2的特征值，是投影点与原点之间的距离的平方和
我们已经得到了PC1和PC2
要绘制最终的PCA图，我们只需旋转所有内容，使PC1呈水平状态
然后我们用投影点来定位PCA图中的样本位置
例如，这些投影点对应了样本6
所以样本6在这里
样本2在这
样本1去了这里 等等
Double bam！！！这就是如何用SVD得到PCA的方式

English: 
Lastly the eigenvalue for pc. - is the sum of squares of the distances between the projected points and the origin
Hooray we've worked out pc1 & pc2
To draw the final PCA plot we simply rotate everything so that PC one is horizontal
Then we use the projected points to find where the samples go in the PCA plot
For example these projected points correspond a sample six
So sample six goes here
sample two goes here and
Sample one goes here etc
Double bam that's how PCA is done using singular value decomposition

Portuguese: 
Por fim, o valor próprio para pc. - é a soma dos quadrados das distâncias entre os pontos projetados e a origem
Hooray nós trabalhamos pc1 e pc2
Para desenhar o gráfico PCA final, simplesmente giramos tudo para que o PC 1 esteja na horizontal
Em seguida, usamos os pontos projetados para descobrir onde as amostras vão no gráfico PCA
Por exemplo, esses pontos projetados correspondem a uma amostra de seis
Então a amostra seis vai aqui
amostra dois vai aqui e
Amostra um vai aqui etc
Double bam é assim que o PCA é feito usando decomposição de valor singular

Korean: 
마지막으로 PC2를 위한 고유 벡터는 투영된 점들과 원점 사이의 거리 제곱합입니다
야호 우리는 PC1과 PC2에 대해 알아보았습니다
마지막 PCA 플롯을 그리기 위해서 모든 것을 회전시킬 껀데요 그렇게 해서 PC1이 수평이 되게 할 겁니다
그러고나서 PCA 플롯에서 샘플이 어디에 있는지 찾기 위해 투영된 점들을 사용할 것입니다
예를 들어 이렇게 투영된 점들은 샘플 6과 일치합니다
그래서 샘플 6이 여기로 가는 거죠
샘플 2는 여기로 갑니다 그리고
샘플 1은 여기로 갑니다
더블 빼앰!!! 이게 PCA가 특이값 분해를 사용해서 동작하는 방식입니다

Russian: 
в несколько более сложный пример.
Помните собственные значения?
мы получали их проецируя данные
на основную компоненту.
измеряя расстояния до начала координат
возводя в квадрат и складывая их
вместе.
Мы можем конвертировать их  в вариабельность
вокруг начала координат, поделив на размер образца -1
Для
этого примера вообразите что
что вариация для PC1 = 15, и
и вариация для PC2 = 3
это значит что общая вариация обоих PC
равна 15 +3 = 18
 
Это значит что PC1 соответствует
15/18 = 83% от общей
вариации вокруг PC
 
PC2 соответствует 3/18 =0.17 = 17%

English: 
Okay one last thing before we dive into a slightly more complicated example
Remember the eigenvalues
We got those by projecting the data onto the principal components
Measuring the distances to the origin then squaring and adding them together
We can convert them into variation around the origin by dividing by the sample size minus one
for the sake of this example
imagine that the variation for pc1 equals 15 and the variation for pc2 equals 3
that means that the total variation around both pcs is 15 plus 3 equals 18 and
That means PC 1 accounts for 15 divided by 18
equals zero point 8 3 or 83 percent of the total variation around the PCs

Chinese: 
好 在我们深入探讨一个较复杂的示例之前，还有最后一件事
还记得特征值吗？
我们通过把数据投影到主成分上来获得
测量到原点的距离，然后开平方并加总
我们可以通过将它除以（样本量-1）来转换成围绕原点的差异
为了这个例子
假设PC1的差异等于15，PC2的差异等于3
这意味着两个PC的总差异是15加3等于18
这意味着PC1占15除以18=0.83
或者PC上总差异的83％

Korean: 
좋아요 우리가 좀 더 복잡한 예시로 들어가기 전에 마지막 한가지는
고유값 기억나시나요?
우리는 데이터를 주요 성분에 투영하여 고유값을 얻을 수 있는데요
원점으로부터의 거리를 측정하고나서 제곱한 후 그 값을 다 더합니다
그 값을 샘플 사이즈 - 1한 값으로 나눠서 원점 주위의 분산도로 변환합니다
이 예시를 위해
PC1의 분산도가 15이고 PC2의 분산도가 3이라고 가정해보겠습니다
이 말은 PC들에 대한 전체 분산도가 15 + 3 = 18이라는 것이고
이 의미는 PC1이 15를 18로 나눈 만큼
PC들을 둘러싼 전체 분산도에서 0.83 또는 83%를 차지한다는 것입니다

Portuguese: 
Ok, uma última coisa antes de mergulharmos em um exemplo um pouco mais complicado
Lembre-se dos valores próprios
Nós conseguimos isso projetando os dados nos principais componentes
Medindo as distâncias até a origem, quadrando e juntando-as
Podemos convertê-los em variação em torno da origem, dividindo pelo tamanho da amostra menos um
pelo bem deste exemplo
imagine que a variação para pc1 é igual a 15 e a variação para pc2 é igual a 3
isso significa que a variação total em torno de ambos os pcs é 15 mais 3 é igual a 18 e
Isso significa que o PC 1 representa 15 dividido por 18
é igual a ponto zero 8 3 ou 83 por cento da variação total ao redor dos PCs

English: 
Pc2 accounts for 3/18 equals 17% of the total variation around the PCs oh
no another terminology alert a scree plot is a graphical representation of the percentages of
variation that each PC accounts for
We'll talk more about scree plot Slater
BAM
Okay now let's quickly go through a slightly more complicated example
PC a with three variables in this case that means three genes is pretty much the same as two variables
You Center the data?
You then find the best fitting line that goes through the origin
Just like before the best fitting line is PC one
But the recipe for pc1 now has three ingredients in

Portuguese: 
Pc2 é responsável por 3/18 igual a 17% da variação total em torno dos PCs oh
nenhuma outra terminologia alerta um scree plot é uma representação gráfica das porcentagens de
variação que cada PC representa
Falaremos mais sobre Scater plot Slater
BAM
Ok, agora vamos rapidamente passar por um exemplo um pouco mais complicado
PC a com três variáveis, neste caso, que significa três genes é praticamente o mesmo que duas variáveis
Você centraliza os dados?
Você encontra a melhor linha de ajuste que passa pela origem
Assim como antes, a melhor linha de encaixe é o PC one
Mas a receita para pc1 agora tem três ingredientes em

Korean: 
PC2는 전체 분산도에서 3/18 즉 17% 만큼을 차지합니다
오우 이런 또다른 용어 경보입니다. 스크리 플롯은 각각의 PC가 차지하는 분산도의 %를 나타냅니다
스크리 플롯에 대해서는 다음에 좀 더 얘기해보도록 하겠습니다
빼앰!!!
좋습니다 이제 약간 더 복잡한 예시를 보도록 하겠습니다
세 개의 변수를 가진 PCA의 경우 즉, 세 개의 유전자는 2개의 유전자의 경우와 꽤 비슷합니다
데이터를 중심에 두겠습니다
여러분은 원점을 통과하는 최적의 선을 찾습니다
최적의 선이 PC1이 되기 전과 마찬가지로요
그러나 PC1을 위한 레시피는 이제 3개의 재료를 가지고 있는데요

Russian: 
 
общей вариации вокруг PC
 
О нет! опять терминологическое предупреждение!!!
график собственных значений
это график, представляющий процент вариации
с которым соотносится каждый из PC
Мы поговорим больше о графике собственных значений позже.
БАМ!
Отлично - Теперь давайте быстро
пройдем сквозь немного более сложный пример
PCA с тремя переменными( в этом случае,
имеются ввиду четыре гена)
очень близко к ситуации с двумя переменными..
вы центрируете данные..
находите линию с лучшим соответствием
проходящую через начало координат..
Так же как и прежде
линия наилучшего соответствия  - 
 PC1
но рецепт для PC1 включает три ингредиента
 

Chinese: 
PC2占3/18（=17%）PC总差异的17％
哦不！又一个术语警告！！！！！碎石图是一种图像呈现方式，用来描绘
每个PC所占的差异率
我们以后再讨论碎石图
BAM！！！
好的，现在让我们快速过一个稍微有点复杂的例子
3个变量的PCA（也就是3个基因）和2个变量的例子差不多
你把数据居中
然后你找到贯穿原点的最佳拟合线
和之前一样，最佳的拟合线是PC1
但是现在PC1的配方包含三种成分了

Korean: 
이 경우 유전자 3은 PC1을 위한 가장 중요한 재료가 됩니다
여러분은 PC2를 그 다음 최적의 선이라고 볼 수 있습니다
왜냐면 PC2가 원점을 통과하고 PC1에 직교하기 대문입니다
PC2를 위한 레시피입니다
이 경우, 유전자 1은 PC2를 위한 가장 중요한 재료입니다
마지막으로 우리가 찾아낸 것은
PC3라는 최적의 선은 원점을 통과하고 PC1과 PC2와 직교한다는 것입니다
만약 우리가 더 많은 유전자를 가지고 있다면, 우리는 더욱더 많은 주요 성분을 찾아야 하는데요
수직선들을 추가하고 그 선을 회전시키면서 말입니다
 
이론적으로, 유전자 또는 변수마다 하나씩 존재하지만 실제로는 PC의 수는 변수의 수이거나 또는
표본의 수인데 어느 것이든 더 작은 쪽입니다
만약 헷갈린다면 너무 신경쓰지 않으셔도 됩니다

English: 
This case Jean 3 is the most important ingredient for pc1
You then find pc2 the next best fitting line
Given that it goes through the origin and is perpendicular to PC one
Here's the recipe for pc2
In this case gene one is the most important ingredient for PC to
Lastly we find
PC three the best fitting line that goes through the origin and is perpendicular pc1 & pc2
If we had more genes we just keep on finding more and more principal components by adding
perpendicular lines and rotating them
in
theory, there is one per gene or variable but in practice the number of PCs is either the number of variables or
the number of samples whichever is smaller
If this is confusing don't sweat it

Russian: 
в  этом случае ген 3 - наиболле
важный ингредиент для  PC1
затем вы находите PC2,
линия наилучшего соответствия проходит через начало координат
и перпендикулярна PC1
это рецепт для PC2
в этом случае ген 1
важнейший ингредиент для PC2.
наконец, мы находим PC3 , линию
наилучшего соответствия, которая проходит через начало координат
и перпендикулярна  PC1 и PC2
Если бы у нас было больше генов
мы бы просто продолжили  находить все больше
главных компонент, добавляя перпендикулярные линии и поворачивая их
Теоретически, должна быть одна для каждого гена(или переменной)
но на практике, количество PC это в равной степени
количество переменных или образцов
в любом случае меньше.

Chinese: 
这个例子中，基因3是对PC1影响最大的成分
然后你找到PC2，第二拟合线，它穿过原点且和PC1垂直
这是PC2的配方
在这里，基因1是PC2最主要的成分
最后我们找到PC3
穿过原点并垂直于PC1和PC2的最佳拟合线
如果我们有更多的基因，我们就继续找更多越多的主成分
通过添加垂直线并旋转它们
理论上，每个基因或变量有一个PC，但实际上PC的数量要么是变量的个数，要么是
样本数，谁小选谁
如果你感到困惑，别担心

Portuguese: 
Neste caso, Jean 3 é o ingrediente mais importante para o pc1
Em seguida, você encontra o pc2 a próxima linha de melhor ajuste
Dado que ele passa pela origem e é perpendicular ao PC,
Aqui está a receita para pc2
Nesse caso, o gene um é o ingrediente mais importante para o PC
Por fim, encontramos
PC três a melhor linha de ajuste que atravessa a origem e é perpendicular pc1 e pc2
Se tivéssemos mais genes, continuamos encontrando mais e mais componentes principais adicionando
linhas perpendiculares e girando-as
dentro
teoria, existe um por gene ou variável, mas na prática o número de PCs é o número de variáveis ​​ou
o número de amostras, o que for menor
Se isso é confuso, não se preocupe

Portuguese: 
Não é super importante, e eu vou fazer um vídeo separado sobre esse tópico na próxima semana
Depois de descobrir todos os principais componentes, você pode usar os autovalores, ou seja, a soma dos quadrados das distâncias
para determinar a proporção de variação que cada PC representa em
Nesse caso, o PC one é responsável por 79% da variação
PC é responsável por quinze por cento da variação e
PC três representa seis por cento da variação
Aqui está o scree plot
Pc1 e pc2 representam a grande maioria da variação
Isso significa que um gráfico 2D usando apenas pc1 e pc2
Seria uma boa aproximação deste gráfico 3d, pois seria responsável por
94% da variação nos dados

Chinese: 
这没有非常重要，而且下周我会针对这个主题做一个单独视频
一旦确定了所有主成分，你就可以用特征值，即距离的平方和
确定每个PC占的差异率
在这里，PC1占了79％的差异
PC2占了差异化的15％
PC3占了差异的6％
这是碎石图
PC1和PC2占了绝大多数差异
这意味着仅使用PC1和PC2的2d图形
可以很好地近似化这个3d图形，因为它可以解释
数据差异的94％

Korean: 
엄청 중요한 것은 아니지만 이 주제를 가지고 다음주에 별도의 영상을 만들려고 합니다
모든 주요 성분을 파악하고 나면 고유 벡터, 다시 말하면 SS 거리 제곱 합을
각각의 PC가 차지하는 분산도의 비율을 결정하는 데  사용할 수 있습니다
이 경우 PC1은 분산도의 79%를 차지하고
PC2는 분산도의 15%를 차지하며
PC3는 분산도의 6%를 차지합니다
여기 스크리 플롯이 있습니다
PC1과 PC2는 분산도의 대부분을 차지합니다
이는 2차원 그래프가 PC1과 PC2를 사용한다는 것을 의미하고
3차원과 근사하다고 볼 수 있는데요
왜냐면 데이터 분산도의 94%를 설명해주기 때문입니다

Russian: 
не волнуйтесь, если вас это смущает.
это не очень важно и я хочу сделать
отдельное видео на эту тему на следующей неделе
В итоге, когда все главные компоненты вычислены
вы можете использовать собственные значения(т.е.
СК(расстояний)) чтобы определить
пропорции, которым соответствует каждый PC
в общей вариации.
в этом случае, PC1 соответствует 79% вариации.
 
PC2 соответствует 15% вариации
и PC3 соответствует
6%
вариации
это график собственных значений
PC1 и PC2 соответствуют абсолютному
большинству вариации.
Это значит, что 2-D график,  построенный используя только
PC1 и PC2
будет очень близок  к этому 3-D графику
так как он будет соответствовать 94 %
вариации данных.

English: 
It's not super important, and I'm going to make a separate video on this topic in the next week
Once you have all the principal components figured out you can use the eigenvalues ie the sums of squares of the distances
to determine the proportion of variation that each PC accounts for in
This case PC one accounts for 79 percent of the variation
PC to accounts for fifteen percent of the variation and
PC three accounts for six percent of the variation
Here's the scree plot
Pc1 & pc2 account for the vast majority of the variation
That means that a 2d graph using just pc1 & pc2
Would be a good approximation of this 3d graph since it would account for
94% of the variation in the data

Chinese: 
将3d图转换为二维的PCA图
我们就除掉所有东西，除了数据和PC1＆PC2
然后将样本投影到PC1
和PC2
然后旋转，使PC1呈水平，而PC2则垂直，（视觉上更易读）
这些投影点对应样本4
这是我们的新PCA图上的样本4的位置
等等等等等等
双倍bam!!!
回顾一下，我们从一个难读尴尬的3d图形开始
然后我们计算出主成分
然后，用PC1和PC2的特征值

English: 
To convert the 3d graph into a two-dimensional PCA graph
We just strip away everything, but the data and pc1 & pc2
Then project the samples onto pc1 &
Pc2
Then we rotate so that PC one is horizontal in PC two is vertical this just makes it easier to look at
Since these projected points correspond a sample for
This is where sample four goes on our new PCA plot
Etc etc etc
Double bail
To review we started with an awkward 3d graph that was kind of hard to read
Then we calculated the principal components
then with the eigenvalues for pc1 & pc2

Korean: 
3차원 그래프를 2차원 PCA 그래프로 변환하기 위해서
우리는 데이터, PC1, PC2를 제외한 모든 것을 걷어내지만
샘플을 PC1과
PC2에 투영합니다
그러고나서 회전시켜서 PC1은 수평이고 PC2는 수직이 되게 만듭니다 (이렇게 하는 게 보기 쉽습니다)
이 투영된 점들이 샘플 4와 일치하기 때문에
샘플 4가 새로운 PCA 플롯으로 가는 것입니다
기타 등등 기타 등등 기타 등등
더블 빼엠
리뷰하기 위해 읽기 어려웠던 어색한 3D 그래프로 시작해보았습니다
그러고나서 우리는 주요 성분을 계산했습니다

Russian: 
чтобы конвертировать 3D -график в 2-D PCA график ,
мы просто снимаем все кроме данных
PC1 и PC2
 
Когда проецируем образцы на PC1
и PC2
Мы поворачиваем график так чтобы
PC1 стало горизонтальной линией
а PC2 вертикальной (это просто чтобы сделать график удобней для восприятия)
Так как эти проекции почек соотносятся к образцу 4
 
Теперь это образец номер 4,  размещенный
на нашем новом графике PCA.
и т.д.
и т.д.
ДВОЙНОЙ БАМ!!!
Подведем итог,  мы начали с неудобного 3-D графика
который неудобно интерпретировать
когда мы посчитали главные компоненты..
то, с собственными значениями PC1,

Portuguese: 
Para converter o gráfico 3d em um gráfico PCA bidimensional
Nós apenas tiramos tudo, mas os dados e pc1 e pc2
Em seguida, projete as amostras em pc1 e
Pc2
Em seguida, giramos para que o PC um fique na horizontal e o PC dois fique na vertical, o que facilita a visualização
Como esses pontos projetados correspondem a uma amostra para
É aqui que a amostra quatro vai para o nosso novo gráfico PCA
Etc etc etc
Dupla fiança
Para revisar, começamos com um gráfico 3D estranho que era meio difícil de ler
Depois calculamos os principais componentes
depois com os valores próprios para pc1 e pc2

Korean: 
PC1과 PC2의 고유값과 함께 2D 그래프가 여전히 많은 정보를 가진 것을 알 수 있습니다
마지막으로 PC1과 PC2를 2차원 그래프를 그리는데에 사용했습니다
만약 우리가 쥐 별로 유전자를 측정한다면 4차원 그래프를 그릴 수 없을 것입니다
그러나 PCA를 계산하는 것은 못할 일이 아닙니다(그림을 기를 수 있냐 아니냐는 중요하지 않습니다) 스크리 플롯을 보면요
이 경우 PC1과 PC2는 분산도의 90%를 차지하기 때문에 2차원 PCA 그래프를 그리는데 그것을 사용할 수 있습니다
샘플을 첫 2개의 PC에 투영할 것입니다
이 두 개의 투영된 점들은 샘플 2와 일치합니다
그래서 샘플 2는 여기에 있습니다
빼앰

Chinese: 
我们发现2D图已经可以展示得够全面了
最后，我们PC1和PC2绘制涵盖数据的二维图
如果我们对每只小鼠测量4个基因，我们无法绘制数据的四维图
:(
但这并不能阻止我们做PCA数学题
（它才不管我们能不能画出图形）和查看碎石图
在这里
PC1和PC2占了90％的差异，因此我们可以仅用它们绘制二维PCA图
所以我们将样本投影到前两个PC上
这两个投影点对应于样本2
所以样本2去了这
BAM

Portuguese: 
Determinamos que um gráfico 2D ainda seria muito informativo
Por fim, usamos pc1 e pc2 para desenhar um gráfico bidimensional com os dados
Se medíssemos jeans por mouse, não poderíamos desenhar um gráfico quadridimensional dos dados
parede
Mas isso não nos impede de fazer a matemática do pca
O que não importa se podemos desenhar uma imagem dela ou não e olhar para a tela?
este caso
Pc1 e pc2 representam 90% da variação, então podemos usá-los apenas para desenhar um gráfico de pca bidimensional
Então projetamos as amostras nos dois primeiros pcs
Esses dois pontos projetados correspondem à amostra dois
Então a amostra dois vai aqui
BAM

English: 
We determined that a 2d graph would still be very informative
Lastly we used pc1 & pc2 to draw two dimensional graph with the data
If we measured for jeans per mouse we would not be able to draw a four dimensional graph of the data
wall
But that doesn't stop us from doing the pca math
Which doesn't care if we can draw a picture of it or not and looking at the screen in?
this case
Pc1 & pc2 account for 90% of the variation so we can just use those to draw two dimensional pca graph
So we project the samples onto the first two pcs
These two projected points correspond to sample two
So sample two goes here
BAM

Russian: 
мы определили  что 2-D график может быть не менее
очень информативным.
после,  мы использовали PC1 и PC2
чтобы построить двухмерный график с нашими данными
Если мы измерим 4 гена для каждой мыши,
мы не сможем построить 4-х  мерный график
с этими данными.
Оу -оу
но это не сможет помешать нам вычислить PCA,
которому не важно, есть рисунок или нет
и посмотрим на график собственных значений
в этом графике PC1 и PC2 соответствуют 90% вариации,
 
поэтому мы можем просто использовать их
чтобы построить 2-х мерный график PCA.
Итак, мы строим точки на двух первых PC
 
эти две проекции точек, соответствуют образцу 2
значит образец 2 находится здесь.
БАМ!!!

Russian: 
Запомните, если график собственных значений выглядит так
то PC3 и PC4 соответствуют существенному проценту
вариации,
в этом случае простое использование  первых двух PC
не даст достаточно точного
представления данных
ОУ - оу
Тем не менее, график PCA даже  с "шумом" как здесь,
может быть использован для определения кластеров данных
Эти образцы остаются ближе друг к другу
чем к  другим образцам
Небольшой ВАМ!!!
Хорей!
если вам понравился StatQUest
и вы хотите видеть больше, пожалуйста подписывайтесь
Если вы хотите поддержать СтатКвест.
Пожалуйста купите одну или две из моих собственных песен
для этого в нижней правой части экрана жмите на иконку .
 
Отлично, до скорого, квест продолжается.

Portuguese: 
Observe se o scree plot se parecia com este, onde o PC 3 e o PC quatro representam um substancial
Quantidade de variação, em seguida, apenas usando os dois primeiros pcs não criaria uma precisão muito
representação dos dados
Wha-wha
No entanto, mesmo um gráfico PCA barulhento como esse pode ser usado para identificar agrupamentos de dados
Essas amostras ainda são mais semelhantes entre si do que com as outras amostras
Little bam
Hooray, chegamos ao final de outra emocionante missão de estatísticas, se você gostou dessa missão e deseja ver mais, inscreva-se
E se você deseja apoiar a busca por pilha, considere comprar uma ou duas das minhas músicas originais
O link para minha página do Bandcamp está no canto inferior direito e na descrição abaixo
tudo bem até a próxima vez busca em

Chinese: 
请注意，如果碎石图看起来像这样，其中PC3和PC4占差异相当大的比例
那么仅使用前两个PC不能很精确地代表我们的数据
:(
但是，即使像这样的不清晰的PCA图也可以用来识别数据团
这些样本彼此之间的相似性仍然高于其他样本
小小的BAM！！！
Hooray 我们讲完又一个令人兴奋的StatQuest。如果你喜欢这个StatQuest，并且想要看更多内容，请订阅！
如果您想支持StatQuest，请考虑买一两首我的原创歌曲
指向我Bandcamp页面的链接在右下角，也在下面的描述框里
好了我们下期见

Korean: 
만약 스크리 플롯에서 PC3와 PC4가 상당한 분산도를 차지하게 된다면
처음 2개의 PC를 사용하는 것이 데이터를 정확하게 대표하지는 않게 됩니다
그러나 이런 노이즈가 있는 PCA 플롯도 데이터 군집을 식별하는데 사용될 수 있습니다
이 샘플들은 다른 샘플들보다 여전히 서로 더 비슷합니다
작은 빼엠
야호 우리가 흥미로운 StatQuest 하나를 끝냈습니다. 이번 StackQuest가 좋고 앞으로 더 많은 영상을 보고 싶으시다면 구독해주세요
만약 StackQuest를 서포트하고 싶으시다면 제 노래 한 두곡을 구매하는 것을 생각해주세요
제 밴드캠프 링크는 오른쪽 하단에 있고 설명은 아래에 있습니다
다음번 퀘스트에서 만나요

English: 
Note if the scree plot looked like this where PC 3 and PC four account for a substantial
Amount of variation then just using the first two pcs would not create a very accurate
representation of the data
Wha-wha
However even a noisy PCA plot like this can be used to identify clusters of data
These samples are still more similar to each other than they are to the other samples
Little bam
Hooray we've made it to the end of another exciting stat quest if you liked this stack quest and want to see more please subscribe
And if you want to support stack quest please consider buying one or two of my original songs
The link to my Bandcamp page is in the lower right corner and in the description below
alright until next time quest on
