
English: 
Hi, I’m Carrie Anne, and welcome to Crash
Course Computer Science!
Today, let’s start by thinking about how
important vision can be.
Most people rely on it to prepare food, walk
around obstacles, read street signs, watch
videos like this, and do hundreds of other
tasks.
Vision is the highest bandwidth sense, and
it provides a firehose of information about
the state of the world and how to act on it.
For this reason, computer scientists have
been trying to give computers vision for half
a century, birthing the sub-field of computer
vision.
Its goal is to give computers the ability
to extract high-level understanding from digital
images and videos.
As everyone with a digital camera or smartphone
knows, computers are already really good at
capturing photos with incredible fidelity
and detail – much better than humans in fact.
But as computer vision professor Fei-Fei Li
recently said, “Just like to hear is the
not the same as to listen.
To take pictures is not the same as to see.”

Korean: 
안녕하세요, 저는 Carrie Anne입니다. 
컴퓨터 과학 특강에 오신 것을 환영합니다!
오늘날, 시각이 얼마나 중요한지 생각해 보면서
시작해 봅시다.
대부분의 사람들은 시각에 의존하여 음식을 준비하고, 
장애물을 피해 가고, 거리 표지판을 읽고
이와 같은 동영상을 보며, 이외에 
다른 수백가지 일을 합니다.
비전은 가장 높은 대역폭 감각이며, 세계의 상태에 대한
정보의 Firehose와 이에 대처하는 방법을 제공합니다.
비전은 가장 높은 대역폭 감각이며, 세계의 상태에 대한
정보의 Firehose와 이에 대처하는 방법을 제공합니다.
이러한 이유로, 컴퓨터 과학자들은 반 세기동안
컴퓨터에게 시각을 부여하기 위해 노력해 왔으며,
컴퓨터 비전이라는 하위 분야를 탄생시켰습니다.
그 목표는 컴퓨터가 디지털 이미지 및 비디오로부터
높은 수준의 이해를 추출하는 능력을 주는 것입니다.
그 목표는 컴퓨터가 디지털 이미지 및 비디오로부터
높은 수준의 이해를 추출하는 능력을 주는 것입니다.
디지털 카메라 또는 스마트 폰을 사용하는 
모든 사람들이 잘 알고 있듯이,
컴퓨터는 이미 놀라운 정확성과 세부 묘사로 사진을
찍는 데 능숙합니다. 사실 인간보다 훨씬 낫습니다.
그러나 컴퓨터 비전 교수인 Fei-Fei Li는 최근에 "듣는 것은 귀 기울이는 것과는 같지 않듯,
그러나 컴퓨터 비전 교수인 Fei-Fei Li는 최근에 "듣는 것은 귀 기울이는 것과는 같지 않듯,
사진을 찍는 것은 보는 것과 같지 않습니다. "
라고 말했습니다.

Korean: 
 
복습을 해 보면, 컴퓨터의 이미지는 대부분
큰 픽셀의 배열로 저장됩니다.
각 픽셀은 색상으로 정의되며 빨강, 녹색, 파랑 이 세 가지
기본 원색의 조합으로 저장됩니다.
각 픽셀은 색상으로 정의되며 빨강, 녹색, 파랑 이 세 가지
기본 원색의 조합으로 저장됩니다.
이들의 다양한 강도를 결합함으로써
세 가지 색상, RGB 값이라고 하는 것으로
어떤 색깔이라도 표현할 수 있습니다.
아마도 가장 간단한 컴퓨터 비전 알고리즘의 좋은 출발점은
핑크색 볼과 같은 색상의 물체를 추적하는 것입니다.
우리가 해야 할 첫 번째 일은
공의 색깔을 기록하는 것 입니다.
이를 위해 한가운데에 있는 픽셀의 RGB 값을 사용합니다.
이 값을 저장하면 컴퓨터 프로그램에 이미지를 주고,
가장 가깝게 일치되는 색의 픽셀을 찾도록 요청합니다.
이 값을 저장하면 컴퓨터 프로그램에 이미지를 주고,
가장 가깝게 일치되는 색의 픽셀을 찾도록 요청합니다.
이와 같은 알고리즘은 오른쪽 상단에서 시작하여
한번에 하나씩 각 픽셀을 확인하고,
우리의 목표 색과의 차이를 계산합니다.
자, 모든 픽셀을 보았을 때 가장 좋은 일치는
우리 공의 픽셀일 가능성이 큽니다.
우리는 이 알고리즘을 하나의 사진으로 
실행하는 것에 국한되지 않습니다.
비디오의 모든 프레임을 추적하여 할 수 있으며
시간의 경과에 따라 볼을 추적할 수 있습니다.
물론 조명, 그림자 및 기타 효과의 변화로 인해 확실히
필드의 공은 우리의 목표 색의 RGB값과  동일하지 않고

English: 
INTRO
As a refresher, images on computers are most
often stored as big grids of pixels.
Each pixel is defined by a color, stored as
a combination of three additive primary colors:
red, green and blue.
By combining different intensities of these
three colors, what’s called a RGB value,
we can represent any color.
Perhaps the simplest computer vision algorithm
– and a good place to start – is to track
a colored object, like a bright pink ball.
The first thing we need to do is record the
ball’s color.
For that, we’ll take the RGB value of the
centermost pixel.
With that value saved, we can give a computer
program an image, and ask it to find the pixel
with the closest color match.
An algorithm like this might start in the
upper right corner, and check each pixel,
one at time, calculating the difference from
our target color.
Now, having looked at every pixel, the best
match is very likely a pixel from our ball.
We’re not limited to running this algorithm
on a single photo; we can do it for every
frame in a video, allowing us to track the
ball over time.
Of course, due to variations in lighting,
shadows, and other effects, the ball on the

Korean: 
물론 조명, 그림자 및 기타 효과의 변화로 인해 확실히
필드의 공은 우리의 목표 색의 RGB값과  동일하지 않고
가장 근접한 일치값이 됩니다.
야간 경기와 같이, 보다 극단적인 경우에는
추적하기 어려울 수 있습니다.
만약 팀 유니폼 중 하나가 공과 같은 색깔이면,
알고리즘은 완전히 혼란에 빠질 것입니다.
만약 팀 유니폼 중 하나가 공과 같은 색깔이면,
알고리즘은 완전히 혼란에 빠질 것입니다.
이 때문에 환경을 엄격하게 제어할 수 없는 경우, 색상
마커 추적 및 유사 알고리즘을 거의 사용하지 않습니다.
이 때문에 환경을 엄격하게 제어할 수 없는 경우, 색상
마커 추적 및 유사 알고리즘을 거의 사용하지 않습니다.
이 색상 추적 예제는 색상이 단일 픽셀 내부에
저장되므로 픽셀 단위로 검색 할 수있었습니다.
이 색상 추적 예제는 색상이 단일 픽셀 내부에
저장되므로 픽셀 단위로 검색 할 수있었습니다.
그러나 이 방법은 본질적으로 많은 픽셀로 구성된 
객체의 가장자리처럼, 단일 픽셀보다 큰 특징에는
작동하지 않습니다.
이미지에서 이러한 유형의 특징을 식별하려면,
컴퓨터 시각 알고리즘은
패치라고 하는 작은 픽셀 영역을 고려해야 합니다.
예를 들어, 장면에서 수직 모서리를 찾는
알고리즘에 대해 이야기 해 봅시다.
무인 항공기가 장애물밭을 피해 안전하게 항해
할 수 있도록 돕는다고 가정합시다.
간단한 작업을 위해 대부분의 알고리즘이 색상을 처리 
할 수 있지만 이미지를 회색조로 변환합니다.
간단한 작업을 위해 대부분의 알고리즘이 색상을 처리 
할 수 있지만 이미지를 회색조로 변환합니다.
기둥 중 하나를 확대하여 모서리가
가까이에서 어떻게 보이는지 봅시다.

English: 
field is almost certainly not going to be
the exact same RGB value as our target color,
but merely the closest match.
In more extreme cases, like at a game at night,
the tracking might be poor.
And if one of the team's jerseys used the
same color as the ball, our algorithm would
get totally confused.
For these reasons, color marker tracking and
similar algorithms are rarely used, unless
the environment can be tightly controlled.
This color tracking example was able to search
pixel-by-pixel, because colors are stored
inside of single pixels.
But this approach doesn’t work for features
larger than a single pixel, like edges of
objects, which are inherently made up of many
pixels.
To identify these types of features in images,
computer vision algorithms have to consider
small regions of pixels, called patches.
As an example, let’s talk about an algorithm
that finds vertical edges in a scene, let’s
say to help a drone navigate safely through
a field of obstacles.
To keep things simple, we’re going to convert
our image into grayscale, although most algorithms
can handle color.
Now let’s zoom into one of these poles to
see what an edge looks like up close.

Korean: 
세로로 유지되는 픽셀의 변화 때문에 어디에서
막대의 왼쪽 모서리가 시작하는지 쉽게 보입니다.
세로로 유지되는 픽셀의 변화 때문에 어디에서
막대의 왼쪽 모서리가 시작하는지 쉽게 보입니다.
우리는 픽셀이 수직 모서리가 될 가능성을
정의 할 수 있습니다.
왼쪽의 일부 픽셀과 오른쪽의 일부 픽셀 사이의 색상 
차이의 크기라고 말하는 규칙에 의해서 말입니다.
왼쪽의 일부 픽셀과 오른쪽의 일부 픽셀 사이의 색상 
차이의 크기라고 말하는 규칙에 의해서 말입니다.
이 두 픽셀 세트의 색상 차이가 클수록
픽셀이 모서리 위에 있을 확률이 높습니다.
이 두 픽셀 세트의 색상 차이가 클수록
픽셀이 모서리 위에 있을 확률이 높습니다.
색상 차이가 작으면 아마 가장자리가 아닐 겁니다.
이 연산의 수학 표기법은 보이는 것과 같습니다.
이를 커널 또는 필터라고 합니다.
이 연산의 수학 표기법은 보이는 것과 같습니다.
이를 커널 또는 필터라고 합니다.
그것은 픽셀 단위의 곱셈에 대한 값을 포함하며, 그 합은 중심 픽셀에 저장됩니다.
이 픽셀 예제가 어떻게
 작동하는 지 살펴 보겠습니다.
모든 픽셀에 회색조 값으로 표시하는 라벨링을 했습니다.
이제 우리는 커널을 가져 와서 관심있는 
픽셀 위에 놓습니다.
이것은 곱해져야 하는 아래의 각 픽셀 값을 지정합니다.
그리고 나서 모든 숫자를 합산합니다.
이 예제에서는 147이 나옵니다.
그것은 우리의 새로운 픽셀 값이 됩니다.
픽셀패치에 커널을 적용하는 이 작업을
회선 (convolution)이라고 부릅니다.

English: 
We can easily see where the left edge of the
pole starts, because there’s a change in
color that persists across many pixels vertically.
We can define this behavior more formally
by creating a rule that says the likelihood
of a pixel being a vertical edge is the magnitude
of the difference in color between some pixels
to its left and some pixels to its right.
The bigger the color difference between these
two sets of pixels, the more likely the pixel
is on an edge.
If the color difference is small, it’s probably
not an edge at all.
The mathematical notation for this operation
looks like this – it’s called a kernel
or filter.
It contains the values for a pixel-wise multiplication, the sum of which is saved into the center pixel.
Let’s see how this works for our example
pixel.
I’ve gone ahead and labeled all of the pixels
with their grayscale values.
Now, we take our kernel, and center it over
our pixel of interest.
This specifies what each pixel value underneath
should be multiplied by.
Then, we just add up all those numbers.
In this example, that gives us 147.
That becomes our new pixel value.
This operation, of applying a kernel to a
patch of pixels, is call a convolution.

English: 
Now let’s apply our kernel to another pixel.
In this case, the result is 1.
Just 1.
In other words, it’s a very small color
difference, and not an edge.
If we apply our kernel to every pixel in the
photo, the result looks like this, where the
highest pixel values are where there are strong
vertical edges.
Note that horizontal edges, like those platforms
in the background, are almost invisible.
If we wanted to highlight those features,
we’d have to use a different kernel – one
that’s sensitive to horizontal edges.
Both of these edge enhancing kernels are called
Prewitt Operators, named after their inventor.
These are just two examples of a huge variety
of kernels, able to perform many different
image transformations.
For example, here’s a kernel that sharpens
images.
And here’s a kernel that blurs them.
Kernels can also be used like little image
cookie cutters that match only certain shapes.
So, our edge kernels looked for image patches
with strong differences from right to left
or up and down.
But we could also make kernels that are good
at finding lines, with edges on both sides.
And even islands of pixels surrounded by contrasting
colors.

Korean: 
이제 커널을 다른 픽셀에 적용해 보겠습니다.
이 경우 결과는 1입니다.
딱 1이요.
다시 말하면, 매우 작은 색상 차이의 수이기 때문에
모서리가 아닙니다.
커널을 사진의 모든 픽셀에 적용하면
결과는 다음과 같습니다.
가장 높은 픽셀 값은 강한 수직 모서리가 있는 곳입니다.
이러한 플랫폼과 같은 배경에서 수평 모서리는
거의 보이지 않습니다.
이러한 기능을 강조하고 싶다면, 수평 가장자리에 민감한
다른 커널을 사용해야 할 것입니다.
이러한 기능을 강조하고 싶다면, 수평 가장자리에 민감한
다른 커널을 사용해야 할 것입니다.
이 두 가지 가장자리 강화 커널은 프리윗 연산기라고
하며, 발명자의 이름을 따서 명명되었습니다.
이들은 다양한 이미지 변환을 수행 할 수 있는 
매우 다양한 커널 중의 단지 두 가지 예입니다.
이들은 다양한 이미지 변환을 수행 할 수 있는 
매우 다양한 커널 중의 단지 두 가지 예입니다.
예를 들어, 여기에 이미지의 선명하게 만드는
커널이 있습니다.
그리고 그것들을 흐리게 하는 커널이 있습니다.
커널은 특정 모양에만 일치하는 작은 이미지의
쿠키를 자를 수 있는 커터칼처럼 사용될 수도 있습니다.
그래서 우리의 모서리 커널은 오른쪽에서 왼쪽으로, 또는
위아래로 강한 차이가있는 이미지 패치를 찾았습니다.
그래서 우리의 모서리 커널은 오른쪽에서 왼쪽으로, 또는
위아래로 강한 차이가있는 이미지 패치를 찾았습니다.
또한 우리는 양쪽에 모서리가 있는 선을 잘 찾는 
커널을 만들 수도 있습니다.
심지어 대조되는 색으로 둘러싸인
픽셀의 섬조차도 찾을 수 있습니다.

English: 
These types of kernels can begin to characterize
simple shapes.
For example, on faces, the bridge of the nose
tends to be brighter than the sides of the
nose, resulting in higher values for line-sensitive
kernels.
Eyes are also distinctive – a dark circle
sounded by lighter pixels – a pattern other
kernels are sensitive to.
When a computer scans through an image, most
often by sliding around a search window, it
can look for combinations of features indicative
of a human face.
Although each kernel is a weak face detector
by itself, combined, they can be quite accurate.
It’s unlikely that a bunch of face-like
features will cluster together if they’re
not a face.
This was the basis of an early and influential
algorithm called Viola-Jones Face Detection.
Today, the hot new algorithms on the block
are Convolutional Neural Networks.
We talked about neural nets last episode,
if you need a primer.
In short, an artificial neuron – which is
the building block of a neural network – takes
a series of inputs, and multiplies each by
a specified weight, and then sums those values
all together.
This should sound vaguely familiar, because
it’s a lot like a convolution.

Korean: 
이러한 종류의 커널은 간단한 모양을 특성화 하는 것으로
시작할 수 있습니다.
예를 들어, 얼굴에서 콧날은 코의 측면보다 밝아지기 
쉽기 때문에 선 감지 커널의 값이 높아집니다.
예를 들어, 얼굴에서 콧날은 코의 측면보다 밝아지기 
쉽기 때문에 선 감지 커널의 값이 높아집니다.
눈 또한 밝은 픽셀로 둘러싸인 어두운 원의 패턴으로 
다른 커널이 감지할 수 있는 특성을 갖고 있습니다.
눈 또한 밝은 픽셀로 둘러싸인 어두운 원의 패턴으로 
다른 커널이 감지할 수 있는 특성을 갖고 있습니다.
컴퓨터가 검색창 주위를 슬라이딩 하며
대부분 이미지를 스캔 할 때
사람의 얼굴을 나타내는 기능의 조합을 찾을 수 있습니다.
각각의 커널은 약한 얼굴 탐지기이지만,
그 자체만으로도 매우 정확할 수 있습니다.
그들이 얼굴이 아닌 경우 얼굴 찾기 기능들이
서로 뭉치지는 않을 것입니다.
그들이 얼굴이 아닌 경우 얼굴 찾기 기능들이
서로 뭉치지는 않을 것입니다.
이 초기의 영향력있는 알고리즘의 기초는 
Viola-Jones Face Detection이라고 불립니다.
오늘날의 새롭고 유용한 알고리즘은
합성곱 신경망입니다.
만약 참고 내용이 필요하다면, 
신경망에 대해 이야기한 지난 강의를 보시면 됩니다.
간단히 말해, 신경 회로망의 구성 요소인 인공 신경은
일련의 입력을 받아
지정된 가중치로 곱한 다음 이 값을 모두 합산합니다.
지정된 가중치로 곱한 다음이 값을 모두 합산합니다.
이는 회선과 비슷하기 때문에 어렴풋이 익숙하게
들릴 수 있습니다.

Korean: 
실제로 입력의 1차원 목록이 아닌 신경 2D 픽셀 데이터를
전달하면, 이는 마치 회선과 같습니다.
실제로 입력의 1차원 목록이 아닌 신경 2D 픽셀 데이터를
전달하면, 이는 마치 회선과 같습니다.
입력 가중치는 커널 값과 같습니다.
그러나 미리 정의 된 커널과 달리
신경망은 이미지에서 흥미로운 기능을 인식 할 수 있는
자체 커널을 학습할 수 있습니다.
신경망은 이미지에서 흥미로운 기능을 인식 할 수 있는
자체 커널을 학습할 수 있습니다.
합성곱 신경망은 이미지 데이터를 처리하기 위해
이 뉴런 뱅크를 사용하며,
각 이미지는 서로 다른 학습 커널에 의해 
소화되는 새로운 이미지를 출력합니다.
이 출력은 이후 얽히고, 얽히고 얽힌 후속 층에 의해
다시 진행됩니다.
이 출력은 이후 얽히고, 얽히고 얽힌 후속 층에 의해
다시 진행됩니다.
이미 설명했지만 첫 번째 회선 층은 하나의 회선에서 
인식할 수있는 가장자리 같은 것을 찾을 수 있습니다.
이미 설명했지만 첫 번째 회선 층은 하나의 회선에서 
인식할 수있는 가장자리 같은 것을 찾을 수 있습니다.
다음 층에는 모퉁이 같은 단순한 모양을 인식하기 위해
이런 가장자리 기능과 결합하는 뉴런을 가질 수 있습니다.
다음 층에는 모퉁이 같은 단순한 모양을 인식하기 위해
이런 가장자리 기능과 결합하는 뉴런을 가질 수 있습니다.
그 너머의 레이어는 모퉁이의 특징을 모으고
입과 눈썹 같은 단순한 대상을
인식할 수 있는 뉴런을 포함합니다.
눈, 귀, 입, 코, 9 야드 전체를 감싸는 단계의
층이 있을 때까지 계속 복잡해집니다.
눈, 귀, 입, 코, 9 야드 전체를 감싸는 단계의
층이 있을 때까지 계속 복잡해집니다.
그리고 말합니다 "아하, 얼굴입니다! "

English: 
In fact, if we pass a neuron 2D pixel data,
rather than a one-dimensional list of inputs,
it’s exactly like a convolution.
The input weights are equivalent to kernel
values, but unlike a predefined kernel, neural
networks can learn their own useful kernels
that are able to recognize interesting features
in images.
Convolutional Neural Networks use banks of
these neurons to process image data, each
outputting a new image, essentially digested
by different learned kernels.
These outputs are then processed by subsequent
layers of neurons, allowing for convolutions
on convolutions on convolutions.
The very first convolutional layer might find
things like edges, as that’s what a single
convolution can recognize, as we’ve already
discussed.
The next layer might have neurons that convolve
on those edge features to recognize simple
shapes, comprised of edges, like corners.
A layer beyond that might convolve on those
corner features, and contain neurons that
can recognize simple objects, like mouths
and eyebrows.
And this keeps going, building up in complexity,
until there’s a layer that does a convolution
that puts it together: eyes, ears, mouth,
nose, the whole nine yards, and says “ah
ha, it’s a face!”

English: 
Convolutional neural networks aren’t required
to be many layers deep, but they usually are,
in order to recognize complex objects and
scenes.
That’s why the technique is considered deep
learning.
Both Viola-Jones and Convolutional Neural
Networks can be applied to many image recognition
problems, beyond faces, like recognizing handwritten
text, spotting tumors in CT scans and monitoring
traffic flow on roads.
But we’re going to stick with faces.
Regardless of what algorithm was used, once
we’ve isolated a face in a photo, we can
apply more specialized computer vision algorithms
to pinpoint facial landmarks, like the tip
of the nose and corners of the mouth.
This data can be used for determining things
like if the eyes are open, which is pretty
easy once you have the landmarks – it’s
just the distance between points.
We can also track the position of the eyebrows;
their relative position to the eyes can be
an indicator of surprise, or delight.
Smiles are also pretty straightforward to
detect based on the shape of mouth landmarks.
All of this information can be interpreted
by emotion recognition algorithms, giving

Korean: 
합성곱 신경망은 많은 깊이의 층이 필요하진 않지만
대개는 복잡한 사물과 장면을 인식하기 위해 존재합니다.
합성곱 신경망은 많은 깊이의 층이 필요하진 않지만
대개는 복잡한 사물과 장면을 인식하기 위해 존재합니다.
이 기술이 딥러닝으로 간주되는 이유입니다.
Viola-Jones 와 합성곱 신경망 모두 얼굴 인식을 넘어 
수많은 이미지 인식 문제에 적용될 수 있습니다.
얼굴 인식을 넘어서 손으로 쓴 텍스트 인식, 
CT 스캔에서 종양을 발견하고,
도로의 교통 흐름을 모니터링 하는 등..
이 강의에서는 얼굴 인식의 예로만 진행하겠습니다.
사용된 알고리즘에 상관없이
한 번 사진 속의 얼굴을 분리하기만 하면,
보다 전문화 된 컴퓨터 비전 알고리즘을 적용하여
코의 끝과 입가와 같은 얼굴 표식을
정확히 찾아 낼 수 있습니다.
이 데이터는 눈이 열려 있는지와 같은 것을 
결정하는 데 사용될 수 있습니다.
일단 랜드마크가 있으면 쉽게 결정할 수 있습니다.
그것은 점 사이의 거리에 불과합니다.
우리는 또한 눈썹의 위치를 ​​추적 할 수 있습니다.
눈에 대한 상대적인 위치는 놀람 또는 기쁨의
지표가 될 수 있습니다.
미소는 또한 입 주변의 모양을 기반으로
탐지하는 것이 매우 간단합니다.
이 모든 정보는 감정 인식 알고리즘에 의해 
해석 될 수 있습니다.

English: 
computers the ability to infer when you’re
happy, sad, frustrated, confused and so on.
In turn, that could allow computers to intelligently
adapt their behavior... maybe offer tips when
you’re confused, and not ask to install
updates when you’re frustrated.
This is just one example of how vision can
give computers the ability to be context sensitive,
that is, aware of their surroundings.
And not just the physical surroundings – like
if you're at work or on a train – but also
your social surroundings – like if you’re
in a formal business meeting versus a friend’s
birthday party.
You behave differently in those surroundings, and so should computing devices, if they’re smart.
Facial landmarks also capture the geometry
of your face, like the distance between your
eyes and the height of your forehead.
This is one form of biometric data, and it
allows computers with cameras to recognize
you.
Whether it’s your smartphone automatically
unlocking itself when it sees you, or governments
tracking people using CCTV cameras, the applications
of face recognition seem limitless.
There have also been recent breakthroughs
in landmark tracking for hands and whole bodies,

Korean: 
컴퓨터는 여러분이 행복하고 슬프고 좌절하며 
혼란스러울 때 추론할 수 있습니다.
그 결과로 컴퓨터가 지능적으로 그들의 행동을
개조할 수 있게 되었습니다.
아마 여러분이 혼란 스러울 때 유용한 정보를 제공하고,
좌절 할 때 업데이트를 설치하라고 묻지 않을 것입니다.
이는 시각이 컴퓨터에게 상황에 민감한, 즉 주변 환경을
인식 할 수 있는 능력을 주는 방법의 한 예일뿐입니다.
즉, 주변 환경을 인식합니다.
여러분이 직장에 있거나
기차를 탔을 때와 같은 물리적 환경 뿐만 아니라,
공식적인 비즈니스 미팅과 친구의 생일 파티와
마찬가지로 사회적인 환경 또한 인식합니다.
공식적인 비즈니스 미팅과 친구의 생일 파티와
마찬가지로 사회적인 환경 또한 인식합니다.
여러분이 다른 환경에서 다르게 행동하듯이,
컴퓨터 장치가 똑똑하다면 그또한 그렇게 해야 합니다.
얼굴 표식은 또한 눈 사이의 거리와 이마 높이와 같은
얼굴의 기하학적 모양을 캡처합니다.
얼굴 표식은 또한 눈 사이의 거리와 이마 높이와 같은
얼굴의 기하학적 모양을 캡처합니다.
이것은 생체 인식 데이터의 한 형태이며, 카메라가 있는
컴퓨터에서 사용자를 인식 할 수 있습니다.
이것은 생체 인식 데이터의 한 형태이며, 카메라가 있는
컴퓨터에서 사용자를 인식 할 수 있습니다.
여러분의 얼굴을 보면 스마트 폰이
자동으로 스스로 잠금해제를 하거나,
정부가 CCTV 카메라를 사용해 사람을 추적할 때, 
얼굴 인식 응용 프로그램은 무한한 것처럼 보입니다.
손과 몸 전체에 대한 최근의 획기적인 발전이 있었으며,

English: 
giving computers the ability to interpret
a user’s body language, and what hand gestures
they’re frantically waving at their internet
connected microwave.
As we’ve talked about many times in this
series, abstraction is the key to building
complex systems, and the same is true in computer
vision.
At the hardware level, you have engineers
building better and better cameras, giving
computers improved sight with each passing
year, which I can’t say for myself.
Using that camera data, you have computer
vision algorithms crunching pixels to find
things like faces and hands.
And then, using output from those algorithms,
you have even more specialized algorithms
for interpreting things like user facial expression
and hand gestures.
On top of that, there are people building
novel interactive experiences, like smart
TVs and intelligent tutoring systems, that
respond to hand gestures and emotion.
Each of these levels are active areas of research,
with breakthroughs happening every year.
And that’s just the tip of the iceberg.
Today, computer vision is everywhere – whether
it’s barcodes being scanned at stores, self-driving
cars waiting at red lights, or snapchat filters
superimposing mustaches.

Korean: 
사용자의 신체언어와 인터넷에 연결된 전자레인지에
몹시 흔드는 손짓을 해석할 수 있는 기능을 주었습니다.
사용자의 신체언어와 인터넷에 연결된 전자레인지에
몹시 흔드는 손짓을 해석할 수 있는 기능을 주었습니다.
강의에서 여러 번 이야기했듯이,
추상화는 복잡한 시스템을 구축하는 데 핵심이며
컴퓨터 비전에서도 마찬가지입니다.
하드웨어 수준에서는 엔지니어는 
더 나은 카메라를 만들 수 있게 되어
컴퓨터는 해가 갈수록 시력이 향상되었습니다.
저는 갈수록 시력이 나빠지지만요.
이 카메라 데이터를 사용하면,
얼굴과 손 같은 것을 찾기 위해 픽셀을 처리하는 컴퓨터 
비전 알고리즘을 사용할 수 있습니다.
그리고 그 알고리즘의 출력을 사용하여, 손짓이나 표정을
해석하는 더욱 특별한 알고리즘을 사용할 수 있습니다.
그리고 그 알고리즘의 출력을 사용하여, 손짓이나 표정을
해석하는 더욱 특별한 알고리즘을 사용할 수 있습니다.
그 밖에 손짓과 감정에 반응하는 스마트TV 및 지능형
학습 시스템과 같은 새로운 대화형 경험을 만드는 사람들이 있습니다.
그 밖에 손짓과 감정에 반응하는 스마트TV 및 지능형
학습 시스템과 같은 새로운 대화형 경험을 만드는 사람들이 있습니다.
이 각각의 계층은 매년 진행되는
혁신적인 연구 활동의 영역입니다.
그리고 그것은 단지 빙산의 일각에 불과합니다.
오늘날 컴퓨터 비전은 상점에서 스캔되는 바코드, 
빨간색 표시등이 켜지는 자가 운전용 자동차,
또는 콧수염을 겹치게 하는 스냅챗 필터와 같은
모든 곳에서 볼 수 있습니다.

Korean: 
가장 흥미 진진한 것은 
컴퓨터 과학자들은 이제 막 시작했다는 점입니다.
이는 초고속 GPU와 같은 컴퓨팅의
최근 발전으로 가능해졌습니다.
인간과 비슷한 시각적 능력을 가진 컴퓨터는 우리가
그들과 상호 작용하는 방식을 완전히 바꿀 것입니다.
물론 그들이 듣고 말 할 수 있다면 좋을 것입니다.
이 주제는 다음 주에 토론해 볼 것입니다.
물론 그들이 듣고 말 할 수 있다면 좋을 것입니다.
이 주제는 다음 주에 토론해 볼 것입니다.
그때 만나요.

English: 
And, the most exciting thing is that computer
scientists are really just getting started,
enabled by recent advances in computing, like
super fast GPUs.
Computers with human-like ability to see is
going to totally change how we interact with them.
Of course, it’d also be nice if they could
hear and speak, which we’ll discuss next
week.
I’ll see you then.
