
English: 
Hi, I’m Carrie Anne, and welcome to Crash
Course Computer Science!
Last episode we talked about computer vision
– giving computers the ability to see and
understand visual information.
Today we’re going to talk about how to give
computers the ability to understand language.
You might argue they’ve always had this
capability.
Back in Episodes 9 and 12, we talked about
machine language instructions, as well as
higher-level programming languages.
While these certainly meet the definition
of a language, they also tend to have small
vocabularies and follow highly structured
conventions.
Code will only compile and run if it’s 100
percent free of spelling and syntactic errors.
Of course, this is quite different from human
languages – what are called natural languages
– containing large, diverse vocabularies,
words with several different meanings, speakers
with different accents, and all sorts of interesting
word play.
People also make linguistic faux pas when
writing and speaking, like slurring words
together, leaving out key details so things
are ambiguous, and mispronouncing things.
But, for the most part, humans can roll right
through these challenges.

Korean: 
안녕하세요, 저는 Carrie Anne입니다. 
컴퓨터 과학 특강에 오신 것을 환영합니다!
지난 시간에 우리는 컴퓨터 비전에 관해 이야기 했었습니다.
그것은 컴퓨터에게 시각적인 정보를 보고 이해하는
능력을 부여하는 것입니다.
오늘 우리는 어떻게 컴퓨터에게 언어를 이해하는 능력을 
줄 수 있는가에 대해 이야기 할 것입니다.
여러분은 그들이 항상 이 능력을 가지고 있다고 
주장 할 수 있습니다.
9강 및 12강에서 기계어 명령어 뿐 아니라
높은 수준의 프로그래밍 언어에 대해서 이야기했었죠.
9강 및 12강에서 기계어 명령어 뿐 아니라
높은 수준의 프로그래밍 언어에 대해서 이야기했었죠.
이러한 언어가 언어의 정의를 확실히 
충족시키는 것은 사실이지만 ,
작은 어휘를 사용하고 고도로 구조화 된
규칙을 따르는 경향이 있습니다.
코드는 철자 및 구문 오류가 100 % 없으면 
컴파일되고 실행됩니다.
물론 이것은 자연어라고 부르는 인간의 언어와
완전히 다릅니다.
- 크고 다양한 어휘와 여러 가지 다른 의미를 지닌 단어,
사람마다 다른 억양으로 말할 수 있고, 모든 종류의
흥미로운 단어 놀이를 포함합니다.
또한 사람들은 글을 쓰거나 말을 할 때 모호한 단어를
사용하거나, 세부사항을 빠뜨림으로써 모호하게 하고
잘못 발음하기도 하는 등 언어적인 실수를 합니다.
그러나 대부분의 경우, 인간은 이러한 어려움을
바로잡을 수 있습니다.

Korean: 
언어의 숙련된 사용은 우리를 인간으로 만드는 하나의 
중요한 부분입니다.
이런 이유로, 컴퓨터에게 우리의 언어를 이해시키고
말하도록 하고 싶은 욕망은
그들이 처음으로 생겨난 이래로 계속 있었습니다.
이로 인해 컴퓨터 과학과 언어학을 결합한 
학제 간 분야 인 자연어 처리 (NLP)가 만들어졌습니다.
이로 인해 컴퓨터 과학과 언어학을 결합한 
학제 간 분야 인 자연어 처리 (NLP)가 만들어졌습니다.
 
문장에 단어를 배열하는 방법은 본질적으로
무한합니다.
우리는 컴퓨터가 인간이 무엇에 대해 불평하는지 이해할
수 있게 하는 문장의 사전을 제공할 수는 없습니다.
우리는 컴퓨터가 인간이 무엇에 대해 불평하는지 이해할
수 있게 하는 문장의 사전을 제공할 수는 없습니다.
그래서 초기의 근본적인 NLP문제는 좀 더 쉽게 처리 할 
수 있는 간단한 문장으로 분해하는 것이었습니다.
그래서 초기의 근본적인 NLP문제는 좀 더 쉽게 처리 할 
수 있는 간단한 문장으로 분해하는 것이었습니다.
학교에서, 여러분은 9가지 근본적인 영어단어 유형을
배웠습니다. 명사, 대명사, 관사,
동사, 형용사, 부사, 전치사,
접속사, 및 감탄사
이것들을 품사(part of speech)라고 합니다.
단수 vs 복수 명사, 최상급 vs 비교 부사와 같은 
모든 종류의 하위 범주도 있습니다.
하지만 우리는 그것들을 다루진 않을 것 입니다.

English: 
The skillful use of language is a major part
of what makes us human.
And for this reason, the desire for computers
to understand and speak our language has been
around since they were first conceived.
This led to the creation of Natural Language
Processing, or NLP, an interdisciplinary field
combining computer science and linguistics.
INTRO
There’s an essentially infinite number of
ways to arrange words in a sentence.
We can’t give computers a dictionary of
all possible sentences to help them understand
what humans are blabbing on about.
So an early and fundamental NLP problem was
deconstructing sentences into bite-sized pieces,
which could be more easily processed.
In school, you learned about nine fundamental
types of English words: nouns, pronouns, articles,
verbs, adjectives, adverbs, prepositions,
conjunctions, and interjections.
These are called parts of speech.
There are all sorts of subcategories too,
like singular vs. plural nouns and superlative
vs. comparative adverbs, but we’re not going
to get into that.

Korean: 
단어 유형을 아는 것은 확실히 유용하지만
불행히도, 많은 단어들은 다양한 의미를 지닙니다.
예를 들어, rose와 leaves는 명사 또는 동사로 
사용될 수 있습니다.
예를 들어, rose와 leaves는 명사 또는 동사로 
사용될 수 있습니다.
이 모호성을 해결하려면 디지털 사전만으로는 충분하지 
않으므로 컴퓨터도 문법을 알아야 합니다.
이 모호성을 해결하려면 디지털 사전만으로는 충분하지 
않으므로 컴퓨터도 문법을 알아야 합니다.
이를 위해, 구문 구조 규칙이 개발되었으며,
언어의 문법을 압축합니다.
예를 들어, 영어는 문장은 명사구 뒤에 동사구가 오게
구성된다는 규칙이 있습니다.
예를 들어, 영어는 문장은 명사구 뒤에 동사구가 오게
구성된다는 규칙이 있습니다.
명사구는 "the"와 같은 관사나
형용사가 명사 앞에 올 수 있습니다.
명사구는 "the"와 같은 관사나
형용사가 명사 앞에 올 수 있습니다.
그리고 여러분은 전체적으로 이런 언어 규칙을
만들 수 있습니다.
그런 다음 이 규칙을 사용하면, 구문 분석트리
(parse tree)라는 것을 만들기 쉽습니다.
구문 분석 트리는 모든 단어에 가능성 있는 부분으로
태그를 지정할 뿐만 아니라
문장이 어떻게 구성되는지도 보여줍니다.
예를 들어,이 문장의 명사 초점은 "몽골인"이며,
우리는 무언가(이 경우에는 "잎")에서 "떠오르는"행동을
하는 것이 그들에 관한 것임을 알고 있습니다.
우리는 무언가(이 경우에는 "잎")에서 "떠오르는"행동을
하는 것이 그들에 관한 것임을 알고 있습니다.
이 작은 데이터 청크는 컴퓨터에게 정보에 보다 쉽게 ​​
접근하고 처리하며, 대응할 수 있도록 합니다.
이 작은 데이터 청크는 컴퓨터에게 정보에 보다 쉽게 ​​
접근하고 처리하며, 대응할 수 있도록 합니다.
여러분이 "가장 가까운 피자는 어디?"와 같이 음성으로
검색할 때마다 같은 프로세스가 매번 반복됩니다.

English: 
Knowing a word’s type is definitely useful,
but unfortunately, there are a lot words that
have multiple meanings – like “rose”
and “leaves”, which can be used as nouns
or verbs.
A digital dictionary alone isn’t enough
to resolve this ambiguity, so computers also
need to know some grammar.
For this, phrase structure rules were developed,
which encapsulate the grammar of a language.
For example, in English there’s a rule that
says a sentence can be comprised of a noun
phrase followed by a verb phrase.
Noun phrases can be an article, like “the”,
followed by a noun or they can be an adjective
followed by a noun.
And you can make rules like this for an entire
language.
Then, using these rules, it’s fairly easy
to construct what’s called a parse tree,
which not only tags every word with a likely
part of speech, but also reveals how the sentence
is constructed.
We now know, for example, that the noun focus
of this sentence is “the mongols”, and
we know it’s about them doing the action
of “rising” from something, in this case,
“leaves”.
These smaller chunks of data allow computers
to more easily access, process and respond
to information.
Equivalent processes are happening every time
you do a voice search, like: “where’s

English: 
the nearest pizza”.
The computer can recognize that this is a
“where” question, knows you want the noun
“pizza”, and the dimension you care about
is “nearest”.
The same process applies to “what is the
biggest giraffe?” or “who sang thriller?”
By treating language almost like lego, computers
can be quite adept at natural language tasks.
They can answer questions and also process
commands, like “set an alarm for 2:20”
or “play T-Swizzle on spotify”.
But, as you’ve probably experienced, they
fail when you start getting too fancy, and
they can no longer parse the sentence correctly,
or capture your intent.
Hey Siri... methinks the mongols doth roam
too much, what think ye on this most gentle
mid-summer’s day?
Siri: I’m not sure I got that.
I should also note that phrase structure rules,
and similar methods that codify language,
can be used by computers to generate natural
language text.
This works particularly well when data is
stored in a web of semantic information, where
entities are linked to one another in meaningful
relationships, providing all the ingredients
you need to craft informational sentences.

Korean: 
여러분이 "가장 가까운 피자는 어디?"와 같이 음성으로
검색할 때마다 같은 프로세스가 매번 반복됩니다.
컴퓨터는 이것이 "어디"에 대한 질문이고, 
여러분이 원하는 것은 "피자"이며
관심있는 특성은 "가장 가까운"것 임을 인식합니다.
"가장 큰 기린은 무엇입니까? "또는 "누가 thriller를 노래
했나요? "와 같은 질문에 동일한 프로세스가 적용됩니다.
거의 lego와 같이 언어를 다룸으로써, 
컴퓨터는 자연어 작업에 능숙할 수 있습니다.
그들은 질문에 답할 수 있고, 
"2시 20분에 알람 설정" 또는
"spotify에서 T-Swizzle 재생"과 같은 
명령을 처리 할 수도 ​있습니다.
하지만, 아마도 여러분이 경험한 것처럼, 
그들은 너무 화려해지기 시작하면 실패합니다.
그들은 더 이상 문장을 올바르게 구문을 분석 하거나
여러분의 의도를 포착할 수 없습니다.
안녕, 시리. (막말하는 중) 나를 생각해 몽골인이 으르렁 너무 많이, 너는 이 관대한 한여름날 어떻게 생각해?
안녕, 시리. (막말하는 중) 나를 생각해 몽골인이 으르렁 너무 많이, 너는 이 관대한 한여름날 어떻게 생각해?
시리 : 저는 그것을 가지고 있는지 잘 모르겠어요.
또한 구문 구조 규칙과 언어를 체계화하는 비슷한 방법을
컴퓨터가 자연어 문장을 만드는 데 사용함을
유의해야 합니다.
이 기능은 데이터가 의미론적 정보의 
웹에 저장될 때 특히 효과적입니다.
여기서 독립체들은 서로 의미있는 정보로 연결되어
정보 문장을 만드는 데 필요한 모든 재료를 제공합니다.
여기서 독립체들은 서로 의미있는 정보로 연결되어
정보 문장을 만드는 데 필요한 모든 재료를 제공합니다.

English: 
Siri: Thriller was released in 1983 and sung
by Michael Jackson
Google’s version of this is called Knowledge
Graph.
At the end of 2016, it contained roughly seventy
billion facts about, and relationships between,
different entities.
These two processes, parsing and generating
text, are fundamental components of natural
language chatbots - computer programs that
chat with you.
Early chatbots were primarily rule-based,
where experts would encode hundreds of rules
mapping what a user might say, to how a program
should reply.
Obviously this was unwieldy to maintain and
limited the possible sophistication.
A famous early example was ELIZA, created
in the mid-1960s at MIT.
This was a chatbot that took on the role of
a therapist, and used basic syntactic rules
to identify content in written exchanges,
which it would turn around and ask the user
about.
Sometimes, it felt very much like human-human
communication, but other times it would make
simple and even comical mistakes.
Chatbots, and more advanced dialog systems,
have come a long way in the last fifty years,
and can be quite convincing today!

Korean: 
시리  : 스릴러는 1983년에 발매되었고
마이클 잭슨이 불렀습니다.
Google의 버전을 "지식 그래프"라고 합니다.
2016년 말에는 약 7백억 가지의 서로 다른 
독립체들 간의 관계가 포함되었습니다.
2016년 말에는 약 7백억 가지의 서로 다른 
독립체들 간의 관계가 포함되었습니다.
구문 분석 및 텍스트 생성의 두가지 프로세스는
자연어 챗봇의 기본 구성 요소 입니다.
챗봇은 사용사와 채팅하는 컴퓨터 프로그램입니다.
초기 챗봇은 주로 규칙 기반이었으며
전문가는 사용자가 말할 수 있는 것을 매핑하는
수백 가지 규칙을 인코딩하고
프로그램이 응답해야 하는 방식에 대해 설명했습니다.
분명히 이것은 가능한 정교함을 제한했고 
유지하기 힘들었습니다.
유명한 초기의 사례는 1960년대에 중반
MIT에서 만든 ELIZA였습니다.
이것은 치료사 역할을 맡은 챗봇이었고, 서면 교환의 
내용을 식별하기 위해 기본 구문 규칙을 사용했습니다.
이 규칙은 사용자에게 되돌아와 물어보는 것이었습니다.
이 규칙은 사용자에게 되돌아와 물어보는 것이었습니다.
때때로 그것은 사람들의 의사소통과 매우 유사하지만,
다른 때는 단순하고 웃긴 실수를 저지르기도 합니다.
때때로 그것은 사람들의 의사소통과 매우 유사하지만,
다른 때는 단순하고 웃긴 실수를 저지르기도 합니다.
챗봇 및 고급 대화 시스템은 
지난 50년 동안 먼 길을 왔습니다.
그리고 오늘날 아주 설득력있게 할 수 있습니다!

English: 
Modern approaches are based on machine learning,
where gigabytes of real human-to-human chats
are used to train chatbots.
Today, the technology is finding use in customer
service applications, where there’s already
heaps of example conversations to learn from.
People have also been getting chatbots to
talk with one another, and in a Facebook experiment,
chatbots even started to evolve their own
language.
This experiment got a bunch of scary-sounding
press, but it was just the computers crafting
a simplified protocol to negotiate with one
another.
It wasn’t evil, it’s was efficient.
But what about if something is spoken – how
does a computer get words from the sound?
That’s the domain of speech recognition,
which has been the focus of research for many
decades.
Bell Labs debuted the first speech recognition
system in 1952, nicknamed Audrey – the automatic
digit recognizer.
It could recognize all ten numerical digits,
if you said them slowly enough.
5…
9…
7?
The project didn’t go anywhere because it
was much faster to enter telephone numbers
with a finger.

Korean: 
현대적인 접근 방식은 기계 학습을 기반으로 대용량의 
실제 사람 사이의 대화를 통해 챗봇을 훈련시킵니다.
현대적인 접근 방식은 기계 학습을 기반으로 대용량의 
실제 사람 사이의 대화를 통해 챗봇을 훈련시킵니다.
오늘날 이 기술은 이미 배울 수있는 대화가 있는
고객 서비스 응용 프로그램에서 예제를 찾고 있습니다.
오늘날 이 기술은 이미 배울 수있는 대화가 있는
고객 서비스 응용 프로그램에서 예제를 찾고 있습니다.
사람들은 또한 챗봇을 다른 상대와 대화하도록
하고 있으며, 페이스북 실험에서
챗봇도 심지어 자신의 언어를 진화시키기 시작했습니다.
이 실험에는 무서운 소리가 잔뜩 났습니다.
하지만 이것은 컴퓨터가 단지 서로 협상하기 위한 
단순화 된 프로토콜을 만든 것이었습니다.
그것은 사악하지 않았고, 효율적이었습니다.
그러나 무엇인가를 말하면 어떨까요?
컴퓨터가 어떻게 소리에서 단어를 얻습니까?
이것은 음성 인식 분야입니다. 이는 수 십년간
많은 사람들에게 연구의 초점이 되어 왔습니다.
이것은 음성 인식 분야입니다. 이는 수 십년간
많은 사람들에게 연구의 초점이 되어 왔습니다.
최초의 음성 인식 시스템인 Bell Labs는 1952년 데뷔하여
Audrey라는 별명을 얻었습니다.
- 자동 숫자 인식기였습니다.
여러분이가 그들에게 천천히 말한다면 Audrey는
10개의 모든 숫자를 인식할 수 있습니다.
5
9
7
손으로 전화번호를 입력하는 게 훨씬 빨랐기 때문에
프로젝트는 별 쓸모가 없었습니다.
손으로 전화번호를 입력하는 게 훨씬 빨랐기 때문에
프로젝트는 별 쓸모가 없었습니다.

English: 
Ten years later, at the 1962 World's Fair,
IBM demonstrated a shoebox-sized machine capable
of recognizing sixteen words.
To boost research in the area, DARPA kicked
off an ambitious five-year funding initiative
in 1971, which led to the development of Harpy
at Carnegie Mellon University.
Harpy was the first system to recognize over
a thousand words.
But, on computers of the era, transcription
was often ten or more times slower than the
rate of natural speech.
Fortunately, thanks to huge advances in computing
performance in the 1980s and 90s, continuous,
real-time speech recognition became practical.
There was simultaneous innovation in the algorithms
for processing natural language, moving from
hand-crafted rules, to machine learning techniques
that could learn automatically from existing
datasets of human language.
Today, the speech recognition systems with
the best accuracy are using deep neural networks,
which we touched on in Episode 34.
To get a sense of how these techniques work,
let’s look at some speech, specifically,
the acoustic signal.
Let’s start by looking at vowel sounds,
like aaaaa…and Eeeeeee.
These are the waveforms of those two sounds,
as captured by a computer’s microphone.

Korean: 
10년 후, 1962년 세계 박람회에서, IBM은 16개의 단어를 
인식할 수 있는 신발장 크기의 기계를 시연했습니다.
10년 후, 1962년 세계 박람회에서, IBM은 16개의 단어를 
인식할 수 있는 신발장 크기의 기계를 시연했습니다.
이 지역의 연구를 강화하기 위해 DARPA는
1971년에 야심찬 5개년 계획을 시작했습니다.
이는 카네기 멜론 대학에서 Harpy의 개발을 이끌었습니다.
Harpy는 천 단어 이상을 인식하는
최초의 시스템이었습니다.
그러나 그 시대의 컴퓨터는 자연스러운 음성보다 
속도가 종종 10배 또는 그 이상 느렸습니다.
그러나 그 시대의 컴퓨터는 자연스러운 음성보다 
속도가 종종 10배 또는 그 이상 느렸습니다.
다행히도 1980년대와 90년대의 컴퓨팅
성능의 크나큰 발전으로 인해,
실시간 음성 인식이 실용화 되었습니다.
자연어 처리 알고리즘에 동시적인 혁신이 있었습니다.
- 손으로 만든 규칙에서 인간 언어의 기존 데이터 세트로
부터 자동으로 학습할 수있는 기계 학습 기술까지
- 손으로 만든 규칙에서 인간 언어의 기존 데이터 세트로
부터 자동으로 학습할 수있는 기계 학습 기술까지
오늘날, 최고의 정확성을 갖춘 음성 인식 시스템은 
34강에서 다루었던 심층 신경망을 사용합니다.
오늘날, 최고의 정확성을 갖춘 음성 인식 시스템은 
34강에서 다루었던 심층 신경망을 사용합니다.
이러한 기술이 어떻게 작동하는지 이해하려면,
몇 가지 음성, 특히 음향 신호를 살펴 보겠습니다.
이러한 기술이 어떻게 작동하는지 이해하려면,
몇 가지 음성, 특히 음향 신호를 살펴 보겠습니다.
'아'와 '이'와 같은 모음 소리부터 살펴 보겠습니다.
이것은 컴퓨터의 마이크에 의해 캡처된
두 소리의 파형입니다.

Korean: 
21강(파일 및 파일 형식)에서 논의했듯이, 이 신호는 음파
가 발진할 때 마이크 내부 진동판의 변위 크기 입니다.
21강(파일 및 파일 형식)에서 논의했듯이, 이 신호는 음파
가 발진할 때 마이크 내부 진동판의 변위 크기 입니다.
사운드 데이터의 관점에서, 가로축은 시간이고 
세로 축은 변위의 크기 또는 진폭입니다.
사운드 데이터의 관점에서, 가로축은 시간이고 
세로 축은 변위의 크기 또는 진폭입니다.
파형 간의 차이가 있음을 알지라도, "아하! 이건 확실히 '이'로 들린다"라고 명확히 말할 수 없습니다.
파형 간의 차이가 있음을 알지라도, "아하! 이건 확실히 '이'로 들린다"라고 명확히 말할 수 없습니다.
이 문제를 실제로 해결하려면 완전히 다른 방식으로
데이터를 볼 필요가 있습니다: 스펙트로 그램.
이 데이터 관점에서 가로축은 여전히 시간을 나타내지만
세로축에 진폭 대신 각 사운드를 구성하는
다른 주파수의 크기를 플롯합니다.
세로축에 진폭 대신 각 사운드를 구성하는
다른 주파수의 크기를 플롯합니다.
색상이 밝을수록, 주파수 성분이 더 커집니다.
파형에서 주파수로의 변환은 "고속 푸리에 변환"이라는
아주 멋진 알고리즘으로 마무리됩니다.
파형에서 주파수로의 변환은 "고속 푸리에 변환"이라는
아주 멋진 알고리즘으로 마무리됩니다.
만약 여러분이 스테레오 시스템의 EQ 시각화 프로그램을
봤다면 그것과 거의 비슷합니다.
만약 여러분이 스테레오 시스템의 EQ 시각화 프로그램을
봤다면 그것과 거의 비슷합니다.
스펙트로그램은 시간의 경과에 따라 정보를 플로팅합니다.
여러분은 아마 신호가 갈비뼈모양 패턴을 갖는 것을
볼 수 있을 것입니다.

English: 
As we discussed in Episode 21 – on Files
and File Formats – this signal is the magnitude
of displacement, of a diaphragm inside of
a microphone, as sound waves cause it to oscillate.
In this view of sound data, the horizontal
axis is time, and the vertical axis is the
magnitude of displacement, or amplitude.
Although we can see there are differences
between the waveforms, it’s not super obvious
what you would point at to say, “ah ha!
this is definitely an eeee sound”.
To really make this pop out, we need to view
the data in a totally different way: a spectrogram.
In this view of the data, we still have time
along the horizontal axis, but now instead
of amplitude on the vertical axis, we plot
the magnitude of the different frequencies
that make up each sound.
The brighter the color, the louder that frequency
component.
This conversion from waveform to frequencies
is done with a very cool algorithm called
a Fast Fourier Transform.
If you’ve ever stared at a stereo system’s
EQ visualizer, it’s pretty much the same
thing.
A spectrogram is plotting that information
over time.
You might have noticed that the signals have
a sort of ribbed pattern to them – that’s

Korean: 
그것은 제 목소리 영역의 모든 공명입니다.
다른 소리를 내려면 입, 혀, 화음을 다른 모양으로
쥐어짜야 합니다.
이는 다른 공명을 증폭 시키거나 감쇠시킵니다.
우리는 이를 신호에서 더 밝거나
어두운 영역을 통해 볼 수 있습니다.
스펙트럼의 최고점(Formants)을 표시하는 라벨을 붙입니다.
두 사운드가 상당히 다른 배열을 갖고 있음을
알 수 있습니다.
그리고 이것은 실제 모든 모음 소리에 해당됩니다.
바로 이러한 정보 유형이 정확히 컴퓨터가 들은 모음과 
전체 단어를 인식하게 합니다.
바로 이러한 정보 유형이 정확히 컴퓨터가 들은 모음과 
전체 단어를 인식하게 합니다.
더 복잡한 예제를 살펴 봅시다. 제가 
"그녀는 행복했습니다"라고 말해보겠습니다.
우리는 여기서 "이"와 "아" 소리를 볼 수 있습니다.
"she"의 "shh"사운드, "was"의 "wah"및 "sss"등과 같은
다른 독특한 사운드도 볼 수 있습니다.
"she"의 "shh"사운드, "was"의 "wah"및 "sss"등과 같은
다른 독특한 사운드도 볼 수 있습니다.
단어를 구성하는 이 사운드 조각들은
음소라고 불립니다.
음성 인식 소프트웨어는 모든 음소들이
어떻게 생겼는지를 압니다.
영어로 보면 약 44가지가 있는데,
그래서 그것은 주로 멋진 패턴 일치로 귀결됩니다.
그런 다음 단어를 서로 분리하여
문장이 언제 시작되고 끝나는지 알아 냅니다.
궁극적으로, 여러분이 하는 말은 텍스트로 변환되어
강의 초반에 얘기했던 기술을 사용할 수 있습니다.

English: 
all the resonances of my vocal tract.
To make different sounds, I squeeze my vocal
chords, mouth and tongue into different shapes,
which amplifies or dampens different resonances.
We can see this in the signal, with areas
that are brighter, and areas that are darker.
If we work our way up from the bottom, labeling
where we see peaks in the spectrum – what
are called formants – we can see the two
sounds have quite different arrangements.
And this is true for all vowel sounds.
It’s exactly this type of information that
lets computers recognize spoken vowels, and
indeed, whole words.
Let’s see a more complicated example, like
when I say: “she.. was.. happy”
We can see our “eee” sound here, and “aaa”
sound here.
We can also see a bunch of other distinctive
sounds, like the “shh” sound in “she”,
the “wah” and “sss” in “was”,
and so on.
These sound pieces, that make up words, are
called phonemes.
Speech recognition software knows what all
these phonemes look like.
In English, there are roughly forty-four,
so it mostly boils down to fancy pattern matching.
Then you have to separate words from one another,
figure out when sentences begin and end...
and ultimately, you end up with speech converted
into text, allowing for techniques like we

Korean: 
궁극적으로, 여러분이 하는 말은 텍스트로 변환되어
강의 초반에 얘기했던 기술을 사용할 수 있습니다.
사람들은 악센트와 잘못된 발음으로 인해
약간 다른 방식으로 단어를 말하기 때문에,
단어의 순서에 관한 통계를 포함한 언어 모델을 결합하여
변환의 정확성은 크게 향상됩니다.
단어의 순서에 관한 통계를 포함한 언어 모델을 결합하여
변환의 정확성은 크게 향상됩니다.
예를 들어 "She was"는 뒤에 "happy"와 같은 형용사가
뒤따라올 가능성이 가장 높습니다.
"She was" 뒤에 즉시 명사가 나오는 경우는 드뭅니다.
따라서 음성 인식기가 "happy"과 "harpy" 중 헷갈릴 경우
그것은 "happy"를 고를 것입니다.
이는 언어 모델이 가능성 있는 선택으로 기록하기 때문입니다.
마지막으로, 우리는 음성 합성, 즉 컴퓨터에 말하기 능력
을 부여하는 것에 관해 이야기 할 필요가 있습니다.
마지막으로, 우리는 음성 합성, 즉 컴퓨터에 말하기 능력
을 부여하는 것에 관해 이야기 할 필요가 있습니다.
이것은 음성 인식과 매우 비슷하지만 반대로 작동합니다.
우리는 글에서 한 문장을 가져와
그것을 음성 구성 요소로 분해하고,
컴퓨터 스피커로 그 소리를 연속 재생할 수 있습니다.
1937년 벨 연구소의 수작업 기계와 같은 구형 음성 합성
기술로 이 음소 변화를 아주 분명하게 들을 수 있습니다.
1937년 벨 연구소의 수작업 기계와 같은 구형 음성 합성
기술로 이 음소 변화를 아주 분명하게 들을 수 있습니다.
"She saw me라고 표정 없이 말해봐"
"She saw me"

English: 
discussed at the beginning of the episode.
Because people say words in slightly different
ways, due to things like accents and mispronunciations,
transcription accuracy is greatly improved
when combined with a language model, which
contains statistics about sequences of words.
For example “she was” is most likely to
be followed by an adjective, like “happy”.
It’s uncommon for “she was” to be followed
immediately by a noun.
So if the speech recognizer was unsure between,
“happy” and “harpy”, it’d pick “happy”,
since the language model would report that
as a more likely choice.
Finally, we need to talk about Speech Synthesis,
that is, giving computers the ability to output
speech.
This is very much like speech recognition,
but in reverse.
We can take a sentence of text, and break
it down into its phonetic components, and
then play those sounds back to back, out of
a computer speaker.
You can hear this chaining of phonemes very
clearly with older speech synthesis technologies,
like this 1937, hand-operated machine from
Bell Labs.
Say, "she saw me" with no expression.
She saw me.

English: 
Now say it in answer to these questions.
Who saw you?
She saw me.
Who did she see?
She saw me.
Did she see you or hear you?
She saw me.
By the 1980s, this had improved a lot, but
that discontinuous and awkward blending of
phonemes still created that signature, robotic
sound.
Thriller was released in 1983 and sung by Michael Jackson.
Today, synthesized computer voices, like Siri,
Cortana and Alexa, have gotten much better,
but they’re still not quite human.
But we’re soo soo close, and it’s likely
to be a solved problem pretty soon.
Especially because we’re now seeing an explosion
of voice user interfaces on our phones, in
our cars and homes, and maybe soon, plugged
right into our ears.
This ubiquity is creating a positive feedback
loop, where people are using voice interaction
more often, which in turn, is giving companies
like Google, Amazon and Microsoft more data
to train their systems on...
Which is enabling better accuracy, which is
leading to people using voice more, which
is enabling even better accuracy… and the
loop continues!

Korean: 
"이제 이 질문에 대답해 봐"
"누가 널 봤어?"
"그녀는 나를 보았다."
"그녀가 누굴 봤어?"
"그녀는 나를 보았다."
"그녀가 너를 봤니 아니면 들었니?
"그녀는 나를 보았다."
1980년대 까지 많이 개선되었지만, 
불연속적이고 어색한 음소의 혼합은
음소는 아직까지 그 상징적인 로봇 소리를
만들어 냈습니다.
스릴러는 1983년에 발매됬고,
Michael Jackson이 노래했습니다.
오늘날 시리, 코타나, 알렉사와 같이 합성된 
컴퓨터 음성은 훨씬 나아 졌습니다.
그러나 그들은 아직도 꽤 사람같진 않습니다.
하지만 우리는 매우, 매우 가까이에 있어
이 문제는 곧 해결 될 것입니다.
특히 전화, 자동차 및 가정에서 음성 사용자
인터페이스가 폭발적으로 증가하고 있으며
아마 곧 우리 귀에도 연결될 것입니다.
이 편재성은 사람들이 음성 상호 작용을 자주 사용하는 
긍정적인 피드백 고리를 만들어 내며
이는 결국 구글, 아마존 및 마이크로소프트  같은 회사에
그들의 시스템을 훈련시키는 많은 데이터를 제공합니다.
이는 결국 구글, 아마존 및 마이크로소프트  같은 회사에
그들의 시스템을 훈련시키는 많은 데이터를 제공합니다.
더 나은 정확도를 가능하게 하여 
음성을 더 많이 사용하도록 사람들을 이어지고
이는 더 나은 정확성을 가능하게 합니다.
그리고 이것은 계속 됩니다!

English: 
Many predict that speech technologies will
become as common a form of interaction as
screens, keyboards, trackpads and other physical
input-output devices that we use today.
That’s particularly good news for robots,
who don’t want to have to walk around with
keyboards in order to communicate with humans.
But, we’ll talk more about them next week.
See you then.

Korean: 
많은 사람들은 음성 기술이 일반적인 
상호 작용 형태가 될 것이라고 예측합니다.
스크린, 키보드, 트랙 패드 및 기타 
오늘날 우리가 사용하는 물리적인 입출력 장치들처럼요.
그것은 인간과 의사 소통하기 위해 키보드로 걸어 다닐 
필요가 없는 로봇에게 특히 좋은 소식입니다.
그것은 인간과 의사 소통하기 위해 키보드로 걸어 다닐 
필요가 없는 로봇에게 특히 좋은 소식입니다.
그러나, 다음 주에 그들에 대해 더 이야기 할 것입니다.
그때 만나요.
