
Japanese: 
みなさんよく戻ってきてくれました
前回のレッスンでは
文字列や文を字句分析プログラムを使い
トークンや単語に分割する方法を学びましたね
字句解析プログラムの根底にあるものは
正規表現でした
HTMLやJavaScriptのソースコードを
トークンに分割し
そのあと有効な構文を導き出して
それを理解しWebブラウザを作ります
しかしトークンのリストや
単語のリストがあるだけでは
十分ではありません
まだ混乱がおきますね
例えばここに2つの単語の集合体を書きました
1つ目は
Simone de Beauvoir wrote The Mandarins．
2つ目はwrote wrote Simone de de de．です
2つ目の例は1つ目の集合体で使われている
単語のみで構成されていますが

English: 
All right, everyone, welcome back.
In our last exciting episode,
we learned how to take a string or a sentence
and use lexical analysis to break it down into a list of tokens or words.
And lexical analysis was based on our old best friends regular expressions.
And remember that we need to break down HTML or JavaScript source code
into tokens and then into valid utterances
in order to understand them and build our web browser.
However, it turns out that just having a list of tokens
or a list of words is not enough.
We can still be confused.
For example, I've written here 2 collections of words.
The first, "Simone de Beauvoir wrote 'The Mandarins,'"
and the second, "wrote wrote Simone de de de."
Even though this second collection of words
uses only words that occur in the first,

Portuguese: 
Ok, benvindo de novo.
Em nosso último excitante episódio,
aprendemos como pegar um string, ou sentença,
e usar análise léxica para separá-lo em uma lista de tokens, ou palavras.
E análise léxica é baseada em nossa velha amiga, expressão regular.
E lembre-se que precisamos quebrar código HTML e JavaScript
em tokens e então em sentenças válidas,
de modo a entendê-las e construir nosso web browser.
Entretanto, acontece que ter apenas uma lista de tokens,
ou lista de palavras, não é suficiente.
Ainda ficamos confusos.
Por exemplo, escrevi aqui 2 coleções de palavras.
A primeira, "Simone de Beauvoir wrote The Mandarins",
e a segunda, "wrote wrote Simone de de de.".
Mesmo que esta segunda coleção de palavras
tenha apenas palavras que ocorrem na primeira,

English: 
we like this one, and this one makes us very confused,
so just a list of words isn't enough.
They have to adhere to a valid structure.
There's a subject and a verb and an object,
and down here in bag of words 2,
it's not really clear what's going on.
In particular, we're tempted to say that bag of words #1,
"Simone de Beauvoir wrote 'The Mandarins,'" follows English grammar,
follows the rules of how we construct sentences or thoughts in English,
and the second does not.
The grammar for any modern natural language, be it Mandarin Chinese,
English, French, admits an infinite number of utterances.
But not--and this is super critical--not all utterances,
all interesting grammars, rule something out.
Provide structure by saying that you can't say gibberish.
You have to say something meaningful.

Japanese: 
皆に好まれるのは1つ目ですね
2つ目はとても混乱してしまいます
単語のリストだけでは不十分で
有効な構造に従う必要があります
主語、動詞、そして目的語がありますが
2つ目の単語の集合体は
どれが何を表しているかよく分かりません
1つ目の単語の集合体を見てみましょう
この集合体の構造は英語の文法に従っています
英語の文や思考を
組み立てるルールに沿っていますね
2つ目は違います
中国語、フランス語、英語など
現代に使用されている
自然言語では文の数は無限に作ることができます
無限に作ることができたとしても
すべての文や文法が
言語として受け入れられるとは限りません
言語の構造に従うことで支離滅裂にはならず
言葉の集合体に意味が生まれます

Portuguese: 
gostamos desta, e esta outra nos deixa confusos.
Portanto, apenas uma lista de palavras não é suficiente.
Elas têm que aderir a uma estrutura válida.
Existe aqui um sujeito, um verbo e um objeto,
mas aqui, na coleção 2,
não é claro o que acontece.
Em particular, dizemos que a coleção de palavras 1 --
"Simone de Beauvoir wrote The Mandarins" segue a gramática inglesa,
segue as regras sobre como construir sentenças, ou pensamentos, em inglês.
A segunda não.
A gramática de qualquer linguagem natural, seja ela Mandarin Chinês,
Inglês, Francês, admite um número infinito de sentenças.
Mas nem todas -- isso é importante -- nem todas as sentenças.
Toda gramática interessante elimina algumas.
Provê estrutura, de modo que você não possa dizer lixo --
você deve falar algo com sentido.

Portuguese: 
Apesar do fato de que vamos eliminar boa parte da nossa coleção de palavras,

Japanese: 
ただいくつかの言葉の集合体を除外したとしても

English: 
Despite the fact that we're going to rule out quite a few bags of words,

Portuguese: 
ainda haverá muita oportunidade para criatividade, como você verá em um minuto.

English: 
we're still going to have plenty of room for creativity, and you'll see how in just a minute.

Japanese: 
クリエイティブに取り組むことは可能です
早速取りかかりましょう
