
Turkish: 
UTF-8 belki de en iyi kesmek,
kullanılan en iyi tek şey
peçetenin arkasına yazılabilir,
ve bu nasıl bir araya getirildi.
UTF-8'in ilk taslağı bir akşam yemeğinde peçetenin arkasına yazıldı.
ve bu sadece zarif bir kesmek
bu pek çok sorunu çözdü ve ben
kesinlikle onu seviyorum.
1960'larda
teleprinters vardı, basit vardı
anahtar yazdığınız cihazlar
bazı numaralar gönderir ve diğer tarafta da aynı harf çıkar.
ama orada bir standart olması gerekiyor
1960'ların ortası
En azından Amerika, Bilgi Değişimi için Amerikan Standart Kodu olan ASCII'ye yerleşti.
ve 7 bitlik bir ikili sistem.
yani yazdığınız her harf
7 ikili sayıya dönüştürülür ve tel üzerinden gönderilir.
Şimdi bu, 0'dan 127'ye kadar sayılara sahip olabileceğiniz anlamına gelir.
Kontrol kodları için ilk 32’yi, yazı için daha az önemli şeyleri değiştirdiler.

Korean: 
UTF-8은 아마도 여태까지 있었던
모든 해결책 중에
단연 최고의 해결책일겁니다.
냅킨 뒷면에 다 적을 수 있을 정도로 간단하지요.
그리고 실제로 냅킨 뒷면에서 출발했어요.
UTF-8의 초안은 저녁식사 중에 
냅킨 뒷면에 적혀졌습니다.
근데 이게 너무나도 아름답게
굉장히 많은 문제들을 해결했고, 
저는 이 기술을 사랑할 수밖에 없습니다.
1960년대에는
텔레프린터란걸 사용했죠. 뭔가를 타이핑하면
어딘가에 원격으로 숫자들을 보내고, 타이핑된 글자들을 기계 반대편에 출력하는 녀석이었죠.
그런데 (숫자들을 보내는 방법에) 표준이 필요해진거죠. 
그래서 1960년 중반에
최소한 아메리카에서는, ASCII(American Standard Code for Information Interchange)라는 표준이 정착되었습니다.
이 표준은 7개의 bit를 사용하는 시스템이었습니다.
그러니까 키보드로 치는 각각의 글자들이
7bit의 이진수로 전환되어서 
전선을 타고 송신되는 거였죠.
그 말은 사용할 수 있는 숫자가 
0~127까지 있다는 것을 뜻합니다.
처음 32개의 숫자들은 글을 쓸 때 상대적으로 덜 중요한 것들을 표시하는데 배당되었어요.

Spanish: 
UTF-8 es tal vez el mejor hack
la mejor única cosa que es usada
que puede escribirse sobre una servilleta,
y así fue como se diseñó.
El primer borrador de UTF-8
fue escrito sobre una servilleta durante una cena
y es un hack tan elegante
y que resolvió muchos problemas y me encanta.
En la década de 1960,
teníamos teleimpresoras, dispositivos simples
en los cuales presionabas una tecla
y éstos enviaban algunos números
y la misma letra salía del otro lado,
pero se necesitaba un estándar
así que a mediados de la década de 1960
en Estados Unidos, se creó ASCII, que es el Código Estándar Estadounidense para el Intercambio de Información
y es un sistema binario de 7 bits,
así que cada letra que presionabas
se convertía en 7 dígitos binarios
y se enviaba a través del cable
Eso significa que tenías números desde 0 hasta 127.
Entonces movieron los primeros 32 para control de códigos y cosas menos importantes para escribir,

English: 
UTF-8 is perhaps the best hack,
the best single thing that's used
that can be written down on the back of a napkin,
and that's how was it was put together.
The first draft of UTF-8 was written on the back of a napkin in a diner
and it's just such an elegant hack
that solved so many problems and I
absolutely love it.
Back in the 1960s,
we had teleprinters, we had simple
devices where you type a key
and it sends some numbers and the same letter comes out on the other side,
but there needs to be a standard so in
the mid-1960s
America, at least, settled on ASCII, which is the American Standard Code for Information Interchange,
and it's a 7-bit binary system,
so each letter you type in
gets converted into 7 binary numbers and sent over the wire.
Now that means you can have numbers from 0 to 127.
They sort of moved the first 32 for control codes and less important stuff for writing,

Spanish: 
cosas como "bajar una línea"("⏎") o retroceso("⌫").
Y luego hicieron el resto de los caracteres.
Agregaron algunos números,
algunos signos de puntuación.
Hicieron algo muy inteligente...
le asignaron a la letra 'A' el 65 el cual, en binario
(veamos... 1, 2, 4, 8, 16, 32 64)
en binario, 65 es 1000001,
lo que quiere decir que 'B' es 66,
entonces tienes 2 en binario aquí mismo
'C', 67, 3 en binario.
Entonces puedes ver los caracteres binarios de 7 bits y quitar los dos primeros dígitos
y saber cuál es su posición en el alfabeto.
Y aun más inteligente que eso,
agregaron las minúsculas sumando 32,
entonces la 'a' minúscula es 97 (1100001).
Cualquier cosa que no entre en esas categorías probablemente sea un espacio, lo que convenientemente serán todos ceros,
o algún tipo de signo de puntuación.

Turkish: 
"bir satır aşağı git" veya geri alma gibi şeyler.
Ve sonra kalan karakterleri yaptılar. Bazı numaralar, bazı noktalama işaretleri eklediler.
Gerçekten zekice bir şey yaptılar, yani 'A' 65'i ikili, yani ...
1, 2, 4, 8, 16, 32, 64 ...
ikili sistemde, 65 1000001’dir,
bu, 'B' nin 66 olduğu anlamına gelir; bu, sadece burada ikilide 2 bulunduğunuz anlamına gelir.
C, 67, 3, ikili olarak.
Böylece 7 bitlik bir ikili karaktere bakabilir ve ilk iki rakamı gösterebilirsiniz
ve alfabedeki konumunu bilmek.
Bundan daha akıllı olsalar bile, daha sonra küçük harfle başladılar.
bu, 'a' küçük harfinin 97-1100001 olduğu anlamına gelir.
Buna uymayan her şey muhtemelen bir sıfırdır, ki uygun olarak sıfır olacaktır.
veya bir çeşit noktalama işareti.

Korean: 
줄바꿈문자라던가, 
백스페이스 같은 것들 말이죠.
다음에는 나머지 글자들을 배당했습니다. 
숫자라던가, 문장부호 같은 것들요.
여기서 그들은 정말 똑똑한 일을 합니다.
바로 글자 'A'를 65에 배당한 것이죠.
이진수로 표시했을 때, 
(1의자리, 2의자리, 4의자리, 8, 16,64...)
65는 1000001이 되거든요!
즉, 'B'는 66이 되고, 이진수로 나타내면
맨 뒷쪽에 2를 표시하기만 하면 되게끔 말이죠.
'C'는 67에 배당했고, 
이진수로 3을 표시하면 됩니다.
그러니까 7bit 의 이진수만 보더라도, 
맨 뒤의 숫자 두 개만 떼어내면
이게 몇 번째 알파벳 글자인지 알 수 있는거죠.
더 똑똑하게도, 그들은 
소문자들을 32bit 뒤에 배당했습니다.
즉, 소문자 'a'는 97이 되고
이진수로는 1100001이 되는거죠.
여기에 속하지 않는 것들은, 공백이나
아니면 다른 문장부호 같은 것들이죠.

English: 
things like like "go down a line" or backspace.
And then they made the rest characters. They added some numbers, some punctuation marks.
They did a really clever thing, which is that they made 'A' 65 which, in binary—
find 1, 2, 4, 8, 16, 32, 64—
in binary, 65 is 1000001,
which means that 'B' is 66, which means you've got 2 in binary just here.
C, 67, 3 in binary.
So you can look at a 7-bit binary character and just knock off the first two digits
and know what its position in the alphabet is.
Even cleverer than that, they started lowercase 32 later,
which means that lowercase 'a' is 97—1100001.
Anything that doesn't fit into that is probably a space, which conveniently will be all zeroes,
or some kind of punctuation mark.

Turkish: 
Zekice, zekice, harika, harika şeyler yapmanın yolu
ve en azından İngilizce konuşan dünyada standart oldu.
Dünyanın geri kalanına gelince, birkaçı bunun versiyonlarını yaptı.
ama başka alfabelere, gerçekten alfabe kullanmayan dillere girmeye başlarsınız.
Hepsi kendi kodlamaları ile geldi, bu iyi.
Ardından bilgisayarlar gelir ve zamanla işler değişir.
8 bitlik bilgisayarlara geçiyoruz, bu yüzden başlangıçta sorunların kafasını karıştırmak için fazladan bir sayımız var.
bu 256'ya gidebileceğimiz anlamına geliyor! İki kat daha fazla karakterimiz olabilir!
Ve elbette, herkes bunun için aynı standarda yerleşti, çünkü bu mükemmel s.
Hayır. Hiçbiri yapmadı.
Bütün İskandinav ülkeleri, Norveç karakterlerini ve Fince karakterlerini buraya koymaya başlar.
Japonya sadece ASCII'yi hiç kullanmıyor.
Japonya daha fazla harf ve daha fazla karakter içeren kendi çok baytlı kodlamasını kullanıyor ve oluşturuyor
ve her bir karaktere giden daha fazla ikili sayı.
Bunların hepsi büyük ölçüde uyumsuz.

Korean: 
찬란하고, 똑똑하고, 경이롭고, 훌륭하게 일을 해냈어요.
그리고 이 방법이 최소한 영어권 국가들에서는
표준으로 정착됩니다.
물론 어떤 국가들은 이 방법을 조금 
변형해서 사용하기도 했죠.
하지만 다른 종류의 알파벳, 혹은 알파벳 자체를 
전혀 사용하지 않는 언어들을 만나면 골치아파집니다.
그런 언어들은 그들 각자의 인코딩방식을 
사용했지요. 거기까진 괜찮았어요.
그런데 이젠 타자기가 아닌 컴퓨터가 등장하죠. 
그리고 시간이 지나면서, 상황이 변합니다.
우린 이제 8bit컴퓨터로 넘어오게 되었어요. 
이제 우리가 쓸 수 있는 숫자들이 훨씬 많아지게 되었죠. 헷갈리게 말이에요.
이제 256가지의 숫자들을 쓸 수 있는 겁니다!
기존의 2배인거죠.
그리고 당연히, 사람들은 기존의 표준에 만족.....했......
을리가 없죠
절대로 그렇지 않았어요.
북유럽 국가들은 노르웨이 글자들을 여기에 넣고 
핀란드 글자들을 저기에 넣고...
심지어 일본은 ASCII를 전혀 사용하지도 않았어요.
일본은 더 많은 글자들과 기호들을 표시하기 위해 
더 많은 비트들로 이루어진 
그들 고유의 인코딩을 개발합니다.
그러니까 각각의 글자들을 표시하는데 더 많은 비트들이 소모된거죠.
그리고 이 모든 인코딩들은 서로간에
전혀 호환되지 않았어요.

English: 
Brilliant, clever, wonderful, great way of doing things,
and that became the standard, at least in the English-speaking world.
As for the rest of the world, a few of them did versions of that,
but you start getting into other alphabets, into languages that don't really use alphabets at all.
They all came up with their own encoding, which is fine.
And then along come computers, and, over time, things change.
We move to 8-bit computers, so we now have a whole extra number at the start just to confuse matters,
which means we can go to 256! We can have twice as many characters!
And, of course, everyone settled on the same standard for this, because that would make perfect s—
No. None of them did.
All the Nordic countries start putting Norwegian characters and Finnish characters in there.
Japan just doesn't use ASCII at all.
Japan goes and creates its own multibyte encoding with more letters and more characters
and more binary numbers going to each individual character.
All of these things are massively incompatible.

Spanish: 
Brillante, inteligente, maravillosa,
grandiosa manera de hacer cosas,
y eso se convirtió en estándar,
al menos en los lugares de habla inglesa.
En cuanto al resto del mundo,
algunos de ellos hicieron versiones de eso,
pero comienzas a entrar en otros alfabetos
y en idiomas que no usan alfabetos.
Todos ellos crearon su propia codificación,
lo cual está bien.
Y luego llegaron las computadoras, y,
con el paso del tiempo, las cosas cambiaron.
Llegan las computadoras de 8 bits, y entonces tenemos un número extra al comienzo solo para confundir las cosas,
¡Lo que significa que podíamos llegar hasta 256!
¡Duplicamos la cantidad de caracteres!
Y, por supuesto, todos adoptaron el
mismo estándar para esto, porque tendría senti—
No. Nadie lo hizo.
Todos los países nórdicos comenzaron a
agregar caracteres noruegos y finlandeses.
Japón no usaba ASCII en absoluto.
Japón creó su propia codificación multibyte
con más letras y más caracteres
y más dígitos binarios
correspondiendo a cada carácter individual
Todas estas cosas eran masivamente
incompatibles entre sí.

Korean: 
일본에서는 심지어 3~4개의 인코딩 방식이
사용되고 있었는데, 이들 역시 서로간에
전혀 호환되지 않았죠.
그러니까 일본에서는 오래된 컴퓨터에서 다른 컴퓨터로 문서를 보내면
받는 쪽에서는 완전히 깨진 문서를 받게 되는 거였죠.
그래서 일본에는 심지어 "깨진글자"를 
뜻하는 단어가 따로 있어요
아마...제가 제대로 발음하는지는 모르겠지만... 암튼 "mojibake"란 단어입니다.
이것도 나름 악몽이지만, 아직까진 나쁘지 않습니다.
왜냐하면, 런던에서 일본에 있는 
완전히 호환되지 않는, 알 수 없는 컴퓨터로
문서를 보낼 일이 얼마나 자주
있었겠어요?
그 시절에는, 드문 일이었죠.
그래서 그냥 출력해서 팩스로 보냈습니다.
그러더니 월드와이드웹이 나왔죠. 
이제 문제가 시작됩니다.
왜냐면 갑자기 문서들이 전세계에서 전세계로 
일상적으로 전송되기 시작했거든요.
그래서 유니코드 컨소시엄이라는게 만들어집니다.
그리고 그들은 거의 기적에 가까운 일을 해냅니다. 
1~20년만에 그들은 표준이란걸 어떻게든 만들어냈죠.
유니코드는 이제 수십만개의 기호들의
리스트를 가지고 있습니다.

Spanish: 
Japón tenía tres o cuatro codificaciones diferentes,
cada una completamente incompatible con la otra.
Entonces si enviabas un documento
de alguna vieja computadora japonesa a otra,
se volvía tan ilegible que incluso hay
una palabra en japonés para "caracteres ilegibles",
que es (probablemente lo pronuncie mal) "mojibake".
Era un poco caótico, pero no era tan malo,
porque, ¿qué tan seguido alguien en Londres
tenía que enviar un documento
a una computadora completamente incompatible
y desconocida de otra compañía de Japón?
En aquellos días, era raro.
Lo imprimías y lo enviabas por fax.
Y luego llegó la World Wide Web ,
y aparece un nuevo problema,
porque repentinamente una cantidad incontable
de documentos se enviaban por todo el mundo
a cada segundo.
Entonces se creó el Consorcio Unicode.
En lo que solo puedo describir como un milagro,
durante las últimas décadas, lograron establecer un estándar.
Unicode ahora tiene una
lista de más de cien mil caracteres

English: 
Japan actually has three or four different encodings, all of which are completely incompatible with each other.
So you send a document from one old-school Japanese computer to another,
it will come out so garbled that there is even a word in Japanese for "garbled characters,"
which is—I'm probably mispronouncing this—but it's "mojibake."
It's a bit of a nightmare, but it's not bad,
because how often does someone in London have to send a document
to a completely incompatible and unknown computer at another company in Japan?
In those days, it's rare. You printed it off and you faxed it.
And then the World Wide Web hit, and we have a problem,
because suddenly documents are being sent from all around the world all the time.
So a thing is set up called the Unicode Consortium.
In what I can only describe as a miracle, over the last couple of decades, they have hammered out a standard.
Unicode now have a list of more than a hundred thousand characters

Turkish: 
Japonya aslında hepsi birbiriyle tamamen uyumlu olmayan üç veya dört farklı kodlamaya sahip.
Yani eski bir Japon bilgisayarından diğerine bir belge gönderiyorsunuz.
o kadar bozuk çıkacak ki Japoncada "bozuk karakterler" için bir kelime bile var.
ki — muhtemelen bunu yanlış yapıyorum - ama bu "mojibake".
Biraz kabus, ama fena değil,
çünkü Londra’da birinin ne sıklıkta belge göndermesi gerekiyor?
Japonya'da başka bir şirkette tamamen uyumlu ve bilinmeyen bir bilgisayara mı?
O günlerde, nadirdir. Yazdırdınız ve faksladınız.
Sonra World Wide Web isabet aldı ve bir sorunumuz var.
çünkü aniden belgeler dünyanın her yerinden her zaman gönderiliyor.
Böylece Unicode Konsorsiyumu denilen bir şey kurulur.
Sadece bir mucize olarak tanımlayabildiğim şeyde, son birkaç on yıl boyunca, bir standart oluşturdular.
Unicode şimdi yüz binden fazla karakterden oluşan bir listeye sahip

Turkish: 
Bu, herhangi bir dilde yazmak isteyebileceğiniz her şeyi kapsar.
İngilizce alfabe, Kiril alfabesi, Arapça alfabe, Japonca, Çince ve Korece karakterler.
Sonunda sahip olduğunuz şey 100.000'den fazla karaktere 100.000 sayı atayan Unicode Konsorsiyumu.
İkili rakam seçmediler. Neyi temsil etmeleri gerektiğini seçmediler.
Söylemiş oldukları tek şey, buradaki Arapça karakter, yani 5,700 sayı,
ve buradaki dilbilimsel sembol, bu 10.000 şey.
Burada toplu olarak sadeleştirmek zorundayım çünkü bunlar var.
Tabii ki, bunu yapmanın beş veya altı uyumsuz yolu,
Fakat web’in az çok üzerinde durduğu şey “UTF-8” olarak adlandırılan bir şeydir.
Bariz olanı yapmanın bir kaç problemi var.
"Tamam. 100.000'e gidiyoruz.
Bu, neye ... güvende olmak gerekirse, kodlamak için 32 ikili haneye ihtiyaç duyacak. "

Korean: 
그 정도면 어떤 언어의 어떤 글자들도
다 포함할 수 있죠.
영어 알파벳, 키릴 문자, 
아랍문자, 일본어, 중국어, 한국어까지...
결론적으로 유니코드 컨소시엄은
100,000만개가 넘는 글자들에
100,000 개의 숫자들에 배당합니다.
그들은 이진숫자를 택하지 않았어요.
그것들이 컴퓨터에서 어떻게 표시될지에 대해서는
 정하지 않은거죠.
그들이 결정한 건, " '저' 아랍 글자, 저거는 
5천7백 몇번이야"
"그리고 저 언어 기호, 저거는 1만 몇 번이야"
좀 과장되게 단순화 시켜서 말하는 겁니다. 
사실 이 숫자들을 컴퓨터에서 표현하는 방식에는
서로 호환될 수 없는 5~6개의 방식들이
있거든요.
하지만 결국 웹이 정착하게 된 표준은
UTF-8이라고 불리는 방법입니다.
뻔한 일을 하는데 발생하는 문제들이 몇 가지 있습니다.
예를 들어서
"좋아. 100,000개의 숫자를 사용하자"
"그러려면...넉넉하게 32개의 비트가 있으면 
모두 표현할 수 있겠군"

English: 
that covers everything you could possibly want to write in any language—
English alphabet, Cyrillic alphabet, Arabic alphabet, Japanese, Chinese, and Korean characters.
What you have at the end is the Unicode Consortium assigning 100,000+ characters to 100,000 numbers.
They have not chosen binary digits. They have not chosen what they should be represented as.
All they have said is that THAT Arabic character there, that is number 5,700-something,
and this linguistic symbol here, that's 10,000-something.
I have to simplify massively here because there are about,
of course, five or six incompatible ways to do this,
but what the web has more or less settled on is something called "UTF-8."
There are a couple of problems with doing the obvious thing, which is saying,
"OK. We're going to 100,000.
That's gonna need, what... to be safe, that's gonna need 32 binary digits to encode it."

Spanish: 
que contiene todo lo que podrías escribir
en cualquier idioma
(alfabeto inglés, alfabeto cirílico, alfabeto árabe,
caracteres japoneses, chinos y coreanos).
Al final el Consorcio Unicode
asignó 100.000 caracteres más a 100.000 números.
No eligieron dígitos binarios.
No escogieron lo que deberían representar.
Lo unico que dijeron fue "ESE carácter 
árabe es el número 5.700 y algo,
y este símbolo lingüístico, es 10.000 y algo".
Tengo que simplificarlo mucho porque hay,
por supuesto, cinco o seis maneras
incompatibles de hacerlo.
pero en lo que la web ha más o menos
acordado es algo llamado "UTF-8".
Hay algunos problemas para hacer lo obvio,
que sería decir,
"OK. Tenemos 100.000.
Necesitaremos, unos... para estar seguros,
necesitaremos 32 dígitos binarios para codificar esto".

Korean: 
이 때 영어 알페벳은 ASCII에서하던 대로 표현했습니다. 
'A'는 여전히 65인거죠.
그러니까 만약, 지금 다루는게 영어 텍스트라면,
그리고 그 글자들 각각을 32비트로 표현한다면
그러면...최소한...20..26..?
26~7개의 0들과 맨 뒤의 1 몇개가 필요한 거죠. 
모든 글자 하나 하나에 말이에요.
어마어마한  낭비죠.
갑자기 모든 영어권의 문서들이 
저장공간에서의 크기가 4배로 불어난 겁니다.
따라서, 문제1 : 영어 문서를 표시하는데 쓸모 없는 
수많은 0들을 처리해야 합니다.
문제 2 : 아주 많은 오래된 컴퓨터들은 
0이 8개 이어져 있으면, 그것을 Null이라고 이해합니다.
Null이란 "이것이 문자열의 마지막 글자다"라는 뜻이죠.
따라서 만약 0을 8개 이어서 보내면,
그것들은 그냥 '듣기'를 멈춰버립니다.
그들은 문자열이 거기서 끝났다고 생각하고
통신을 끝내버리는 거에요.
따라서 문자를 표현하는 중간에
0이 이어서 8번 있으면 절대로 안되는 거죠.
문제 3 : 옛날 시스템들과 호환되어야 합니다.

Spanish: 
Codificaron el alfabeto inglés de la misma
manera que ASCII. 'A' sigue siendo 65.
Entonces si tienes una cadena de texto en inglés,
y lo codificas en 32 bits por carácter,
tenemos cerca de 20 y algo... ¿26? Sí.
26, 27 'ceros' y unos pocos 'unos' por cada carácter.
Y eso es increiblemente ineficiente.
De pronto cada archivo de texto en inglés
ocuparía cuatro veces más de espacio.
Así que, Problema #1: tienes que eliminar
todos los ceros en el texto en inglés.
Problema #2: hay muchas computadoras
viejas con sistemas que interpretan 8 ceros en una fila,
como un NULO, como "este es el final
de la cadena de caracteres".
entonces si envías 8 ceros en una fila,
dejan de procesar texto.
Asumen que la cadena ha terminado, la cortan,
entonces no puedes tener 8 ceros en fila.
¿OK? Problema #3: debe ser compatible
con versiones anteriores.

Turkish: 
İngiliz alfabesini ASCII ile aynı şekilde kodladılar. 'A' hala 65.
Yani, sadece bir İngilizce metin metniniz varsa ve onu karakter başına 32 bit olarak kodluyorsanız,
20 şeye sahip olacaksın ... 26? Evet.
26, 27 sıfırlar ve sonra her karakter için birkaç tane olur.
Bu inanılmaz derecede boşuna.
Birdenbire her İngilizce metin dosyası diskteki alanın dört katını alır.
Öyleyse sorun 1: İngilizce metindeki tüm sıfırlardan kurtulmanız gerekiyor.
Problem 2: Arka arkaya 8 sıfır çeviren birçok eski bilgisayar sistemi var,
NULL, "Bu karakter dizesinin sonu."
bu nedenle, art arda 8 sıfır gönderirseniz, dinlemeyi bırakırlar.
İpin orada bittiğini ve kesildiklerini varsayıyorlar.
bu yüzden hiçbir yerde üst üste 8 sıfır olamaz.
'K. Problem sayısı 3: geriye dönük uyumlu olmak zorunda.

English: 
They encoded the English alphabet in exactly the same way as ASCII did. 'A' is still 65.
So if you have just a string of English text, and you're encoding it at 32 bits per character,
you're gonna have about 20-something... 26? Yeah.
26, 27 zeroes and then a few ones for every single character.
That is incredibly wasteful.
Suddenly every English language text file takes four times the space on disk.
So problem 1: you have to get rid of all the zeroes in the English text.
Problem 2: there are lots of old computer systems that interpret 8 zeroes in a row,
a NULL, as "this is the end of the string of characters."
so if you ever send 8 zeroes in a row, they just stop listening.
They assume the string has ended there, and it gets cut off,
so you can't have 8 zeroes in a row anywhere.
'K. Problem number 3: it has to be backwards-compatible.

Spanish: 
Debes ser capaz de tomar este texto en Unicode
y tirarlo en algo que solo comprenda ASCII básico,
y obtener un texto en inglés más o menos funcional.
UTF-8 resuelve todos esos problemas
y es un hack maravilloso.
Empieza simplemente tomando ASCII.
Si tienes algo por debajo de 128,
eso puede ser expresado como 7 dígitos,
agregas un cero, y luego pones los
números que hubieras puesto de cualquier modo,
entonces tenemos la 'A' otra vez. Bien.
Sigue siendo 'A'. Sigue siendo 65.
Sigue siendo válido para UTF-8 y para ASCII. Brillante.
OK. Ahora vamos más allá de eso.
Ahora necesitas algo que funcione más o menos para ASCII,  o por lo menos que no interrumpa las cosas,
y que siga siendo comprensible.
Entonces lo que haces es empezar escribiendo "110".
Significa que este es el comienzo de un nuevo carácter,
y este carácter tendrá dos bytes de largo.
Dos 'unos', dos bytes, un byte siendo 8 caracteres.

Turkish: 
Bu Unicode metni alıp, yalnızca temel ASCII'yi anlayan bir şeye koyabilmeniz gerekir.
ve İngilizce metin için az ya da çok çalışsın.
UTF-8 tüm bu sorunları çözer ve bu sadece harika bir hack.
Sadece ASCII alarak başlıyor.
128'in altında bir şey varsa, bu sadece 7 hane olarak ifade edilebilir,
sıfıra koydun, sonra da aynı şekilde koyduğun sayıları koydun,
öyleyse tekrar 'A' yı alalım - işte başlıyoruz!
Bu hala 'A'. Bu hala 65. Bu hala UTF-8 geçerli ve bu hala ASCII geçerli. Parlak.
TAMAM. Şimdi bunun üstüne çıkacağımızı varsayalım.
Şimdi ASCII için az ya da çok işe yarayacak bir şeye ihtiyacınız var, ya da en azından bir şeyleri kırmayacaksınız.
ama yine de anlaşılmalıdır.
Öyleyse yaptığın şey "110" yazarak başlaman.
Bu, bunun yeni bir karakterin başlangıcı olduğu ve bu karakterin 2 bayt uzunluğunda olacağı anlamına gelir.
İki tane, iki bayt, bir bayt 8 karakter.

English: 
You have to be able to take this Unicode text and chuck it into something that only understands basic ASCII,
and have it more or less work for English text.
UTF-8 solves all of these problems and it's just a wonderful hack.
It starts by just taking ASCII.
If you have something under 128, that can just be expressed as 7 digits,
you put down a zero, and then you put the same numbers that you would otherwise,
so let's have that 'A' again—there we go!
That's still 'A.' That's still 65. That's still UTF-8-valid, and that's still ASCII-valid. Brilliant.
OK. Now let's say we're going above that.
Now you need something that's gonna work more or less for ASCII, or at least not break things,
but still be understood.
So what you do is you start by writing down "110."
This means this is the start of a new character, and this character is going to be 2 bytes long.
Two ones, two bytes, a byte being 8 characters.

Korean: 
이 유니코드로 만들어진 텍스트를 
ASCII만 이해하는 컴퓨터에 쑤셔박아도
최소한 영어 텍스트에 대해서는 
정상적으로 작동해야 하는 거죠.
UTF-8은 이 모든 문제를 아주 
우아하게 해결합니다.
먼저 ASCII로 부터 시작해요.
128 밑의 숫자들은 모두 7개의 비트로
표현될 수 있죠.
일단 맨 앞에 0을 놓고
그 뒤에 원래 ASCII에서 하던 대로 숫자를 씁니다.
그래서.. 'A'를 다시 씁시다.
저건 여전히 'A'에요. 여전히 65이고요. 
여전히 UTF-8에도 들어맞고 ASCII에도 맞아요.
좋아요. 이제 그 너머로 가봅시다.
이제 ASCII하고도 어느 정도 호환되면서,
최소한 망쳐버리진 않으면서도
이해 가능한 무언가가 필요합니다.
그래서 뭘 하냐면,
맨 앞에 "1 1 0"을 씁니다.
이 말은, 이게 새로운 글자의 시작이고,
이 글자는 길이가 2byte가 될 것이라는 뜻이죠.
1 두 개, 즉 두 개의 바이트인거죠.
바이트는 비트가 8개 있는 겁니다.

Spanish: 
Comenzaremos con un "10", que quiere decir que
esta es una continuación,
y en todos estos espacios en blanco,
de los cuales tienes 5 aquí y 6 aquí,
llenas los otros números,
y luego cuando lo calculas,
sacas esas cabeceras,
y se entiende igual el número que resulte ser.
Este es probablemente alguno entre los centenares.
Eso es lo que harás para los primeros 4.096.
¿Qué hay más allá de eso?
Bueno, más allá de eso tienes "1110",
entonces hay tres bytes en este (tres 'unos', tres bytes)
con dos bytes de continuación.
Entonces tienes 1, 2, 3, 4, 10, 16 espacios.
¿Quieres ir más allá de eso? Puedes.
Esta especificación continúa hasta "1111110x"
con estos bytes de continuación después.
Es un hack brillante que puedes explicar sobre
una servilleta o un pedazo de papel.
Es compatible con versiones anteriores. Esto evita el desperdicio. Nunca, jamás, enviará 8 ceros en una fila,

English: 
And you say on this one, we're gonna start it with "10," which means this is a continuation,
and at all these blank spaces, of which you have 5 here and 6 here,
you fill in the other numbers,
and then when you calculate it, you just take off those headers,
and it understands just  as being whatever number that turns out to be.
That's probably somewhere in the hundreds.
That'll do you for the first 4,096. What about above that?
Well, above that you go "1110," meaning there are three bytes in this—three ones, three bytes—
with two continuation bytes.
So now you have 1, 2, 3, 4, 10, 16 spaces.
You want to go above that? You can.
This specification goes all the way to "1111110x" with this many continuation bytes after it.
It's a neat hack that you can explain on the back of a napkin or a bit of paper.
It's backwards-compatible. It avoids waste. At no point will it ever, ever, ever send 8 zeroes in a row,

Turkish: 
Ve bunun üzerinde "10" ile başlayacağımızı söylüyorsun, bunun bir devamı olduğu,
ve burada 5 ve 6'ya sahip olduğunuz tüm bu boş alanlarda,
diğer numaraları doldurmanız
ve sonra hesapladığınızda, sadece bu başlıkları çıkarırsınız,
ve ne olursa olsun ortaya çıkan sayı olarak anlıyor.
Bu muhtemelen yüzlerce yerde bir yerlerde.
Bu ilk 4,096 için yapacağım. Peki ya bunun üstünde?
Peki, yukarıda "1110" a gidersiniz, yani bunun içinde üç bayt vardır - üç olanlar, üç bayt -
iki devam baytı ile.
Şimdi 1, 2, 3, 4, 10, 16 boşluk var.
Bunun üstünde gitmek ister misin? Yapabilirsin.
Bu şartname, ondan sonraki bir sürü devam baytı ile "1111110x" e kadar gider.
Peçetenin arkasına ya da kağıdın birazını açıklayabileceğin düzgün bir kesmek.
Geriye uyumludur. İsrafı önler. Hiçbir zaman, hiç, hiç, hiç üst üste 8 sıfır göndermeyecek,

Korean: 
그리고 이 부분은 "1 0"으로 시작합니다.
연속된 하나의 글자라는 것을 표시하는 거죠.
그리고 이 모든 공백들이 있습니다.
여기에는 5개가 있고, 여기에는 6개가 있네요.
실질적으로 글자 자체를 표시할 
숫자들은 여기에 입력하면 되는거죠.
그리고 나중에 계산할 때는, 앞의 
두 헤더(110 과 10)을 떼어버립니다.
그러면 어떤 숫자가 나오겠죠. 
그게 무엇이 되었건 그 숫자를 이해하면 되는 겁니다.
이렇게 하면  이게 아마 몇 백 언저리일꺼에요.
이렇게 하면 4096개의 글자들을 표시할 수 있어요. 
그 다음은 어떻게 할까요?
그 다음에는, 맨 앞에 "1 1 1 0"을 씁니다.
그러면 이제 3바이트짜리 글자를 쓰겠단 얘기죠.
연속이 두 번 되는 거죠.
이렇게 하면 1..2...3...4...10...16 개의 bit로 
숫자를 표시할 수 있어요.
더 하고 싶나요? 더 할 수 있어요
UTF-8스펙은 "1 1 1 1 1 1 0 x"까지 
이 방법으로 표현할 수 있죠. 
이 뒤에 그 만큼의 바이트들이 따라오게 말이에요.
아주 우아한 해결책이죠. 냅킨 뒷 면이나 종이조각에
얼마든지 설명할 수 있어요.
이건 옛날 컴퓨터와 호환되고,
공간을 절약하며, 절대로,절대로
8개의 0들을 연달아 보내지 않습니다.

Korean: 
그리고 정말, 정말 결정적으로,  이게 다른 모든 
시스템들을 제칠 수 있었던 가장 중요한 이유는
앞이나 뒤의 문자들을 다루기가 
아주 쉽다는 점이죠.
어떤 기호가 시작되는 지점을 
정확히 알아야 할 필요가 없습니다.
문자열 중간에서 한 글자 앞 의 기호가 
(메모리에서) 어디에 있는지 알고 싶다면
그저 그 전 글자의 헤더를 보기만 하면 되요.
끝입니다. 그리고 잘 됩니다.
그리고 몇 년 전에 UTF-8은 ASCII를 비롯한 
다른 모든 인코딩들을 모두 제쳤습니다.
웹에서 독보적인 기호 인코딩 방식이 된거죠.
이제 우리는 일본인들이 겪었던
 mojibake를 겪을 필요가 없습니다.
UTF-8은 거의 모든 경우에 완벽히 작동합니다.
그리고 그것이 제가 UTF-8을
전 세계에서 매 순간 사용되는 해결책들 중 가장 최고라고
생각하는 이유입니다.
Audible.com 에서 이 비디오를 만드는데 도움을 
준 것에 대해 감사를 표합니다.
여러분은 Audible에 등록하고 
audible.com/computerphile 에서
무료 오디오북을 다운받을 수 있습니다.
거기엔 아주 많은 수의 오디오북이 있습니다.
그 중에서도 "The Last Man On the Moon"이란 책을 
추천합니다.

English: 
and, really, really crucially, the one that made it win over every other system
is that you can move backwards and forwards really easily.
You do not have to have an index of where the character starts.
If you are halfway through a string and you wanna go back one character,
you just look for the previous header.
And that's it, and that works,
and, as of a few years ago, UTF-8 beat out ASCII and everything else as, for the first time,
the dominant character encoding on the web.
We don't have that mojibake that Japanese has.
We have something that nearly works, and that is why it's the most beautiful hack that I can think of
that is used around the world every second of every day.
(BRADY HARAN)
-We'd like to think Audible.com for their support of this Computerphile video,
and, if you register with Audible and go to audible.com/computerphile,
you can download a free audiobook.
They've got a huge range of books at Audible. I'd like to recommend "The Last Man On the Moon,"

Turkish: 
ve, gerçekten, gerçekten çok önemli bir şekilde, onu diğer tüm sistemlerde kazanmayı sağlayan
Gerçekten kolayca geriye ve ileriye doğru hareket edebilirsiniz.
Karakterin başladığı yerin bir dizinine sahip olmanız gerekmez.
Eğer bir ipin yarısı içindeyseniz ve bir karakter geri dönmek istiyorsanız,
sadece önceki başlığa bakıyorsun.
İşte bu ve bu işe yarıyor
ve birkaç yıl önce, UTF-8, ASCII'yi ve diğer her şeyi ilk defa yenerek,
Web üzerinde baskın karakter kodlaması.
Japonların sahip olduğu o mojibake yok.
Neredeyse işe yarayan bir şeyimiz var ve bu yüzden düşünebildiğim en güzel hack.
Her gün her saniye dünya çapında kullanılmaktadır.
(BRADY HARAN)
- Bu Computerphile videosunu destekledikleri için Audible.com'u düşünmek istiyoruz,
ve eğer Audible’a kaydolursanız ve audible.com/computerphile’a gidin,
ücretsiz bir sesli kitap indirebilirsiniz.
Audible'da çok çeşitli kitaplar var. "Aydaki Son Adam" ı tavsiye etmek istiyorum

Spanish: 
y, fundamentalmente, lo que lo hizo
triunfar sobre los otros sistemas
es que puedes moverlo hacia atrás
y hacia adelante muy fácilmente.
No tienes que tener un índice del
comienzo de los caracteres.
Si estás a mitad de camino en una cadena y
quieres retroceder un carácter,
tan solo debes mirar el comienzo anterior.
Eso es todo, y funciona,
y, hace unos pocos años, UTF-8 venció a ASCII
y a todos los demás como, por primera vez,
la codificación de caracteres dominante en la web.
No tenemos ese mojibake que los japoneses tienen.
Tenemos algo que casi funciona, y este es
el hack más hermoso en el que puedo pensar
que es usado en todo el mundo
cada segundo de cada día.
(BRADY HARAN) -Nos gustaría agradecer a Audible.com por su apoyo a este video de Computerphile,
y, si te registras en Audible y vas a audible.com/computerphile,
puedes bajar gratis un audiolibro.
Tienen una gran cantidad de libros en Audible.
Me gustaría recomendar "El último hombre en la Luna",

Korean: 
Eugene Cerman에 의해 쓰여졌으며, 그는 달에 간 12명의 인간들 중 11번 째로 월면을 밟은 사람이죠.
하지만 그는 달에서 떠나온 마지막 사람이었습니다.
그래서 그가 정말 "The Last Man On the Moon"인지는 잘 모르겠습니다.
어떻게 정의하냐에 따랄 달라지겠지요.
하지만 책 자체는 정말 훌륭하고, 무엇보다 저자인 Cerman이 직접 읽었다는 점이 정말 마음에 듭니다.
아주 멋진 일이지요.
다시한번 Audible.com에 감사를 드리고,
audible.com/computerphile 에 방문을 부탁드립니다.
무료 오디오 북을 얻어가세요.
제대로 프로그램되지 않은 옛날 시스템들은 
마이크로소프트 워드가 유니코드에 넣은
멋진 따옴표들을 보고서는 이렇게 생각합니다.
"저것은 세 개의 별도의 글자들이다" 라고요.

Spanish: 
de Eugene Cernan quien fue el undécimo de
los doce hombres que pisaron la Luna.
pero él fue el último en salir de la Luna,
aunque no estoy seguro si fue
"el último hombre en la Luna".
Depende de cómo lo definas.
Pero su libro es muy bueno, y lo que me
gusta mucho es que está leído por Cernan,
lo cual pienso que es genial.
De nuevo, gracias a Audible.
Entra a audible.com/computerphile
y obtén un audiolibro gratis.
(TOM SCOTT) -"... un viejo sistema que no ha sido bien programado tomará estas agradables comillas rizadas
que Microsoft Word puso en Unicode, y verá eso y dirá,
'Estos son tres caracteres separados...' "

English: 
which is by Eugene Cernan who is the eleventh of twelve men to step onto the Moon.
but he was the last man to step off the Moon,
so I'm not sure whether or not he is "the last man on the Moon" or not.
Sort of depends how you define it.
But his book is really good, and what I really like about it is it's read by Cernan himself,
which I think is pretty cool
Again, thanks to Audible. Go to audible.com/computerphile
and get a free audiobook.
(TOM SCOTT)
-"... an old system that hasn't been programmed well will take those nice curly quotes
that Microsoft Word has put into Unicode, and it will look at that and say,
'That is three separate characters...' "

Turkish: 
Bu, Ay'a adım atacak on iki kişinin onbirinci olan Eugene Cernan tarafından yapılmıştır.
ama Ay'dan ayrılan son kişiydi.
bu yüzden "Aydaki son adam" olup olmadığından emin değilim.
Bunu nasıl tanımladığınıza göre değişir.
Ama kitabı gerçekten çok iyi ve bu konuda gerçekten sevdiğim şey Cernan tarafından okunuyor.
bence oldukça havalı
Yine, Audible sayesinde. Audible.com/computerphile adresine gidin.
ve ücretsiz bir sesli kitap alın.
(TOM SCOTT)
- "... iyi programlanmamış eski bir sistem, o güzel kıvırcık tırnakları alacak
Microsoft Word’ün Unicode’a koyduğunu ve buna bakacağını ve
'Bu üç ayrı karakter ...' "
