
French: 
Quand vous mettez de l'anglais dans un ordinateur,
il sauve chaque caractère avec 8 bits de données
huit uns et zéros.
Je veux dire: ce ne sont pas vraiment des uns et des zéros,
ce sont des positions particulières d'atomes sur un disque
ou quelques électrons passant sur un fil
mais en ce qui nous concerne en informatique,
ce sont des uns et des zéros. Des bits.
Et oui, un téléphone moderne ou un ordinateur en stockent quelques quadrillons (!)
Mais à chaque fois que vous avez dû attendre longtemps un téléchargement,
ou que votre téléphone se plaignait que sa mémoire était pleine,
vous avez affronté la même question que celle sur laquelle les informaticiens
planchent depuis que ces choses ici sont d'actualité:
pourrions-nous, svp, utiliser moins de bits ?
Alors voyons comment les ordinateurs compressent du texte.
Images et vidéo sont différents (ceci est de la compression avec perte,
où il importe peu si vous perdez un peu de détail.)
Mais le texte doit être sauvé sans perte:
vous ne pouvez pas just perdre des détails
sinon vous finissez par envoyer les mauvais maux (sic).
Donc la première chose à savoir
est comment le texte est stocké sur disque avant d'être compressé.

Russian: 
Когда вы сохраняете англоязычный текст в компьютере,
то он сохраняет каждый символ в виде восьми бит данных.
Восемь нулей и единиц.
На самом деле это не нули и единицы,
а определенная позиция атомов на диске,
или нескольких электронов, летящих по проводу,
но поскольку мы интересуемся миром компьютерных наук,
то это нули и единицы. Биты.
И да, современные телефоны или компьютеры могут сохранить несколько квадриллионов таких(!)
Но каждый раз, когда вам приходится ожидать долгого скачивания,
или когда ваш телефон жалуется, что нет места
вы начинаете задаваться тем же вопросом, над которым ученые работали
еще до того, как эти штуки стали объектом искусства:
Нельзя ли использовать не так много бит?
Давайте пройдемся по тому, как компьютеры сжимают текст.
Картинки и видео - другой разговор - это сжатие с потерями,
где не так важно, что вы потеряете некоторые детали.
Но текст необходимо сжимать без потерь:
нельзя просто так взять и потерять немного деталей,
в противном случае вы перешлете неверное слона.
Первое, что нужно понять,
это то, как текст сохраняется на диске до сжатия.

Portuguese: 
Quando você armazena texto 
em inglês em um computador
ele salva cada caracter individual em oito bits de dados.
Oito uns e zeros.
Quer dizer, eles não são realmente uns e zeros,
são posições particulares de átomos em um disco
ou alguns elétrons viajando em um fio,
mas do nosso ponto de vista no mundo da ciência da computação,
eles são uns e zeros. Bits.
E sim, um telefone moderno ou computador pode armazenar alguns quadrilhões(!) deles
Mas cada vez que você tem de esperar muito tempo por um download,
ou o seu telefone reclamou que seu armazenamento está cheio,
você está confrontando a mesma pergunta na qual cientistas da computação tem trabalhado
mesmo antes desses aqui serem o estado da arte:
podemos por favor não usar tantos bits?
Então, vamos ver como computadores comprimem texto.
Imagens e vídeo são diferentes - eles usam compressão com perdas,
onde não importa se você perde um pouco de detalhe.
Mas texto tem de ser comprimido sem perdas:
você não pode perder nenhum detalhe,
senão você pode acabar enviando as palavras erradas*.
Então a primeira coisa que precisamos saber
é como o texto é armazenado no disco antes de ser comprimido.

German: 
Wenn man englischen Text in einen Computer eingibt
wird jedes einzelne Zeichen als acht Bits gespeichert.
Acht Einsen und Nullen.
Ich meine, es sind nicht wirklich Einsen und Nullen,
es sind bestimmte Positionen von Atomen auf einer Festplatte
oder ein paar Elektronen in einem Draht,
aber was uns in der Informatikwelt angeht
sind es Einsen und Nullen. Bits.
Und ja, ein modernes Telefon oder ein Computer können ein paar Trilliarden davon speichern.
Aber jedes Mal, wenn man lange auf einen Download wartet,
oder das Telefon sich beschwert, dass sein Speicher voll ist,
trifft man auf die gleiche Frage, an der Informatiker schon gearbeitet haben
bevor diese Dinger hier Stand der Technik waren:
Können wir bitte nicht so viele Bits benutzen?
Also, gehen wir mal durch, wie Computer Text komprimieren.
Bilder und Videos sind was anderes — das ist verlustbehaftete Kompression,
bei der es nicht schlimm ist, wenn man ein paar Details verliert.
Aber Text muss verlustfrei komprimiert werden:
Man kann nicht einfach ein paar Details verlieren,
denn sonst schickt man am Ende die falschen Torte.
Was wir also zuerst wissen müssen ist,
wie Text auf der Festplatte gespeichert wird, bevor er komprimiert wird.

iw: 
כשאתם מקלידים טקסט באנגלית במחשב,
הוא שומר כל אות בתור 8 ביטים.
שמונה 1-ים ו0-ים.
זאת אומרת, הם לא באמת 1-ים ו0-ים,
אלא סידור מסויים של אטומים על דיסק
או כמה אלקטרונים שעוברים בתיל,
אבל עבור עולם מדעי-המחשב,
אלו הם 1-ים ו0-ים. ביטים.
וכן, טלפון או מחשב מודרניים יכולים לשמור כמה אלפי-טריליארדים של ביטים(!)
אבל בכל פעם שחיכיתם זמן רב להורדה,
או שהטלפון שלכם התלונן על מחסור בזיכרון פנוי,
אתם נתקלתם באותה שאלה שמהנדסי מחשבים התמודדו איתה
עוד לפני שהמחשבים שלידי נחשבו חדישים:
האם אפשר, בבקשה, לא להשתמש בכל-כך הרבה ביטים?
אז בואו נדבר על האופן שבו מחשבים דוחסים טקסט.
תמונות וסרטונים נשמרים אחרת - זוהי דחיסה מאבדת-נתונים,
כי לא כל-כך חשוב אם נאבד חלק מהמידע.
אבל טקסט חייב להישמר בדחיסה משמרת-מידע:
אי-אפשר לאבד חלק מהמידע,
אחרת יישלחו מילים לא נכונות.
אז הדבר הראשון שעלינו לדעת
הוא איך טקסט נשמר בכונן לפני הדחיסה.

Turkish: 
Bilgisayara İngilizce metin girdiğinizde
her karakteri 8 bitlik veri olarak kaydeder.
8 adet sıfır(0) ve bir(1).
Yani bunlar gerçekten 1 ve 0'lar değil,
aslında atomların diskteki belirli konumları
ya da birkaç elektronun bir telden geçişi,
ama bilgisayar dünyası ile ilgili konuştuğumuz için,
bunları 1 ve 0 olarak adlandırıyoruz. Yani bitler.
Evet, modern cep telefonları ya da bilgisayarlar bunlardan birkaç kuadrilyon kadarını saklayabilir;
ama her seferinde indirmek için uzun süre beklediğinizde,
ya da cep telefonunuz kapasite dolu diye yakındığında,
bilgisayar bilimcilerin üzerine çalıştığı sorunun aynısıyla karşılaşırsınız.
-Buradaki şeyler (BBC Micro) sanat eseri olarak adlandırılmadan öncesinden buyana
Acaba çok fazla "bit" kullanmayabilir miyiz?
O halde bilgisayarların metni nasıl sıkıştırdığına bakalım.
Fotoğraflar ve videolar farklıdır, kayıplı sıkıştırılabilirler,
çok az bir detay kaybedilse bile bu sorun olmaz.
ama metin kayıpsız sıkıştırılmak zorundadır.
Çok az bir detayı dahi kaybedemezsiniz,
yoksa yanlış ifadeler göndermiş olursunuz.
Bilmemiz gereken ilk şey,
metnin sıkıştırılmadan önce diskte nasıl saklandığı.

Italian: 
Quando inserisci testo in inglese in un computer,
esso salva ogni singolo carattere come otto bit di dati.
Otto "uno" e "zero".
Cioè, non sono in effettivamente uno e zero,
sono particolari posizioni di atomi su un disco
o qualche elettrone che si muove in un filo
ma per quanto ci riguarda, in informatica
sono tanti "uno" e "zero". Bit.
E sì, un moderno cellulare o computer ne può memorizzare qualche quadrilione (* ok, forse qualche trilione)
Ma ogni volta che hai dovuto aspettare molto per un download,
o il tuo cellulare si lamenta che la memoria piena,
incontri lo stesso problema su cui gli informatici lavorano
da prima che queste macchine fossero lo stato dell'arte:
"possiamo non utilizzare così tanti bit?"
Quindi, diamo un'occhiata a come i computer comprimono il testo.
Immagini e video sono diversi — è compressione con perdita di dati,
dove non importa se perdi un po' di dettaglio.
Invece il testo deve essere compresso senza perdita
non si può perdere dettaglio
altrimenti finisce che mandi le parone sbagliate.
Quindi la prima cosa che si deve sapere
è come il testo viene memorizzato su disco prima di essere compresso.

English: 
When you put English text into a computer,
it is saving every individual character as
eight bits of data.
Eight ones and zeros.
I mean, they're not actually ones and zeros,
they're particular positions
of atoms on a disk
or a few electrons going over a wire,
but as far as we're concerned
in the computer science world,
they are ones and zeros. Bits.
And yes, a modern phone or computer might
store a few quadrillion of them(!)
But every time you've had to wait a long time
for a download,
or your phone's complained
that its storage is full,
you're running up against the same question
that computer scientists have been working on
since before these things here
were state of the art:
can we please not use so many bits?
So, let’s run through
how computers compress text.
Images and video are different —
that's lossy compression,
where it doesn't matter if you lose
a little bit of detail.
But text has to be losslessly compressed:
you can't just lose a bit of detail,
otherwise you end up sending the wrong worms.
So the first thing we need to know
is how text is stored on disk before it's
compressed.

Portuguese: 
Para facilitar,
eu vou falar somente de texto em inglês:
eu sei bem que é bem mais complicado que isso,
mas ei, a série é chamada "o básico", então lide com esse fato.
Em um computador moderno, cada caracter em inglês ocupa
exatamente oito uns e zeros no disco - oito bits, ou um byte.
E existem 256 combinações possíveis desses uns e zeros,
de tal forma que você pode ter 256 possíveis caracteres.
Isso é o suficiente para o alfabeto em ingês, números, alguns sinais de pontuação, e...
bem, então fica complicado dependendo de qual país você está
e ó meu Deus, isso seria todo um vídeo em separado
que não queremos entrar nesses detalhes agora.
Por que oito bits?
Porque era o suficiente para armazenar todos os caracteres
que os computadores americanos normalmente precisavam, mas não tão grande
de tal forma que o texto não ocuparia mais espaço do que ele absolutamente precisaria.
Oito é também uma potência de dois, o que significa que é fácil de lidar
nos níveis realmente baixos de programação.
É também útil ter um número fixo de bits por caracter
porque isso faz a busca através do texto muito rápida.
Se você quer ir ao centésimo milésimo (100.000) caracter em algum texto,

Turkish: 
Bunu kolaylaştırmak için,
burda sadece İngilizce metinler hakkında konuşacağım.
Çok çok iyi biliyorum ki bundan daha karmaşık olacak,
ama hey, serinin adı "Temel Şeyler", o yüzden idare edin.
Modern bir bilgisayarda her İngilizce karakter
diskte tam olarak sekiz adet 1 ve 0'lardan oluşan bir alan kaplar - 8 "bit" ya da 1 "byte"
ve bu 1 ve 0'ların 256 olası kombinasyon bulunur.
Yani 256 farklı karaktere sahip olabilirsiniz.
Bu İngiliz Alfabesi, numaralar, noktalama işaretleri (için yeterlidir.) ve...
hangi ülkede yaşadığınıza bağlı olarak daha karmaşık olabilir.
ve Tanrım bu mesele başka bir video kadar sürer,
şimdilik o kadar detaya girmeyeceğiz.
Neden sekiz bit?
Çünkü Amerikan bilgisayarlarının genellikle ihtiyacı...
...olacak kadar karakteri saklayabilir, ama fazlasını değil,
bu yüzden metin kesinlikle kaplaması gereken alandan daha fazla yer kaplayamaz.
Sekiz aynı zamanda ikinin kuvvetidir ve
düşük seviye programlamada kolayca başa çıkılabilir.
Aynı zamanda karakter başına belirli sayıda bit bulundurma faydalıdır,
çünkü metin içi aramayı ciddi anlamda hızlandırır.
Bir metindeki yüz bininci karaktere gitmek isterseniz,

French: 
Pour simplifier,
je vais juste parler de texte anglais ici:
je ne sais que trop bien que c'est plus compliqué que ça
mais, hé, cette série est appelée "les bases" alors voilà.
Sur un ordinateur moderne, chaque caractère anglais prend
exactement huit uns et zéros sur disque - huit bits ou un octet.
Et il y a 256 combinaisons possibles de ces uns et zéros,
de façon que vous pouvez avoir 256 caractères.
C'est assez pour l'alphabet anglais, les chiffres, de la ponctuation et...
bien, là ça devient compliqué suivant le pays dans lequel vous êtes
et oh mon dieu, c'est une vidéo à part entière
dans laquelle nous ne voulons pas nous aventurer pour le moment.
Pourquoi huit bits ?
Parce que c'est assez pour stocker tous les caractères
dont les ordinateurs américains ont généralement besoin, mais pas plus,
de façon que le texte ne prenne pas plus de place qu'absolument nécessaire.
Huit est aussi une puissance de deux, ce qui est facile à gérer
dans les très bas niveaux de programmation.
C'est aussi utile d'avoir un nombre fixe de bits par caractère
parce que ça rend la recherche de texte vraiment rapide.
Si vous voulez atteindre le 100.000e caractère d'un texte,

German: 
Um das einfacher zu machen,
werde ich hier nur von englischem Text sprechen.
Ich weiß nur zu gut, dass es noch schwieriger wird,
aber hey, diese Serie heißt "The Basics", also was soll's.
Auf einem modernen Computer beansprucht ein englisches Textzeichen
genau acht Einsen und Nullen auf der Festplatte - acht Bits, oder ein Byte.
Aber es gibt 256 mögliche Kombinationen dieser Einsen und Nullen,
und damit 256 mögliche Zeichen.
Das ist genug für das englische Alphabet, Zahlen, ein paar Satzzeichen, und...
nun, dann wird es schwierig, je nachdem, in welchem Land man ist
und oh mein Gott, das ist noch ein ganz anderes Video,
mit dem wir uns jetzt gerade nicht befassen wollen.
Warum acht Bits?
Weil das genug war, um alle Zeichen zu speichern,
die ein amerikanischer Computer normalerweise brauchte, aber nicht mehr,
damit der Text nicht mehr Platz beansprucht, als er wirklich muss.
Acht ist auch eine Zweierpotenz, und damit einfach zu nutzen
auf den ganz grundlegenden Ebenen der Programierung.
Es ist auch hilfreich eine feste Anzahl Bits pro Zeichen zu haben
weil Text dann sehr schnell durchsucht werden kann.
Wenn man zum 100.000sten Zeichen eines Textes gehen will,

English: 
To make this easier,
I am just going to talk about
English text here:
I know only too well that it gets
more complicated than this,
but hey, the series is called "the basics",
so deal with it.
On a modern computer,
each English character takes up
exactly eight ones and zeros on disk -
eight bits, or one byte.
And there are 256 possible combinations of
those ones and zeros,
so you can have 256 possible characters.
That's enough for the English alphabet, numbers,
some punctuation, and...
well, then it gets complicated depending on
which country you’re in
and oh my god that's a whole separate video
we do not want to get into right now.
Why eight bits?
Because it was big enough to store all the
characters
that American computers usually needed,
but no bigger,
so the text doesn't take up any more space
than it absolutely has to.
Eight is also a power of two, which means
it's easy to deal with
at the really low levels of programming.
It's also helpful to have a fixed number of
bits per character
because it makes searching through text
really fast.
If you want to go to the 100,000th character
in some text,

Italian: 
Per farla più facile,
Parlerò solo del testo in inglese:
So fin troppo bene che diventa più complicato di così,
ma ehi, la serie si chiama "le basi", quindi fatevene una ragione.
In un computer moderno, ogni carattere inglese occupa
esattamente otto "uno" e "zero" su disco - otto bit, o un byte.
E ci sono 256 possibili combinazioni di questi "uno" e "zero",
quindi si possono avere 256 possibili caratteri.
Questo basta per l'alfabeto inglese, i numeri, dei segni di punteggiatura, e...
beh, poi viene complicato a seconda del paese in cui vivi
e santo cielo quello è un altro video
in cui non vogliamo entrare al momento.
Perché otto bit?
Perché è abbastanza per memorizzare tutti i caratteri
utilizzati di solito dai computer americani, ma non di più,
quindi il testo non occupa più spazio dell'assoluto necessario.
Otto è anche una potenza di due, che vuol dire che è facile da trattare
nella programmazione di basso livello.
Aiuta anche avere un numero di bit per carattere
perché rende molto veloce cercare nel testo.
Se vuoi andare nel centomillesimo carattere in un testo,

Russian: 
Чтобы было проще,
я буду говорить об англоязычном тексте:
Я его неплохо знаю, и зачем усложнять себе задачу,
если этот цикл называется "основы", так что смиритесь.
В современном компьютере каждый английский символ занимает
на диске ровно восемь нулей и единиц - восемь бит или один байт.
Всего существует 256 возможных комбинаций этих нулей и единиц,
поэтому у вас может быть 256 возможных символов.
Этого хватает для английского алфавита, цифр, знаков пунктуациии, и...
ну, в зависимости от страны проживания все может стать сложнее,
о боже, нет, это будет отдельное видео
сейчас мы в это закапываться не будем.
Почему восемь бит?
Потому что этого достаточно много, чтобы вместить все символы,
которые обычно нужны американским компьютерам, но не слишком много,
поэтому текст занимает ровно столько места, сколько ему нужно.
Так же восьмерка - это степень двойки, а значит с ней легко иметь дело
при низкоуровневом программировании.
Фиксированное число бит на символ полезно еще и потому,
что это позволяет значительно ускорить поиск по тексту.
Если вам нужно добраться до 100 000 знака в каком-нибудь тексте,

iw: 
כדי לפשט זאת,
אתייחס רק לטקסט באנגלית:
אני יודע טוב מאוד שזה נעשה מסובך יותר,
אבל היי, הסדרה הזו נקראת ״היסודות״, אז תתמודדו.
במחשב מודרני, כל אות באנגלית תופסת
בדיוק שמונה 1-ים ו0-ים בזיכרון - 8 ביטים, או בית אחד.
ישנם 256 צירופים אפשריים עבור ה-1ים ו0-ים הללו,
אז ישנם 256 תווים שונים.
זה מספיק עבור האלף-בית האנגלי, ספרות, כמה סימני פיסוק, ו...
ובכן, אז זה נהיה מסובך כי זה תלוי במדינה שלכם
ואוי אלוהים זה יכול להיות סרטון נפרד
שאנחנו לא רוצים להיכנס אליו עכשיו.
למה 8 ביטים?
כי זה היה גדול מספיק כדי לשמור את כל התווים
שמחשבים אמריקאיים דרשו לרוב, ולא יותר מזה,
כך שהטקסט לא תופס יותר זיכרון ממה שהוא ממש חייב.
שמונה הוא גם חזקה של 2, מה שאומר שקל לעבוד איתו
ברמות הנמוכות ביותר של תכנות.
זה גם שימושי שיש מספר קבוע של ביטים עבור כל תו
כי כך קל יותר לחפש דברים בטקסט במהירות.
אם רוצים להגיע לתו ה-100,000 בטקסט כלשהו,

French: 
you savez exactement où les uns et zéros seront sans
devoir compter le nombre de bits de chaque caractère précédant.
Si vous voulez connaître la longueur d'une chaîne de texte,
vous comptez les bits et divisez simplement par huit.
Les ordinateurs n'ont pas le luxe des espaces, rappelez-vous:
c'est juste une longue suite de 1 et 0.
Mais disons que nous ne soyons pas inquiets pour la vitesse pour le moment,
nous voulons juste rentrer autant de texte que possible
dans un aussi faible nombre de 1 et 0 que possible.
Compression.
Un bon plan serait d'assigner aux caractères les plus courants
à un arrangement plus court de bits.
Donc les chercheurs, il y a très longtemps, auraient pu dire:
bien, que l'espace est généralement le plus courant.
Donnons-lui le code "0".
Puis c'est le e minuscule. Donnons-lui le code "1".
Puis c'est le t minuscule: donnons-lui deux zéros...
...et là, problème.
Parce que l'ordinateur parcourant ce texte plus tard ne pourra pas savoir
si "00" est un t ou deux espaces.
Et si on continue à attribuer des lettres ainsi,
les problèmes empirent:
trois zéros sont-il un n minuscule ?

Italian: 
sai esattamente dove saranno gli "uno" e "zero" senza
dover contare il numero di bit in ogni singolo carattere prima di quello.
Se vuoi sapere quanto è lunga una stringa di testo,
basta contare i bit e dividere per otto.
I computer non hanno il lusso degli spazi bianchi, ricorda:
è solo una lunga stringa di "uno" e "zero".
Ma diciamo che non ci preoccupiamo della velocità adesso,
vogliamo solo far stare quanto più testo possibile
nel minimo numero di "uno" e "zero" possibile.
Compressione.
Un buon piano sarebbe assegnare i caratteri più comuni
a ordinamenti più piccoli di bit.
Quindi quei ricercatori, tempo fa, avrebbero potuto dire:
beh, la barra spaziatrice è di solito la più.
Diamole il codice "0".
Dopo c'è la "e" minuscola. Diamole il codice "1".
Dopo la "t" minuscola: diamole due zero
... abbiamo subito incontrato un problema.
Perché il computer che scorre il testo non può sapere
se "00" è una "t", due volte lo spazio.
E se continuiamo ad assegnare lettere in questo modo,
i problemi peggiorano:
tre zeri sono una "n" minuscola?

iw: 
אפשר לדעת בוודאות היכן ה1-ים ו0-ים שלו שמורים, מבלי
שנצטרך לספור את כל הביטים בתווים שלפניו.
אם רוצים לדעת מה האורך של טקסט מסויים,
פשוט סופרים את מספר הביטים ומחלקים ב-8.
זכרו שלמחשבים אין את המותרה של רווחים:
מדובר ברצף ארוך של 1-ים ו0-ים.
אבל בואו נניח שכרגע אנחנו לא דואגים מהמהירות,
אנחנו רק רוצים להכניס טקסט רב ככל שאפשר
אל תוך הכי מעט 1-ים ו0-ים שאפשר.
דחיסה.
תוכנית טובה יכולה להיות הקצאת התווים הנפוצים ביותר
לסידורים קצרים יותר של ביטים.
אז החוקרים שעסקו בנושא, לפני שנים רבות, יכלו לומר:
טוב, תו הרווח הוא לרוב הנפוץ ביותר.
פשוט נסמן אותו בקוד ״0״.
אחר-כך האות e. נסמן אותה בקוד ״1״.
אחר-כך האות t: נסמן אותה בשני אפסים...
...ומיד, נתקלנו בבעיה.
כי המחשב שקורא את הטקסט הזה אחר-כך לא יכול לדעת
האם ״00״ זו האות t, או פעמיים רווח.
ואם נמשיך להקצות צירופים לתווים באופן הזה,
הבעיות הופכות לגרועות יותר:
האם שלושה אפסים הם האות n?

German: 
weiß man genau, wie viele Einsen und Nullen da sind,
ohne dass man die Bits in jedem einzelnen Zeichen davor zählen müsste.
Wenn man wissen will, wie lang ein Text ist,
zählt man einfach die Bits und teilt durch Acht.
Denkt dran, Computer haben nicht den Luxus von Leerzeichen:
Es ist nur eine lange Kette Einsen und Nullen.
Aber sagen wir mal, dass uns Geschwindigkeit gerade nicht so wichtig ist,
wir wollen nur so viel Text wie möglich
in so wenige Einsen und Nullen packen wie möglich.
Kompression.
Es wäre eine gute Idee den häufigsten Zeichen
kleinere Zusammenstellungen von Bits zu geben.
Diese Forscher vor langer, langer Zeit hätten also sagen können:
Nun, das Leerzeichen ist normalerweise am häufigsten.
Also geben wir dem einfach den Code "0".
Dann das kleine e. Dem geben wir den Code "1".
Dann das kleine t: das kriegt zwei Nullen...
...und sofort haben wir ein Problem.
Denn der Computer, der später den Text durchgeht, kann nicht wissen,
ob "00" ein t ist, oder zwei Leerzeichen.
Und wenn wir so weiter Buchstaben vergeben,
werden die Probleme nur schlimmer:
Sind drei Nullen ein kleines n?

Portuguese: 
você sabe exatamente onde os uns e zeros estarão
sem ter de contar o número de bits em cada caracter único antes dele.
Se você quer saber qual o tamanho de um texto,
você simplesmente conta os bits e divide por oito.
Computadores não tem o luxo dos espaços [entre os bits], lembrem-se:
é apenas uma grande sequência de uns e zeros.
Mas digamos que não estamos preocupados com velocidade nesse instante,
nós só queremos fazer caber tanto texto quanto possível
no menor número de uns e zeros possível.
Compressão.
Um bom plano seria associar os caracteres mais comuns
a pequenos arranjos de bits.
Dessa forma aqueles pesquisadores, lá no passado, poderiam ter dito:
bem, uma barra de espaço é geralmente mais usada.
Simplesmente associe a ela o código "0".
Depois é o 'e' minúsculo. 
Associe a ele o código "1".
Depois é o 't' minúsculo: associe a ele dois zeros
... e imediatamente, nós encontramos um problema.
Porque o computador percorrendo o texto depois não tem como saber
se "00" é um 't', ou a barra de espaço duas vezes.
E se nós continuamos associando as letras desse jeito,
o problema fica cada vez pior:
três zeros são um 'n' minúsculo?

Russian: 
то вы точно знаете, где будут его нули и единицы,
без необходимости считать количество бит в каждом символе до него.
Если нужно узнать, какой длины строка текста, то
посчитайте количество бит и поделите на восемь.
Помните, у компьютера нет необъятной памяти:
все что есть - это длинный ряд нулей и единиц.
Допустим, что сейчас нас не интересует скорость,
мы лишь хотим уместить максимально возможное количество текста
в минимально возможное количество единиц и нулей.
Сжать.
Неплохой идеей было бы назначить самые частые символы
на минимальную последовательность бит.
И давным-давно исследователи могли сказать:
ну, пробел используется довольно часто.
Дадим ему код "0".
затем прописная "e". Дадим ей код "1".
Затем прописная "t": код два нуля...
... и вот мы уже столкнулись с проблемой.
Потому что компьютер, который будет считывать этот текст позже, понятия не имеет
вот это "00" это "t", или два пробела.
И если мы продолжим сопоставлять буквы по тому же принципу,
то проблема лишь усугубится:
три нуля, это прописная "n"?

Turkish: 
aradığınız 0 ve 1'lerin nerede olması gerektiğini
her karaktere ait bitleri teker teker saymaya gerek kalmadan bilebilirsiniz.
Bir metin dizesinin ne kadar uzun olduğunu öğrenmek istiyorsanız,
sadece bitleri sayıp sekize bölmeniz yeterli.
Bilgisayarların boşluklar için lüksü yok, hatırlayın:
bütün bilgi uzunca 1 ve 0'lar dizisinden ibaret.
Ama diyelim ki şimdilik hızdan yana bir kaygımız yok,
sadece mümkün olduğu kadar çok metni
mümkün olduğunca az sayıdaki 1 ve 0'lara sığdırmak istiyoruz.
Sıkıştırma.
Sık kullanılan karakterleri daha küçük
bit düzeninde belirlemek iyi fikir olabilir.
Bu yüzden araştırmacılar, çok çok eskiden, demişler ki:
Pekala, boşluk tuşu sık kullanılır,
ona "0" kodunu verelim.
Sonra küçük "e", ona da "1" kodunu verelim.
Sonra küçük "t", ona da "00" verelim...
...ve anında bir soruna tosluyoruz.
Çünkü bu metni çalıştıracak bilgisayarın, "00"ın...
..."t" ya da iki kere art arda boşluk olduğunu bilmesine imkan yok
Bu şekilde harfler düzenlemeye devam edildiğinde
sorun daha da kötüleşiyor:
"000" kodu, küçük "n" mi,

English: 
you know exactly where the ones and zeros
are going to be without
having to count the number of bits in every
single character before it.
If you want to know how long
a string of text is,
you just count the bits
and you divide by eight.
Computers don't have the luxury of spaces,
remember:
it's just one long string of 1s and 0s.
But let's say we're not worried about speed
right now,
we just want to fit as much text as possible
into as small a number of 1s and 0s as possible.
Compression.
A good plan would be to assign
the most common characters
to smaller arrangements of bits.
So those researchers, way way back,
could have said:
well, the space bar is generally
used most often.
Just give that the code "0".
Then it's the lowercase e.
Give that the code "1".
Then it's lowercase t: give that two zeros...
...and immediately, we've hit a problem.
Because the computer running through that text later
has no way of knowing
whether "00" is a t, or the space bar twice.
And if we keep on assigning letters like that,
the problems keep getting worse:
is three zeros a lowercase n?

Russian: 
Или "t" с пробелом? Или три пробела?
Помните, здесь никаких пространств, никаких настоящих пробелов,
все, что видит компьютер, это непрерывный поток нулей и единиц.
Без возможности понять, что есть что.
Отнюдь. В 1952 году одаренный математик по имени Дэвид Хаффман изобрел алгоритм Хаффмана.
Ты что-то изобрел, ты нарек это своим именем.
Да, сейчас есть куда лучшие,
более современные, более продвинутые математические алгоритмы для этого,
но алгоритм Хаффмана это основа основ всех современных методов сжатия текста.
И вот как это работает.
Предположим, что нужно сжать...
допустим, текст песни Уилла Смита "Wild Wild West".
В несжатом виде это 3 648 символов, которые занимают около 30 000 бит.
Для начала нужно подсчитать, сколько раз используется каждый из символов,
и расположить их в порядке убывания.
Он будет разным для каждого текста, который вы сжимаете:
букв "W" здесь точно больше, чем обычно.
Теперь берем два самых малоиспользуемых символа.
Эти двое будут нижней веткой нашего "древа Хаффмана".
Запишите их и то, как часто они используется.
Это и называется частота.

Portuguese: 
Ou um 't' seguido por um espaço? Ou três espaços?
Lembre-se, não há espaços aqui, não existem separadores reais,
tudo o que o computador pode ver é um fluxo constante de uns e zeros.
Não há como saber o que quer dizer.
Exceto que, em 1952, um matemático muito engenhoso chamado David Huffman inventou o código de Huffman.
Se você inventa algo como isso, o seu nome é colocado nele.
Sim, existem meios matemáticos bem melhores,
mais modernos e complicados de se fazer isso
mas o código de Huffman é o alicerce básico da compressão de texto moderna.
E aqui está como funciona:
Digamos que queremos comprimir...
vamos escolher a letra da música "As Loucas Aventuras de James West" escrita por Will Smith.
Sem compressão, são 3.684 caracteres ocupando cerca de 30.000 bits.
Primeiro: você conta quantas vezes cada caracter é usado,
e coloca isso em uma lista ordenada.
Note que isso será diferente para cada bloco de texto que você estiver comprimindo,
este exemplo tem muito mais 'W's que o normal.
Agora pegue os dois últimos caracteres menos usados.
Esses dois serão os ramos inferiores da sua "árvore de Huffman".
Os armazene, com quantas vezes eles são usados próximo a eles.
O nome disso é sua frequência.

iw: 
או t ואחריה רווח? או שלושה רווחים?
זכרו, אין כאן הפרדות של-ממש, שום רווחים בזיכרון,
כל מה שהמחשב רואה הוא זרם רציף של 1-ים ו0-ים.
אי-אפשר לדעת למה הכוונה.
עד ש... ב-1952, מתמטיקאי חכם מאוד בשם דייויד הופמן המציא את ״קידוד הופמן״.
אם תמציאו משהו כזה בעצמכם, תוכלו גם לקרוא לו על שמכם.
כן, ישנן שיטות מתמטיות
טובות יותר, מודרניות יותר ומורכבות יותר לעשות זאת,
אבל קידוד הופמן הוא היסוד של דחיסת טקסט מודרנית.
והנה האופן בו הוא עובד.
בואו נניח שברצוננו לדחוס...
למשל, את המילים לשיר “Wild Wild West” של וויל סמית׳.
בלי דחיסה, אלו הם 3,684 תווים התופסים כמעט 30,000 ביטים.
קודם כל: נספור כמה פעמים כל תו מופיע,
ונשמור את המידע ברשימה מסודרת.
התוצאה תהיה שונה עבור כל טקסט שדוחסים:
למשל, כאן יש הרבה יותר W מבדרך-כלל.
עתה ניקח את שני התווים הכי נדירים.
אלו עומדים להיות הענפים התחתונים של ״עץ ההופמן״ שלנו.
כתבו אותם בצד, בתוספת מספר הפעמים שהם מופיעים.
זוהי השכיחות שלהם.

English: 
Or a t followed by a space? Or three spaces?
Remember, there are no gaps here, no actual
space separators,
all the computer can see is a constant stream
of 1s and 0s.
There's no way to know which is meant.
Except. In 1952, a very clever mathematician
called David Huffman invented Huffman coding.
You invent something like that,
your name gets put on it.
Yes, there are much better,
more modern, more complicated,
mathematical ways to do this,
but Huffman coding is the basic foundation
of modern text compression.
And here is how it works.
Let's say we want to compress...
let's go with the lyrics to
Will Smith's "Wild Wild West".
Uncompressed, that is 3,684 characters
taking up nearly 30,000 bits.
First up: you count how many times
each character is used,
and you put that in a list in order.
Now that'll be different for each block of
text you're compressing:
this has way more Ws than usual.
Now take the two least used characters.
Those two are going to be the bottom branches
on your “Huffman tree”.
Write them down, with how often they're used
next to them.
That’s called their frequency.

Turkish: 
yoksa "t" ve ardından boşluk mu, yoksa üç kere art arda boşluk mu?
Hatırlayın, burda aralık yok, boşluk ayraçları yok,
bilgisayarın tüm görebildiği, 1 ve 0'lardan oluşan sürekli bir dizi.
Hangisinin kastedildiğini bilmesine imkan yok.
Ta ki 1952'de dahi matematikçi David Huffman, Huffman Kodlaması'nı bulana kadar.
Böyle bir şey bulduğunuzda, isminiz konur.
Evet, bunu yapmanın daha iyi,
daha modern, daha karmaşık, matematiksel bi yolu var;
ama Huffman Kodlaması, modern metin şıkıştırmanın temelidir.
Ve şu şekilde çalışıyor:
Diyelim ki...
...Will Smith'in "Wild Wild West" şarkı sözlerini sıkıştırmak istiyoruz.
Sıkıştırılmadığında 3684 karakter yaklaşık olarak 30000 "bit" kaplıyor.
İlk adım: hangi karakterin ne kadar kullanıldığını sayıyorsunuz,
ve bunu bir listeye sıralı şekilde yerleştiriyorsunuz.
-Doğal olarak sıkıştırılacak her metin için bu farklıdır.-
Bu metinde "W"lar normalden çok daha fazlalar.
Şimdi en az kullanılan 2 karakteri alın.
Bunlar "Huffman Ağacı"nızın en alt dalı olacak.
Karakterleri ne kadar sık kullanıldıklarıyla beraber yazın.
-Bunlar frekans olarak adlandırılır.-

Italian: 
O una "t" seguita da uno spazio? O tre spazi?
Ricordate, non ci sono vuoti, né reali separatori di spazio
tutto quello che può vedere il computer è un flusso costante di "uno" e "zero".
Non c'è modo di sapere cosa si intende.
Ad eccezione di uno. Nel 1952, un matematico molto intelligente chiamato David Huffman inventò la codifica di Huffman.
Inventi qualcosa del genere, ci viene messo il tuo nome.
Sì, ci sono modi
matematici, migliori, più moderni e complicati per farlo,
ma la codifica di Huffman è il fondamento della moderna compressione testuale.
E ecco come funziona.
Vogliamo comprimere...
...facciamo il testo di Will Smith's "Wild Wild West".
Non compresso, sono 3684 caratteri occupanti quasi 30000 bit.
Prima cosa: conti quante volte quante volte ogni carattere è usato,
lo metti in una lista in ordine.
Ecco questo sarà diverso per ogni blocco di testo da comprimere:
questo ha molte più "W" del normale.
Ora prendi i due caratteri meno usati.
Questi due saranno i rami al fondo del tuo albero di Huffman.
Scrivili, con affianco quante volte sono usati.
Quella si chiama la loro frequenza.

French: 
Ou un t suivi d'un espace ? Ou trois espaces ?
Rappelez-vous, il n'y a pas de "vide" ici, pas de séparateur physique,
tout ce que les ordinateurs voient sont un flux constant de uns et de zéros.
Il n'y a aucun moyen de savoir ce que ça signifie.
Sauf qu'en 1952, un mathématicien brillant appelé David Huffman a inventé le codage Huffman.
Vous inventez un truc pareil, on lui donne votre nom.
Oui, il y a de meilleurs moyens,
plus modernes, plus complexes, plus mathématiques de faire ça,
mais le codage Huffman est la base de la compression de texte moderne.
Et voici comment ça marche.
Disons que nous voulions compresser...
disons les paroles de "Wild Wild West" de Will Smith.
Non compressé, ça fait 3.684 caractères, prenant presque 30.000 bits.
Premièrement: vous comptez la fréquence d'utilisation de chaque caractère,
et vous le mettez dans une liste ordonnée.
Là, ce sera différent pour chaque block de texte que vous compresserez:
ceci a plus de W que d'habitude.
Maintenant, prenez les deux moins utilisés.
Ces deux iront dans la branche du bas de votre "arbre de Huffman".
Notez-les, avec le nombre d'apparitions à côté.
Ça s'appelle leur fréquence.

German: 
Oder ein t und ein Leerzeichen? Oder drei Leerzeichen?
Denkt dran, hier gibt es keine Lücken, keine echten Trennstellen,
der Computer kann nur einen ununterbrochenen Strom von 1 und 0 sehen.
Man kann nicht wissen, was gemeint ist.
Aber. 1952 hat ein sehr schlauer Mathematiker namens David Huffman die Huffman-Kodierung erfunden.
Wenn man sowas erfindet, wird es nach einem benannt.
Ja, es gibt viel bessere,
modernere, kompliziertere, mathematische Wege das hier zu machen,
aber die Huffman-Kodierung ist die Grundlage der modernen Textkompression.
Und so funktioniert sie.
Sagen wir, wir wollen...
sagen wir, wir komprimieren den Text von Will Smiths "Wild Wild West".
Unkomprimiert sind das 3.684 Zeichen, die fast 30.000 Bits einnehmen.
Zuerst zählt man, wie oft jedes Zeichen benutzt wird
und packt das sortiert in eine Liste.
Und die ist anders für jeden Text den man komprimiert:
Der hier hat viel mehr Ws als üblich.
Jetzt nehmen wir die zwei am wenigsten verwendeten Zeichen.
Diese Zwei werden die untersten Zweige unseres "Huffman-Baums".
Wir schreiben sie auf, und schreiben daneben, wie oft sie verwendet werden.
Das nennt man ihre Frequenz.

French: 
Ensuite, connectez-les ensemble, un niveau au-dessus avec la somme de leurs fréquences.
Maintenant, ajoutez la somme à votre liste,
où il convient, plus haut.
Et recommencez !
Prenez les deux du bas de la liste, connectez-les,
ajoutez le résultat à votre liste.
Et continuez.
Et quand une des sommes atteint les deux du bas de la liste,
vous les connectez ainsi.
Et finalement, il vous restera une chose dans votre liste,
tout en haut.
Vous avez maintenant un arbre de Huffman, et ça ressemble à ça,
et ça vous dit comment convertir votre texte en uns et zéros.
Notre première lettre est le premier W majuscule dans "wiki-wiki-wild-wild-west".
W majuscule est ici, il y en a 141.
Donc allez au sommet et suivez le chemin.
Chaque fois que vous allez à gauche, écrivez 0;
chaque fois que vous allez à droite, écrivez 1.
Donc W est ceci: seulement 5 bits au lieu de 8.
Ensuite, i minuscule.
Suivez le code, juste quatre bits cette fois, c'est plus courant.
Ensuite le k, qui est moins fréquent; ça prend en fait sept bits.
Et vous continuez.
Certaines lettres prendront plus de 8 bits,

Portuguese: 
Então os conecte, um nível acima, com a soma de suas frequências.
Agora adicione essa nova soma de volta à sua lista,
onde quer que ela se encaixe, mesmo em níveis maiores.
E repita!
Pegue os dois últimos da sua lista, os conecte,
adicione o resultado de volta na sua lista.
E mantenha fazendo isso.
E quando uma das somas alcance os dois elementos inferiores da lista,
você os conecta desse jeito.
E eventualmente, você terminará com uma coisa na sua lista,
bem no topo.
Você agora tem uma árvore de Huffman, e ela se parece com isso,
e ela te diz como converter seu texto em uns e zeros.
Nossa primeira letra é o primeiro 'W' maiúsculo no verso 'Wiki-wiki-wild-wild-West'.
O 'W' maiúsculo está aqui, existem 141 deles.
Então vá para o topo, seguindo o caminho para baixo.
Cada vez que você pega a esquerda, escreva um 0;
cada vez que você pega a direita, escreva um 1.
Então um 'W' é isso: somente 5 bits ao invés de 8.
Em seguida, 'i' minúsculo.
Siga o código, somente quatro bits desta vez, é mais comum.
Então o 'k', que é menos comum; ele na verdade ocupa sete bits.
E você continua repetidamente.
Algumas letras ocuparão mais de 8 bits,

Russian: 
Теперь объединим их вместе, и на уровне выше поместим сумму их частоты.
Теперь вернем эту новую сумму обратно в список,
выше того места, где они находились.
А теперь повторяйте!
Возьмите нижние два значения из списка, объедините их,
верните результат в список.
И продолжайте дальше.
И когда одна из сумм достигнет того же значения из списка,
то объединить их нужно так.
И в конце концов вы доберетесь до самого конца списка
до самого верха.
Теперь у вас есть древо Хаффмана, выглядит оно вот так,
и оно показывает, как перевести ваш текст в нули и единицы.
Наша первая буква - заглавная "W" из строчки: wiki-wiki-wild-wild-West.
Заглавная "W" здесь, таких 141 штука.
Начинаем сверху и отправляемся вниз.
Каждый поворот налево - пишем "0";
каждый поворот направо - пишем "1".
И "W" выглядит так: 5 бит вместо 8.
Следующей идет прописная "i".
Записываем код, в этот раз лишь четыре бита, она встречается чаще.
Затем "k", не такая частая буква: поэтому занимает семь бит.
И продолжаем дальше.
Некоторые буквы будут занимать более восьми бит,

Turkish: 
Sonra bir üst seviyeye frekanslarının toplamını alıp birleştirin.
Bu yeni toplamı listenizin üstünde bir yere nereye
uygun geliyorsa ekleyin,
ve tekrar edin!
Listenizdeki en alttaki iki karakteri alın, birleştirin,
sonucunu listenize tekrar ekleyin
ve sürdürün.
Toplamlardan biri listenizdeki en alt iki karaktere vardığında
bu şekilde birleştirin.
Ve sonunda, listenizde tek bir şey kalacak,
en üstte.
Böylece görünüşü bu şekilde olan bir "Huffman Ağacı"nız var.
Ve bu size metninizi nasıl 1 ve 0'lara geri dönüştüreceğinizi gösteriyor.
İlk harfimiz,  "wiki-wiki-wild-wild-West"teki ilk büyük "W"
Büyük "W" burda, 141 tane mevcut.
Ağacın tepesine çıkıp yolu takip edin.
Her defasında sol taraftan giderken 0,
sağ taraftan giderken 1 yazın.
Böylece "W", 8 bit yerine sadece 5 bit oldu.
Sıradaki, küçük "i".
Kodu takip edince bu sefer sadece dört bit oldu, çünkü daha yaygın
Sonra daha az yaygın olan k, yedi bit oldu,
ve devam edin.
Bazı harfler 8 bitten fazlasını alabilir,

iw: 
אז תחברו אותם, רמה אחת מעל, עם הסכום של השכיחויות שלהם.
עכשיו תוסיפו את הסכום הזה חזרה לרשימה,
לפי המקום החדש שמתאים לו.
וחוזר חלילה!
קחו את השניים התחתונים ברשימה, חברו אותם,
תוסיפו את התוצאה לרשימה.
תמשיכו כך.
וכאשר אחד מהסכומים הקודמים יגיע לתחתית הרשימה,
חברו אותו כך.
ולבסוף, יישאר לכם פריט אחד ברשימה,
בראשה.
כעת יש לכם ״עץ הופמן״, הוא נראה כך
והוא ידריך אתכם בהמרת הטקסט שלכם ל1-ים ו0-ים.
האות הראשונה היא W גדולה מהמשפט ‘Wiki-wiki-wild-wild-west’.
אות W גדולה נמצאת כאן, ויש 141 כאלו.
אז עלו לראש העץ, ועקבו אחר המסלול למטה.
בכל פעם שתלכו בצומת שמאלה, כתבו 0;
בכל פעם שתלכו ימינה, כתבו 1.
אז W נראית כך: רק 5 ביטים במקום 8.
אחר-כך, אות i קטנה.
עקבו אחרי המסלול, ותקבלו 4 ביטים הפעם, כי זו אות נפוצה יותר.
אחר-כך האות k, שהיא פחות נפוצה; זו תתפוס למעשה 7 ביטים.
ותמשיכו כך.
חלק מהאותיות ייקחו יותר מ-8 ביטים,

English: 
Then connect them together, one level up,
with the sum of their frequencies.
Now add that new sum back into your list,
wherever it sits, higher up.
And repeat!
Take the bottom two off your list,
connect them up,
add the result back in your list.
Keep that going.
And when one of the sums reaches the bottom
two of the list,
you connect it up like that.
And eventually, you're going to be down to
one thing in your list,
right at the top.
You now have a Huffman tree,
and it looks like this,
and it tells you how to convert your text
into ones and zeros.
Our first letter is the first uppercase W
in 'wiki-wiki-wild-wild-West'.
Uppercase W is here, there’s 141 of them.
So go the top, follow the path down.
Each time you take the left hand side, write
a 0;
each time you take the right hand side, write
a 1.
So W is this: only 5 bits instead of 8.
Next, lowercase i.
Follow the code down, only four bits
this time, it’s more common.
Then the k, which is less common; that actually
takes up seven bits.
And you keep going.
Some of the letters will take up more than
8 bits,

German: 
Dann verbinden wir sie, und schreiben darüber die Summe ihrer Frequenzen.
Dann packen wir die neue Summe wieder in die Liste,
weiter oben, da wo sie hingehört.
Und dann nochmal.
Die untersten Zwei aus der Liste, verbinden,
und das Ergebnis wieder in die Liste.
Das geht so weiter.
Und wenn eine der Summen am Ende der Liste landet,
verbinden wir sie so.
Und am Ende haben wir noch ein Ding in unserer Liste übrig,
ganz oben.
Jetzt haben wir einen Huffman-Baum, und der sieht so aus,
und sagt uns, wie wir den Text in Einsen und Nullen verwandeln.
Unser erster Buchstabe ist das große W in 'Wiki-wiki-wild-wild-West'.
Großes W ist hier, davon gibt es 141.
Also gehen wir nach oben und folgen dem Pfad runter.
Jedes Mal, wenn wir nach links gehen, schreiben wir eine 0 auf;
jedes Mal, wenn wir nach rechts gehen, eine 1.
Also ist W das: Nur fünf Bits statt acht.
Als nächstes, kleine i.
Wir folgen dem Code nach unten, nur vier Bits diesmal, es ist häufiger.
Dann das k, das weniger häufig ist; es verbraucht sogar sieben Bits.
Und so geht's weiter.
Manche Buchstaben brauchen mehr als acht Bits,

Italian: 
Poi connettili, un grado sopra, con la somma delle loro frequenze.
Adesso aggiungi la nuova somma nella lista,
dovunque stia, più in alto.
E ripeti!
Prendi gli ultimi due dalla lista, connettili,
aggiungi il risultato nella lista.
Continua così.
E quando una delle somme raggiunge gli ultimi due della lista,
la connetti in questo modo.
E alla fine, arriverai a una sola cosa nella tua lista.
Proprio alla cima.
Ora hai un albero di Huffman, che somiglia a questo,
e ti dice come convertire il tuo testo in "uno" e "zero".
La nostra prima lettera è la prima "W" maiuscola in 'wiki-wiki-wild-wild-West'.
La "W" maiuscola è qui, ce ne sono 141.
Quindi vai dalla cima e segui il percorso.
Ogni volta che vai a sinistra scrivi uno 0;
ogni volta che vai a destra scrivi un 1.
So "W" è questo: solo 5 bit anziché 8.
Dopo, "i" minuscola.
Segui il codice, stavolta solo quattro bit, è più comune.
Dopo la "k", che è meno comune; occupa sette bit.
E vai avanti.
Alcune lettere occupano più di otto bit,

Italian: 
ma va bene, perché non sono usate molto spesso.
Adesso devi anche memorizzare l'albero per fornire una tabella di traduzione
tra i nuovi simboli quelli non compressi -
quindi non è efficiente per piccoli pezzi di testo.
Se te lo chiedono in un esame di informatica,
ignoreranno tutto questo e ti chiederanno solo
di fare una parola facile da un albero a mano.
Ma per quanto riguarda il magnum opus di Will Smith, l'abbiamo compresso
a poco più di 20000 bit: circa un risparmio del 30%.
Per decomprimere il flusso di bit risultante, funziona all'opposto
basta leggere, prendere il bivio a sinistra ogni volta che c'è uno 0
e il bivio a destra ogni volta che c'è un 1.
Quando  raggiungi una lettera, è fatta, sai che hai finito,
e sai che non c'è un altro sentiero che avrei potuto prendere.
Ricominci con il bit successivo.
Ecco in pratica, i computer a volte potrebbero farlo dal basso verso l'alto
ma questo è un metodo abbastanza buono per almeno capire cosa sta succedendo.
Ed ecco la parte davvero ingegnosa:
Huffman provò che questa è la maniera più efficiente
per assegnare "uno" e "zero" a singoli caratteri.

Turkish: 
ama sorun değil, çünkü çok sık kullanılmıyorlar.
Şimdi, bu ağacı da yeni harf sembolleriniz ve sıkıştırılmamış harf sembolleri arasında
çeviri tablosu oluşturmak adına saklamak zorundasınız,
bu yüzden kısa metinler için verimli bir iş değil.
Bunu bir sınavında yapmanız istenirse,
bunu tamamen yok sayarlar ve size sadece
ağaçtan elle tek bir kelime yapmanızı isterler,
ama Will Smith'in büyük eserini
20000 "bit"e sıkıştırıp %30 kazanç elde ettik.
"Bit"leri sıkıştırılmış halden kurtarmak için, iş tersine işliyor:
sadece baştayken "0" gördükçe sola dönün ve
"1" gördükçe sağa dönün.
Bir harfe vardıysanız, budur, sona vardığınızı bilirsiniz.
ve biliyorsunuz ki o harf için başka bir olası yol yok.
Öteki bitle yeniden başlayabilirsiniz.
Pratikte bilgisayarlar bazen bunu tersine alttan üste de yapabilirler,
ama bu en azından neler olduğunu anlamak için gayet güzel bir yöntem.
Ve işin en dahiyane kısmı:
Huffman bu yöntemin 0 ve 1'leri tek karaktere atamak için kullanılabilecek
en verimli yöntem olduğunu kanıtladı.

iw: 
אבל זה בסדר, כי הן לא מאוד שכיחות.
כעת, עליכם גם לשמור את העץ על מנת לתרגם בעתיד
בין הסימונים החדשים שלכם והטקסט הלא-דחוס -
כך שזו לא שיטה יעילה עבור טקסטים קצרים.
אם יבקשו מכם לעשות זאת במבחן במדעי המחשב,
אז הם יתעלמו מכל זה ופשוט יבקשו מכם
להמיר מילה אחת פשוטה לפי העץ באופן ידני.
אבל עבור השיר של וויל סמית׳, צמצמנו את הנפח
לקצת מעל 20,000 ביטים: בערך 30% צמצום.
כדי לשחזר את הטקסט מרצף הביטים, עובדים הפוך:
פשוט קוראים לפי הסדר, פונים שמאלה בכל פעם שיש 0
וימינה בכל פעם שיש 1.
כשמגיעים לאות, אפשר לעצור, אנחנו יודעים שזה הסוף,
ואנחנו יודעים שאין שום מסלול אחר שיכולנו לקחת.
מתחילים מראש העץ עם הביט הבא.
בפועל, מחשבים עשויים לעשות זאת הפוך לפעמים, מהתחתית לראש,
אבל זו דרך די טובה להבין מה קורה כאן.
והנה החלק הכי מחוכם:
הופמן הוכיח שזו הדרך היעילה ביותר
להקצות 0-ים ו1-ים לאותיות בודדות.

English: 
but that’s fine, because they’re not used
very often.
Now, you do have to also store this tree to
provide a translation table
between your new symbols
and the uncompressed ones -
so this is not efficient for
short bits of text.
If you’re ever asked to do this
in a computer science exam,
then they’ll ignore all that
and just ask you
to do one easy word from a tree by hand.
But for Will Smith's magnum opus,
we have compressed it down
to just over 20,000 bits: about a 30% saving.
To uncompress the resulting stream of bits,
it works the other way:
just read across, take the left fork every
time you see a 0
and the right fork every time you see a 1.
When you reach a letter, that's it, you know
that’s the end,
and you know that there is no other path you
could have possibly taken.
You start again with the next bit.
Now in practice, computers might do this working
backwards from the bottom up sometimes,
but this is a pretty good way to at least
understand what's going on.
And here's the really clever part:
Huffman proved that this is
the most efficient way
to assign 0s and 1s to single characters.

French: 
mais ce n'est pas grave, parce qu'elles sont rares.
Maintenant, vous devez aussi stocker cet arbre pour fournir une table de traduction.
Entre vos nouveaux symboles et les non compressés,
ce n'est pas efficace pour de petits bouts de texte.
Si on vous demande un jour de faire ça dans un examen d'informatique,
ils ignoreront tout ça et vous demanderont juste
de faire un mot simple dans un arbre manuellement.
Mais pour le magnum opus de Will Smith, nous l'avons compressé
sur à peine plus de 20.000 bits: environ 30% d'économie.
Pour décompresser le flux résultant de bits, ça marche dans l'autre sens:
lisez juste à travers, prenez la branche gauche à chaque 0
et à droite à chaque fois que vous voyez un 1.
Quand vous atteignez une lettre, ça y est, vous savez que c'est la fin,
et vous savez qu'il n'y a pas d'autre chemin que vous auriez pu prendre.
Vous reprenez avec le bit suivant.
Ceci dit, en pratique, les ordinateurs peuvent le faire à l'envers du bas vers le haut parfois,
mais c'est un bon moyen d'au moins comprendre ce qu'il se passe.
Et voici la partie vraiment géniale:
Huffman a prouvé que c'était le moyen le plus efficace
d'assigner des 0 et des 1 à des caractères individuels.

Portuguese: 
mas tudo bem, porque elas não são usadas frequentemente.
Agora, você tem também de armazenar esta árvore para fornecer uma tabela de conversão
entre os seus novos símbolos [comprimidos] e os não comprimidos -
então isto não é eficiente para pequenos trechos de texto.
Se alguma vez te pedirem para fazer isso em uma prova de ciências da computação,
então eles ignorarão tudo isso e só pedirão
para fazer uma única palavra simples a partir de uma árvore na mão.
Mas para a 'magnum opus' de Will Smith, nós a comprimimos
para um pouco mais de 20.000 bits: cerca de 30% de economia.
Para descomprimir o fluxo resultante de bits, ele funciona ao contrário:
simplesmente leia [o fluxo], pegue a esquerda cada vez que você vir um 0
e à esquerda cada vez que você vir um 1.
Quando você encontrar uma letra, é isso, você sabe que é o fim,
e você sabe que não há outro caminho que você poderia seguir.
Você começa de novo com o próximo bit.
Na prática, computadores podem fazer isso ao contrário, a partir do baixo para cima algumas vezes,
mas este é um bom meio de ao menos entender o que está acontecendo.
E aqui está a parte realmente engenhosa:
Huffman provou que este é o meio mais eficiente
para associar zeros e uns a caracteres individuais.

Russian: 
но это норма, потому что они очень редко используются.
Также вам нужно сохранить и это древо, чтобы иметь возможность перевода
между этими новыми символами и несжатыми.
Поэтому это не так эффективно для маленьких текстов.
Так что если вас попросят сделать такое на экзамене по информатике,
то это все не будет иметь значения, вас попросят лишь
закодировать простенькое слово в рукописное древо.
Но если вернуться к этому шедевру Уилла Смита, то мы сжали его
до около 20 000 бит, сэкономив около 30%.
Чтобы распаковать получившийся поток бит, нужно сделать все в обратном порядке:
читаем последовательность, берем левый поворот каждый раз, когда видим "0",
и правый, когда видим "1".
И как только мы достигли буквы, то все, это и есть финиш,
уже ясно, что нет никакого другого возможного пути.
Можно переходить к следующему биту.
На практике компьютеры иногда могут идти и обратным путем, снизу вверх,
но этот пример хорош для понимания того, как это вообще происходит.
А вот самое интересное:
Хаффман доказал, что это самый эффективный способ
Чтобы закодировать нули и единицы для каждого символа.

German: 
aber das ist in Ordnung, weil sie nicht so häufig benutzt werden.
Man muss diesen Baum mit abspeichern, damit es eine Übersetzung
zwischen den neuen Symbolen und den unkomprimierten gibt -
also ist das hier für kurze Textstücke nicht effizient.
Wenn ihr sowas mal in einer Informatikprüfung machen müsst,
werden sie das ignorieren und euch nur ein einfaches Wort
von Hand bearbeiten lassen.
Aber Will Smiths Meisterwerk haben wir so
auf knapp über 20.000 Bits komprimiert: Etwa 30% Einsparung.
Um die entstandene Folge von Bits zu dekomprimieren, verfährt man umgekehrt,
man liest durch, geht nach links bei einer 0
und nach rechts bei einer 1.
Wenn man einen Buchstaben erreicht, weiß man, da ist das Ende
und man weiß, dass man keinen anderen Weg hätte gehen könne.
Dann fängt man mit dem nächsten Bit wieder an.
In der Praxis machen Computer das eventuell mal andersherum, arbeiten von unten nach oben,
aber es ist ein ziemlich guter Weg, zumindest zu verstehen, was passiert.
Und hier kommt der richtig schlaue Teil:
Huffman hat bewiesen, dass das die effizienteste Methode ist
einzelnen Zeichen Einsen und Nullen zuzuweisen.

Russian: 
И что математически это невозможно превзойти.
Если только, может вы уже смекнули,
не начать работать с блоками больше одного символа.
Умный ход, как-то так и работают zip-файлы...
Но у нас здесь только лишь основы.
Спасибо всем, кто помогал с вычиткой этого текста,
спасибо команде художников,
и спасибо Центру истории вычислений в Кембридже
за возможность сняться с этими старичками.

German: 
Es ist mathematisch unmöglich, das zu schlagen.
Außer, was ihr euch vielleicht schon denken könnt,
man fängt an, mit Blöcken zu arbeiten, die länger als ein Zeichen sind.
Solche schlauen Tricks sind im Prinzip, womit Zip-Dateien arbeiten...
aber das hier sind nur die Basics.
Danke an alle meine Korrekturleser, die mit dem Skript geholfen haben,
danke an mein Grafikteam,
und danke an das Centre for Computing History in Cambridge,
weil sie mich mit ihren alten Sachen filmen lassen.

French: 
Il est mathématiquement impossible de faire mieux.
A moins que, comme vous l'aurez peut-être compris,
vous ne commenciez à travailler avec des blocks plus longs qu'un caractère.
Les astuces du genre sont principalement le fonctionnement des fichiers zip...
Mais à nouveau, ceci n'est que la base.
Merci à tous mes relecteurs qui ont aidé pour ce script,
merci à mon équipe graphique,
et aussi merci au centre d'histoire de l'informatique à Cambridge
de m'avoir laissé filmer avec leur vieux kit.

English: 
It is mathematically impossible to beat this.
Unless, as you might already
have figured out,
you start working on blocks
bigger than one character.
Clever tricks like that are basically how
zip files work...
but then, this is just the basics.
Thank you to all my proofreaders who helped
with that script,
thank you to my graphics team,
and also thank you to the
Centre for Computing History in Cambridge
for letting me film with their old kit.

Italian: 
Questa è matematicamente impossibile da battere.
A meno che, come potreste avere già immaginato,
non si lavori su blocchi più grandi di un carattere.
Trucchi ingegnosi del genere praticamente sono alla base del funzionamento dei file .zip...
ma queste sono solo le basi.
Grazie a tutti i revisori che mi hanno aiutato con il copione,
grazie al mio team grafico,
e anche grazie al Centro di Storia della computazione a Cambridge
per lasciarmi filmare con il loro vecchio equipaggiamento.

Turkish: 
Bu yöntemi yenmek matematiksel açıdan imkansız.
Nasıl çalıştığını anladıysanız eğer,
bir karakterden büyük bloklarla çalışmaya başlayabilirsiniz.
Buna benzer dahice yöntemler temelde zip dosyalarının nasıl çalıştığını açıklar...
ama tabi, bunlar sadece "Temel Şeyler".
Bu senaryodaki yardımları için tüm düzeltmenlerime,
tüm grafik takımıma,
ayrıca Cambridge'teki Bilgisayar Tarihi Merkezi'ne bu videoyu eski aletleriyle çekmeme
yardımcı oldukları için teşekkür ederim.
Çeviri: Yusuf Özen

Portuguese: 
É matematicamente impossível superar isso.
A não ser que, como você talvez já tenha descoberto,
você comece usando blocos maiores que um caracter.
Truques como eses são basicamente como arquivos zip funcionam...
mas então, isto é apenas "o básico."
Obrigado a todos os meus revisores que me ajudaram com o script,
obrigado ao meu time de efeitos gráficos,
e também obrigado ao Centro de História da Computação de Cambridge
por deixar que eu filmasse com o seu antigo kit.

iw: 
אי-אפשר להצליח יותר מבחינה מתמטית.
אלא אם, כמו שאולי כבר הבנתם,
מתחילים לעבוד עם צירופים גדולים יותר של תווים.
טריקים כאלו הם למעשה האופן שבו קבצי ZIP עובדים...
אבל... כאן עוסקים רק ביסודות.
תודה לכל אלו שבדקו את נכונות התסריט שלי,
תודה לצוות הגרפיקה שלי,
ותודה גם למרכז להיסטוריית המיחשוב בקיימברידג׳
על כך שהרשו לי לצלם עם הציוד הישן שלהם.
