
Vietnamese: 
Chào mừng các bạn đến với "Những bài báo 2 phút" cùng Tiến sĩ Károly Zsolnai-Fehér.
Khi con người chúng ta nhìn vào một hình ảnh
hay một đoạn video như thế này
chúng ta đều hiểu rằng đây chỉ là một phép chiếu 2 chiều của thế giới xung quanh chúng ta.
Do đó, nếu chúng ta có thời gian và đủ kiên nhẫn, chúng ta có thể vẽ một bản đồ chiều sâu để miêu tả
khoảng cách từ camera đến các vật thể.
Thông tin này cực kỳ hữu ích
vì chúng ta có thể dùng nó để tạo ra những hiệu hứng
phân kỳ thời gian thực cho thực tế ảo
và các trò chơi máy tính,
thậm chí là biểu diễn hiệu ứng Ken Burns trong 3D,
nói cách khác, phóng to và lia máy 1 bức ảnh,
nhưng, với một hiệu ứng tuyệt vời,
vì khi ấy, ta có thể nhận ra được độ sâu của hình ảnh.
Tuy nhiên, với máy tính thì những hình ảnh này chỉ là những con số.
May mắn thay, với khả năng tuyệt vời của các thuật toán dựa trên mạng nơ-ron,

English: 
Dear Fellow Scholars, this is Two Minute Papers
with Dr. Károly Zsolnai-Fehér.
When we, humans look at an image, or a piece
of video footage, such as this one, we all
understand that this is just a 2D projection
of the world around us.
So much so, that if we have the time and patience,
we could draw a depth map that describes the
distance of each object from the camera.
This information is highly useful, because
we can use it to create real-time defocus
effects for virtual reality and computer games,
or even perform this Ken Burns effect in 3D,
or in other words, zoom and pan around in
a photograph, but, with a beautiful twist,
because in the meantime, we can reveal the
depth of the image.
However, when we show the same images to a
machine, all it sees is a bunch of numbers.
Fortunately, with the ascendancy of neural
network-based learning algorithms, we now

English: 
have a chance to do this reasonably well.
For instance, we discussed this depth perception
neural network in an earlier episode, which
was trained using large number input-output
pairs, where the inputs are a bunch of images,
and the outputs are their corresponding depth
maps for the neural network to learn from.
The authors implemented this with a random
scene generator, which creates a bunch of
these crazy configurations with a lot of occlusions
and computes via simulation the appropriate
depth map for them.
This is what we call supervised learning,
because we have all these input-output pairs.
The solutions are given in the training set
to guide the training of the neural network.
This is supervised learning, machine learning
with crutches.
We can also use this depth information to
enhance the perception of self-driving cars,
but this application is not like previous
two I just mentioned.
It is much, much harder, because in the earlier,
supervised learning example, we have trained

Vietnamese: 
hiện tại, chúng ta có thể thực hiện việc này khá tốt.
Ví dụ như mạng nơ-ron nhận biết độ sâu
mà chúng ta đã thảo luận trong phần trước.
Mạng nơ-ron này được huấn luyện bằng 1 lượng lớn các cặp dữ liệu vào-ra. Trong đó, dữ liệu vào là các hình  ảnh,
và kết quả đầu ra là các bản đồ chiều sâu tương ứng
để cho mạng nơ-ron học.
Để làm điều này, các tác giả đã dùng 1 máy tạo cảnh ngẫu nhiên, để tạo ra 1 loạt các
hình thể khác nhau với nhiều phần bị chắn,
rồi thông qua mô phỏng để tính toán
độ sâu của chúng.
Ta gọi phương pháp này là học có giám sát vì chúng ta có tất cả các cặp dữ liệu vào-ra.
Lời giải được cho trong tập huấn luyện để giúp dạy mạng nơ-ron.
Đó là học có giám sát.
Chúng ta cũng có thể sử dụng thông tin chiều sâu này để nâng cao sự nhận thức của xe tự lái.
Nhưng ứng dụng này lại khác so với 2 ví dụ mà tôi mới đề cập.
Nó khó hơn rất nhiều,
vì như ví dụ về học có giám sát, chúng ta huấn luyện

English: 
the network in a simulation, and then, we
also use it later in a computer game, which
is, of course, another simulation.
We control all the variables and the environment
here.
However, self-driving cars need to be deployed
in the real world.
These cars also generate a lot of video footage
with their sensors, which could be fed back
to the neural networks as additional training
data…if we had the depth maps for them,
which, of course, unfortunately, we don’t.
And now, with this, we have arrived to the
concept of unsupervised learning.
Unsupervised learning is proper machine learning,
where no crutches are allowed.
We just unleash the algorithm on a bunch of
data, with no labels, and if we do it well,
the neural network will learn something useful
from it.
It is very convenient, because any video we
have may be used as training data.
That would be great.

Vietnamese: 
mạng nơ-ron trong 1 môi trường mô phỏng,
rồi sau đó dùng nó trong 1 trò chơi máy tính,
và dĩ nhiên trò chơi đó cũng là 1 môi trường mô phỏng.
Ở đó, chúng ta điều khiển tất cả các biến và môi trường.
Nhưng xe tự lái thì khác
vì chúng cần được triển khai trong thế giới thực.
Bằng việc sử dụng các cảm biến,
xe tự lái cũng có thể tạo ra các đoạn video để làm
dữ liệu bổ sung trong việc huấn luyện mạng nơ-ron.
Đấy là nếu chúng ta có các bản đồ độ sâu.
Nhưng không may là ta lại không có các bản đồ đó.
Và giờ, chúng ta sẽ đến với
khái niệm của học không giám sát.
Học không giám sát là một phương pháp học máy, 
trong đó không có sự chỉ dẫn nào được dùng.
Ta dùng thuật toán đó trên một tập dữ liệu
không có dán nhãn, và nếu chúng ta làm tốt,
mạng nơ-ron sẽ học được
một số điều hữu ích từ tập dữ liệu này.
Nó thực sự rất tiện, vì bất cứ video nào
cũng có thể được dùng như dữ liệu huấn luyện.
Điều đó sẽ thật tuyệt.

English: 
But we have a tiny problem, and that tiny
problem is that that this sounds impossible.
Or it may have sounded impossible, until this
paper appeared.
This work promises us no less than unsupervised
depth learning from videos.
Since this is unsupervised, it means that
during training, all it sees is unlabeled
videos from different viewpoints, and somehow,
figures out a way to create these depth maps
from it.
So how is this even possible?
Well, it is possible by adding just one ingenious
idea.
The idea is that since we don’t have the
labels, we can’t teach the algorithm how
to be right, but instead, we can teach it
to be consistent.
That doesn’t sound like much, does it?
Well, it makes all the difference, because
if we ask the algorithm to be consistent,
it will find out that a good way to be consistent
is to be right!
While we are looking at some results, to make
this clearer, let me add one more real-world

Vietnamese: 
Nhưng chúng ta có một vấn đề nhỏ ở đây,
và vấn đề này nghe có vẻ không dễ dàng.
Hoặc nó nghe có vẻ không thể thực hiện được,
cho đến khi bài báo này xuất hiện.
Công trình này hứa hẹn về việc học cách
tính toán độ sâu không giám sát từ video.
Vì đây là không giám sát,
nên trong quá trình huấn luyện, tất cả những gì nó thấy là
những video không được dán nhãn, quay
từ những góc nhìn khác nhau, và bằng 1 cách nào đó,
nó học được cách tạo ra các bản đồ chiều sâu này.
Sao lại có thể như vậy?
Đó là bởi họ thêm vào 1 ý tưởng rất tuyệt.
Ý tưởng đó là: vì chúng ta không có nhãn đánh dấu,
nên chúng ta không thể dạy thuật toán
thế nào là đúng, nhưng thay vào đó,
ta có thể dạy nó trở nên nhất quán.
Nghe có vẻ không phải ý tưởng to tát gì nhỉ?
Nhưng chính nó lại tạo ra sự khác biệt.
Vì ta yêu cầu thuật toán phải nhất quán,
nó sẽ tìm ra một cách tốt nhất để làm sao tính nhất quán đó là chính xác.
Trong khi chúng ta đang xem các kết quả,
để giải thích rõ hơn, tôi sẽ thêm

Vietnamese: 
1 ví dụ thực tế, và các bạn sẽ thấy
ý tưởng này tuyệt vời thế nào.
Tưởng tượng rằng bạn là một giáo sư đại học đang trông thi một bài thi toán
và 1 ai đó nói với bạn rằng: có 1 bài toán mà hầu hết các sinh viên đều làm ra chung 1 lời giải.
Trong trường hợp này, khả năng cao đó là lời giải đúng.
Không phải là chắc chắn 100%, nhưng nếu mà hầu hết sinh viên có chung 1 đáp án,
thì khó có khả năng là các sinh viên này làm sai giống nhau.
Có rất nhiều con đường khác nhau dẫn đến thất bại, nhưng chỉ có 1 con đường dẫn đến thành công.
Vì thế, nếu có sự nhất quán, bền vững,
thì thường sẽ có sự thành công.
Và ý tưởng đơn giản nhưng tuyệt vời này đã tạo ra
một kết quả có ảnh hưởng sâu rộng.
Hãy cùng xem một vài kết quả khác!
 
 
Tôi sẽ giải thích tại sao tôi lại tỏ ra thích thú đến vậy.
Đây là ảnh đầu vào, và đây là 1 bản đồ độ sâu chính xác nhưng không được dùng trong thuật toán này.
Nhưng ta có thể dùng nó để
đánh giá hiệu năng của thuật toán

English: 
example that demonstrates how cool this idea
is.
Imagine that you are a university professor
overseeing an exam in mathematics, and someone
tells you that for one of the problems, most
of the students gave the same answer.
If this is the case, there is good chance
that this was the right answer.
It is not a 100% chance that this is the case,
but if most of the students have the same
answer, it is much more unlikely that they
all failed the same way.
There are many different ways to fail, but
there is only one way to succeed.
Therefore, if there is consistency, often
there is success.
And this simple, but powerful thought leads
to far-reaching conclusions.
Let’s have a look at some more results!
Wo-hoo!
Now this is something.
Let me explain why I am so excited for this.
This is the input image, and this is the perfect
depth map that is concealed from our beloved
algorithm and is there for us to be able to
evaluate its performance.

English: 
These are two previous works, both use crutches,
the first was trained via supervised learning
by showing it input-output image pairs with
depth maps, and does reasonably well, while
the other one gets even less supervision,
a worse crutch if you will, and it came up
with this.
Now, the unsupervised new technique was not
given any crutches and came up with this.
Holy mother of papers.
It looks like a somewhat coarser, but still,
very accurate version of the true depth maps.
So what do you know!
This neural network-based method just looks
at unlabeled videos, and finds a way to create
depth maps by not trying to be right, but
trying to be consistent.
This is one of those amazing papers where
one simple, brilliant idea can change everything
and make the impossible possible.
What a time to be alive!
What you see here is an instrumentation of
this depth learning paper we have talked about,

Vietnamese: 
Có 2 nghiên cứu trước đó, cả hai đều dùng dữ liệu có nhãn. Thuật toán 1 được huấn luyện bằng học có giám sát,
bằng cách dùng các cặp ảnh vào-ra 
với các bản đồ độ sâu. Nó tính toán khá tốt.
Thuật toán 2 thậm chí còn dùng ít sự giám sát hơn,
nhưng lại cho kết quả như này.
Và thuật toán không giám sát mới của chúng ta, không có bất kỳ sự hướng dẫn nào, lại cho kết quả như này.
Thật không thể tin nổi!
Nó nhìn có vẻ hơi kém nhưng 
vẫn rất chính xác so với bản đồ độ sâu gốc.
 
Phương pháp dựa trên mạng nơ-ron này
chỉ xem xét các video không dán nhãn
rồi tạo ra những bản đồ độ sâu bằng cách cố gắng để trở nên nhất quán, chứ không phải để trở nên đúng.
Đây là 1 trong những bài báo tuyệt vời mà ở đó, một ý tưởng đơn giản mà xuất sắc có thể thay đổi mọi thứ
biến điều không thế thành có thể.
 
Đây là 1 dụng cụ của bài báo chúng ta đang nói đến.

English: 
which was made by Weights and Biases.
I think organizing these experiments really
showcases the usability of their system.
Also, Weights & Biases provides tools to track
your experiments in your deep learning projects.
Their system is designed to save you a ton
of time and money, and it is actively used
in projects at prestigious labs, such as OpenAI,
Toyota Research, GitHub, and more.
And, the best part is that if you are an academic
or have an open source project, you can use
their tools for free.
It really is as good as it gets.
Make sure to visit them through wandb.com/papers
or just click the link in the video description
and you can get a free demo today.
Our thanks to Weights & Biases for their long-standing
support and for helping us make better videos
for you.
Thanks for watching and for your generous
support, and I'll see you next time!

Vietnamese: 
Nó được xây dựng bởi Weights and Biases.
Tôi nghĩ việc tổ chức những thí nghiệm này thực sự diễn tả được tính khả dụng của hệ thống của họ.
Weights & Bias cũng cung cấp các công cụ để kiểm tra các thí nghiệm của bạn trong các dự án học sâu.
Hệ thống của họ được thiết kế để giúp bạn tiết kiệm được rất nhiều thời gian và tiền bạc,
Nó hiện đang được dùng trong các lab nổi tiếng như OpenAI, Toyota Research, GitHub...
Và điều tuyệt vời nhất là: nếu bạn làm việc trong môi trường học thuật hay dự án nguồn mở
Bạn có thể dùng các công cụ này miễn phí.
Nó thực sự rất tuyệt.
Hãy ghé thăm trang web của họ tại wandb.com/papers hoặc nhấn vào đường link trong phần mô tả video,
là bạn có thể nhận được 1 demo miễn phí.
Chúng tôi xin cảm ơn Weights & Biases vì đã luôn hỗ trợ và giúp chúng tôi làm ra các video tốt hơn cho các bạn.
 
Cám ơn các bạn đã xem và nhiệt tình hỗ trợ.
Hẹn gặp lại các bạn lần sau!
