
Thai: 
เรียนนักวิชาการเพื่อนนี่คือเอกสารสองนาที
กับKároly Zsolnai-Fehér
ในตอนก่อนหน้าของเราเมื่อมันมาถึงการเรียนรู้
เทคนิคที่เราพูดถึงกันเกือบทุกครั้ง
การเรียนรู้แบบมีผู้สอน
ซึ่งหมายความว่าเราให้อัลกอริทึมมัด
จากรูปภาพและข้อมูลเพิ่มเติมบางส่วน
ตัวอย่างเช่นภาพเหล่านี้แสดงถึงสุนัข
หรือแมว
จากนั้นอัลกอริทึมการเรียนรู้สัมผัส
ภาพใหม่ที่ไม่เคยเห็นมาก่อนและ
จะต้องสามารถจำแนกได้อย่างถูกต้อง
มันเป็นเหมือนครูนั่งถัดไป
ให้กับนักเรียนให้การดูแล
จากนั้นการสอบจะมาพร้อมกับคำถามใหม่
นี่คือการเรียนรู้ภายใต้การดูแลและอย่างที่คุณมี
เห็นได้จากมากกว่า 180 ตอนในสองนาที
เอกสารไม่ต้องสงสัยเลยว่ามันเป็นเรื่องใหญ่โต
สาขาการวิจัยที่ประสบความสำเร็จ
อย่างไรก็ตามนี่หมายความว่าเราต้องติดป้ายกำกับ
ชุดข้อมูลของเราดังนั้นเราต้องเพิ่มบางอย่างเพิ่มเติม
ข้อมูลทุกภาพที่เรามี

Chinese: 
观众朋友们大家好，这里是《两分钟论文解析》，我是Károly Zsolnai-Fehér。
在我们之前的视频中，一说起“学习”，基本上指的都是“有监督学习”。
也就是我们要提供给算法的，除了一堆图片，还有额外信息（标签）。
比如说一些猫和狗的照片。
然后学习算法会接收一批此前没见过的新图片，
这些图片就是要分类的对象。
就像一个老师对学生耳提面命。
然后考试的时候会考新题目。
这就是有监督学习，如果你看过前面180多期《两分钟论文解析》，
就会知道这一领域已经十分成熟。不过有监督学习必须手动给数据加标签，
让每张图片都带有附加信息。

English: 
Dear Fellow Scholars, this is Two Minute Papers
with Károly Zsolnai-Fehér.
In our earlier episodes, when it came to learning
techniques, we almost always talked about
supervised learning.
This means that we give the algorithm a bunch
of images, and some additional information,
for instance, that these images depict dogs
or cats.
Then, the learning algorithm is exposed to
new images that it had never seen before and
has to be able to classify them correctly.
It is kind of like a teacher sitting next
to a student, providing supervision.
Then, the exam comes with new questions.
This is supervised learning, and as you have
seen from more than 180 episodes of Two Minute
Papers, there is no doubt that it is an enormously
successful field of research.
However, this means that we have to label
our datasets, so we have to add some additional
information to every image we have.

English: 
This is a very laborious task, which is typically
performed by researchers or through crowdsourcing,
both of which takes a lot of funding and hundreds
of work hours.
But if we think about it, we have a ton of
videos on the internet, you always hear these
mind melting new statistics on how many hours
of video footage is uploaded to YouTube every
day.
Of course, we could hire all the employees
in the world to annotate these videos frame
by frame to tell the algorithm that this is
a guitar, this is an accordion, or a keyboard,
and we would still not be able to learn on
most of what's uploaded.
But it would be so great to have an algorithm
that can learn on unlabeled data.
However, there are learning techniques in
the field of unsupervised learning, which
means that the algorithm is given a bunch
of images, or any media, and is instructed
to learn on it without any additional information.
There is no teacher to supervise the learning.
The algorithm learns by itself.
And in this work, the objective is to learn
both visual and audio-related tasks in an

Thai: 
นี่เป็นงานที่ลำบากมากซึ่งโดยทั่วไปแล้ว
ดำเนินการโดยนักวิจัยหรือผ่าน crowdsourcing
ซึ่งทั้งสองต้องใช้เงินทุนจำนวนมากและหลายร้อย
ของชั่วโมงทำงาน
แต่ถ้าเราคิดเกี่ยวกับมันเรามีตัน
วิดีโอบนอินเทอร์เน็ตคุณจะได้ยินสิ่งเหล่านี้เสมอ
ใจละลายสถิติใหม่ในกี่ชั่วโมง
ของวิดีโอวิดีโอจะถูกอัปโหลดไปยัง YouTube ทุก ๆ
วัน.
แน่นอนเราสามารถจ้างพนักงานทุกคน
ในโลกที่จะใส่คำอธิบายประกอบเฟรมวิดีโอเหล่านี้
ตามกรอบเพื่อบอกอัลกอริทึมว่านี่คือ
กีตาร์นี่คือหีบเพลงหรือคีย์บอร์ด
และเราก็ยังไม่สามารถเรียนรู้ได้
สิ่งที่อัปโหลดส่วนใหญ่
แต่มันจะดีมากถ้ามีอัลกอริทึม
ที่สามารถเรียนรู้เกี่ยวกับข้อมูลที่ไม่มีป้ายกำกับ
อย่างไรก็ตามมีเทคนิคการเรียนรู้มา
สาขาวิชาของการเรียนรู้ที่ไม่มีผู้ดูแลซึ่ง
หมายความว่าอัลกอริทึมจะได้รับพวง
ของรูปภาพหรือสื่อใด ๆ และได้รับคำแนะนำ
เพื่อเรียนรู้เกี่ยวกับมันโดยไม่มีข้อมูลเพิ่มเติม
ไม่มีครูคอยดูแลการเรียนรู้
อัลกอริทึมเรียนรู้ด้วยตัวเอง
และในงานนี้มีวัตถุประสงค์เพื่อเรียนรู้
ทั้งงานภาพและเสียงที่เกี่ยวข้องใน

Chinese: 
这是个劳动密集型的工作，有的要研究者自己动手，也有直接找众包的，
两种方式都会消耗大量的经费和时间。
但是YouTube上每天新增的视频数量是不可胜数的，
如果我们有这样成吨的数据，手动标注根本不现实。
当然，我们可以发动全世界的群众来逐帧审阅视频，
告诉算法：这是吉他，这是手风琴，那是键盘，
即便这样我们还是学不完大部分视频。
不过如果有个算法，能从无标签的数据中学习，岂不美哉？
这样的算法其实已然存在，也就是“无监督学习”，
我们只给算法一堆图片或其他媒体形式，
然后算法在没有额外信息辅助的情况下，自主学习。
无人监督。
无师自通。
本文工作的目标，就是以无监督的方式，学习“视觉-听觉”

Thai: 
ลักษณะที่ไม่มีผู้ดูแล
ตัวอย่างเช่นถ้าเราดูเลเยอร์นี้
ของเครือข่ายย่อยที่มองเห็นเราจะพบเซลล์ประสาท
ที่ตื่นเต้นมากเมื่อเห็นตัวอย่าง
บางคนเล่นหีบเพลง
และแต่ละเซลล์ประสาทในชั้นนี้จะอยู่
ไปยังคลาสอ็อบเจ็กต์ที่ต่างกัน
แน่นอนฉันมีบางอย่างเช่นนี้สำหรับเอกสาร
และนี่มาKárolyเป็นส่วนที่บ้า
ที่หนึ่ง: เทคนิคนี้ไม่เพียง แต่จำแนกประเภท
เฟรมของวิดีโอ แต่มันก็สร้าง
Heatmaps ความหมายซึ่งแสดงให้เราเห็นว่าส่วนใด
ของภาพมีหน้าที่รับผิดชอบต่อเสียง
ที่เราได้ยิน
นี่คือความวิกลจริต!
เพื่อบรรลุเป้าหมายนี้พวกเขาใช้เครือข่ายวิสัยทัศน์ย่อย
ในส่วนของวิดีโอและเครือข่ายย่อยเสียงแยกต่างหาก
เพื่อเรียนรู้เกี่ยวกับเสียงและในที่สุด
ขั้นตอนข้อมูลทั้งหมดนี้จะถูกรวมเข้าด้วยกัน
เพื่อให้ได้Károlyไปบ้าส่วนที่สอง: นี้
ทำให้เครือข่ายสามารถคาดเดาได้ว่า
เสียงและวิดีโอสตรีมสอดคล้องกับแต่ละ
อื่น ๆ

Chinese: 
双重关联的任务。
比如我们我们看看视觉子网络的这一层，
会发现神经元在看到，例如人拉手风琴的时候，处于高度激活状态。
这一层的每个神经元都对应着不同的声源类别。
对于这篇论文，可讲的就很多啦。
以下是Károly疯言疯语第一部分：这一技术不仅仅对视频画面帧
做了分类，而且还生成了语义热力图，表示哪些区域与我们听到的声音有关。
屌爆了！
为此他们在对视频运行了视觉子网络，并分离出音频子网络，去学习声音，
最后一步就是整合所有信息，
后就是Károly疯言疯语第二部分：这样的网络结构可以猜测
音频和视频是否对应。

English: 
unsupervised manner.
So for instance, if we look at the this layer
of the visual subnetwork, we'll find neurons
that get very excited when they see, for instance,
someone playing an accordion.
And each of the neurons in this layer belong
to different object classes.
I surely have something like this for papers.
And here comes the Károly goes crazy part
one: this technique not only classifies the
frames of the videos, but it also creates
semantic heatmaps, which show us which part
of the image is responsible for the sounds
that we hear.
This is insanity!
To accomplish this, they ran a vision subnetwork
on the video part, and a separate audio subnetwork
to learn about the sounds, and at the last
step, all this information is fused together
to obtain Károly goes crazy part two: this
makes the network able to guess whether the
audio and the video stream correspond to each
other.

English: 
It looks at a man with a fiddle, listens to
a sound clip and will say whether the two
correspond to each other.
Wow!
The audio subnetwork also learned the concept
of human voices, the sound of water, wind,
music, live concerts and much, much more.
And the answer is yes, it is remarkably close
to human-level performance on sound classification.
And all this is provided by the two networks
that were trained from scratch, and, no supervision
is required.
We don't need to annotate these videos.
Nailed it.
And please don't get this wrong, it's not
like DeepMind has suddenly invented unsupervised
learning, not at all.
This is a field that has been actively researched
for decades, it's just that we rarely see
really punchy results like these ones here.
Truly incredible work.
If you enjoyed this episode, and you feel
that 8 of these videos a month is worth a
dollar, please consider supporting us on Patreon.
Details are available in the video description.

Chinese: 
算法看到一个拉小提琴的人，然后听一段音频，判断
音频是不是小提琴声。
Wow!
音频子网络也学习了人声、水声、风声、音乐、演奏会等等这些概念。
答案是肯定的，算法在声音分类上非常接近人类水准。
而所有这些都是由两个网络从零开始接受训练直至完成的，
没有任何的外界监督。
我们不需要注释这些视频。
搞定。
不要误会，不是说DeepMind突然就发明了无监督算法。
无监督学习已经有几十年的研究历史了，但是此前
我们很少看到这样震撼的结果。
这研究工作，简直炸裂。
如果你喜欢本期节目，并且觉得每月8期值1美元的话，
请考虑在Patreon上赞助我们。
更多细节可见于（YouTube）的视频详情。
感谢收看，我们下期再会！

Thai: 
ดูเหมือนผู้ชายคนหนึ่งซึ่งเป็นคนฟัง
คลิปเสียงและจะบอกว่าทั้งสอง
สอดคล้องกัน
ว้าว!
เครือข่ายย่อยเสียงยังได้เรียนรู้แนวคิด
เสียงของมนุษย์เสียงของน้ำลม
ดนตรีสดการแสดงดนตรีและอื่น ๆ อีกมากมาย
และคำตอบคือใช่มันใกล้เคียงอย่างน่าทึ่ง
เพื่อประสิทธิภาพระดับมนุษย์ในการจำแนกเสียง
และทั้งหมดนี้จัดทำโดยสองเครือข่าย
ที่ได้รับการฝึกฝนตั้งแต่เริ่มต้นและไม่มีการนิเทศ
จำเป็น.
เราไม่จำเป็นต้องใส่คำอธิบายประกอบวิดีโอเหล่านี้
ถูกจับมัน
และโปรดอย่าเข้าใจผิดนี่ไม่ใช่
เช่น DeepMind ได้คิดค้นการค้นพบโดยไม่ได้รับอนุญาตในทันที
การเรียนรู้ไม่ได้เลย
นี่คือสาขาที่ได้รับการวิจัยอย่างแข็งขัน
สำหรับทศวรรษมันเป็นสิ่งที่เราไม่ค่อยเห็น
ผลลัพธ์ที่ยอดเยี่ยมจริงๆเหมือนที่นี่
งานที่เหลือเชื่ออย่างแท้จริง
หากคุณสนุกกับตอนนี้และคุณรู้สึก
วิดีโอ 8 รายการต่อเดือนนั้นมีค่า
ดอลล่าร์โปรดพิจารณาสนับสนุนพวกเราที่ Patreon
รายละเอียดมีอยู่ในคำอธิบายวิดีโอ

English: 
Thanks for watching and for your generous
support, and I'll see you next time!

Chinese: 
翻译：集智(https://jizhi.im)

Thai: 
ขอบคุณที่รับชมและแสดงความขอบคุณ
สนับสนุนและฉันจะพบคุณในครั้งต่อไป!
