
English: 
Dear Fellow Scholars, this is Two Minute Papers
with Károly Zsolnai-Fehér.
Today, we will listen to a new AI from DeepMind
that is capable of creating beautiful piano
music.
Because there are many other algorithms that
do that, to put things into perspective, let's
talk about the two key differentiating factors
that set this method apart from previously
existing techniques.
One, music is typically learned from high-level
representations, such as the score or MIDI
data.
This is a precise representation of what needs
to be played, but they don't tell us how to
play them.
These small nuances are what makes the music
come alive, and this is exactly what is missing
from most of the synthesis techniques.
This new method is able to learn these structures
and generates not midi signals but raw audio
waveforms.
And two, it is better at retaining stylistic
consistency.
Most previous techniques create music that
is consistent on a shorter time-scale, but

Chinese: 
亲爱的同学们，这是来自KárolyZsolnai-Fehér的两分钟论文
今天，我们将了解一个来自DeepMind的新AI，它会创作出漂亮的钢琴曲
音乐。
由于还有许多其他的算法，也可以创作钢琴曲，为了了解该算法的特点
让我们看下该算法和其他算法最大的两个不同点
现有的技术中
通常会用乐谱或MIDI等高级形式的数据来学习音乐
 
这种方式精确的表达的需要演奏什么音，但是却没有说明如何
演奏
这些小细微差别正是让音乐生动的原因，而这正式目前大多数
创作音乐的算法所缺失的。
新的算法却能够学习到这种原始的音频波形，而非MIDI信号
 
其次，新的算法更擅长保持音乐风格的
一致性。
大多数以前的技术所创作的音乐
在较短的时间尺度上风格是一致的，

Japanese: 
親愛なる研究者の皆さん、Two Minute Papersの
Károly Zsolnai-Fehérです。
今日は、美しいピアノ曲を創作できるDeepMindの新しいAIの曲を聞いていきます。
 
同様のことができるアルゴリズムはたくさんあるので
それを考慮して、
この手法と従来手法とを分ける2つの主要な差別化要因について
お話しします。
1つ目。音楽は通常、スコアやMIDIデータなどの
高レベルの表現から
学習されます。
これは、何を演奏するかを正確に表したものですが、どのようにするかは
教えてくれません。
これらの小さなニュアンスが
音楽を生きたものにするのですが、これがまさに
ほとんどの合成技術で足りないものなのです。
この新しい方法は、これらの構造を学習でき、
midi信号ではなく生のオーディオ波形を
生成します。
そして2つ目。
スタイルの一貫性を保つことに優れています。
ほとんどの従来手法では、
より短い時間スケールでは一貫していますが、

Dutch: 
Beste collega-geleerden, dit is Two Minute Papers
met Károly Zsolnai-Fehér.
Vandaag luisteren we naar een 
nieuwe AI (Kunstmatige Intelligentie) van DeepMind
die in staat is om prachtige pianomuziek te creëren.
Omdat er veel andere algoritmen zijn
die dat doen, en om dingen in perspectief te plaatsen,
laten we het hebben over de twee belangrijkste factoren die deze methode onderscheiden
van eerder bestaande technieken.
Ten eerste wordt muziek meestal geleerd van gedetailleerde representaties,
zoals de bladmuziek of MIDI gegevens.
Dit is een nauwkeurige weergave van 
wat er gespeeld moet worden,
maar ze vertellen ons niet hoe het te spelen.
Deze kleine nuances laten de muziek tot leven komen,
en dit is precies wat er ontbreekt aan de meeste synthesetechnieken.
Deze nieuwe methode is in staat 
om deze structuren te leren,
en genereert geen midi-signalen, 
maar onbewerkte audiogolven.
En ten tweede: het is beter in het behouden van een samenhangende stijl.
De meeste voorgaande technieken creëren muziek die
samenhangend is op een kortere tijdschaal,

Japanese: 
30秒前に何が演奏されたかは考慮しません。
そしてそのために
高品質の作曲の特徴である
高レベルの構造が欠けているのです。
しかし、この新しい方法はより長い期間にわたって
スタイルの一貫性を示します。
ではその曲をちょっと聴いてみて、その後
この学習アルゴリズムの
アーキテクチャについて話しましょう。
聴いている間に、この曲を作るためにアルゴリズムが
どの作曲家から学んだのかをお見せします。

Dutch: 
maar houden geen rekening met wat er 30 seconden geleden er werd gespeeld,
en missen daarom de globale structuur die kenmerkend is voor goedgeschreven muziek.
Deze nieuwe methode vertoont echter stilistische samenhangendheid over langere tijdsperioden.
Laten we snel luisteren en we hebben het over de architectuur van dit leeralgoritme na afloop.
Terwijl we luisteren, laat ik je de componisten zien waarvan heeft geleerd om dit te produceren.

Chinese: 
但是并没有考虑到30秒前播放的内容，因此他们缺乏乐曲
整体的结构，而这正是优秀乐曲的标志。
然后，新算法表现出了在一长段音乐中的一致性。
让我们快速的听一段该算法产生的音乐，然后谈谈该学习算法的架构，
除此之外，
在我们听的时候，我会告诉你们该算法是从那些作曲家的学习而创作出这段音乐的。

English: 
do not take into consideration what was played
30 seconds ago, and therefore they lack the
high-level structure that is the hallmark
of quality songwriting.
However, this new method shows stylistic consistency
over longer time periods.
Let's give it a quick listen and talk about
the architecture of this learning algorithm
after that.
While we listen, I'll show you the composers
it has learned from to produce this.

Dutch: 
Ik heb nog nooit eerder AI-gegenereerde muziek gehoord met zo'n articulatie
en de harmonieën zijn ook absoluut geweldig.
Echt verbluffende resultaten.
Het gebruikt een architectuur met de naam 'autoregressive discrete autoencoder'.
Dit bevat een encodeermodule die een onbewerkte audiogolf neemt
en deze comprimeert in een interne representatie,
waar het decodeergedeelte verantwoordelijk is voor de reconstructie van het onbewerkte geluid van deze interne weergave.
Beide zijn neurale netwerken.
Het autoregressieve gedeelte betekent dat het algoritme naar eerdere stappen kijkt
in de geleerde audiosignalen bij het produceren van nieuwe noten, en is geïmplementeerd in de encodeermodule.
In wezen is dit wat het algoritme een
langetermijngeheugen geeft 
om te onthouden wat het eerder speelde.
Je zag zojuist de dataset waarvan het algoritme heeft geleerd terwijl de muziek aan het spelen was,
en ik ben ook heel benieuwd hoe we artistieke 
controle kunnen uitoefenen over de uitkomst 
door de dataset te veranderen.
In wezen kan je waarschijnlijk veranderen wat de
student leert
door de tekstboeken te veranderen gebruikt om ze te onderwijzen.

Chinese: 
在此之前我从未听过任何AI生成的音乐，
有如此的清晰和协调，
令人惊叹。
真正令人惊叹的结果是，
它使用了一个名称为自回归离散自动编码器(autoregressive discrete autoencoder)的架构，
其包含一个负责把原始音频波形压缩为内部编码的编码器模块，
还有一个负责根据此内部编码重建为原始音频的解码器模块
 
这两者都是神经网络。
自回归部分意味着算法在创作新的音符时，会考虑到之前所学习过的声音信号。
这部分是实现在编码器模块中。
从本质上讲，这就是算法有长期记忆，能够记住他之前播放过的音乐的原因。
 
正如你们已经看到过的算法用来学习创作音乐的数据集，我会很好奇
我们如何通过改变数据集来控制算法创作的音乐。
实际上，就像你可以通过改变教学生的教科书来改变学生，这个算法也是如此。
 

Japanese: 
こんな明快な表現と
素晴らしいハーモニーを持ったAI音楽は
一度も聞いたことがありません。
本当に素晴らしい結果です。
この手法は自己回帰的離散オートエンコーダ
という名前のアーキテクチャを使っています。
これにはエンコーダモジュールが含まれており、
生のオーディオ波形を受け取ると圧縮して
内部表現に変換します。
デコーダ部はこの内部表現から
生のオーディオを再構成します。
どちらもニューラルネットワークです。
自己回帰とは、アルゴリズムが新しい音符を
生成するときに、学習された音声信号の
以前のタイムステップを調べることを意味しており、
エンコーダモジュール内に実装されています。
基本的に、これがアルゴリズムに
以前に何を演奏したかを覚えるための長期記憶を
与えています。
音楽が演奏されていた間にアルゴリズムが学んだ
データセットを見ましたが、
データセットを変えることでどのようにアウトプットの芸術表現を制御できるのか私もかなり興味があります。
基本的には、学生が学ぶ内容は
彼らを教えるために使う教科書を変えれば
変更できそうです。

English: 
I have  never heard any AI-generated music
before with such articulation and the harmonies
are also absolutely amazing.
Truly stunning results.
It uses an architecture that goes by the name
autoregressive discrete autoencoder.
This contains an encoder module that takes
a raw audio waveform and compresses it down
into an internal representation, where the
decoder part is responsible for reconstructing
the raw audio from this internal representation.
Both of them are neural networks.
The autoregressive part means that the algorithm
looks at previous time steps in the learned
audio signals when producing new notes, and
is implemented in the encoder module.
Essentially, this is what gives the algorithm
longer-term memory to remember what it played
earlier.
As you have seen the dataset the algorithm
learned from as the music was playing, I am
also really curious how we can exert artistic
control over the output by changing the dataset.
Essentially, you can likely change what the
student learns by changing the textbooks used
to teach them.

English: 
For now, let's marvel at one more sound sample.
This is already incredible, and I can only
imagine what we will be able to do not ten
years from now, just a year from now.
Thanks for watching and for your generous
support, and I'll see you next time!

Dutch: 
Laten we nu nog één ander geluidsvoorbeeld bewonderen.
Dit is al ongelooflijk, en ik kan alleen
maar voorstellen waartoe we in staat zijn
niet over tien jaar, maar slechts over één jaar.
Bedankt voor het kijken en voor je genereuze
steun, en tot de volgende keer!

Japanese: 
とりあえず、もう1つのサンプルを聞いて
驚いてみましょう。
これはすでに信じられないほどです。
そして今から10年後ではなく、ちょうど1年後には
どんなことができるようになるか、
想像することしかできません。
ご視聴と寛大なご支援ありがとうございます。
また次回お会いしましょう！

Chinese: 
现在，让我们惊叹于另一段音乐。
这已经不可思议了，我只能想象一年后我们能达到怎样的能力，
无法想想十年后能够到怎样的地步。
感谢您的观看和慷慨
支持，我们下次再见！
