
English: 
Dear Fellow Scholars, this is Two Minute Papers
with Dr. Károly Zsolnai-Fehér.
Today, we have a selection of learning-based
techniques that can generate images of photorealistic
human faces for people that don’t exist.
These techniques have come a long way over
the last few years, so much so that we can
now even edit these images to our liking,
by, for instance, putting a smile on their
faces, making them older or younger, adding
or removing a beard, and more.
However, most of these techniques are still
lacking in two things.
One is diversity of outputs, and two, generalization
to multiple domains.
Typically, the ones that work on multiple
domains don’t perform too well on most of
them.
This new technique is called StarGAN 2 and
addresses both of these issues.
Let’s start with the humans.
In the footage here, you see a lot of interpolation
between test subjects, which means that we

Arabic: 
أعزائي العلماء ، هذه دقيقتان
مع د. كارولي زسولناي فهير.
اليوم ، لدينا مجموعة مختارة من التعلم القائم
التقنيات التي يمكن أن تولد صور واقعية
وجوه  لأشخاص غير موجودين.
لقد قطعت هذه التقنيات شوطا طويلا
في السنوات القليلة الماضية ، لدرجة أننا نستطيع
حتى الآن تحرير هذه الصور حسب رغبتنا ،
عن طريق وضع ابتسامة على سبيل المثال
الوجوه ، مما يجعلها أكبر أو أصغر ، مضيفا
أو إزالة اللحية ، وأكثر.
ومع ذلك ، فإن معظم هذه التقنيات لا تزال
تفتقر إلى شيئين.
الأول هو تنوع المخرجات والنتائج ، واثنان ، التعميم
إلى مجالات متعددة.
عادة ، تلك التي تعمل على عدة
المجالات لا تعمل بشكل جيد في
معظمهم
هذه التقنية الجديدة تسمى StarGAN 2 و
يعالج كل من هذه القضايا.
لنبدأ بالبشر.
في اللقطات هنا ، ترى الكثير من الاستيفاء
بين مواد الاختبار ، مما يعني أننا

English: 
start out from a source person, and generate
images that morph them into the target subjects,
not in any way, but in a way that all of the
intermediate images are believable.
In these results, many attributes from the
input subject, such as pose, nose type, mouth
shape and position are also reflected on the
output.
I like how the motion of the images on the
left reflects the state of the interpolation.
As this slowly takes place, we can witness
how the reference person grows out a beard.
But we're not nearly done yet.
We noted that another great advantage of this
technique is that it works for multiple domains,
and this means, of course, none other than
us looking at cats morphing into dogs and
other animals.
In these cases, I see that the algorithm picks
up the gaze direction, so this generalizes
to even animals.
That's great.

Arabic: 
تبدأ من شخص المصدر ، وتولد
الصور التي تحولهم إلى الأهداف المستهدفة ،
ليس بأي شكل من الأشكال ، ولكن بطريقة أن كل
الصور الوسيطة قابلة للتصديق.
في هذه النتائج ، سمات كثيرة من
موضوع الإدخال ، مثل الوضع ، نوع الأنف ، الفم
وينعكس الشكل والموقف أيضا على
انتاج.
أنا أحب كيف حركة الصور على
اليسار يعكس حالة الاستيفاء.
بما أن هذا يحدث ببطء ، يمكننا أن نشهد
كيف ينمو الشخص المرجعي لحيته.
لكننا لم ننتهي بعد.
لاحظنا أن هناك ميزة أخرى كبيرة لهذا
التقنية هي أنها تعمل في مجالات متعددة ،
وهذا يعني ، بالطبع ، لا شيء غير
نظرنا إلى القطط تتحول إلى كلاب و
حيوانات أخرى.
في هذه الحالات ، أرى أن الخوارزمية تختار
حتى اتجاه النظرة ، لذلك هذا يعمم
حتى الحيوانات.
ذلك رائع.

English: 
What is even more great is that the face shape
of the tiger appears to have been translated
to the photo of this cat, and, if we have
a bigger cat as an input, the output will
also give us… this lovely, and a little
plump creature.
And...look!
Here, the cat in the input is occluded in
this target image, but that is not translated
to the output image.
The AI knows that this is not part of the
cat, but an occlusion.
Imagine what it would take to prepare a handcrafted
algorithm to distinguish these features.
My goodness.
And now, onto dogs.
What is really cool is that in this case,
bendy ears have their own meaning and we get
several versions of the same dog breed, with,
or without them.
And it can handle a variety of other animals
too.
I could look at these all day.
And now, to understand why this works so well,
we first have to understand what a latent
space is.

Arabic: 
ما هو أكثر من رائع هو أن شكل الوجه
يبدو أن النمر قد ترجم
إلى صورة هذا القط ، وإذا كان لدينا
قطة أكبر كمدخل ، سوف الإخراج
أعطنا أيضا ... هذا جميل ، وقليلا
مخلوق ممتلئ الجسم.
و ... انظروا!
هنا ، يتم حظر القطة في الإدخال
هذه الصورة المستهدفة ، ولكن لم تتم ترجمتها
إلى صورة الإخراج.
تعرف منظمة العفو الدولية أن هذا ليس جزءًا من
القط ، ولكن انسداد.
تخيل ما يتطلبه الأمر لإعداد حرف يدوية
خوارزمية لتمييز هذه الميزات.
رباه.
والآن ، على الكلاب.
الشيء الرائع حقًا هو أنه في هذه الحالة ،
آذان bendy لها معناها الخاص ونحن نحصل عليها
عدة إصدارات من نفس سلالة الكلاب ، مع ،
أو بدونهم.
ويمكنه التعامل مع مجموعة متنوعة من الحيوانات الأخرى
جدا.
يمكنني أن أنظر إليها طوال اليوم.
والآن ، لفهم سبب نجاح ذلك ،
علينا أولا أن نفهم ما هو كامن
الفضاء.

English: 
Here you see an example of a latent space
that was created to be able to browse through
fonts, and even generate new ones.
This method essentially tries to look at a
bunch of already existing fonts and tries
to boil them down into the essence of what
makes them different.
It is a simpler, often incomplete, but, more
manageable representation for a given domain.
This domain can be almost anything, for instance,
you see another technique that does something
similar with material models.
Now, the key difference in this new work compared
to previous techniques, is that it creates
not one latent space, but several of these
latent spaces for different domains.
As a result, it can not only generate images
in all of these domains, but can also translate
different features, for instance, ears, eyes,
noses from a cat to a dog or a cheetah in
a way that makes sense.
And the results look like absolute witchcraft.

Arabic: 
هنا ترى مثالاً لمساحة كامنة
التي تم إنشاؤها لتتمكن من التصفح
الخطوط ، وحتى إنشاء خطوط جديدة.
تحاول هذه الطريقة بشكل أساسي إلقاء نظرة على
مجموعة من الخطوط والمحاولات الموجودة بالفعل
لتغليهم في جوهر ما 
يجعلها مختلفة.
إنه أبسط ، غير مكتمل في كثير من الأحيان ، ولكن أكثر
تمثيل قابل للإدارة لمجال معين.
يمكن أن يكون هذا المجال أي شيء تقريبًا ، على سبيل المثال ،
ترى تقنية أخرى تفعل شيئا
مماثلة مع النماذج المادية.
الآن ، مقارنة الفرق الرئيسي في هذا العمل الجديد
للتقنيات السابقة ، هو أنه يخلق
ليست مساحة كامنة واحدة ، ولكن العديد من هذه
المساحات الكامنة لمجالات مختلفة.
ونتيجة لذلك ، لا يمكنها فقط إنشاء صور
في جميع هذه المجالات ، ولكن يمكن أيضًا ترجمتها
ميزات مختلفة ، مثل الأذنين والعيون ،
أنوف من قطة إلى كلب أو الفهد
بطريقة منطقية.
وتبدو النتائج مثل السحر المطلق.

Arabic: 
الآن ، منذ النظر على وجه هذا الفهد
يشير إلى أنه يحتوي على ما يكفي من هذا الفيديو ،
فقط مثال آخر قبل أن نذهب.
كحالة فشل محتملة ، ألق نظرة
آذان هذه القطة.
يبدو أنه في منتصف الطريق غريب بين
مدبب وأذن مثنية ، لكنها لا تفعل ذلك
تبدو تماما مثل أي منهم.
ما رأيك؟
ربما يستطيع بعضكم أن يزن 
على هذا.
دعني اعرف

English: 
Now, since the look on this cheetah’s face
indicates that it has had enough of this video,
just one more example before we go.
As a possible failure case, have a look at
the ears of this cat.
It seems to be in a peculiar midway-land between
a pointy and a bent ear, but it doesn’t
quite look like any of them.
What do you think?
Maybe some of you cat people can weigh in
on this.
Let me know

English: 
in 
the comments.
Thanks 
for watching and for your generous support,
and I'll see you next time!

Arabic: 
في  
التعليقات.
شكر 
للمشاهدة ودعمكم السخي ،
وسوف أراك في المرة القادمة!
