
English: 
Quadratic functions are such that
the second derivative matrix is constant.
We investigate in this video the implications on the optimality conditions
of this property. So let's consider the formulation of a
quadratic function. We can write that f(x)
is, let's say, written like this,
where Q is a n by n symmetric matrix.
g is a vector of R^n, and
c is a constant. Two comments about this formulation.
First, it's always possible to write a quadratic function using

French: 
Les fonctions quadratiques sont telles que
la matrice des dérivées secondes est constante.
Nous étudions dans cette vidéo les implications sur les conditions d'optimalité
de cette propriété. Considérons la formulation d'une
fonction quadratique. On peut écrire que f(x)
est, disons, écrit comme ça,
où Q est une matrice n fois n, symétrique,
g est un vecteur de R^n, et
c est une constante. Deux commentaires à propos de cette formulation.
Tout d’abord, il est toujours possible d’écrire une fonction quadratique en utilisant

English: 
Q being symmetric. So, it's really a condition
which has no loss of generality. Second, there is this
"one half" in the beginning. Well, actually, the reason why we write it
with a "one half", is to simplify the calculation of the derivatives
as we will see just now. The derivative,
the gradient of f, is simply written as Q x plus g. And the second
derivative matrix is the matrix Q.
So, we get this simple specification
thanks to the fact that we have included the "one half" in the formulation.
Good. So the second derivative matrix is this symmetric matrix Q,
which is constant. It does not vary with x.
This is a characterization of quadratic functions.
So, let's investigate the optimality conditions
on the quadratic function. The first case, we will use the necessary

French: 
Q symétrique. Donc, c'est vraiment une condition
qui n'a pas de perte de généralité. Deuxièmement, il y a ce
"un demi" au début. Eh bien, en fait, la raison pour laquelle nous l'écrivons
avec un "un demi", est de simplifier le calcul des dérivées
comme nous allons le voir maintenant. La dérivée,
le gradient de f est simplement écrit Q x plus g. Et la matrice
des dérivées secondes est la matrice Q.
Nous obtenons cette spécification simple
grâce au fait que nous avons inclus le "un demi" dans la formulation.
Bien. Donc, la matrice des dérivées deuxièmes est cette matrice symétrique Q,
qui est constante. Elle ne varie pas avec x.
C'est une caractérisation des fonctions quadratiques.
Alors, examinons les conditions d'optimalité
pour la fonction quadratique. En premier, nous allons utiliser les conditions

French: 
nécessaires d'optimalité. Ce qu'elles nous disent, c'est que si Q
n'est pas semi-défini positif, cela signifie qu'il
y a au moins une valeur propre qui est négative.
Dans ce cas, cela signifie qu’il existe une direction, typiquement
la direction du vecteur propre correspondant à la valeur
propre négative, où la fonction est concave dans cette direction.
Et parce que la fonction est concave, et la dérivée seconde
est constante, le problème est non borné.
Nous pouvons suivre cette direction autant que nous voulons, nous diminuerons toujours la valeur de la
fonction. Si le problème est non borné, il n'y a pas de
solution optimale. Regardons cet exemple. Nous avons la
fonction qui est f(x)
égal x_1 carré moins
x_2 carré. Le gradient est égal
à 2 x_1, moins 2 x_2.

English: 
optimality conditions. What they tell us is that if Q happens
not to be positive semidefinite, it means that
there is at least one eigenvalue which is negative.
In this case, it means that there exists a direction, typically
the direction of the eigenvector corresponding to the negative
eigenvalue, where the function is concave along this direction.
And because the function is concave, and the second derivative
is constant, the problem is unbounded.
We can follow this direction as far as we want, we will always decrease the value of the
function. If the problem is unbounded, there is no
optimal solution. Let's look at this example. So we have the
function which is f(x)
equals x_1 square minus
x_2 square. The gradient is equal
to 2 x_1 minus 2 x_2.

French: 
Et la matrice des dérivées secondes est égale
à deux, moins deux, zéro, zéro.
C'est une matrice diagonale. Par conséquent, les valeurs propres peuvent être consultées directement
sur la diagonale. Et nous pouvons voir qu'il y a une valeur propre qui est deux,
et la deuxième valeur propre qui est moins deux. D'un point de vue
géométrique, cela signifie que la fonction est convexe
dans la direction de x_1, comme nous
pouvons le voir ici, et concave dans la direction de x_2.
Et en fait, nous avons un point de selle au point x_1
égal zéro, x_2 égal zéro, car alors le gradient est égal à zéro.
Mais bien entendu, les conditions nécessaires d'optimalité ne sont pas vérifiées. Donc,
ce ne peut pas être un optimum local. D'accord ? Dans une
fonction quadratique, dès que certaines valeurs propres sont
négatives, le problème est non borné et il n’existe pas d’optimum local.
Il n'y a pas d'optimum du tout. Maintenant, regardons les conditions

English: 
And the second derivative matrix is equal
to two, minus two, zero, zero.
It's a diagonal matrix. Therefore, the eigenvalues can be accessed directly
on the diagonal. And we can see that there is one eigenvalue which is two,
and the second eigenvalue which is minus two. From a geometrical
point of view, it means that the function is convex
in the direction of x_1, as we
can see here, and it's concave in the direction of x_2.
And actually, we have a saddle point at the point x_1
equals zero, x_2 equals zero, because then the gradient is equal to zero.
But of course, the necessary optimality conditions are not verified. Therefore,
it cannot be a local optimum. OK? So, in a
quadratic function, as soon as some eigenvalues are
negative, the problem is unbounded and there is no local optimum.
There is no optimum at all. Now, let's look at the sufficient

French: 
suffisantes d'optimalité. Si la matrice Q est définie
positive, ce qui signifie que toutes les valeurs propres sont (strictement) positives,
alors le problème est strictement convexe.
Et il existe un optimum global unique, qui est obtenu en
résolvant les équations : le gradient est égal à zéro.
Mais dans ce cas, ces équations sont des équations linéaires.
Elles sont faciles à résoudre. C'est Q x étoile plus g égal à zéro.
Prenons un exemple. Ici nous avons la fonction
f(x) égal x_1 carré
plus deux x_2 carré.
Le gradient de f est égal à deux x_1
et quatre x_2.
Et la matrice des dérivées secondes
est égale à deux, zéro, zéro, quatre.

English: 
optimality conditions. If matrix Q is positive
definite, which means that all eigenvalues are positive,
then the problem is strictly convex.
And there is a unique global optimum, which is obtained by
solving the equations: the gradient is equal to zero.
But in this case, these equations are linear equations.
They are easy to solve. It's Q x star plus g equals to zero.
Let's take an example. Here we have the function
f(x) equals x_1 square
plus two x_2 square.
The gradient of f is equal to two x_1
and four x_2.
And the second derivative matrix
is equal to two, zero, zero, four.

French: 
Encore une fois, il s’agit d’une matrice diagonale, de sorte que les valeurs propres peuvent être
accessible directement sur la diagonale. Elles valent deux et quatre. Les deux
sont strictement positives. Cela signifie que la fonction est strictement convexe
partout. Donc, le minimum, qui se trouve être (0,0),
c'est le point où le gradient est égal à zéro, est bien sûr
un minimum local car il vérifie les conditions suffisantes d'optimalité,
mais comme la fonction est strictement convexe, il s'agit également d'un optimum global unique.
Nous avons donc couvert deux cas jusqu'à présent. Un
lorsque la matrice Q n'est pas semi-définie positive.
Dans ce cas, le problème d'optimisation était non borné. Il n'y avait pas
de solution. Le deuxième cas était quand la matrice était
définie positive. Dans ce cas, toutes les valeurs propres sont strictement positives,
le problème est convexe et nous avons un optimum global unique.
Donc, le dernier cas est lorsque la matrice est semi-définie positive,
mais pas définie positive. Dans ce cas, toutes

English: 
Again, it's a diagonal matrix, so the eigenvalues can be
accessed directly on the diagonal. They are two and four. Both of
them are strictly positive. It means that the function is strictly convex 
everywhere. So, the minimum, which happens to be (0,0),
it's the point where the gradient is equal to zero, is of course
a local minimum because it verifies the sufficient optimality conditions,
but because the function is strictly convex, it's also a unique global optimum.
So we have covered two cases so far. One
when the matrix Q is not positive semidefinite.
In that case, the optimization problem was unbounded. There was no
solution. The second case was when the matrix was
positive definite. In this case, all eigenvalues are strictly positive,
the problem is convex, and we have a unique global optimum.
So the last case is when the matrix is semidefinite positive,
but not positive definite. In this case, all

English: 
eigenvalues are non negative, but some of them are equal to zero.
In this example, we have f(x) equals
x_1 square plus one half of x_2.
The gradient is two x_1 and one half.
And the second derivative matrix is again a diagonal
matrix, so the eigenvalues can be read on the diagonal. We have
two and zero. So this is the case that we have
identified. All eigenvalues are
non negative, so the necessary optimality conditions are verified.
But some of them are zero, so that the sufficient conditions are not
verified. So in this very example, if you try to minimize the function,
you will see that you will not find any optimum. Indeed, x_2 can
decrease as much as it likes, and decrease the value of the objective
function. The problem is not bounded. If you want to interpret this

French: 
les valeurs propres sont non négatives, mais certaines d'entre elles sont égales à zéro.
Dans cet exemple, nous avons f(x) égal
x_1 carré plus un demi x_2.
Le gradient est deux x_1 et un demi.
Et la matrice des dérivées secondes est encore une matrice
diagonale, et les valeurs propres peuvent être lues sur la diagonale. On a
deux et zéro. C'est donc le cas que nous avons
identifié. Toutes les valeurs propres sont
non négatives, les conditions d'optimalité nécessaires sont donc vérifiées.
Mais certaines d'entre elles sont nulles, de sorte que les conditions suffisantes ne sont pas
vérifiées. Donc, dans cet exemple, si vous essayez de minimiser la fonction,
vous verrez que vous ne trouverez pas d’optimum. En effet, x_2 peut
diminuer autant qu'il le souhaite en diminuant la valeur de la fonction
objectif. Le problème n'est pas borné. Si vous voulez interpréter cela

French: 
d'un point de vue géométrique, le fait que nous ayons une valeur propre nulle,
cela signifie que, dans cette direction, dans la direction du
vecteur propre, la fonction est linéaire. Elle n'a pas de courbure.
Si vous vous en souvenez, la valeur propre représente la courbure de la fonction.
OK ? Ainsi, la valeur propre égale à zéro signifie "aucune courbure".
Cela signifie que la fonction est linéaire dans cette direction. Et quand
vous optimisez une fonction linéaire, deux choses peuvent arriver.
Si la pente de la direction linéaire est non
nulle, alors la fonction n'est pas bornée. Vous pouvez la suivre autant que vous le souhaitez.
Donc, le seul cas où elle est bornée, est quand la pente de
cette direction linéaire est zéro. Dans ce cas,
la fonction est horizontale, et tous les points sont en fait des optima
locaux ou optima globaux. Donc, voici l'exemple où ...
que nous avons ici. Nous avons f qui est égal à
x_1 carré. Notez qu'elle ne dépend pas de x_2.

English: 
from a geometrical point of view, the fact that we have a null eigenvalue,
it means that, in that direction, in the direction of the associated
eigenvector, the function is linear. It has no curvature.
If you remember, the eigenvalue represents the curvature of the function.
OK? So, eigenvalue equals zero means no curvature.
It means that the function is linear in this direction. And when
you optimize a linear function, two things may happen.
If the slope of the linear direction is non
zero, then the function is not bounded. You can follow it as far as you want.
So the only case where it's bounded, is when the slope of
this linear direction is zero. In this case,
the function is flat [i.e. horizontal], and all the points are actually local
optimum, or global optimum. So this is the example where...
that we have here. We have f which is equal to
x_1 square. Note that it does not depend on x_2.

French: 
Le gradient de f est égal à
deux x_1, zéro.
Et la matrice des dérivées deuxièmes est en fait la même
que dans l'exemple précédent. Nous avons deux
valeurs propres. L'une est égal à deux. L'autre est égale à zéro. Nous avons donc exactement
la même matrice des dérivées secondes que dans le cas précédent. Mais dans ce cas, vous pouvez
voir que quelle que soit la valeur que vous donnez à x_2, cela ne changera pas la valeur
de f. Donc, la solution qui est x_1 égal zéro,
et tout ce que vous voulez pour x_2, sera un optimum global
du problème. Et vous pouvez voir sur l'image que, ce qui se passe
est que, dans la direction de x_1, nous avons une courbure. La courbure est
caractérisée par la valeur propre deux. Nous avons donc effectivement une courbure.
Et si vous regardez dans la direction x_2, nous n’avons aucune courbure. C'est linéaire.
La valeur propre est zéro. Mais dans ce cas, c'est horizontal.
OK ? Le problème n'est donc pas non borné et il existe une solution.

English: 
The gradient of f is equal to
two x_1, zero.
And the second derivative matrix is actually the same
as in the previous example. We have two
eigenvalues. One is equal to two. One is equal to zero. So we have exactly
the same second derivative matrix as the previous case. But in this case, you can
see that, whatever value you give to x_2, it will not change the value
of f. So the solution which is x_1 equals zero,
and whatever you want for x_2, will be a global optimum
of the problem. And you can see on the picture that, what happens
is that, in the direction of x_1 we have a curvature. The curvature is
characterized by the eigenvalue two. So we have indeed a curvature.
And if you look in the direction x_2 we have no curvature. It's linear.
The eigenvalue is zero. But in this case, it's flat [i.e. horizontal].
OK? So the problem is not unbounded, and there is a solution.

English: 
So this last example can be generalized as
follows. So, suppose that our symmetric
matrix Q that defines the quadratic function, and that
happens to be the second derivative matrix, is positive semidefinite,
but not positive definite. So I have the eigenvalues,
I have some of them which are strictly positive, and some of them
which are zero. Let's call K the subspace which is spanned by the
eigenvectors corresponding to the positive eigenvalues.
So, in this subspace, we know that the function has curvature. Let's
call N the subspace spanned by the eigenvectors with zero
eigenvalues. This is a subspace where the function is linear.
No curvature. The function is strictly
convex in subspace K, and the function is linear
in subspace N. So the existence of a minimum
will depend on the linear part, as we have seen in the previous example.

French: 
Ce dernier exemple peut être généralisé comme
suit. Supposons que notre matrice
symétrique Q qui définit la fonction quadratique, et qui
se trouve être la matrice des dérivées deuxièmes, soit semi-définie positive,
mais pas définie positive. J'ai donc les valeurs propres.
J'ai certaines d'entre elles qui sont strictement positives, et certaines d'entre elles
qui sont zéro. Appelons K le sous-espace qui est engendré par les
vecteurs propres correspondant aux valeurs propres positives.
Donc, dans ce sous-espace, nous savons que la fonction a une courbure.
Appelons N le sous-espace parcouru par les vecteurs propres avec des
valeurs propres nulles. C'est un sous-espace où la fonction est linéaire.
Aucune courbure. La fonction est strictement
convexe dans le sous-espace K, et la fonction est linéaire
dans le sous-espace N. Donc, l'existence d'un minimum
dépendra de la partie linéaire, comme nous l'avons vu dans l'exemple précédent.

English: 
Depending on the linear part, either
the function is unbounded. So this is
the case when the linear part is not flat [i.e. horizontal].
Or, there exist
an infinite number of global minima, like we have seen in the previous example.
In this video, we have
applied the optimality conditions on the specific case of a quadratic
function such that the second derivative matrix is constant.
And we have seen that the eigenvalues of this matrix are
important, and they give us important information about the geometry of the problem. A positive
eigenvalue corresponds to a direction where the function is convex.
And in this direction, there is a unique global optimum. A negative
eigenvalue corresponds to a direction into which the function is concave,

French: 
En fonction de la partie linéaire, soit
la fonction est non bornée
(c'est le cas lorsque la partie linéaire n'est pas horizontale),
ou il existe
un nombre infini de minima globaux, comme nous l'avons vu dans l'exemple précédent.
Dans cette vidéo, nous avons
appliqué les conditions d'optimalité sur le cas spécifique d'une fonction
quadratique telle que la matrice des dérivées secondes soit constante.
Et nous avons vu que les valeurs propres de cette matrice sont
importantes, et elles nous donnent des informations importantes sur la géométrie du problème. Une valeur
propre positive correspond à une direction où la fonction est convexe.
Et dans cette direction, il existe un optimum global unique. Une valeur
propre négative correspond à une direction dans laquelle la fonction est concave,

French: 
et par conséquent, parce que nous minimisons, la fonction est non bornée.
Et s'il y a une valeur propre nulle, c'est une direction dans laquelle la fonction
est linéaire. Et puis, il y a deux cas. Soit la fonction linéaire
est horizontale, et alors nous avons un nombre infini d'optima globaux
dans cette direction, ou la fonction n'est pas
horizontale, et dans ce cas, le problème est non borné.

English: 
and therefore, because we minimize, the function is unbounded.
And if there is a zero eigenvalue, it's a direction into which the function
is linear. And then, there are two cases. Either the linear function
is flat [i.e horizontal], and then we have an infinite number of global optimum
in this direction, or the function is not
flat [i.e. horizontal], and in this case the problem is unbounded.
