Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛЕКЦИИ ПО ЛИНЕЙНОЙ АЛГЕБРЕ В
ШАДЕ
2016–2017 УЧЕБНЫЙ ГОД
БУНИНА ЕЛЕНА ИГОРЕВНА
ЛЕКЦИЯ 2
1
1
Дифференцирование матриц
Операции дифференцирования векторов и матриц являются логичными продолжениями соответствующих операций над скалярами. В такого типа операциях участвуют три объекта:
1) переменная, по которой дифференцируют;
2) функция, которую дифференцируют;
3) результат применения операции.
Понятно, что в простейшем случае все три объекты имеют один и тот
же тип и просто являются скалярами. Если же переменная или функция
являются вектором или матрицей, то структура результата уже может
быть гораздо сложнее.
1.1
Определения и свойства
Всем известно понятие частной производной ∂f /∂xi для функции f от
нескольких переменных по переменной xi . В принципе, все понятия дифференцирования векторов и матриц по разным типам переменных основаны именно на частных производных.
Дифференцирование какой-то структуры (например, вектора или
матрицы) по скаляру достаточно просто: оно дает производную каждого элемента структуры в такой же структуре.
y1
..
Например, при дифференцировании вектора y(x) = . по скаляyn
ру x мы получаем вектор
∂y
1
∂y ∂x
= ... .
∂x
∂yn
∂x
Дифференцирование матрицы Y (x) = (yij ) по скаляру x — это матрица
∂Y
∂yij
=
.
∂x
∂x
Так как дифференцирование по скаляру не меняет размер объекта, то
производные высших порядков ∂ k /∂xk по скалярам — это производные
высших порядков от соответствующих компонент.
2
Дифференцирование данного объекта по n-мерному вектору
дает вектор для каждого элемента исходного объекта. Именно, производная функции со скалярным значением по вектору — это вектор частных
производных функции по компонентам
То есть если f (x) — это
вектора.
x1
..
скалярная функция от вектора x = . , то
xn
∂f
∂x1
∂f
= ... ,
∂x
∂f
∂xn
если все эти производные существуют. Полученный вектор называется
градиентом функции со скалярным значением, иногда его обозначают
через gf (x) или ∇f (x).
Производные m-векторно-значных функций c n-вектором в качестве
аргумента состоят из nm скалярных производных. Эти производные могут быть расположены в различных структурах. Две очевидные из них
— это матрицы n × m и m × n. Для функции f : S ⊂ Rn → Rm определим
∂f T /∂x как матрицу n×m, а ∂f /∂xT как матрицу m×n. По определению
полагаем
∂f1
∂f2
∂fm
.
.
.
∂x1
∂x1
1
∂x
∂f
∂f
∂f
∂f1
∂f T
∂fm
∂f
∂x12 ∂x22 . . . ∂xm2
:=
=
,...,
=
.
∂x
∂x
∂x
∂x
. . . . . . . . . . . . . . . . . . .
∂f2
∂f1
m
. . . ∂f
∂xn
∂xn
∂xn
Такая матрица называется матричным градиентом, обозначается она
через Gf или ∇f для векторнозначной функции f .
Матрица размера m × n вида ∂f /∂xT = (∇f )T называется Якобианом
функции f и обозначается через Jf .
Производная матрицы по вектору — это трехмерный объект, в котором берутся производные по вектору к каждому элементу матрицы.
Производные высших порядков —- это производные от производных
меньших порядков. Как мы видели, производная данной функции по
вектору является более сложным объектом, чем исходная функция. Простейшая производная высшего порядка по вектору — это вторая производная скалярно-значной функции. Производные высших порядков могут становиться слишком сложными.
3
В соответствии со значением производных векторов по векторам, вторая производная скалярно-значных функций по вектору — это матрица
частных производных функции по компонентам вектора. Эта матрица
называется гессианом и обозначается через Hf , а иногда — через ∇2 f :
∂2f
∂2f
∂2f
.
.
.
∂x ∂x
∂x1 ∂x2
∂x1 ∂xn
2f
∂12 f 1
∂2f
∂ 2f
.
.
.
∂x2 ∂x1 ∂x∂2 ∂x
∂x
2
2 ∂xn .
Hf =
=
T
∂x∂x
. . . . . . . . . . . . . . . . . . . . . . . . . . .
2f
∂2f
∂2f
. . . ∂x∂n ∂x
∂xn ∂x1
∂xn ∂x2
n
Производная функции по матрице — это матрица того же размера, состоящая из частных производных функции по соответствующим
элементам матрицы. Это правило определяет общий смысл дифференцирования по матрицам.
По определению дифференцирования по матрице X мы видим, что
производная ∂f /∂X T — это матрица, транспонированная к ∂f /∂X. Для
скалярно-значных функций это правило достаточно просто.
1.2
Ряды Тейлора и матричные производные
Пусть для простоты мы имеем функцию-вектор f (размера n) от вектора x (размера m), пусть все входящие функции являются достаточно гладкими,
а мы хотим разложить значение функции f (x) в точке
t1
t = ... через ее значение и значение производных бо́льших порядков
tm
t01
в точке t0 = ... , а также через приращение t − t0 .
t0m
В этом случае
∂f1 0
∂f1 0
(t
)
.
.
.
(t
)
t
−
t
f1 (t1 , . . . , tm )
f1 (t01 , . . . , t0m )
1
1
∂t1
∂tm
..
.. .. +O(kt−t0 k2 ),
..
..
..
=
+
.
.
.
.
.
.
fn (t1 , . . . , tm )
∂fn 0
(t )
∂t1
fn (t01 , . . . , t0m )
...
∂fn 0
(t )
∂tm
что в принятой нами только что форме переписывается как
f (t) = f (t0 ) +
∂f 0
(t )(t − t0 ) + O(kt − t0 k2 ).
∂tT
4
tm − t0m
В том числе, получается, что необходимое условие локального минимума в данной точке — это равенство производной в этой точке нулю (то
есть всю матрицу производных надо приравнивать нулю).
1.3
Дифференцирование линейных и квадратичных
форм
a1
x1
..
..
Для начала пусть a = . и x = . — два n-мерных вектора:
an
xn
постоянный и переменный. Продифференцируем их скалярное произведение aT x = a1 x1 + · · · + an xn по x:
∂(a1 x1 + · · · + an xn )
∂(ai xi )
∂(aT x)
=
=
= ai ,
∂xi
∂xi
∂xi
откуда
∂(aT x)
= a.
∂x
Теперь пусть A — матрица (aij ) размера n × n и мы рассматриваем
квадратичную форму
n
X
T
x Ax =
aik xi xk .
i,k=1
Продифференцируем эту квадратичную форму по переменной x:
!
n
P
∂
aij xi xk
i,k=1
∂(xT Ax)
=
=
∂xj
∂xj
!
P
P
ajk xj xk
∂ ajj x2j +
aij xi xj +
k6=j
i6=j
=
=
∂xj
= 2ajj xj +
X
aij xi +
i6=j
X
ajk xk =
k6=j
Таким образом, получаем, что
∂(xT Ax)
= (A + AT )x.
∂x
5
n
X
i=1
aij xi +
n
X
k=1
ajk xk .
Заметим, что в отдельном случае симметрической матрицы A
∂(xT Ax)
= 2Ax.
∂x
Теперь продифференцируем вектор
P
n
a1i xi
i=1
x1
..
.
..
A . = Ax =
n
P
xn
a x
mi i
i=1
по вектору x. Получается, что если мы будем дифференцировать Ax по
x, то у нас получится не матрица размера m × n (как было бы наглядно
и удобно), а вектор длины mn. Поэтому разумно брать производную не
по вектору x, а по вектору xT , тогда получится
a11 . . . a1n
∂Ax
∂Ax
∂Ax
.. = A.
...
=
,...,
= ...
.
T
∂x
∂x1
∂xn
am1 . . . amn
1.4
Дифференцирование матричных сумм и произведений и транспонированных матриц
Пусть F = (fis ) и G = (gis ) — это матрицы
размера p × q, состоящие из
x1
..
функций от n-мерного вектора x = . . Тогда при всех необходимых
xn
условиях на гладкость всех функций выполняется очевидное равенство
∂(αF + βG)
∂F
∂G
=α
+β
.
∂xj
∂xj
∂xj
Более того, выполняется и привычное нам правило Лейбница дифференцирования произведения:
∂(F G)
∂G
∂F
=F
+
G
∂xj
∂xj ∂xj
6
для матриц F и G подходящего для умножения размера.
Также
для
матрицы F размера p×q, состоящей из функций fis от векx1
тора x = ... , производная транспонированной матрицы есть трансxn
понирование матрицы производных:
∂(F T )
=
∂xj
1.5
∂F
∂xj
T
.
Дифференцирование векторов и матриц по их
элементам
x1
Пусть x = ... , uj — это j-й столбец единичной матрицы размера
xn
n × n. Элементы вектора x можно рассматривать как функции от x.
Тогда очевидно, что
∂x
= uj .
∂xj
Это равенство может быть естественно распространено на (произвольного вида) матрицу X = (xij ) размера m × n:
∂X
= ui uTj = Eij .
∂xij
Теперь представим себе, что изначально мы рассматривали не произвольные матрицы X, а квадратные симметрические матрицы размера
n × n. Тогда (из-за совпадения симметричных элементов) производная
считается иначе:
∂X
= Eii ,
∂xii
1.6
∂X
= Eij + Eji
∂xij
при i 6= j.
Дифференцирование следа матрицы
Задачу о дифференцировании следа матрицы можно формулировать
двумя способами. В первом случае мы имеем квадратную матрицу F =
7
x1
(fis ) размера p × p, состоящую из функций от вектора x = ... , дифxn
ференцируем след по x:
P
∂( tr F )
∂ fii X ∂fii
∂F
=
=
= tr
.
∂xj
∂xj
∂xj
∂xj
Во втором случае мы делаем что-то, подобное предыдущему пункту:
дифференцируем след матрицы X = (xis ) по самой матрице X, что,
очевидно, дает
∂( tr X)
= E.
∂X
1.7
Дифференцирование композиции функций
h1 (x)
x1
..
..
Пусть h(x) = . — вектор функций от m-вектора x = . , а
hn (x)
xm
g(y) = g(y1 , . . . , yn ) — функция от n переменных. Тогда их композиция
f (x) = g(h(x)) (при всех корректных областях определений и значений
всех необходимых функций) — это функция от m-вектора x.
Если функции h и g — достаточно гладкие, то можно найти производную функции f :
n
X ∂g ∂hi
∂f
∂g ∂h
=
= T
,
∂xj
∂y
∂x
∂y
∂x
i
j
j
i=1
что суммарно дает
n
X ∂g ∂hi
∂f
∂g ∂h
=
= T
∂x
∂yi ∂x
∂y ∂x
i=1
или
∂f
∂g
∂h
(c) =
(h(c)) ·
(c).
∂x
∂y
∂x
Теперь пусть H = (his ) — это матрица размера n × r функций от
вектора x; g — функция от матрицы Y = (yis ) размера n × r; f (x) =
g(H(x)).
8
Тогда
n
r
X X ∂g ∂his
∂f
=
,
∂xj
∂yis ∂xj
i=1 s=1
что в матричной форме переписывается как
∂f
= tr
∂xj
1.8
∂g
∂Y
T
∂H
∂xj
!
.
Частные производные определителей и обратных
матриц
Пусть X = (xij ) — это матрица размера m × m, состоящая из m2 независимых переменных. Обозначим через Aij алгебраическое дополнение
к xij . Рассмотрим f (X) = det X и увидим, что частная производная для
этой функции равна
∂ det X
= Aij .
∂xij
Иначе можно переписать это равенство как
∂ det X
= (Aij ) = det X · (X −1 )T .
∂X
Теперь пустьF =
(fis ) матрица размера p × p, состоящая из функций
x1
..
от вектора x = . . Пусть F состоит из дифференцируемых функций.
xn
Можно считать, что у нас имеется композиция двух функций: определителя матрицы и самой матрицы функций: det F (x). Получается, что
такую композицию можно дифференцировать как сложную функцию и,
воспользовавшись формулой из конца предыдущего пункта, получаем
∂ det F
−1 ∂F
= det F · tr F
∂xj
∂xj
для невырожденных матриц.
Теперь предположим, что матрица функций F (x) является невырожденной в окрестности рассматриваемой точки, и продифференцируем об9
ратную матрицу F −1 . Воспользуемся сотношением F F −1 = E и продифференцируем его:
∂F −1
∂F −1
∂E
F +F
=
= 0,
∂xj
∂xj
∂xj
откуда
F
∂F −1
∂F −1
=−
F .
∂xj
∂xj
Умножая обе части равенства слева на F −1 , получим
∂F −1
∂F −1
= −F −1
F .
∂xj
∂xj
10