Линейная алгебра

⌛ 2017 год
👀 945 просмотров
📌 894 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Линейная алгебра», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Линейная алгебра», Word формат

ЛЕКЦИИ ПО ЛИНЕЙНОЙ АЛГЕБРЕ В ШАДЕ 2016–2017 УЧЕБНЫЙ ГОД БУНИНА ЕЛЕНА ИГОРЕВНА ЛЕКЦИЯ 2 1 1 Дифференцирование матриц Операции дифференцирования векторов и матриц являются логичными продолжениями соответствующих операций над скалярами. В такого типа операциях участвуют три объекта: 1) переменная, по которой дифференцируют; 2) функция, которую дифференцируют; 3) результат применения операции. Понятно, что в простейшем случае все три объекты имеют один и тот же тип и просто являются скалярами. Если же переменная или функция являются вектором или матрицей, то структура результата уже может быть гораздо сложнее. 1.1 Определения и свойства Всем известно понятие частной производной ∂f /∂xi для функции f от нескольких переменных по переменной xi . В принципе, все понятия дифференцирования векторов и матриц по разным типам переменных основаны именно на частных производных. Дифференцирование какой-то структуры (например, вектора или матрицы) по скаляру достаточно просто: оно дает производную каждого элемента структуры в такой же структуре.   y1  ..  Например, при дифференцировании вектора y(x) =  .  по скаляyn ру x мы получаем вектор  ∂y  1 ∂y  ∂x  =  ...  . ∂x ∂yn ∂x Дифференцирование матрицы Y (x) = (yij ) по скаляру x — это матрица ∂Y ∂yij = . ∂x ∂x Так как дифференцирование по скаляру не меняет размер объекта, то производные высших порядков ∂ k /∂xk по скалярам — это производные высших порядков от соответствующих компонент. 2 Дифференцирование данного объекта по n-мерному вектору дает вектор для каждого элемента исходного объекта. Именно, производная функции со скалярным значением по вектору — это вектор частных производных функции по компонентам То есть если f (x) — это  вектора.  x1  ..  скалярная функция от вектора x =  . , то xn  ∂f  ∂x1 ∂f   =  ...  , ∂x ∂f ∂xn если все эти производные существуют. Полученный вектор называется градиентом функции со скалярным значением, иногда его обозначают через gf (x) или ∇f (x). Производные m-векторно-значных функций c n-вектором в качестве аргумента состоят из nm скалярных производных. Эти производные могут быть расположены в различных структурах. Две очевидные из них — это матрицы n × m и m × n. Для функции f : S ⊂ Rn → Rm определим ∂f T /∂x как матрицу n×m, а ∂f /∂xT как матрицу m×n. По определению полагаем   ∂f1 ∂f2 ∂fm . . . ∂x1 ∂x1 1  ∂x ∂f ∂f ∂f  ∂f1 ∂f T ∂fm ∂f  ∂x12 ∂x22 . . . ∂xm2  := = ,..., = . ∂x ∂x ∂x ∂x . . . . . . . . . . . . . . . . . . . ∂f2 ∂f1 m . . . ∂f ∂xn ∂xn ∂xn Такая матрица называется матричным градиентом, обозначается она через Gf или ∇f для векторнозначной функции f . Матрица размера m × n вида ∂f /∂xT = (∇f )T называется Якобианом функции f и обозначается через Jf . Производная матрицы по вектору — это трехмерный объект, в котором берутся производные по вектору к каждому элементу матрицы. Производные высших порядков —- это производные от производных меньших порядков. Как мы видели, производная данной функции по вектору является более сложным объектом, чем исходная функция. Простейшая производная высшего порядка по вектору — это вторая производная скалярно-значной функции. Производные высших порядков могут становиться слишком сложными. 3 В соответствии со значением производных векторов по векторам, вторая производная скалярно-значных функций по вектору — это матрица частных производных функции по компонентам вектора. Эта матрица называется гессианом и обозначается через Hf , а иногда — через ∇2 f :  ∂2f  ∂2f ∂2f . . . ∂x ∂x ∂x1 ∂x2 ∂x1 ∂xn 2f  ∂12 f 1 ∂2f  ∂ 2f . . .  ∂x2 ∂x1 ∂x∂2 ∂x  ∂x 2 2 ∂xn  . Hf = = T ∂x∂x . . . . . . . . . . . . . . . . . . . . . . . . . . .  2f ∂2f ∂2f . . . ∂x∂n ∂x ∂xn ∂x1 ∂xn ∂x2 n Производная функции по матрице — это матрица того же размера, состоящая из частных производных функции по соответствующим элементам матрицы. Это правило определяет общий смысл дифференцирования по матрицам. По определению дифференцирования по матрице X мы видим, что производная ∂f /∂X T — это матрица, транспонированная к ∂f /∂X. Для скалярно-значных функций это правило достаточно просто. 1.2 Ряды Тейлора и матричные производные Пусть для простоты мы имеем функцию-вектор f (размера n) от вектора x (размера m), пусть все входящие функции являются достаточно гладкими, а мы хотим разложить значение функции f (x) в точке   t1   t =  ...  через ее значение и значение производных бо́льших порядков tm   t01   в точке t0 =  ... , а также через приращение t − t0 . t0m В этом случае        ∂f1 0 ∂f1 0 (t ) . . . (t ) t − t f1 (t1 , . . . , tm ) f1 (t01 , . . . , t0m ) 1 1 ∂t1 ∂tm      .. ..   .. +O(kt−t0 k2 ), .. .. .. = +        . . . .  . . fn (t1 , . . . , tm ) ∂fn 0 (t ) ∂t1 fn (t01 , . . . , t0m ) ... ∂fn 0 (t ) ∂tm что в принятой нами только что форме переписывается как f (t) = f (t0 ) + ∂f 0 (t )(t − t0 ) + O(kt − t0 k2 ). ∂tT 4 tm − t0m В том числе, получается, что необходимое условие локального минимума в данной точке — это равенство производной в этой точке нулю (то есть всю матрицу производных надо приравнивать нулю). 1.3 Дифференцирование линейных и квадратичных форм     a1 x1  ..   ..  Для начала пусть a =  .  и x =  .  — два n-мерных вектора: an xn постоянный и переменный. Продифференцируем их скалярное произведение aT x = a1 x1 + · · · + an xn по x: ∂(a1 x1 + · · · + an xn ) ∂(ai xi ) ∂(aT x) = = = ai , ∂xi ∂xi ∂xi откуда ∂(aT x) = a. ∂x Теперь пусть A — матрица (aij ) размера n × n и мы рассматриваем квадратичную форму n X T x Ax = aik xi xk . i,k=1 Продифференцируем эту квадратичную форму по переменной x: ! n P ∂ aij xi xk i,k=1 ∂(xT Ax) = = ∂xj ∂xj ! P P ajk xj xk ∂ ajj x2j + aij xi xj + k6=j i6=j = = ∂xj = 2ajj xj + X aij xi + i6=j X ajk xk = k6=j Таким образом, получаем, что ∂(xT Ax) = (A + AT )x. ∂x 5 n X i=1 aij xi + n X k=1 ajk xk . Заметим, что в отдельном случае симметрической матрицы A ∂(xT Ax) = 2Ax. ∂x Теперь продифференцируем вектор P  n   a1i xi  i=1  x1    ..  .  .. A  .  = Ax =    n   P xn a x mi i i=1 по вектору x. Получается, что если мы будем дифференцировать Ax по x, то у нас получится не матрица размера m × n (как было бы наглядно и удобно), а вектор длины mn. Поэтому разумно брать производную не по вектору x, а по вектору xT , тогда получится   a11 . . . a1n ∂Ax ∂Ax ∂Ax  ..  = A. ... = ,..., =  ... .  T ∂x ∂x1 ∂xn am1 . . . amn 1.4 Дифференцирование матричных сумм и произведений и транспонированных матриц Пусть F = (fis ) и G = (gis ) — это матрицы   размера p × q, состоящие из x1  ..  функций от n-мерного вектора x =  . . Тогда при всех необходимых xn условиях на гладкость всех функций выполняется очевидное равенство ∂(αF + βG) ∂F ∂G =α +β . ∂xj ∂xj ∂xj Более того, выполняется и привычное нам правило Лейбница дифференцирования произведения: ∂(F G) ∂G ∂F =F + G ∂xj ∂xj ∂xj 6 для матриц F и G подходящего для умножения размера. Также  для  матрицы F размера p×q, состоящей из функций fis от векx1   тора x =  ... , производная транспонированной матрицы есть трансxn понирование матрицы производных: ∂(F T ) = ∂xj 1.5 ∂F ∂xj T . Дифференцирование векторов и матриц по их элементам   x1   Пусть x =  ... , uj — это j-й столбец единичной матрицы размера xn n × n. Элементы вектора x можно рассматривать как функции от x. Тогда очевидно, что ∂x = uj . ∂xj Это равенство может быть естественно распространено на (произвольного вида) матрицу X = (xij ) размера m × n: ∂X = ui uTj = Eij . ∂xij Теперь представим себе, что изначально мы рассматривали не произвольные матрицы X, а квадратные симметрические матрицы размера n × n. Тогда (из-за совпадения симметричных элементов) производная считается иначе: ∂X = Eii , ∂xii 1.6 ∂X = Eij + Eji ∂xij при i 6= j. Дифференцирование следа матрицы Задачу о дифференцировании следа матрицы можно формулировать двумя способами. В первом случае мы имеем квадратную матрицу F = 7   x1   (fis ) размера p × p, состоящую из функций от вектора x =  ... , дифxn ференцируем след по x: P ∂( tr F ) ∂ fii X ∂fii ∂F = = = tr . ∂xj ∂xj ∂xj ∂xj Во втором случае мы делаем что-то, подобное предыдущему пункту: дифференцируем след матрицы X = (xis ) по самой матрице X, что, очевидно, дает ∂( tr X) = E. ∂X 1.7 Дифференцирование композиции функций     h1 (x) x1  ..   ..  Пусть h(x) =  .  — вектор функций от m-вектора x =  . , а hn (x) xm g(y) = g(y1 , . . . , yn ) — функция от n переменных. Тогда их композиция f (x) = g(h(x)) (при всех корректных областях определений и значений всех необходимых функций) — это функция от m-вектора x. Если функции h и g — достаточно гладкие, то можно найти производную функции f : n X ∂g ∂hi ∂f ∂g ∂h = = T , ∂xj ∂y ∂x ∂y ∂x i j j i=1 что суммарно дает n X ∂g ∂hi ∂f ∂g ∂h = = T ∂x ∂yi ∂x ∂y ∂x i=1 или ∂f ∂g ∂h (c) = (h(c)) · (c). ∂x ∂y ∂x Теперь пусть H = (his ) — это матрица размера n × r функций от вектора x; g — функция от матрицы Y = (yis ) размера n × r; f (x) = g(H(x)). 8 Тогда n r X X ∂g ∂his ∂f = , ∂xj ∂yis ∂xj i=1 s=1 что в матричной форме переписывается как ∂f = tr ∂xj 1.8 ∂g ∂Y T ∂H ∂xj ! . Частные производные определителей и обратных матриц Пусть X = (xij ) — это матрица размера m × m, состоящая из m2 независимых переменных. Обозначим через Aij алгебраическое дополнение к xij . Рассмотрим f (X) = det X и увидим, что частная производная для этой функции равна ∂ det X = Aij . ∂xij Иначе можно переписать это равенство как ∂ det X = (Aij ) = det X · (X −1 )T . ∂X Теперь пустьF = (fis ) матрица размера p × p, состоящая из функций x1  ..  от вектора x =  . . Пусть F состоит из дифференцируемых функций. xn Можно считать, что у нас имеется композиция двух функций: определителя матрицы и самой матрицы функций: det F (x). Получается, что такую композицию можно дифференцировать как сложную функцию и, воспользовавшись формулой из конца предыдущего пункта, получаем ∂ det F −1 ∂F = det F · tr F ∂xj ∂xj для невырожденных матриц. Теперь предположим, что матрица функций F (x) является невырожденной в окрестности рассматриваемой точки, и продифференцируем об9 ратную матрицу F −1 . Воспользуемся сотношением F F −1 = E и продифференцируем его: ∂F −1 ∂F −1 ∂E F +F = = 0, ∂xj ∂xj ∂xj откуда F ∂F −1 ∂F −1 =− F . ∂xj ∂xj Умножая обе части равенства слева на F −1 , получим ∂F −1 ∂F −1 = −F −1 F . ∂xj ∂xj 10

Авторы лекции