Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Введение в теорию вероятностей
Лекция 3
Случайные величины, имеющие плотности
Мы обсудили случайные величины, принимающие только счетное множество значений. Однако даже на элементарном уровне возникает немало важных вопросов, для ответа на которые необходимо
рассматривать случайные величины, не удовлетворяющие данному ограничению. Это означает, что
нам придется изучать несчетные вероятностные пространства Ω. В этом случае появляются технические проблемы, связанные с понятием измеримости, которые нельзя удовлетворительно изложить
без использования более сложной математики. Данного вида трудности возникают из невозможности назначения вероятности каждому подмножеству несчетного выборочного пространства. Решение
проблемы заключается в том, чтобы ограничиться множествами, входящими в достаточно широкий
класс, который, мы напомним, называется сигма-алгеброй событий F. Мы рассмотрим частную,
но очень важную модель, пригодную для большинства приложений и требующую не очень сложной математической техники. Ею описываются случайные величины, обладающие так называемой
«плотностью».
Пусть функция f : R → R удовлетворяет двум условиям:
1. f (u) ≥ 0 для любого u ∈ R;
Z +∞
2.
f (u)du = 1.
−∞
Такая функция называется плотностью на R. Надеемся, читатель
R b помнит, что если функция f
непрерывна или кусочно-непрерывна, то определенный интеграл a f (u)du существует для любого отрезка [a, b]. Тем не менее, чтобы был определен несобственный интеграл по неограниченному
интервалу (−∞; +∞) нужны дополнительные условия, обеспечивающие достаточно быстрое убывание функции f (u) при больших значениях |u|. Такие функции называются «интегрируемыми» на
R. Требование, чтобы интеграл по всей прямой был равен 1 менее серьезно, чем может показаться.
Действительно, если
Z
+∞
f (u)du = M < +∞
−∞
то достаточно разделить обе части на M и использовать функцию f /M вместо f . Приведем несколько возможных графиков плотностей. Какие-то из них гладкие функции, какие-то нет.
Резюмируя, ограничения на плотность таковы: кривая обязана лежать всюду выше оси абсцисс,
площадь под графиком должна иметь смысл, а общая площадь равняться 1.
Теперь можно определить интересующий нас класс случайных величин на произвольном выборочном пространстве следующим образом. Пусть X обозначает функцию X : Ω → R, но сейчас
1
Введение в теорию вероятностей
Лекция 3
связанные с ней вероятности для любого отрезка [a, b] зададим с помощью плотности f так:
Z
P(a ≤ X ≤ b) =
b
f (u)du.
a
Немного обобщим. Пусть теперь A — не более чем счетное объединение интервалов или отрезков,
не обязательно непересекающихся, причем некоторые из них могут быть бесконечными. Такие множества называются борелевскими. Мы положим
Z
f (u)du.
P(X ∈ A) =
A
Тогда говорят, что случайная величина X имеет плотность f . В некоторых книгах такие случайные величины называют абсолютно непрерывными. Отметим, что в приведенном выше определении
случайной величины, имеющей плотность, подразумевается, что вероятности приписаны любым событиям вида {X ∈ A} = {ω : X(ω) ∈ A}. Именно такие события обычно включены в сигма-алгебру.
Это ограничивает множество рассматриваемых событий, так как, например, мы не включили несчетные объединения интервалов и отрезков.
Если X имеет плотность, то в силу определения при a = b = x получаем:
Z x
f (u)du = 0.
P(X = x) =
x
Геометрически это равенство всего лишь выражает тривиальный факт, что отрезок имеет нулевую
площадь. Так как x произвольное число, то случайная величина X принимает любое заданное значение с вероятностью нуль. Это прямо противоположно поведению случайных величин со счетным
множеством значений, так как некоторые из значений должны приниматься с положительными вероятностями. Представляется парадоксальным, что с одной стороны X(ω) есть некоторое число при
каждом ω, а с другой стороны любое фиксированное значение принимается с вероятностью нуль.
Следующий простой пример поможет прояснить ситуацию.
Пример 1. Пусть мы выбираем наудачу число из отрезка [0, 1]. Запишем теперь произвольную
точку из [0, 1] в десятичном представлении, например,
0.141592653589793 . . . .
(1)
Точка, записываемая с помощью конечного числа знаков, ничем не отличается от других, так как
ее запись можно дополнить бесконечной последовательностью нулей, которые равноправны с другими цифрами. Таким образом, выбор точки из [0, 1] сводится к выбору, одной за другой, цифр ее
десятичного представления. Шансы получить заданную цифру, скажем, цифру 1, в первом разряде
числа, равны 1/10. Результаты выбора цифр образуют реализацию последовательности независимых
испытаний. Следовательно, шансы случайно выбрать 15 цифр, формирующих число (1), составляют
1 1
1
·
· ... ·
=
10
10
10
|
{z
}
1
10
15
.
15 раз
Так как 109 это 1 миллиард, то данная вероятность представляется настолько малой, что, согласно
высказыванию Эмиля Бореля, в земной жизни ею можно пренебречь и фактически считать равной
нулю! При этом мы фиксировали только 15 разрядов числа, поэтому вообще не возникает вопроса
о том, чтобы выбрать наудачу само это число.
2
Введение в теорию вероятностей
Лекция 3
Независимость случайных величин, имеющих плотности
Что касается случайных величин, обладающих плотностью, то они, по определению, независимы
тогда и только тогда, когда
P(X1 ∈ S1 , . . . , Xn ∈ Sn ) = P(X1 ∈ S1 ) × . . . × P(Xn ∈ Sn ),
при условии, что множества S1 , . . . , Sn не слишком сложно устроены (являются борелевскими).
Математическое ожидание и дисперсия случайных величин, имеющих
плотности
Математическое ожидание случайной величины X, имеющей плотность f , определяется следующей
формулой:
Z
∞
EX =
uf (u)du.
−∞
А математическое ожидание случайной величины φ(X), где φ : R → R — некоторая функция,
определяется так:
Z ∞
φ(u)f (u)du.
Eφ(X) =
−∞
Упражнение 1. Что общего у этих формул с формулами для математического ожидания дискретных случайных величин? Попробуйте объяснить, почему мы ввели именно такое определение.
В частности, дисперсия случайной величины X, имеющей плотность f , определяется так же, как и
в случае дискретных случайных величин. Пусть µ = EX, тогда по определению VarX = E(X − µ)2 .
Дисперсию можно вычислить либо «в лоб»
Z ∞
2
VarX = E(X − µ) =
(u − µ)2 f (u)du,
−∞
либо по формуле Var(X) = E[X 2 ] − (EX)2 (вторая формула тоже требует подсчета интеграла для
E[X 2 ], но во многих задачах данные вычисления оказываются проще).
Свойства математического ожидания и дисперсии для случайных величин, обладающих плотностью, полностью совпадают со свойствами, которые мы проходили для дискретных случайных величин. Повторим их здесь.
(E1) Математическое ожидание постоянной равно ей самой: Ec = c.
(E2) Постоянный множитель можно вынести за знак математического ожидания: E(cX) = cEX.
(E3) Математическое ожидание суммы любых случайных величин равно сумме их математических
ожиданий: E(X + Y ) = EX + EY .
(E4) Математическое ожидание произведения независимых случайных величин равно произведению их математических ожиданий: E(X · Y ) = EX · EY , если X и Y независимы.
(E5) Если X ≥ 0, то EX ≥ 0.
(V1) При умножении случайной величины на постоянную c дисперсия увеличивается в c2 раз:
Var(cX) = c2 Var(X).
(V2) Дисперсия всегда неотрицательна: Var(X) > 0.
(V3) Дисперсия не зависит от сдвига случайной величины на постоянную: Var(X + c) = Var(X).
(V4) Если X и Y независимы, то Var(X + Y ) = Var(X) + Var(Y ).
3
Введение в теорию вероятностей
Лекция 3
Примеры случайных величин, имеющих плотность
Рассмотрим важнейшие классы случайных величин, имеющих плотность. Начнем мы с равномерного распределения, с которым мы уже сталкивались в Примере 1.
1 Равномерное распределение
Определение. Говорят, что случайная величина имеет равномерное распределение на отрезке [a, b],
если её плотность f (x) имеет вид:
(
1
, x ∈ [a, b],
f (x) = b−a
0,
x∈
/ [a, b].
Упражнение 2. Проверьте, что эта функция является плотностью. Найдите функцию распределения.
Упражнение 3. Найдите математическое ожидание и дисперсию равномерно распределенной на
[a, b] случайной величины.
В следующем примере мы рассмотрим известную задачу Лапласа о последовательных восходах
солнца.
Пример 2. Пусть солнце всходило n дней подряд. Какова вероятность того, что оно взойдет еще
раз?
Предполагается, что априорная вероятность восхода солнца в любой из дней является неизвестной нам постоянной величиной. Ввиду абсолютного отсутствия предпочтений будем считать, что
любое из значений внутри отрезка [0, 1] для нее одинаково правдоподобно. То есть данная вероятность рассматривается как случайная величина ξ, равномерно распределенная на отрезке [0, 1].
Поэтому плотностью для ξ служит функция f (p) = 1 при 0 ≤ p ≤ 1. Далее, если истинным значением случайной величины ξ является p, то при этом предположении вероятность наблюдать n
последовательных восходов равна pn, так как они считаются независимыми событиями. Пусть S n
обозначает событие «солнце всходило n раз подряд». Тогда эвристически мы можем записать
P(S n |ξ = p) = pn .
Аналог формулы полной вероятности должен тогда иметь вид
X
P(S n ) =
P(ξ = p)P(S n |ξ = p).
0≤p≤1
Конечно, строго говоря, эта запись не имеет смысла, но если заменить сумму на интеграл, то в
результате получим
Z 1
Z 1
1
n
n
P(S ) =
P(S |ξ = p)dp =
pn dp =
.
n
+
1
Эта непрерывная версия формулы полной вероятности на самом деле верна, несмотря на нестрогость
приведших к ней рассуждений. Считая данную формулу справедливой, применим ее для n и n + 1
и, взяв отношение, найдем, что
P(S n+1 |S n ) =
P(S n+1 )
n+1
P(S n+1 S n )
=
=
.
n
n
P(S )
P(S )
n+2
Это и есть ответ Лапласа в задаче о восходах солнца.
4
Введение в теорию вероятностей
Лекция 3
Ясно, что перечисленные предположения являются достаточно весомыми. Они вызывают серьезные
возражения на разных уровнях. Является ли восход солнца случайным явлением или он детерминирован? Даже если его можно рассматривать как случайное явление, то будет ли он адекватно
описываться нашей простой моделью? При допущении, что данная модель в принципе соответствует действительности, остается вопрос, почему априорное распределение истинной вероятности
обязано быть равномерным? И как вообще можно установить его вид?
Оставляя эти вопросы в стороне, давайте на минуту вернемся к формуле
P(S n |ξ = p) = pn .
Мы уже обсуждали, что P(ξ = p) = 0 для любого p. Это выходит за рамки определения, которое мы
давали на предыдущей лекции. В действительности такую условную вероятность можно совершенно
корректно определить с помощью более сложного аппарата (производной Радона-Никодима). Если
это сделать, то формула полной вероятности выводится без применения эвристического равенства
X
P(ξ = p)P(S n |ξ = p),
P(S n ) =
0≤p≤1
но это уже выходит за рамки нашего курса.
2 Экспоненциальное распределение
Определение. Случайная величина X имеет экспоненциальное (показательное) распределение с
параметром λ > 0, если её плотность имеет вид
(
λe−λu , u ≥ 0,
f (u) =
0,
u < 0.
Пример 3. Предположим, что вы стоите на автобусной остановке, расположенной на относительно
спокойной проселочной дороге и наблюдаете за проезжающими мимо автомобилями. С помощью
часов с секундомером вы можете засечь время, прошедшее с момента начала наблюдений до появления первого автомобиля. Эту случайную величину T обычно называют временем ожидания.
При определенных условиях разумная гипотеза заключается в том, что T имеет экспоненциальное
распределение.
Соответствующая функция распределения вычисляется интегрированием функции f :
Z x
Z x
F (x) =
f (u)du =
λe−λu du = 1 − e−λx .
−∞
В частности, если положить x = +∞, или, точнее, устремить x → +∞ в этой формуле, легко
увидеть, что интеграл от f будет равен 1. И так как f неотрицательная, то она является плотностью.
Заметим, что время ожидания имеет тенденцию сокращаться при увеличении λ. На перегруженном
транспортом шоссе значение λ на самом деле будет большим. Среднее время ожидания задается
следующей формулой:
1
ET = .
λ
Упражнение 4. Проверьте, что ET = 1/λ.
Этот результат подтверждает наше предыдущее наблюдение, что T в среднем уменьшается, когда λ
возрастает. Экспоненциальное распределение служит очень полезной моделью для различных про-
5
Введение в теорию вероятностей
Лекция 3
цессов, имеющих дело с временами ожидания: телефонными вызовами, временами обслуживания,
распадом радиоактивных частиц и т.п.
Пример 4. Предположим, что в задаче из предыдущего примера нас интересует не само время
ожидания T , а его логарифм (по основанию e):
S = ln T.
Тогда S также является случайной величиной. Она принимает отрицательные значения, если T < 1;
равна нулю, если T = 1; положительна, если T > 1. Каковы связанные с ней вероятности? Интерес
могут представлять вероятности вида P(a ≤ S ≤ b). Понятно, что для их нахождения достаточно
выписать P(S ≤ x), т. е. функцию распределения FS случайной величины S. Так как функция ln x
монотонна, то и обратная к ней функция ex обладает этим свойством. Поэтому
S ≤ x ⇔ ln T ≤ x ⇔ T ≤ ex .
Следовательно,
x
FS (x) = P(S ≤ x) = P(T ≤ ex ) = 1 − e−λe .
Отсюда дифференцированием находим плотность fS :
x
x
fS (x) = FS0 (x) = λex e−λe = λex−λe .
Формула выглядит довольно громоздко, но, как вы только что убедились, легко выводится.
3 Нормальное распределение
Определение. Случайная величина X имеет нормальное распределение (или распределение ГауссаЛапласа), если её плотность имеет вид
u2
1
ϕ(u) = √ e− 2 .
2π
Будем писать X ∼ N (0, 1). Иногда к названию добавляют уточнение «стандартное» для того, чтобы
выделить данное распределение из всего семейства нормальных распределений, получающихся из
него с помощью линейных преобразований, см. ниже.
Функцию распределения мы будем обозначать через Φ:
Z x
u2
1
Φ(x) = √
e− 2 du.
2π −∞
Функция Φ не является элементарной, то есть, интеграл не может быть сведен к табличным и быть
композицией элементарных функций. (Но ее значения, конечно, можно численно вычислить.)
Нам еще следует убедиться, что ϕ действительно является плотностью в соответствии с определением, а именно, что
Z +∞
ϕ(x)dx = 1.
−∞
Доказательство этого факта содержится в большинстве учебников по математическому анализу,
но мы воспроизведем его здесь из-за присущей ему оригинальности. Фокус состоит в том, чтобы
6
Введение в теорию вероятностей
Лекция 3
возвести в квадрат интеграл из левой части формулы и затем преобразовать его в двойной интеграл:
Z +∞
Z +∞
Z +∞ Z +∞
ϕ(x)dx
ϕ(y)dy =
ϕ(x)ϕ(y)dxdy
−∞
−∞
−∞
1
=
2π
Z
−∞
+∞ Z +∞
−∞
e−
x2 +y 2
2
dxdy.
−∞
Для вычисления последнего интеграла используем переход к полярным координатам:
r2 = x2 + y 2 , dxdy = r drdφ.
Z 2π Z +∞
Z 2π
Z 2π
2
2 +∞
1
1
1
− r2
− r2
dφ =
re
drdφ =
−e
1 dφ = 1.
2π 0
2π 0
2π 0
Извлечение квадратного корня приводит к необходимому равенству.
Плотность ϕ нормального распределения обладает множеством замечательных аналитических свойств.
В действительности, К. Гаусс определил ее путем выбора некоторых из них в качестве характеристических для «закона распределения ошибок наблюдений».
В общем случае для любых действительных чисел a и σ 2 говорят, что случайная величина X имеет
нормальное распределение (или гауссовское распределение) N (a, σ 2 ) тогда и только тогда, когда
X = σY + a, где Y — стандартная нормальная случайная величина N (0, 1).
Упражнение 5. Докажите, что плотностью нормального распределения N (a, σ 2 ) служит функция
(x−a)2
1
1
x−a
−
2
2σ
f (x) = √
e
= ϕ
σ
σ
2πσ
Упражнение 6. Докажите, что для случайной величины X ∼ N (a, σ 2 ) имеет место
EX = a,
VarX = σ 2 .
Функция распределения
Напомним, что случайные величины принимающие несчетное количество значений мы задавали
с помощью функции плотности, а случайные величины принимающие не более, чем счетное количество значений, — через таблицу распределения вероятностей. Оказывается, любую случайную
величину можно задать через функцию распределения.
Определение. Функцией распределения случайной величины X называется функция FX : R →
[0, 1] задаваемая следующей формулой
FX (x) := P(X ≤ x).
Значение F в точке x аккумулирует вероятности всех возможных значений X вплоть до x (включительно); по этой причине к названию функции иногда добавляют прилагательное «кумулятивная».
Мы иногда будем опускать нижний индекс X, когда понятно, о какой случайной величине идет речь.
Ясно, что в дискретном случае
X
FX (x) := P(X ≤ x) =
pi ,
i: ai ≤x
7
Введение в теорию вероятностей
а в непрерывном случае
Z
Лекция 3
x
FX (x) := P(X ≤ x) =
f (u)du.
−∞
Функция распределения F (x) определяется через величины ai и pi или через функцию f (u). Обратно, если известна функция F (x), т. е. мы знаем значения F (x) при всех x, то можно «восстановить»
все ai и pi или f (u) соответственно. В дискретном случае это довольно очевидное утверждение
(Почему?). В случае, когда есть плотность f (u), утверждение тоже очевидно, так как F служит
первообразной для плотности f . В силу известной теоремы из математического анализа при условии непрерывной плотности функция f является производной от F :
F 0 (x) = f (x).
Таким образом, в данном случае обе функции взаимно определяют друг друга.
Отметим еще несколько свойств. Легко видеть, что если a < b, то
P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a).
Упражнение 7. Пусть X — дискретная случайная величина с функцией распределения F (x). Убедитесь, что для каждого x и a < b
P(a < X < b) = lim F (b − ε) − F (a),
ε→+0
P(X = x) = lim (F (x + ε) − F (x − ε)).
ε→+0
Упражнение 8. Нарисуйте графики функций распределения дискретных случайных величин, которые мы изучали на прошлой лекции. Что общего у всех этих графиков?
Список литературы
[1] К. Л. Чжун, Ф. АитСахлиа. Элементарный курс теории вероятностей. Стохастические процессы и финансовая математика. Бином, 2011.
[2] Н. И. Чернова. Теория вероятностей. Учебное пособие. Новосибирск, 2009.
8