Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по высшей математике
Теория вероятностей и математическая статистика. Понятие случайного события. Статистическое определение вероятности

Теория вероятностей и математическая статистика. Понятие случайного события. Статистическое определение вероятности

👀 520 просмотров
📌 477 загрузок
🏢️ МЭБИК

Выбери формат для чтения

Конспект лекции по дисциплине «Теория вероятностей и математическая статистика. Понятие случайного события. Статистическое определение вероятности», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Теория вероятностей и математическая статистика. Понятие случайного события. Статистическое определение вероятности», Word формат

Теория вероятностей и математическая статистика Курс лекций рекомендован в качестве основного учебного материала студентам, получающим высшее образование в Курском институте менеджмента, экономики и бизнеса Теория вероятностей – Курск: типография МЭБИК – 98с. Идентификатор публикации: MB-K-001-20-302 Краткий курс лекций дисциплины «ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКАМАТЕМАТИКА» Составитель – Федоров Андрей Викторович, кандидат физико-математических наук, доцент Контактные данные – e-mail: fedorov@mebik.ru Уважаемые студенты! Курс «Теория вероятностей и математическая статистика» направлен на формирование у обучающихся системы теоретических знаний в области теории вероятностей и математической статистики, формирование практических навыков использования вероятностных и статистических методов; формирование общекультурных и профессиональных компетенций в соответствии с федеральным государственным образовательным стандартом. В данном пособии кратно изложены теоретические основы и практические примеры; более полное представление о дисциплине можно получить, изучив источники из списка литературы по данному курсу, который представлен отельным файлом. Содержание 1. ОСНОВНЫЕ ПОНЯТИЯ И ТЕОРЕМЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ 1.1. Понятие случайного события 1.2. Статистическое определение вероятности 1.3. Классификация случайных событий 1.4. Операции над событиями 1.5. Классическое определение вероятности 1.6. Основные теоремы теории вероятностей 1.7. Формула полной вероятности. Формула Байеса 2. СХЕМА БЕРНУЛЛИ (ПОВТОРНЫЕ НЕЗАВИСИМЫЕ ИСПЫТАНИЯ) 2.1. Формула Бернулли 2.2. Формула Пуассона (редких событий) 2.3. Локальная теорема Муавра-Лапласа 2.4. Интегральная теорема Муавра-Лапласа 3. ДИСКРЕТНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА 3.1. Закон распределения дискретной случайной величины 3.2. Арифметические операции над случайными величинами 3.3. Параметры распределения дискретной случайной величины 3.4. Функция распределения дискретной случайной величины 4. НЕПРЕРЫВНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА 4.1. Плотность распределения непрерывной случайной величины 4.2. Нормальный закон распределения 4.3. Центральная предельная теорема и теоремы Муавра-Лапласа как следствия из нее 5. ДВУМЕРНЫЕ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ 5.1. Совместные распределения и их параметры 5.2. Коэффициент корреляции и его свойства 5.3. Двумерный нормальный закон распределения 6. ЗАКОН БОЛЬШИХ ЧИСЕЛ 6.1. Неравенство Чебышёва 6.2. Теоремы Бернулли и Чебышёва 7. ВЫБОРОЧНЫЙ МЕТОД 7.1. Оценка неизвестного параметра. Свойства оценок 7.2. Первичная обработка результатов эксперимента. Характеристики вариационных рядов 7.3. Сплошное и выборочное наблюдения 7.4. Оценка генеральной средней 7.5 Оценка генеральной доли 1. Основные понятия и теоремы теории вероятностей 1.1. Понятие случайного события Испытанием мы будем называть тип опыта (эксперимента). Например, извлечение наудачу карты из колоды – испытание. Бросание наудачу игральной кости (монеты) – испытание. Существенно, что испытания в приведенных примерах (как и все испытания в данном курсе) выполняются наудачу, т.е. субъективный фактор здесь предполагается исключенным. Определение. Случайным событием называется выделенный исход некоторого испытания. Очевидно, что в конкретном испытании рассматриваемое случайное событие может наступить, а может и не наступить. (Отметим также, что сам эпитет “случайное” перед термином “событие“ в дальнейшем для краткости мы обычно будем опускать.) Всюду ниже для обозначения событий мы будем использовать заглавные буквы латинского алфавита (возможно, с индексами). Например, А ,B,C,¼ или A1,B 2,C 3, . Пример. Пусть испытание – извлечение карты из колоды. Тогда событиями являются: A– извлечена карты красной масти, B – извлечена “ картинка“, C – извлечен туз и т.п. Если в результате конкретного испытания из колоды достали, например, семерку бубен, то событие A наступило, события B и C – нет. Пример. Пусть испытание – бросание игральной кости. Тогда событиями являются, например, A – число выпавших очков – четно, B – число выпавших очков – больше 4, C– на верхней грани игральной кости выпала “5”. Удобным обозначением для событий, относящихся к рассматриваемому испытанию (бросание игральной кости), служит перечисление всех исходов благоприятствующих наступлению события. Например, здесь A ={2,4,6}, В ={5,6}, С ={5}. 1.2. Статистическое определение вероятности Пусть проведено N NA испытаний, в которых некоторое событие A наступает NA N раз. Тогда отношение называется частостью (долей) наступления события A в N испытаниях. Определение. Пусть условия проведения некоторого испытания можно в точности воспроизвести неограниченное число раз. Тогда вероятностью Р( A ) наступления события A (в одном испытании) называется такое число, NA около которого группируются значения частости увеличении числа N при неограниченном испытаний N . Символически это определение можно записать в виде P( A )= lim N →∞ NA . N Отметим практическое следствие данного определения: если нас интересует значение вероятности наступления некоторого события достаточно большое число испытаний N, NA значение частости N и затем полагают А , то производят по их результатам определяют P( A )≃ NA . N (Более подробно обоснование такого подхода будет рассмотрено ниже: см. Закон больших чисел, теорему Бернулли.) Также статистическое определение вероятности имеет следующее важное Следствие (область возможных значений вероятности события). Значение вероятности произвольного события А заключено в границах от 0 до 1, т.е. 0≤Р ( А )≤1. Доказательство. Очевидно, что 0≤N A ≤N . Выполняя почленное деление последнего неравенства на N , получаем 0≤ NA N ≤1 . Переходя теперь к пределу при N →∞ , имеем lim 0≤ lim N →∞ N →∞ NA ≤ lim 1 . N N →∞ 1.3. Классификация случайных событий 1. Определение. Два события называются равными, если одно из них наступает тогда и только тогда, когда наступает другое. Пример. Будут произведены 3 выстрела в мишень. А – число попаданий в мишень равно 0, В – число попаданий в мишень меньше, чем 0,5. Очевидно, что А=В . 2. Определение. Два события называются равновозможными, если вероятности их наступления равны (в смысле статистического определения вероятности). На практике равновозможность событий обычно усматривается из симметрии ситуации. Пример. Пусть испытание – бросание монеты. Тогда события А – выпадение “орла” и В – выпадение “решки” являются равновозможными. 3. Определение. Событие называется достоверным, если оно наступает в каждом из испытаний. Достоверное событие будем обозначать через Е. Такое событие определено однозначно для каждого вида испытания. Пример. {1,2,3,4,5, 6 } Пусть испытание – бросание игральной кости. Тогда =(m<10 )=(m> 0)=.. . , Т.к. N E =N , то P( E)= lim N →∞ Е= где m – число выпавших очков. NE = lim 1=1 , N N →∞ т.е. P( E)=1. 4. Определение. Событие называется невозможным, если оно не наступает ни в одном из испытаний. Невозможное событие будем обозначать символом Æ. Это событие определено однозначно для каждого вида испытания. Пример. Пусть измеряется рост наудачу взятого человека. Тогда Æ = (значение роста – отрицательное число) = (рост – более 100 км) =…. Т.к. N ∅ =0 , то N∅ = lim 0=0 , N →∞ N N →∞ P(∅)= lim т.е. P(∅)=0. 5. Определение. Два события называются несовместными (несовместимыми), если они не могут наступить одновременно. Пример. Испытание – извлечение карты из колоды. Если событие А – извлечена карта красной масти, событие В – извлечена карта черной масти, то А и В – несовместны. Пример. Пусть по мишени производится 3 выстрела и m – число попаданий в мишень. Тогда события, например, (m=3 ) и (m≤1) – несовместны. 6. Определение. События А 1 , A2 , ... , A k называются единственно возможными для некоторого испытания, если в результате испытания хотя бы оно из них обязательно наступает. Пример. Пусть испытание – бросание B={ 3,4,5, 6 } , C={ 3,4, 5 } . игральной кости. A= { 1,2, 3 } , Тогда события А и В – единственно возможны (т.к. не существует такого исхода бросания игральной кости, при котором ни А, ни В не наступило). Напротив, А и С не являются единственно возможными (т.к. при выпадении “6” ни А, ни С не наступают). 7. Определение. Говорят, что события А 1 , A2 , ... , A k образуют полную систему (группу), если эти события попарно несовместимы и единственно возможны. Пример. Пусть испытание – бросание игральной кости. Тогда события А 1 ={ 1 } , A 2= {2 } , .. . , A 6 ={ 6 } образуют полную систему. Пример. Пусть по мишени производится 3 выстрела и m – число попаданий в мишень. Тогда события, полную систему. например, (m=0 ), (1≤m≤2 ), (m=3 ) образуют Заметим, что при заданном типе испытания полная система событий определена, вообще говоря, неоднозначно. Определение. Если два события образуют полную систему, то они называются парой взаимно противоположных событий. Если одно из событий такой пары обозначено, скажем, через А , другое будет обозначено А̄ . Пример. Пусть испытание – бросание монеты. Тогда события А – выпадение “орла” и В – выпадение “решки” являются взаимно противоположными ( В= А ). Пример. Пусть по мишени производится 3 выстрела, и m – число попаданий в мишень. Тогда события, ( m≥2)=(m=2 или m=3 ) например, ( m< 2)=( m=0 или m=1 ) и – взаимно противоположны. 1.4. Операции над событиями Определение. Суммой событий А и В называется такое событие С=А + В , которое считается наступившим тогда и только тогда, когда наступило или событие А, или событие В, или оба эти события вместе. Пример. Пусть испытание – извлечение карты из колоды, а следующие события состоят в извлечении: А – карты красной масти, В – картинки, D – числовой карты. Если в результате конкретного испытания из колоды достали, например, “семерку” крестей то событие А+В А +D не наступило, а события и B+ D наступили. Пример. Пусть по мишени производится 3 выстрела, m – число попаданий в мишень А= (m<2), B=( m>0 ) , C=A + B . Тогда C={ m=1 } . Замечание 1. Условие единственной возможности событий равносильно тому, что А 1 + А 2 +. ..+ А k=E . А 1 , A2 , ... , A k образуют полную систему, то А 1 , A2 , ... , A k В частности, если события А 1 + А 2 +. ..+ А k=E , и при k =2 имеем A + Ā=E . Определение. Произведением событий А и В называется такое событие С=АВ , которое считается наступившим тогда и только тогда, когда события А и В наступили одновременно. Пример. Пусть испытание состоит в бросании игральной кости. А= {1,2,3 } , B={ 3,4 } . Тогда AB={ 3 } и A +B= {1,2,3,4 } . Замечание 2. Произвольные события А и В являются несовместимыми тогда и только тогда, когда АВ= Æ. 1.5. Классическое определение вероятности Определение. Пусть некоторое испытание имеет n исходов, причем эти исходы а) попарно несовместимы; б) единственно возможны; в) равновозможны и наступлению события А благоприятствует вероятность Р( А ) наступления определяется по формуле события исходов из m А (в одном n. Тогда испытании) m Р( А )= . n Пример. В коробке имеется 10 хороших деталей и 5 бракованных. Наудачу из коробки извлекается одна деталь. Найти вероятность наступления события А – извлеченная деталь – хорошая. Решение. Общее число исходов n=15 равно полному числу деталей в m=10 исходов из коробке. Извлечению хорошей детали благоприятствует общего числа (число хороших деталей). Тогда Р( А )= 10 2 = . 15 3 Пример. Одновременно бросаются три монеты. Найти вероятность того, что на двух из них выпадет “орел”. Решение. Для удобства будем предполагать, что монеты некоторым образом занумерованы. Единичным исходом здесь является совокупный результат по трем монетам (другими словами, для того, чтобы задать единичный исход, надо сказать, что выпало на первой монете, на второй и на третьей). Перечислим возможные исходы (см. Таблицу 1, в которой выпадение “орла” на соответствующей монете обозначено буквой “О”, “решки” – “Р”). Видно, что общее число n исходов равно 8. Число m благоприятствующих исходов равно 3 – это исходы с номерами 2, 3, 5 Таблицы 1. Тогда m 3 Р( А )= = n 8 . Пример. В коробке 6 белых шаров и 8 красных. Наудачу одновременно извлекаются 3 шара. Найти вероятность, того, что среди них будут: а) два белых шара; б) не менее одного белого. Решение. а) Для удобства будем предполагать, что имеющиеся шары некоторым образом перенумерованы. Пусть, например, белые шары имеют номера 1, 2, … ,6 красные – 7, 8 , … ,14. Тогда Таблица 1. единичным исходом является произвольная тройка Номер Номер номеров: { 123 } , { 124 } , …, { 12,13,14 } . монеты исхода 1 2 3 1 О О О 2 О Р О Тогда общее число n исходов равно числу способов, 3 О О Р которыми можно выбрать 3 номера из имеющихся 14- 4 О Р Р ти номеров. Напомним, что такое число равно 5 Р О О 6 Р Р О 7 Р О Р 8 Р Р Р 3 соответствующему числу сочетаний: n=C14 . (В общем случае, C sk= k! s!(k −s )! равно числу способов, которыми можно выбрать s объектов из k имеющихся объектов.) Таким образом, n=C314 14 ! 1⋅2⋅.. .⋅10⋅11⋅12⋅13⋅14 = =2⋅13⋅14=364 . 1⋅2⋅3⋅1⋅2⋅.. .⋅10⋅11 = 3 ! 11! Найдем теперь число m исходов, благоприятствующих появлению двух белых шаров среди трех извлеченных. Число способов, которыми можно выбрать 2 шара из имеющихся 6-ти белых шаров, равно С26 . Но число благоприятствующих исходов с фиксированной парой белых шаров равно числу способов, которыми можно выбрать оставшийся красный шар в тройку, т.е. равно 1 С8 . Поэтому Окончательно имеем m=C 26⋅C 18 = 6! 8! ⋅ =5⋅3⋅8=120 . 2!⋅4 ! 1 !⋅7! m 120 30 Р( А )= = = , n 364 91 где А – событие состоящее в том, что среди трех отобранных шаров ровно 2 белых шара. б) Полное число n исходов найдено в п. а). Число троек, в которых не менее 2-х белых шаров, равно сумме троек с двумя белыми шарами и троек с тремя 2 1 3 белыми шарами: m=C 6⋅C 8 + C8 =120+56=176 . Окончательно имеем m 176 44 Р(В )= = = , n 364 91 где В – событие состоящее в том, что среди трех отобранных шаров не менее 2-х белых шаров. 1.6. Основные теоремы теории вероятностей Теорема сложения вероятностей. Р( А +В)=Р ( А )+ Р( В) Р( АВ ). Важным частным случаем этой теоремы является Теорема сложения вероятностей для несовместных событий. Вероятность суммы двух несовместных событий равна сумме их вероятностей, т.е. Р( А + В)=Р ( А )+ Р( В). Доказательство. Так как события А и В несовместны, то их произведение равно невозможному событию, т.е. АВ = Æ. Поскольку вероятность невозможного события равна нулю (см. § 1.3), то из теоремы сложения вероятностей следует требуемое утверждение. Отметим, что аналогичное утверждение справедливо для любого числа попарно несовместных событий: вероятность суммы попарно несовместных событий равна сумме их вероятностей. Следствие. Пусть события А 1 , А2 , ... , А k образуют полную систему, тогда сумма их вероятностей равна 1 т.е. Р( А 1 )+ Р( А 2 )+.. .+Р( А k )=1 . Доказательство. Из определения полной системы следует, что события А 1 , А2 , ... , А k , в частности, являются единственно возможными, поэтому А 1 + А 2 +. ..+ А k=E (см. § 1.4). Тогда Р( А 1 + А 2 +. ..+ А k )=Р( Е ). Вероятность достоверного события равна 1 (см. § 1.3). События А 1 , А2 , ... , А k , в частности, являются попарно несовместными. Тогда из теоремы сложения вероятностей для несовместных событий следует требуемое утверждение. Данное следствие при k =2 представляет важное свойство противоположных событий: сумма вероятностей взаимно противоположных событий равна 1, т.е. Р( А )+Р( А̄ )=1. Определение. Условной вероятностью РВ ( А ) называется вероятность наступления события А в предположении наступления события В. Определение. Два события называются независимыми, если вероятность наступления одного из них не зависит от того, считается ли другое событие наступившим или нет. Данное определение равносильно следующему: события А и В независимы Û Р В ( А )=РВ̄ ( А ), Р А ( В)=Р А̄ ( В). { Пример. Пусть испытание состоит в извлечении карты из колоды. Событие А – извлечена “ картинка”, событие В – извлечена “7”. Выяснить, являются ли события А и В независимыми. Решение. Так как среди “ картинок” нет “семерок”, то среди “не картинок” – 4 “семерки”, то Р А̄ ( В)= Р А ( В)= =0 16 . Так как 4 4 1 = = 36−16 20 5 . Таким образом, Р А ( В)≠Р А̄ (В ) , поэтому события А и В зависимы. Аналогично, в общем случае произвольные (неравные) несовместные события – зависимы. Теорема (необходимое и достаточное условие независимости событий). События А и В независимы тогда и только тогда, когда Р( А )=РВ ( А ). Пример. Пусть испытание состоит в бросании игральной кости, А= {3 , 4, 5 } , В={ 2, 3, 4 , 6 } . Выяснить, являются ли события А и В независимыми. Решение. Очевидно, что 3 1 Р( А )= = . 6 2 В предположении обязательного наступления события В, полное число возможных исходов равно 4, из которых 2 исхода благоприятствуют наступлению события А, поэтому 2 1 РВ ( А )= = . 4 2 Так как Р( А )=РВ ( А ), то события А и В – независимы. Теорема умножения вероятностей. Р( АВ )=Р( А )Р А (В ), Р( АВC )=Р( А )Р А (В )Р АВ (С ), Р( АВCD )=Р( А )Р А (В )Р АВ (С )P ABC (D ), ……………………………………….. Теорема умножения вероятностей для независимых событий. Вероятность произведения двух независимых событий равна произведению их вероятностей, т.е. Р( АВ )=Р( А )Р( В ) . Аналогичное утверждение справедливо для любого числа независимых событий. Пример. Два стрелка одновременно выстреливают в мишень. Вероятность попадания для первого стрелка равна 0,6, для второго – 0,8. Найти вероятность того, что в мишени будет: а) одна пробоина; б) хотя бы одна пробоина. Решение. а) Прежде всего, укажем, когда может наступать интересующее нас событие, перебирая все возможные варианты. В мишени будет одна пробоина тогда и только тогда, когда первый стрелок попал и второй стрелок промахнулся или первый стрелок промахнулся и второй стрелок попал. Пусть событие А – в мишени будет одна пробоина, событие стрелок попал, событие стрелок промахнулся, В2 – второй стрелок попал. Тогда В1 – первый В̄ 1 – первый В̄ 2 – второй стрелок промахнулся. “Тогда и только тогда, когда” соответствует отношению равенства событий. Соединительный союз “или” соответствует операции сложения событий. Соединительный союз “и” соответствует умножению событий. Тогда фраза русского языка, в которой мы перечислили все возможности для наступления события А, равносильна следующему символическому равенству А=В1 В̄2 + В̄1 В2 . Откуда следует равенство вероятностей Р( А )=Р(В 1 В̄ 2 + В̄ 1 В 2 ). Так как события В 1 В̄ 2 и В̄ 1 В 2 несовместны, то, применяя теорему сложения вероятностей для несовместных событий, приходим к равенству Р( А )=Р(В 1 В̄ 2 )+Р( В̄1 В2 ). События В 1 , В̄ 2 и В̄ 1 , В 2 попарно независимы, поэтому, применяя теорему умножения вероятностей для независимых событий, получаем Р( А )=Р(В 1 ) Р( В̄2 )+Р ( В̄1 )Р (В 2 ). По условию, Р(В 1 )=0,6 и P(B 2 )=0,8 . Тогда, по свойству взаимно противоположных событий (см. следствие из теоремы сложения вероятностей для несовместных событий, k =2 ), Р( В̄ 1 )=1−P( B1 )=1−0,6=0,4 и Р( В̄ 2 )=1−P( B2 )=1−0,8=0,2 . Окончательно имеем Р( А )=0,6⋅0,2+0,4⋅0,8=0 , 44 . б) Пусть вероятность m – число попаданий в мишень, тогда искомой является Р(m≥1) (заметим, что слова “хотя бы один”, “не менее чем один”, “по-крайней мере один” являются синонимами). Событие (m≥1) равносильно тому, что число попаданий в мишень будет равно 1 или 2, т.е. (m≥1)=(m=1 )+(m=2 ). Тогда, учитывая несовместность событий (m=1) и (m=2) , получаем Р(m≥1)=Р(m=1)+ Р(m=2). Р(m=1)=P( A )=0 , 44 (см. п. а) данного примера). Событие (m=2) (два попадания в мишень) наступает тогда и только тогда, когда первый стрелок попадет в мишень и второй стрелок попадет, т.е. (m=2)=B 1 B2 . Поэтому Р(m=2 )=Р(B 1 ) Р( B2 )=0,6⋅0,8=0 , 48 (см. теорему вероятностей для независимых событий). Окончательно имеем умножения Р(m≥1)=Р(m=1)+Р(m=2)=0 , 44+0 , 48=0 , 92 . Отметим, что эта задача допускает и другое решение. Так как события (m≥1) и (m=0 ) взаимно противоположны, то P(m≥1)=1−P(m=0) . Но P(m=0 )=P( B̄1 )P( B̄2 )=0,4⋅0,2=0 , 08. Следовательно Р(m≥1)=1−P(m=0)=1−0 , 08=0 , 92. Пример. В коробке лежат 4 белых шара и 6 красных. Наудачу, один за другим из коробки извлекается 2 шара. Найти вероятность того, что среди них будет: а) один красный шар; б) менее 2-х красных шаров. Решение. а) Пусть событие А – среди двух извлеченных шаров – ровно один красный. Это событие наступает тогда и только тогда, когда первый из извлеченных шаров – красный, а второй – белый или первый шар – белый, а второй – красный. Напомним, что соединительный союз “или” соответствует сложению событий, союзы “и”, “а” соответствуют умножению событий. Тогда описание всех возможностей наступления события А равносильно следующему формальному равенству А=К 1 Б 2 + Б 1 К 2 , где К1 ( К 2 ) – первый (второй) шар – красный, Б1 ( Б2 ) – первый (второй) шар – белый. События К 1 Б 2 и Б1 К 2 – несовместны, поэтому, используя теорему сложения вероятностей для несовместных событий, получаем Р( А )=Р( К 1 Б 2 )+Р (Б 1 К 2 ) . Применяя теперь теорему умножения вероятностей, приходим к равенству Р( А )=Р( К 1 )Р К ( Б 2 )+ Р( Б 1 )Р Б ( К 2 ) 1 1 . Для вычисления вероятностей из правой части последнего равенства используем классическое определение вероятности. Тогда Р( А )= 6 4 4 6 8 ⋅ + ⋅ = . 10 9 10 9 15 б) Пусть m – число красных шаров среди двух извлеченных. Тогда искомой является вероятность P(m=1)=P( A ) Р(m< 2). ( m< 2)=(m=0 )+(m=1 ) , Очевидно, что и (см. п. а) данного примера). Вместе с тем, событие (m=0 ) – среди извлеченных шаров нет красных – равносильно тому, что первый шар окажется белым и второй – также белым, т.е. (m=0 )=Б 1 Б 2 , поэтому P( m=0 )=Р( Б 1 Б 2 )=Р( Б 1 )Р Б ( Б 2 )= 1 Окончательно имеем Р(m< 2)=P (m=0 )+ P( m=1)= (m<2) и Р(m<2)=1−Р(m=2 ). Тогда 2 8 10 2 + = = . 15 15 15 3 Р(m<2) может быть также найдена по-другому. Заметим, что вероятность События 4 3 2 ⋅ = . 10 9 15 (m=2) Но взаимно противоположны, Р( m=2 )=P( К 1 К 2 )=Р( К 1 ) Р К ( К 2 )= 1 поэтому 6 5 1 ⋅ = . 10 9 3 1 2 Р(m< 2)=1− = . 3 3 1.7. Формула полной вероятности. Формула Байеса А 1 , A2 , ... , A k образуют полную систему и F – Теорема. Пусть события некоторое событие. Тогда справедлива формула P( F )=P( A1 ) P A ( F )+ P( A 2 ) P A ( F )+. ..+ P( A k ) P A ( F ) 1 2 которая и называется формулой полной вероятности. k , Пусть событие F отлично от невозможного, тогда PF ( A i )= Р( А i ) P Ai ( F ) P( F ) , где i=1,2,...,k . Данная формула называется формулой Байеса (гипотез). Пример. Объемы продукции, изготавливаемой двумя рабочими, относятся как 3:2. Вероятности брака для деталей первого и второго рабочих равны соответственно 0,02 и 0,01. Найти вероятность того, что деталь, извлеченная наудачу из не рассортированной продукции, а) является бракованной; б) изготовлена первым рабочим, если известно, что она бракована. Решение. а) Введем в рассмотрение события: А 1 – деталь изготовлена первым рабочим, А 2 – деталь изготовлена вторым рабочим, F – деталь бракована. Из условия следует, что всю продукцию можно предполагать состоящей из 5-ти частей (3+2=5), причем на долю первого рабочего приходится 3 части из этих 5ти, на долю второго – 2 части. Тогда, по классическому определению Р( А 1 )=3/5 , вероятности, Р А 2 ( F )=0 ,01 , Р( А 2 )=2/5 . По условию, Р А ( F )=0 ,02 , 1 и по формуле полной вероятности получаем 3 2 P( F )=P( A1 )P A ( F )+ P( A 2 ) P A2 ( F )= ⋅0 , 02+ ⋅0 ,01=0 , 016 . 1 5 5 , б) PF ( A 1 )= Р ( А 1 ) P A 1 ( F ) 3/5⋅0 , 02 = =0 , 75 . P( F ) 0 , 016 2. Схема Бернулли (повторные независимые испытания) 2.1. Формула Бернулли Сначала рассмотрим задачу – частный случай задач предыдущей темы. Наблюдение над решением позволит нам получить формулу, существенно упрощающую вычисления в аналогичных случаях. Пример. Предполагается произвести 4 выстрела по мишени. Вероятность попадания при каждом выстреле считается известной и равной 0,7. Найти вероятность того, что число попаданий в мишень будет: а) равно 2; б) не менее 2-х; в) менее 4-х. Решение. а) Принципиально эта задача не отличается от задачи о двух стрелках из § 1.6 (повторные испытания и здесь независимы) и может быть решена тем же способом. Введем обозначения, которые ниже будем использовать в подобных случаях. Число выстрелов по мишени обозначим через n (здесь n=4 ), p=0,7 – вероятность попадания в мишень при каждом выстреле, q=1− p=1−0,7=0,3 – вероятность промаха при каждом выстреле, попаданий. Требуется найти m – число P(m=2 ) , эту же вероятность обозначим через P2,4 . Перебирая все случаи, в которых число попаданий в мишень будет равно 2, получаем P2,4 = ppqq+ pqpq+ pqqp+qppq+ qpqp+qqpp= 2 2 2 2 =6 p q =6⋅0,7 ⋅0,3 =0 ,2646 . В общем случае справедлива Теорема. Пусть произведено n повторных независимых испытаний, в каждом из которых некоторое событие А наступает с вероятностью p. Тогда вероятность Рm ,n того, что в этих n испытаниях событие А наступит m раз, вычисляется по формуле Pm , n =Cmn pm qn−m , где m C n – число сочетаний из n по m , q=1− p . Полученная формула носит название формулы Бернулли. Завершим рассмотрение нашего примера. б) Так как ( m≥2)=( m=2 )+(m=3 )+(m=4 ) , то, применяя теорему сложения вероятностей для несовместных событий, получаем P(m≥2 )=P(m=2 )+ P (m=3)+ P(m=4 )=P2,4 + P3,4 + P4,4 . Первое слагаемое последней суммы найдено в п. а) данного примера. Аналогично для остальных: P3,4 =C 34 p3 q1 = 4! ⋅0,73⋅0,3=4⋅0,73⋅0,3=0 , 4116 , 3 !⋅1! P4,4 =C 44 p 4 q 0 = 4! ⋅0,7 4⋅0,30 =1⋅0,7 4⋅1=0 , 2401 . 4 !⋅0 ! Окончательно имеем P(m≥2 )=0 , 2646+0 , 4116+0 , 2401=0 , 9163 . в) По аналогии с предыдущим пунктом задания, P(m<4 )=P 0,4 + P1,4 +P2,4 + P3,4 , т.е. решение требует, вообще говоря, четырех применений формулы Бернулли. Однако возможно и более короткое решение. Действительно, события (m< 4 ) и (m=4 ) – взаимно противоположны, следовательно P(m< 4 )=1−P(m=4 ). Вероятность P(m=4 )=P4,4 найдена в п. б) примера. Таким образом, получаем P(m<4 )=1−P4,4 =1−0 , 2401=0 , 7599. 2.2. Формула Пуассона (редких событий) Теорема. Пусть произведено n повторных независимых испытаний, в каждом из которых некоторое событие А наступает с вероятностью p , причем а) число испытаний достаточно велико ( n≥100) ; б) λ=np≤10. Тогда вероятность наступит m Рm, n того, что в этих n испытаниях событие А раз, вычисляется по следующей приближенной формуле λm −λ Pm , n = e . m! Эта формула и называется формулой Пуассона (редких событий). Пример. По каналу связи передано 1000 сигналов. Вероятность ошибки при передаче каждого из сигналов равна 0,005. Найти вероятность того, что неверно передано: а) 7 сигналов; б) не менее 4-х сигналов. Решение. а) Воспользуемся формулой Пуассона, т.к. условия ее применимости в данном случае выполнены: число испытаний достаточно (n=1000≥100) и велико λ=np=1000⋅0 , 005=5≤10 . Искомое значение P7 ,1000 найдем по таблице функции Пуассона при Кремера, с.556): P7 ,1000 =0 ,1045 . m=7 и λ=5 (см. учебник Н.Ш. б) Требуется найти P(m≥4 ) , где m – число неверно принятых сигналов. Так как ( m≥4 )=(m=4 )+( m=5 )+.. .+(m=1000) , то P(m≥4 )=P4 , 1000 +P5 , 1000 +. ..+P1000 , 1000 . Искать каждое из слагаемых этой суммы и затем выполнять суммирование – такое решение не представляется рациональным из-за большого числа слагаемых и потому, что таблица функции Пуассона не дает искомых значений с требуемой в данном случае точностью. Воспользуемся переходом к противоположному событию: P(m≥4 )=1−P(m<4 )=1−(P 0, 1000 +P 1, 1000 +P2 , 1000 +P3 , 1000 ). Находя вероятности из правой части последнего равенства по таблице функции Пуассона, окончательно получаем P(m≥4 )=1−(0 , 0067+0 , 0337+0 , 0842+0 , 1404 )=0 , 735 . 2.3. Локальная теорема Муавра-Лапласа Теорема. Пусть произведено n повторных независимых испытаний, в каждом из которых некоторое событие А наступает с вероятностью p , причем число испытаний достаточно велико ( n≥100) .Тогда вероятность Рm, n того, что в этих n испытаниях событие А наступит m раз, вычисляется по следующей приближенной формуле Рm , n = где f (x )= 1 −x2 /2 ⋅e √2 π f ( x) , √npq – функция Гаусса, x= m−np , √npq q=1− p. Пример. Имеется партия деталей, состоящая из 1000 штук. В среднем среди деталей такого вида стандартные детали составляют 90%. Найти вероятность того, что число стандартных деталей в данной партии окажется равным 890. Решение. Число испытаний в данном случае достаточно велико (n=1000≥10 ) , поэтому локальная теорема Муавра-Лапласа применима. Из условия следует, что вероятность быть стандартной для произвольной детали данной партии p= равна x= 90 =0,9 100 , q=1− p=1−0,9=0,1 , m=890 . Тогда m−np 890−1000⋅0,9 = =−1 , 05 . npq 1000⋅0,9⋅0,1 √ √ По локальной теореме Муавра-Лапласа, Р890, 1000 = f (−1 , 05 ) . √1000⋅0,9⋅0,1 Учитывая, что функция Гаусса четная, используя таблицу этой функции (см. учебник Н.Ш. Кремера, с. 553-554), Р890, 1000 = Окончательно, получаем находим f (−1 , 05)=f (1 , 05 )=0, 2299. 0 , 2299 =0 , 0242 . √1000⋅0,9⋅0,1 Свойства функции Гаусса. 1) Функция Гаусса четна: f (−x )=f ( x ) , поэтому ее график симметричен относительно оси O y ; 2) f (x )> 0 y=f ( x ) при всех y x , т.е. график y расположен строго выше оси Ox ; 1 2 e x 2 x Рис.1 2 3) lim f ( x )= lim f ( x )=0 n→+∞ n →−∞ , т.е. ось Ox является горизонтальной асимптотой графика этой функции; на практике полагаем f (x )≈0 при x >5 . Схематично график функции Гаусса изображен на рис. 1. 2.4. Интегральная теорема Муавра-Лапласа Теорема. Пусть произведено n повторных независимых испытаний, в каждом из которых некоторое событие А наступает с вероятностью p , причем число испытаний достаточно велико ( n≥100) .Тогда вероятность того, что число m наступлений события А в этих n испытаниях будет заключено в границах от m1 до m2 , вычисляется по следующей приближенной формуле P( m1≤m≤m2 )= m −np m −np 1 Φ 2 −Φ 1 , 2 √ npq √ npq (( )) ) ( 2 +∞ −x2 /2 Φ( x)= ∫ e dx 2π √ где – функция Лапласа, q=1− p . Пример. Каждая из 1000 деталей партии стандартна с вероятностью 0,9. Найти вероятность того, что число стандартных деталей этой партии будет не меньше 880. Решение. Число n повторных независимых испытаний в данном случае равно числу деталей в партии (каждая из деталей партии будет проверяться на предмет качества, а в этой проверке и состоит испытание). поэтому интегральная теорема Муавра-Лапласа (m≥880 ) , где m n=1000≥100 , применима; неравенство – число стандартных деталей в партии, здесь равносильно m1=880 , (880≤m≤1000), поэтому q=1− p=1−0,9=0,1; np=1000⋅0,9=900 ; m2=1000 ; npq=1000⋅0,9⋅0,1=90 . Тогда p=0,9 , P(880≤m≤1000)= 1 1000−900 880−900 Φ −Φ = 2 √90 √90 (( )) ) ( 1 = ( Φ ( 10 ,5 )−Φ (−2 , 11 ) ) . 2 По свойствам функции Лапласа (см. ниже), Φ(10 ,5)=1 , Φ(−2,11)=−Φ(2,11). По таблице функции Лапласа (см. учебник Н.Ш. Кремера, с. 555) находим Φ(2 ,11)=0 ,9651. Тогда окончательно имеем 1 1 P(880≤m≤1000)= (1+Φ(2 , 11))= (1+0 , 9651 )=0 , 9826 . 2 2 1 y y (x) 1. Свойства функции Лапласа x Функция Лапласа нечетна: Φ(−x)=−Φ( x). -1 2. Функция Лапласа – монотонно Рис. 2 3. lim Φ ( x )=1 , n→+∞ lim Φ( x )=−1 , n→−∞ возрастающая; т.е. прямые y=1 и y=−1 являются горизонтальными асимптотами (правой и левой соответственно) графика y=Φ ( x ) ; на практике полагаем Φ( x )≈1 при x≥4 . График функции Лапласа схематично изображен на рис. 2. Следствия из интегральной теоремы Муавра-Лапласа Пусть выполнены условия применимости интегральной теоремы МуавраЛапласа. Следствие 1. Вероятность того, что число m наступлений события А в n повторных независимых испытаниях будет отличаться от величины более чем на ε (по абсолютной величине), вычисляется по формуле np не P (|m−np|≤ε )=Φ ε . √npq ( ) Следствие 2. Вероятность того, что доля m/n наступлений события А в n повторных независимых испытаниях будет отличаться от вероятности p наступления этого события в одном испытании не более чем на Δ (по абсолютной величине), вычисляется по формуле m Δ n P | −p|≤ Δ =Φ √ . n √ pq ) ( ) ( Пример. Подлежат исследованию 1000 проб руды. Вероятность промышленного содержания металла в каждой пробе равна 0,15. Найти границы, в которых с вероятностью 0,9973 будет заключено число проб руды с промышленным содержанием металла. Решение. Искомые границы для числа m проб руды с промышленным содержанием металла (из данных 1000 проб) определяются величинами m1 и m2 (см. интегральную теорему Муавра-Лапласа). Будем предполагать, что искомые границы симметричны относительно величины np , где n=1000 p=0,15 . Тогда m1=np−ε , m 2=np+ε и ε ≥0 , и, тем для некоторого самым, единственной определяющей неизвестной данной задачи становится Φ величина ε . Из следствия 1 и условия задачи следует, что По таблице значений функции Лапласа найдем такое t ε =0,9973 . √ npq ( ) , что Φ(t )=0 ,9973: t=3 . Тогда ε /√ npq=3 и ε=3⋅√ npq=3⋅√1000⋅0,15⋅0,85≃33,8748≃34 . Окончательно получаем искомые границы: np−ε=1000⋅0 , 15−34=150−34=116, np+ε=150+34=184 , т.е. с вероятностью 0,9973 число проб руды с промышленным содержанием металла (из данных 1000 проб) попадет в интервал (116; 184). Пример. В лесхозе приживается в среднем 80% саженцев. Сколько саженцев надо посадить, чтобы с вероятностью 0,9981 можно было утверждать, что доля прижившихся саженцев будет находиться в границах от 0,75 до 0,85. Решение. p=80/100=0,8 – вероятность прижиться для каждого из саженцев, q=1− p=1−0,8=0,2 . Пусть величина данной задачи) и n m – необходимое число саженцев (искомая – число прижившихся из них, тогда m/n – доля прижившихся саженцев. По условию, m P 0 , 75≤ ≤0 , 85 =0 , 9981 . n ( Данные границы для доли p=0,8 , поэтому неравенство ) m/n симметричны относительно величины 0,75≤m/n≤0,85 равносильно неравенству |m/n−0,8|≤0,05. Следовательно, вероятность 0,9981 – это та самая вероятность, которая вычисляется по следствию 2 из интегральной теоремы Муавра-Лапласа при Δ=0, 05 , p=0,8 , q=0,2 : m 0 , 05 √ n P | −0,8|≤0 , 05 =Φ =0 ,9981 . n √0,8⋅0,2 ( ) ( ) По таблице функции Лапласа найдем такое значение Это значение: t=3,1. Тогда 0,05 √ n =3,1, √0,8⋅0,2 t , что Φ(t )=0 , 9981. √ n=3,1⋅√0,8⋅0,2/0,05 и 2 3,1 ⋅0,8⋅0,2 n= =615 , 04≃616 . 0 ,05 2 Заметим, что значение n округлено до целых в большую сторону, чтобы обеспечить, как говорят, “запас по вероятности”. Кроме того, видно, что полученное значение n достаточно велико (более 100), поэтому применение интегральной теоремы Муавра-Лапласа для решения данной задачи было возможно. 3. ДИСКРЕТНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА 3.1. Закон распределения дискретной случайной величины Определение. Случайной величиной называется переменная, которая в результате испытания принимает то или иное числовое значение. Пример. Число попаданий в мишень при n выстрелах – случайная величина. Пример. Рост наудачу взятого человека – случайная величина. Определение. Случайная величина называется дискретной, если число ее возможных значений конечно или счетно. (Напомним, что множество называется счетным, если его элементы можно перенумеровать натуральными числами.) В этом смысле, число попаданий в мишень – пример дискретной случайной величины. Рост человека – непрерывная случайная величина (такие случайные величины будут рассмотрены ниже). Для обозначения случайных величин будем использовать заглавные буквы латинского алфавита (возможно с индексами), например, X , Y ,Z ,. .., X 1 , Y 2 , Z3 ,. .. и т.п. Определение. Законом распределения дискретной случайной величины называется такая таблица, в которой перечислены все возможные значения этой случайной величины (без повторений) с соответствующими им вероятностями. В общем виде закон распределения для случайной величины, например, X : где pi=P ( X=x i ) , X xi x1 x2 … xk : pi p2 p2 … pk i=1, 2, ..., k . Из определения закона распределения следует, что события ( X=x 2 ), … , ( X=x k ) ( X=x 1 ), образуют полную систему, поэтому (см. следствие из теоремы сложения вероятностей для несовместных событий в §1.6): P( X= x1 )+ P( X =x 2 )+. ..+ P( X=x k )=1 , т.е. p1 + p2 + .. . + pk =1 . Данное равенство называется основным свойством закона распределения. Пример. Два стрелка одновременно выстреливают в мишень. Вероятность попадания для первого равна 0,6, для второго – 0,8. Составить закон распределения случайной величины Z – общего числа попаданий в мишень. Решение. Возможные значения данной случайной величины: 0, 1, 2. Так же как в примере из §1.6, через B1 и B2 обозначим события, состоящие в попадании в мишень первого и второго стрелков (соответственно). Тогда аналогично упомянутому примеру получаем P(Z =0)=P( B̄ 1 ) P( B̄ 2 )=(1−0,6)⋅(1−0,8 )=0,4⋅0,2=0 , 08 , P(Z =1)=P( B1 )P( B̄2 )+ P( B̄1 )P( B2 )=0,6⋅0,2+0,4⋅0,8=0 , 44 , P(Z =2)=P( B1 )P (B2 )=0,6⋅0,8=0 , 48 . Окончательно, закон распределения случайной величины Z имеет вид: Z zi : pi 0,08 0,44 0,48 1 2 ∑ ¿¿ 1 Упражнение. В коробке 3 белых шара и 2 красных. Составить закон распределения случайной величины X – числа белых шаров среди 2-х извлеченных шаров. Ответ. X: xi 1 2 ∑ ¿¿ pi 0,1 0,6 0,3 1 Пример. В коробке – 3 белых шара и 2 красных. Шары извлекаются последовательно до появления белого шара. Составить закон распределения случайной величины Х – числа извлеченных шаров. Решение. Возможные значения данной случайной величины: 1, 2, 3. Событие ( X=1 ) (из коробки будет извлечен один единственный шар) наступает тогда и только тогда, когда первый из шаров оказывается белым, т.к. появление именно белого шара является сигналом к прекращению последующих извлечений (см. условие). Поэтому 3 Р( Х=1)=Р( Б 1 )= , 5 где событие Б1 – первый из извлеченных шаров – белый. Событие ( X=2) (из коробки будет извлечено ровно 2 шара) наступает тогда и только тогда, когда первый из извлеченных шаров оказывается красным, а второй – белым. Поэтому 2 3 3 Р( Х=2)=Р( К 1 Б 2 )=Р( К 1 ) РК ( Б2 )= ⋅ = , 1 5 4 10 где событие К1 – первый из извлеченных шаров – красный, шар – белый. Наконец событие ( X=3 ) Б2 – второй (из коробки будет извлечено 3 шара) наступает тогда и только тогда, когда первый шар – красный, второй – красный и третий – белый. Поэтому 2 1 3 1 Р( Х=3)=Р (К 1 К 2 Б 3 )=Р( К 1 )Р К ( К 2 ) Р К 1 К 2 ( Б3 )= ⋅ ⋅ = . 1 5 4 3 10 Окончательно искомый закон распределения имеет вид: Х: xi 1 2 3 ∑ ¿¿ pi 0,6 0,3 0,1 1 Упражнение. Имея 3 патрона, стрелок стреляет по мишени до первого попадания (или до израсходования патронов). Вероятность попадания при каждом выстреле равна 0,8. Составить закон распределения случайной величины Х – числа произведенных выстрелов. Ответ. Х: xi 1 2 3 ∑ ¿¿ pi 0,8 0,16 0,04 1 Пример. Стрелок стреляет в мишень 3 раза. Вероятность попадания при каждом выстреле равна 0,8. Составить закон распределения случайной величины Х – числа попаданий в мишень. Решение. Возможные значения для числа попаданий: 0, 1, 2, 3. Вероятности того, что случайная величина Х примет эти значения вычисляются по формуле Бернулли при n=3, p=0,8, q=0,2 : 0 3 3 P( X=0)=P0,3 =C3 p q =1⋅1⋅0,2 =0 , 008 , P( X=1)=P1,3 =C 13 p1 q 2=3⋅0,8⋅0,22 =0 , 096 , 2 2 1 2 1 P( X=2)=P2,3 =C 3 p q =3⋅0,8 ⋅0,2 =0 ,384 , P( X=3)=P 3,3=C 33 p3 q0 =1⋅0,83⋅0,20 =0 , 512 . Окончательно искомый закон распределения имеет вид: xi Х: pi 1 2 3 0,00 0,09 0,38 0,51 8 6 4 2 ∑ ¿¿ 1 Полученный закон распределения является частным случаем так называемого биномиального закона распределения (при n=3, Определение. Случайная величина распределения с параметрами n и Х p p=0,8 ). имеет биномиальный , если ее закон распределения имеет вид : Х: xi 1 2 … pi P0,n P1,n P2,n … n , Pn ,n где вероятности Pm,n вычисляются по формуле Бернулли: Pm , n =Cmn pm qn−m , n закон – положительное целое число, m=0, 1, 2, ..., n, 0< p<1 . В пределе при λ=np=const и n→ ∞ биномиальное распределение переходит в так называемое распределение Пуассона. Определение. Говорят, что случайная величина Х имеет распределение Пуассона с параметром λ , если ее закон распределения имеет вид: Х: xi 1 2 … pi P0 P1 P2 … λm − λ Pm = e m! где , m=0, 1, 2, … , , λ – положительное число. Убедимся в том, что для распределения Пуассона выполняется основное ∞ ∑ m=0¿ Pm=1¿ свойство закона распределения: 1 2 3 . Действительно, имеем 2 3 λ λ λ λ λ λ ¿ Pm = e−λ + e− λ + e−λ + e− λ + . ..= 1+λ + + + . . . ⋅e−λ =e λ⋅e−λ=1 ¿ ∑ m=0 0! 1! 2! 3! 2 ! 3! ∞ ( (см. курс математического анализа, разложение функции ) y=e x в ряд Маклорена). 3.2. Арифметические операции над случайными величинами Определение. Случайные величины Х и Y называются равными, если их законы распределения точно совпадают, и для произвольного числа α справедливо равенство: ( X=α )=(Y =α ). Пример. Пусть законы распределения случайных величин Х и Y имеют вид: X: xi 1 pi 0,5 0,5 Y: yi 1 pi 0,5 0,5 . Эти случайные величины равны, если дополнительно справедливы равенства ( X=0)=(Y =0) ( X=1 )=(Y =1) , т.е. случайная величина Х принимает значение 0 тогда и только тогда, когда случайная величина Y принимает и значение 0, и аналогично со значением 1. Произвольная случайная величина допускает умножение на число. Действительно, пусть закон распределения случайной величины Х имеет вид: и α X xi x1 x2 … xk : pi p2 p2 … pk – некоторое число. Y =α⋅X Определение. Случайной величиной называется такая случайная величина, закон распределения которой имеет вид : Y yi α⋅x 1 α⋅x 2 … α⋅x k : pi p2 p2 … pk Пример. Пусть закон распределения случайной величины Х имеет вид: Х : xi pi 1 2 0,16 0,48 0,36 и α=5 , Y =α⋅X . Тогда закон распределения Y : Y: yi pi 5 10 0,16 0,48 0,36 Можно придумать, например, следующую интерпретацию данному примеру. Заметим, что Х – биномиально распределена с параметрами n=2, p=0,6 . Пусть Х – число попаданий в мишень при 2-х выстрелах, при каждом из которых попадание случается с вероятностью 0,6, и дополнительно известно, что за каждое попадание стрелку выплачивается вознаграждение в размере 5 ден. ед. Тогда Y – заработок стрелка. Определение. Случайные величины Х и Y называются независимыми, если для ( X=x i ) и (Y = y j ) – независимы. любых i и j события Пример. Пусть из коробки, в которой – 6 белых и 8 красных шаров, извлекается 1 шар. Рассмотрим случайные величины Х – число белых шаров, Y – число красных шаров из извлеченных. События, например, ( X=1 ) и (Y =1 ) – несовместны, а поэтому – зависимы (см. § 1.6). Следовательно, и случайные величины Х и Y зависимы. Определение. Суммой (разностью, произведением) случайных величин Х и Y называется такая случайная величина Z =X +Y ( Z =X−Y , Z =X⋅Y ), которая принимает значение z k в некотором испытании, если значения x i и yj случайных величин Х и Y в этом испытании таковы, что z k =xi + y j ( z k =xi − y j , z k =x i⋅y j ). Пример. Пусть заданы законы распределения независимых случайных величин Х и Y: Х: xi 1 pi 0,4 0,6 Y: yj 1 pj 0,2 0,8 Составить закон распределения случайной величины U= X−Y Решение. Удобно использовать вспомогательную таблицу вида: yj xi 1 . 1 1 –1 в каждой из центральных клеток которой записаны соответствующие произведения случайных величин X и Y. Такая таблица показывает, какие значения принимает случайная величина U и значения. Так U=0 тогда и только тогда, когда когда она принимает эти X =0 и Y =0 или X =1 и Y =1 . Поэтому P(U=0)=P (( X =0)(Y =0 )+( X =1)(Y =1 )) . Применяя теорему сложения вероятностей для несовместных событий, теорему умножения вероятностей – для независимых событий (по условию, случайные величины X и Y – независимы), получаем P(U=0)=P ( X=0 )P (Y =0 )+ P( X=1 )P(Y =1)=0,4⋅0,2+0,6⋅0,8=0 , 56 . Для наступления каждого из двух оставшихся значений случайной величины U (-1 и 1) имеется по одной возможности. Например, U=1 тогда и только тогда, когда X =1 и Y =0 . Тогда получаем: P(U=1 )=P(( X=1 )(Y =0 ))=P( X=1 )P(Y =0)=0,6⋅0,2=0 , 12. Аналогично, P(U=−1 )=P(( X=0 )(Y =1 ))=P ( X=0 )P (Y =1)=0,4⋅0,8=0 ,32 . Окончательно, закон распределения случайной величины U имеет вид: U : ui pi –1 1 0,32 0,56 0,12 Упражнение. распределения 2 R=( X−Y ) . Составить случайных величин Z =X +Y , V = X⋅Y , законы W= X 2 , Ответ. Z: zi 1 2 pi 0,08 0,44 0,48 W: wi 1 pi 0,4 0,6 V: ri R: pi vi 1 pi 0,52 0,48 1 0,56 0,44 Заметим, что закон распределения случайной величины Z фактически найден в примере § 3.1 о двух стрелках. Действительно, исходные независимые случайные величины X иY данной задачи могут быть интерпретированы как числа попаданий в мишень первого и второго стрелка из § 3.1. Тогда Z =X +Y – общее число попаданий, и закон распределения этой случайной величины и найден в упомянутом примере. 3.3. Параметры распределения дискретной случайной величины Пусть закон распределения дискретной случайной величины Х имеет вид X xi x1 x2 … xk : pi p2 p2 … pk Определение. Математическим ожиданием дискретной случайной величины Х называется число М(Х), вычисляемое по формуле k ∑ M ( X )= ¿ x i p i= x 1 p1 + x 2 p2 +. . .+ x k p k . ¿ i=1 Математическое ожидание случайной величины есть число, около которого группируются значения этой случайной величины. Механическим аналогом математического ожидания дискретной случайной величины является центр масс (центр тяжести) системы точечных масс: если в x 1 , x 2 , ..., x k расположены точечные массы точках числовой оси с абсциссами p1 , p2 , ..., p k , то абсцисса их центра масс находится точно по формуле для M ( X ) , приведенной выше. Пример. Пусть случайная величина Х биномиально распределена с параметрами n=3 и p=0,8 (см. пример из § 3.1): Х: xi pi 1 2 3 0,00 0,09 0,38 0,51 8 6 4 2 Тогда M ( X )=0⋅0 , 008+1⋅0 , 096+2⋅0 , 384+3⋅0 , 512=2,4 . Свойства математического ожидания 1. Математическое ожидание постоянной случайной величины равно самой постоянной, т.е. М(С)=С, где С – некоторое число. (Постоянной случайной величиной С называется такая случайная величина, которая принимает единственное значение равное С с вероятностью 1.) 2. Постоянный множитель можно выносить за знак математического ожидания, т.е. M (αX )=αM ( X ), где 3. α – произвольное число. Математическое ожидание суммы (разности) случайных величин равно сумме (разности) математических ожиданий этих случайных величин, т.е. M ( X±Y )=M ( X )±M (Y ). 4. Математическое величин равно ожидание произведению M ( XY )=M ( X ) M (Y ). произведения их независимых математических случайных ожиданий, т.е. 5. Пусть X 1 , X 2 , ..., X n – такие случайные величины, математические ожидания которых равны между собой, т.е. M ( X i )=a , где i=1, 2, ..., n, и а – некоторое число. Тогда среднее арифметическое этих случайных величин равно их общему математическому ожиданию, т.е. Заметим, что свойства 2 – 5 M математического ( X 1 + X 2 +.. .+ X n n ожидания ) =a . остаются справедливыми также для непрерывных случайных величин. Пусть закон распределения случайной величины Х тот же, что и выше (см. начало параграфа). Определение. Дисперсией дискретной случайной величины Х называется число D( X ), определяемое равенством k ∑ D ( X )= ¿ ( xi − M ( X ) )2 p i=( x 1− M ( X ))2 p1 +( x 2− M ( X ))2 p2 + .. .+ ¿ i=1 2 +( x k −M ( X )) pk . Число D( X ) является мерой разброса значений случайной величины Х около ее математического ожидания. Пример. Пусть случайная величина Х биномиально распределена с параметрами n=3 и p=0,8 . Найдем дисперсию этой случайной величины. В предыдущем примере найдено, что М(Х) = 2,4. Тогда 2 2 2 2 D( X )=(0−2,4 ) ⋅0 , 008+(1−2,4 ) ⋅0 , 096+(2−2,4 ) ⋅0 ,384 +(3−2,4 ) ⋅0 ,512=0 , 48 . Свойства дисперсии 1. Дисперсия постоянной случайной величины равна нулю, т.е. D(C )=0 . 2. Постоянный множитель можно выносить за знак дисперсии, возводя 2 его при этом в квадрат, т.е. D(αX )=α D( X ), где 3. 4. – произвольное число. α 2 2 Справедливо равенство: D( X )=M ( X )−M ( X ). Дисперсия суммы (разности) двух независимых случайных величин равна сумме дисперсий этих случайных величин, т.е. D( X ±Y )=D ( X )+ D(Y ), где случайные величины Х и Y – независимы. 5. X 1 , X 2 , ... , X n – независимы и Пусть случайные величины где i=1, 2, ... , n. Тогда Замечание. √ D( X ) D ( X 1 + X 2 +. ..+ X n n ) = 2 D( X i )=σ , σ2 . n называется средним квадратическим отклонением случайной величины Х и обычно обозначается через σ . Отметим также, что свойство 3 дисперсии более удобно для ее вычисления по сравнению с исходным определением дисперсии. Пример. Пусть закон распределения случайной величины Х имеет вид X: xi 1 2 pi 0,6 0,4 Найти D( X ), используя свойство 3 дисперсии. Решение. 2 M ( X )=1⋅0,6+2⋅0,4=1,4 , 2 2 M ( X )=1 ⋅0,6+2 ⋅0,4=2,2 , 2 2 2 D( X )=M ( X )−M ( X )=2,2−1,4 =0 , 24 . Математическое ожидание и дисперсия случайной величины называются параметрами распределения этой случайной величины. Теорема. Пусть случайная величина параметрами n и X ≡m – биномиально распределена с p , тогда параметры ее распределения могут быть найдены по формулам: M ( m)=np , D ( m)=npq . Также справедливы равенства M ( mn )= p , D ( mn )= pqn . Пример. Пусть случайная величина Х биномиально распределена с параметрам n=3 и p=0,8 . Тогда M ( X )=np=3⋅0,8=2,4 , D(m)=npq=3⋅0,8⋅0,2=0 , 48. Очевидно, что использование формул последней теоремы упрощает и ускоряет вычисление математического ожидания и дисперсии биномиально распределенной случайной величины по сравнению с применением исходных определений для М(Х) и D( X ). 3.4. Функция распределения дискретной случайной величины Определение. Функцией распределения случайной величины Х называется такая функция F( x ), значение которой в точке x численно равно вероятности того, что в произвольном испытании значение случайной величины Х окажется меньше чем х, т.е. F( x )=P( X < x ). Данное определение задает функцию распределения не только для дискретных, но и для непрерывных случайных величин. Пример. Пусть закон распределения случайной величины Х имеет вид X: xi 1 2 pi 0,3 0,7 Найти функцию распределения этой случайной величины. Решение. Найдем сначала F(x) для некоторых значений переменной х. Например, F(0 )=P( X <0 )=P(∅)=0 , так как данная случайная величина не имеет значений меньших нуля, а потому событие (Х < 0) для нее является невозможным. Аналогично, при любом значении переменной х, которое менее или равно 1, будем иметь F( x )=0 . Далее имеем: F(1,5 )=P( X < 1,5)=P( X=1 )=0,3 . Аналогично, при любом значении переменной х таком, что 1< x≤2 , будем иметь F( x )=0,3 . F(2,5 )=P( X<2,5)=P ( X=1 )+ P ( X=2 )=0,3+0,7=1 . (Или, другими словами, так как все значения данной случайной величины менее 2,5, то событие (Х < 2,5) является достоверным, а потому его вероятность равна 1.) Аналогично, при любом значении переменной х, которое более или равно 2, будем иметь F( x)=1. Окончательно имеем: 0 при x≤1; F( x )= 0,3 при 12 . { График найденной функции распределения изображен на рис. 3. F (x ) 1 Свойства функции распределения 0,7 1. Функция является неубывающей функцией. 0,3 2. распределения 0,3 x 1 2 Рис. 3 Область значений: 0≤F ( x )≤1. 3. Асимптотические свойства: lim F ( x )=0 , x →−∞ lim F ( x )=1 (другими x →+∞ словами, прямые у =0 и у =1 являются асимптотами (левой и правой соответственно) графика y =F (x ) ). 4. Вероятность того, что в произвольном испытании значение случайной величины Х будет принадлежать полуинтервалу [α ,β ), где α и β – произвольные числа, вычисляется по формуле P(α≤X < β )=F (β )−F (α ) . Доказательство. Значение функции распределения равна вероятности соответствующего события, но область значений вероятности есть отрезок [ 0, 1 ] – тем самым доказано свойство 2. Используя определение lim F ( x )= lim P ( X < x )=P( X <−∞) x →−∞ x →−∞ функции распределения, получаем . Но произвольное значение случайной величины принадлежит числовой прямой, поэтому событие ( X <−∞ ) является невозможным. Вероятность невозможного события равна нулю (см. § 1.3), поэтому lim F ( x )=0 . x →−∞ Аналогично, учитывая, что событие ( Х <+∞ ) является достоверным, а вероятность такого события равна 1, получаем lim F ( x )=1 . x →+∞ Нетрудно видеть, что ( Х < β )=( X < α )+( α ≤X < β ), причем события правой части этого равенства несовместны. Принимая во внимание определение функции распределения и теорему сложении вероятностей для несовместных событий, получаем F( β )=P( X < β )=P( X <α )+ P( α≤ X < β )=F ( α )+ P( α ≤ X< β ) , что равносильно свойству 4. Доказательство свойства 1 мы оставляем читателю в качестве упражнения (указание: используйте рассуждении от противного и свойство 4). 4. НЕПРЕРЫВНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА 4.1. Плотность распределения непрерывной случайной величины Неформально говоря, случайная величина непрерывна, если ее значения полностью заполняют некоторый интервал. Более точно, справедливо Определение. Случайная величина называется непрерывной, если ее функция распределения непрерывна на всей числовой прямой и дифференцируема при всех х за исключением, быть может, отдельных значений. Определение. Плотностью распределения непрерывной случайной величины Х называется такая функция произвольном испытании ϕ=ϕ ( х ), значение что вероятность того, что в случайной величины Х окажется принадлежащим некоторому отрезку [ α , β ] , вычисляется по формуле β P(α ≤X ≤β )=∫ ϕ ( x ) dx . α Принимая во внимание геометрический смысл определенного интеграла, получаем Геометрический смысл плотности распределения. Вероятность того, что в произвольном испытании значение принадлежащим некоторому отрезку случайной величины Х окажется [ α , β ] , численно равна площади S (α , β ) под кривой плотности распределения на данном отрезке (см. рис. 4). y S ( ,  ) y  (x)   Рис. 4 Пример. Пусть плотность распределения случайной величины Х имеет вид: ϕ ( х )= при x ∈ [−1 , 1 ] ; {0 1/2в остальных случаях. Найти вероятности: а) P(−2≤X ≤−0,4 ) ; б) P( X≤−3) ; в) P( X≥−2). Решение. а) По определению плотности распределения, −0,4 P(−2≤X ≤−0,4 )= ∫ ϕ ( x )dx . −2 Вместе с тем, данная плотность распределения задана аналитически по-разному на промежутках [−2, −1) и [−1;− 0,4 ] отрезка интегрирования. Соответственно, используя свойства определенного интеграла, получаем −0,4 −1 −0,4 1 1 P(−2≤X ≤−0,4 )= ∫ ϕ ( x )dx=∫ 0 dx + ∫ 1/2 dx= x|−0,4 −1 = (−0,4−(−1))=0,3 . 2 2 −2 −2 −1 По геометрическому смыслу плотности распределения, полученная вероятность численно равна площади под кривой плотности распределения (см. рис. 5) на отрезке [−2; −0,4 ] , т.е. равна площади фигуры, составленной из отрезка длины 1 и прямоугольника со сторонами 1/2 и 0,6. у 12 х -2 -1 -0,4 Рис. 5 1 б) Неравенство ( X≤−3) равносильно тому, что (−∞< X≤−3) . Учитывая, что на промежутке (−∞; −3) данная плотность распределения равна 0, получаем −3 P( X≤−3)=P (−∞< X≤−3)= ∫ 0 dx=0. −∞ в) Аналогично предыдущим пунктам задачи, имеем +∞ 1 −1 +∞ 1 1 P(−2≤X <+ ∞)= ∫ ϕ ( x )dx=∫ 0 dx + ∫ 1 /2 dx + ∫ 0 dx = x|1−1 = (1−(−1))=1. 2 2 −2 −2 −1 1 Свойства плотности распределения 1. Плотность распределения неотрицательна, т.е. ϕ ( x )≥0 при всех х. 2. Интеграл от плотности распределения на всей числовой прямой равен 1, т.е. +∞ ∫ ϕ ( x)dx=1 −∞ . (Данное свойство называется условием нормировки плотности распределения.) Доказательство. Предположим противное: пусть найдется такой отрезок [ α , β ] , что плотность распределения ϕ ( х) отрицательна на этом отрезке. β Тогда (см. свойства определенного интеграла) имеем ∫ ϕ (x ) dx<0. α Но, по определению плотности распределения, интеграл, стоящий в левой части последнего неравенства равен P(α≤X ≤β ) . Так как вероятность события не может быть отрицательной, приходим к противоречию, что доказывает справедливость свойства 1. +∞ По определению плотности распределения, ∫ ϕ ( x) dx=P(−∞≤X≤+∞). −∞ Но событие (−∞< X <+∞ ) является достоверным, поэтому его вероятность равна 1. Тем самым доказано свойство 2. Парадокс нулевой вероятности Теорема. Для непрерывной случайной величины вероятность принять произвольное числовое значение равно нулю. Доказательство. Пусть ( α≤X ≤α ) α – произвольное число. События ( X=α ) и – равны, поэтому, по определению плотности распределения, α получаем P( X=α )=∫ ϕ ( x ) dx=0 α (см. свойства определенного интеграла). Из парадокса нулевой вероятности вытекает, что для любой непрерывной случайной величины вероятности попадания в произвольный отрезок числовой оси или в соответствующий полуинтервал (интервал) равны между собой, т.е. справедливо Следствие. Пусть Х непрерывная случайная величина и α , β – произвольные числа. Тогда верно следующее равенство P( α ≤X ≤β )=P( α≤ X < β )=P ( α < X≤β )=P ( α < X < β ) . Доказательство. Очевидно, что события ( α ≤X < β ) и (α ≤Х ≤β )=( α ≤Х < β )+( X=β ), причем ( X=β ) – несовместны. Используя последнее равенство и теорему сложения вероятностей для несовместных событий, получаем P( α ≤Х ≤β )=P( ( α ≤Х < β )+( X= β ))=P( α ≤Х < β )+ P( X =β ) . Но, согласно парадоксу нулевой вероятности, P( X= β )=0 . Тем самым доказано первое из трех равенств Следствия. Доказательство оставшихся двух равенств мы оставляем читателю в качестве упражнения. Функция распределения непрерывной случайной величины Пусть Х – непрерывная случайная величина и ϕ=ϕ ( х ) - ее плотность распределения. Используя определения функции распределения (см. § 3.4) и x плотности распределения, получаем F( x)= ∫ ϕ (x )dx −∞ . Обратно, если задана функция распределения непрерывной случайной величины, то (см. теорему об интеграле с переменным верхним пределом) плотность распределения этой случайной величины будет определяться ' равенством ϕ ( x )=F ( x ). Таким образом, имеется два равноправных способа задания непрерывной случайной величины: с помощью или плотности распределения, или функции распределения. Пример. Пусть плотность распределения непрерывной случайной величины Х имеет вид: ϕ ( x )= 1 при x ∈ [ 0 ; 2 ] , 2 0 в остальных случаях . { Найти функцию распределения. x Решение. Пусть x< 0 . Тогда x F( x)= ∫ ϕ (x )dx= ∫ 0 dx=0. −∞ −∞ x x 1 1 1 F( x )= ∫ ϕ (x ) dx= ∫ 0 dx +∫ dx =0+ x|x0 = x . 2 2 −∞ −∞ 0 2 Если x∈ [ 0; 2 ] , то x Если 2 x 1 1 1 F( x )= ∫ ϕ (x ) dx= ∫ 0 dx +∫ dx +∫ 0 dx=0+ x|20 +0= (2−0)=1. 2 2 −∞ −∞ x> 2 , то 0 2 2 Таким образом, окончательно, искомая функция распределения имеет вид 0 при x <0, 1 F( x )= x при x ∈ [ 0; 2 ] , 2 1 при x> 2 { (см. рис. 6). Математическое ожидание и дисперсия непрерывной случайной величины у Формулы y F (x) для математического 1 вычисления ожидания дисперсии непрерывной х случайной аналогичны и величины 2 Рис. 6 соответствующим формулам для дискретной случайной величины (см. § 3.3). Действительно, рассмотрим следующую таблицу. Способ описания Дискретная случайная Непрерывная случайная величина величина Закон распределения Плотность распределения +∞ k M(X) M ( X )= ∫ xϕ ( x)dx M ( X )=∑ x i pi i=1 −∞ +∞ k D( X ) D ( X )=∑ ( x i −M ( X ) ) p i i =1 Таким образом, 2 D( X )= ∫ ( x−M ( X )) ϕ ( x)dx 2 −∞ переходя при записи этих формул от дискретной к непрерывной случайной величине, суммирование заменяется интегрированием по всей числовой оси, а вместо вероятности pi используется плотность распределения ϕ ( x ) . Пример. Функция распределения непрерывной случайной величины Х имеет вид: 0 при x<0, F( x )= x /9 при x ∈ [ 0 , 3 ] , 1 при x >3 . { 2 Найти математическое ожидание и дисперсию этой случайной величины. Решение. Для нахождения M(X) и D( X ) нам потребуется плотность распределения данной случайной величины (см. приведенные выше формулы). Получаем ϕ ( x )= или ' 0 =0 при x< 0, ′ 2 ' 2 ϕ ( x )=F ( x )= ( x /9 ) = x при x ∈ [ 0 , 3 ] , 9 ' 1 =0 при x >3 , { 2 x при x∈ [ 0 , 3 ] , 9 0 в остальных случаях . { 3 +∞ 2 2 x3 M ( X )= ∫ xϕ ( x )dx= ∫ x⋅0 dx+∫ x⋅ x dx+ ∫ x⋅0 dx= ⋅ |30 =2 . 9 9 3 −∞ −∞ 3 Тогда имеем +∞ Геометрически, полученное значение математического ожидания есть абсцисса центра тяжести фигуры под графиком плотности распределения, т.е. абсцисса прямоугольного треугольника ОАВ (см. рис. 7; напомним, что центр тяжести треугольника есть точка пересечения медиан этого треугольника, а медианы в точке пересечения делятся в отношении 2:1, считая от вершины).  (х ) 2 3 А О В 1 1,5 2 х 3 Рис. 7 Завершая решение, найдем дисперсию рассматриваемой случайной величины. 3 +∞ 2 2 x4 M ( X )= ∫ x ϕ ( x )dx= ∫ x ⋅0 dx+∫ x ⋅ x dx+ ∫ x2⋅0 dx = ⋅ |30 =4,5 , 9 9 4 −∞ −∞ 3 2 +∞ 2 2 2 2 2 2 D( X )=M ( X )−M ( X )=2 −4,5=0,5. 4.2. Нормальный закон распределения Определение. Непрерывная случайная величина имеет нормальный закон распределения с параметрами имеет вид а и σ , если ее плотность распределения 1 ϕ N ( x )= σ √2 π Параметры а и s −( x−a )2 / 2σ 2 e . нормального закона тесно связаны с параметрами распределения рассматриваемой случайной величины. Справедлива следующая теорема. Теорема. Пусть случайная величина Х имеет нормальный закон распределения с параметрами а и σ 2 . Тогда M ( X )=a , D( X )=σ . ϕ N ( x) – результат деформации Гауссовой кривой Отметим, что график y=f ( x ) (см. § 2.3). Рассмотрим, как изменяется этот график при изменении параметров а и σ нормального закона.  N (x )  N (x)   2   1 а а1 а а Рис.8 x а 2 x Рис. 9 На рис. 8 изображены графики ϕ N ( x) при одинаковом значении параметра σ : изменение параметра а нормального закона приводит к параллельному переносу графика плотности распределения вдоль оси абсцисс. На рис. 9 изображены графики ϕ N ( x) при одинаковом значении параметра а : изменение параметра σ нормального закона приводит к “растяжению” графика вдоль оси ординат при сохранении площади под кривой равной 1 (заметим, что на рис. 9 σ 2 <σ 1 ). Теорема. Пусть случайная величина Х имеет нормальный закон распределения с параметрами а и . Тогда справедливы формулы: σ P( α ≤X ≤β )= 1 β−a α −a Φ −Φ , 2 σ σ ( ( ) ( )) P(|X −a|≤ε )=Φ (1) ( σε ) , (2) 1 1 x−a F( x )= + Φ , 2 2 σ ( ) Φ( x) – функция Лапласа, где F( x ) – функция распределения случайной величины Х. Заметим, что график функции распределения F( x ) нормально распределенной случайной величины получается в результате деформации из графика функции Лапласа Φ( x) (см. рис. 10 и 2). – 1 Пример. Случайная величина Х y ошибка измерительного прибора y F (x) 1 2 распределена по нормальному закону с дисперсией равной 16 мк2. x а Систематическая ошибка Рис. 10 отсутствует. Найти вероятность того, что при одном измерении ошибка: а) превзойдет по модулю 6 мк; б) окажется в промежутке от 0,5 до 3,5 мк. Решение. а) Отсутствие систематической ошибки означает, что значения случайной величины Х группируются около нуля, поэтому a=M ( X )=0 (см. § 3.3). Искомой является вероятность противоположному событию: то P(|X|>6) . Воспользуемся переходом к P(|X|>6)=1−P(|X|≤6) . Так как a=0 , P(|X|≤6)=P(|X−a|≤6) , т.е. последняя вероятность точно того вида, что может быть вычислена по формуле (2). Используя формулу (2) при σ =4 , получаем P(|X|≤6)=Φ ( 6/4 )=Φ ( 1,5 ) =0,8664. Окончательно имеем б) Искомая ε =6 , P(|X|>6)=1−P(|X|≤6)=1−0,8664=0,1336. вероятность вычисляется по формуле (1) при α=0,5 , β=3,5 , a=0 , σ =4 : P(0,5≤ X≤3,5 )= 1 3,5−0 0,5−0 1 Φ −Φ = ( Φ (0 , 875)−Φ(0 , 125) ) = 2 4 4 2 (( ) ( )) 1 = ( 0 ,6211−0 , 1034 )=0 , 2589 . 2 Упражнение. Пусть случайная величина Х параметрами а и s . Проверить, что нормально распределена с P( X >a )=0,5. Дать геометрическую интерпретацию этому результату. 4.3. Центральная предельная теорема и теоремы Муавра-Лапласа как следствия из нее Центральная предельная теорема. Пусть случайные величины X 1 , X 2 , …, X n – независимы и одинаково распределены. Тогда закон распределения их суммы X =X 1 + X 2 +…+ X n неограниченно приближается к нормальному при неограниченном увеличении числа n эти х случайных величин. Отметим, что центральная предельная теорема является частным случаем более общего утверждения – теоремы Ляпунова (подробнее см. учебник Н.Ш. Кремера). Следствие. Биномиальный закон распределения неограниченно приближается к нормальному при неограниченном увеличении параметра n этого закона. Доказательство. Пусть случайная величина Х – биномиально распределена с параметрами n и p . Рассмотрим сначала тот конкретный пример, когда Х – число наступлений некоторого события А в n повторных независимых испытаниях, в каждом из которых это событие наступает с вероятностью p. Введем в рассмотрение случайные величины X 1 , X 2 , …, X n такие, что Xi – число наступлений события А в i –ом испытании, где i=1, 2, …,n. Случайная величина Xi принимает значение 1, если в i –ом испытании событие А наступило и значение 0 – в противном случае. Сумма случайных величин принимает значение m тогда и только тогда, когда число Х Xi наступлений события А в n испытаниях равно m., т.е. X =X 1 + X 2 +…+ X n . Тогда по центральной предельной теореме для случайной величины Х получаем требуемое утверждение. Аналогично данное Следствие доказывается и в общем случае. Данное Следствие при работе с биномиально распределенными случайными величинами (при достаточно больших n ) позволяет использовать формулы, известные для нормально распределенных случайных величин. Именно это и происходит при применении теорем Муавра-Лапласа. Так, заменяя в формуле (1) из § 4.2 а и отклонением σ математическим ожиданием и средне квадратическим биномиально распределенной случайной величины ( a=np, σ =√ npq см. § 3.3), обозначая также X =m, α =m1 , β=m2 , приходим к интегральной теореме Муавра-Лапласа. Геометрически приближение биномиального распределения к нормальному означает, что с ростом n (m , P m , n) точки плоскости с координатами неограниченно приближаются к кривой ϕ N ( x) плотности нормального закона (здесь m – неотрицательное целое, не превосходящее n, значение Pm,n вычисляется по формуле Бернулли; см. рис. 11). Тогда справедливо приближенное равенство у Pm , n≈ϕ N (m),  N (x ) P m,n где  N (m) a=np, σ =√ npq , которое, записанное явно, и х m есть локальная теорема Муавра-Лапласа. Рис.11 5. ДВУМЕРНЫЕ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ 5.1. Совместные распределения и их параметры Определение. Вектор Z =( X , Y ) , компоненты Х и Y которого являются случайными величинами, называется случайным вектором или двумерной случайной величиной. Пример. Пусть Х – рост человека, Y – вес человека. Тогда (непрерывная) двумерная случайная величина. Z =( X , Y ) – Пример. Пусть Х и Y – числа попаданий в мишень первого и второго стрелков (соответственно). Тогда Z =( X , Y ) – (дискретная) двумерная случайная величина. Сравнивая между собой одномерную (см. выше темы 3, 4) и двумерную случайные величины, заметим, что, если результат измерения первой – точка на прямой, то результат измерения второй – точка плоскости. Определение. Закон распределения одной из переменных при фиксированном значении другой называется условным распределением. Определение. Связь между переменными называется статистической, если каждому значению одной переменной ставится в соответствие условное распределение другой переменной. Отметим, что задание двумерной случайной величины равносильно заданию статистической связи между переменными. Рассмотрим сначала двумерную дискретную случайную величину. По аналогии с одномерным случаем, закон распределения двумерной дискретной случайной величины задается с помощью таблицы вида: xi y1 … yj … ym где pij=P (( X =xi )⋅(Y = y j )), x1 p11 … p1 j … p1m … … … … … … xi pi1 … pim … pim … … … … … … pnj pn1 … pnj … pnm 1≤i≤n , 1≤ j≤m. По аналогии с основным свойством закона распределения одномерной случайной величины, справедливо равенство n m ∑ ∑ p ij=1 . i=1 j=1 Приведенная таблица называется совместным законом распределения случайных величин Х и Y. Пример. Совместный закон распределения случайных величин Х и Y имеет вид: yj Найти математическое ожидание случайной 1 величины Х. xi 1 0,1 0,2 Решение. Прежде всего найдем закон 2 0,3 0,4 распределения случайной величины Х. Так как P( X=1)=P(( X=1 )⋅(Y =0 )+( X=1)⋅(Y =1))=0,1+0,2=0,3 , P( X=2)=P( ( X=2 )⋅( Y =0 )+( X =2)⋅(Y =1))=0,3+ 0,4=0,7 , то закон распределения Х имеет вид: X: xi 1 2 pi 0,3 0,7 Тогда M ( X )=1⋅0,3+2⋅0,7=1,7 . Оставляем читателю в качестве упражнения проверку того, что закон распределения случайной величины Y имеет вид: Y: yj 1 pj 0,6 0,4 и M (Y )=0,6. Определение. Связь между переменными называется функциональной, если каждому значению из области определения одной переменной поставлено в соответствие однозначно определенное значение другой переменной. Примерами такого вида связи изобилует курс математического анализа: y=√ 1−x , y=ln x , y=2 x+3 , y=2 x и т.д. и т.д. Определение. Функциональная связь между значениями одной переменной и условными математическими ожиданиями другой переменной называется корреляционной. Определение. График корреляционной зависимости называется линией регрессии. Корреляционные зависимости бывают двух видов ( y по x и x по y ) в зависимости от того, которая из переменных выполняет роль аргумента: или y y по . Соответственно, x и ( M y ( X ), y j ) j ( xi , M xi ( Y )) x – точки корреляционной зависимости – точки корреляционной зависимости x по y . Пример. По совместному закону распределения из предыдущего примера (Пример #) найти корреляционную зависимость y по x . Решение. Применяя теорему умножения вероятностей, получаем P X=1 (Y =0 )= P X=1 (Y =1)= P (( X =1)⋅(Y =0 )) 0,1 1 = = , P( X =1) 0,3 3 P(( X=1 )⋅(Y =1)) 0,2 2 = = , P ( X=1 ) 0,3 3 где вероятности, стоящие в числителях последних дробей, берутся из таблицы совместного закона распределения Примера #, вероятность P( X=1) найдена в том же примере. Таким образом, условное распределение случайной величины Y при X =1 имеет вид: Y X=1 : yj 1 По этому закону распределения находим условное pj 1/3 2/3 математическое ожидание: M X =1 (Y )=0⋅1 /3+1⋅2/3=2 /3 . Аналогично получаем: Y X=2 : yj 1 pj 3/7 4/7 M X =2 (Y )=0⋅3/7+1⋅4/7=4 /7 . Собирая вместе полученные результаты, запишем корреляционную зависимость y по x в виде следующей таблицы: xi Mx (Y ) i 1 2 2/3 4/7 Рассмотрим теперь непрерывную двумерную случайную величину. Определение. Функция ϕ ( x , y ) называется плотностью распределения непрерывной случайной двумерной произвольных чисел α, β, γ , δ величины Z =( X , Y ) , для ( α< β , γ< δ ) вероятность того, что в произвольном испытании значение случайной величины прямоугольник α≤X ≤β , если γ≤Y ≤δ Z попадает в вычисляется по формуле β δ P((α≤ X≤β )⋅(γ≤Y ≤δ ))=∫∫ ϕ ( x , y ) dy dx . α γ Условные плотности распределения определяются формулами: ϕ x ( y)= +∞ ϕ ( x, y) , ∫ ϕ ( x, y ) dy ϕ y ( x)= +∞ ϕ (x,y) . ∫ ϕ (x , y) dx −∞ −∞ Соответственно, условные математические ожидания тогда вычисляются по формулам: +∞ +∞ M x (Y )= ∫ yϕ x ( y) dy , −∞ M y ( X )= ∫ xϕ y ( x) dx . −∞ 5.2. Коэффициент корреляции и его свойства Определение. Коэффициентом корреляции ρ случайных величин Х и Y называется число, определяемое равенством ρ= где σ X =√ D( X ) , M ( XY )−M ( X ) M ( Y ) , σ X σY σ Y =√ D(Y ) . Коэффициент корреляции является мерой тесноты линейной связи между переменными. Величина M ( XY )−M ( X ) M (Y ) называется ковариацией и обозначается K XY Замечание. Из свойства математического ожидания (см. § 3.3) следует, что, если случайные величины Х и Y независимы, то коэффициент корреляции ρ равен нулю. Существенно, что обратное утверждение неверно, т.е. в общем случае из условия равенства коэффициента корреляции нулю не следует, что данные случайные величины независимы. Упражнение. Совместное распределение случайных величин X иY имеет вид: Убедиться, что ρ=0 и данные случайные yj 1 величины независимы. xi 0,2 0,2 1 0,3 0,3 Упражнение. Совместное распределение величин X иY имеет вид: Убедиться, что yj 1 ρ=0 , но данные случайные величины – зависимы (более того, можно заметить, что в данном случае X xi -1 0,2 0,6 1 0,2 “жесткой” из всех иY связаны наиболее возможных связей – 2 функциональной: Y =1−X ). Теорема (Область возможных значений коэффициента корреляции). Модуль коэффициента корреляции не превосходит1, т.е.  1 1. Теорема. Если модуль коэффициента корреляции двух случайных величин равен 1, то между этими случайными величинами существует линейная функциональная зависимость. Пример. Пусть совместный закон распределения случайных величин X иY имеет вид: Тогда Y X  1. Оставляем читателю в качестве yj 1 упражнения проверку того, что в данном случае 2  1. xi 0,4 1 0,6 Из определения ковариации следует, что M (XY ) M (X )M (Y )  K XY . Другими словами, математическим ковариация ожиданием является произведения мерой двух неравенства между случайных величин и произведением их математических ожиданий. Аналогично, применительно к дисперсии, справедливо равенство D (X Y ) D (X )  D (Y )  2K XY . 5.3. Двумерный нормальный закон распределения Определение. Случайная величина Z (X ,Y ) называется распределенной по двумерному нормальному закону с параметрами aX ,aY , X ,Y ,  ( X  0,Y  0) , если ее плотность распределения имеет вид: N (x )  1 2 X Y 1  2 e L (x ,y ) , где 2   x  a 2  x  aX   y  aY   y  aY   1 X  L (x, y )    2      . 2(1  2 )    X   X   Y   Y      Теорема. Пусть двумерная случайная величина Z (X ,Y ) имеет двумерный нормальный закон распределения. Тогда корреляционные зависимости между X и Y – линейны: xy  aX  X  (y  aY ), y x  aY  Y (x  aX ), Y X где xy M y (X ), y x M x (Y ). Это важное свойство двумерного нормального закона будет использовано нами позже при рассмотрении теории корреляции. 6. ЗАКОН БОЛЬШИХ ЧИСЕЛ 6.1. Неравенство Чебышёва Лемма Чебышёва. Пусть среди значений случайной величины Z нет отрицательных. Тогда вероятность того, что в некотором испытании значение этой случайной величины превысит число A , оценивается по формуле P (Z  A )  Так как события (Z  A ) и M (Z ) . A (Z A ) взаимно противоположны, то P (Z  A ) 1 P (Z A ), и лемма Чебышёва может быть также представлена в виде P (Z A ) 1 M (Z ) . A Пример. В среднем в течение часа на вокзал прибывает 400 пассажиров. Оценить: а) вероятность того, что число пассажиров, прибывших на вокзал в течение часа, будет более 420; б) верхнюю границу для числа прибывших пассажиров, которую можно гарантировать с вероятностью не меньшей 0,9. Решение. Пусть Z – число пассажиров, прибывающих на вокзал в течение наудачу выбранного часа. По условию, значения этой случайной величины группируются около 400. Тем самым, имеем M (Z ) 400. Полагая в неравенстве Чебышёва A 420, получаем P (Z  420)  M (Z ) 400  0,9524. 420 420 Из условия и второй формы записи неравенства Чебышёва следует, что P (Z A ) 1 M (Z ) 0,9, A где A – искомая верхняя граница для числа пассажиров. Таким образом, имеем равенство 1 400 0,9. A Решая это уравнение относительно A , получаем: A 4000. Неравенство Чебышёва. Для произвольной случайной величины Y вероятность того, что в некотором испытании значение этой случайной величины будет отличаться от математического ожидания M (Y ) не более чем на  (по абсолютной величине), оценивается по формуле P (Y  M (Y )  ) 1 D (Y ) , 2 где  – произвольное положительное число. Рассмотрим следствия из неравенства Чебышёва. Следствие 1. Пусть случайные величины X 1, X 2, , X n – независимы, M (X i ) ai , D (X i ) C , где i 1,2, , n, C – некоторое число. Тогда вероятность того, что среднее арифметическое этих случайных величин отличается от среднего арифметического их математических ожиданий не более чем на  (по абсолютной величине), оценивается по формуле  X  X 2    X n a1  a2    an  C P 1    1 . n n n 2   Следствие 2. Пусть случайные величины X 1, X 2, , X n – независимы, M (X i ) a , D (X i )  2, где i 1,2, , n. Тогда вероятность того, что среднее арифметическое этих случайных величин отличается от их общего математического ожидания не более чем на  (по абсолютной величине), оценивается по формуле  X  X 2   X n  2 P 1  a   1 . n n 2   Следствие 3. Пусть X m – число наступлений некоторого события A в n повторных независимых испытаниях, в каждом из которых это событие наступает с вероятностью p . Тогда вероятность того, что число m наступлений события A отличается от np не более чем на  (по абсолютной величине), оценивается по формуле P  m  np   1 npq . 2 Следствие 4. Пусть X m – число наступлений некоторого события A в n повторных независимых испытаниях, в каждом из которых это событие наступает с вероятностью p . Тогда вероятность того, что частость m n наступлений события A отличается от вероятности p не более чем на  (по абсолютной величине), оценивается по формуле  m  pq P  p   1 . n 2  n  Последнее следствие называется также неравенством Бернулли. Пример. Вероятность сделать покупку для каждого из покупателей магазина равна 0,7. Почему нельзя применить неравенство Чебышёва для оценки вероятности того, что из 1000 покупателей доля таких, которые приобретут в магазине товар, будет заключена в границах от 0,67 до 0,72? Как следует изменить левую границу, чтобы применение неравенства Чебышёва стало возможным? Решить задачу при соответствующем изменении левой границы. Найти эту же вероятность по интегральной теореме Муавра-Лапласа. Объяснить различие в полученных результатах. Сколько покупателей надо обследовать, чтобы те же границы для рассматриваемой доли можно было гарантировать с вероятностью не меньшей 0,9? Решение. Неравенство Чебышёва позволяет оценивать вероятности попадания значения случайной величины только в границы, которые симметричны относительно математического ожидания этой случайной величины. Но в данном случае интервал (0,67; 0,72) несимметричен относительно M (m n)  p 0,7 , где m n – доля покупателей, которые приобретут в магазине товар, p – вероятность приобретения товара. Соответственно, для того, чтобы применение неравенства Чебышёва стало возможным, левая граница интервала должна отстоять от p 0,7 ровно настолько, насколько отстоит правая, т.е. на  0,72  0,7 0,02. Неравенства 0,68 m n 0,72 равносильны, а вероятность P ( m n  0,7 0,02) и m n  0,7 0,02 – оценивается по следствию 4 (неравенству Бернулли) при p 0,7,  0,02, n 1000, q 1 p 1 0,7 0,3 :  m  0,70,3 P  0,7 0,02 1 0,475. 10000,022  n  Точно такая же вероятность может быть найдена по следствию 2 из интегральной теореме Муавра-Лапласа:  0,02 1000   m  P  0,7 0,02     1,38 0,8324.  0,70,3   n    Очевидно, что полученные результаты не противоречат друг другу. Поясним, почему для одной и той же вероятности неравенство Чебышёва дает лишь оценку, в то время как теорема Муавра-Лапласа – точное значение. Дело в том, что неравенство Чебышёва получено без каких бы то ни было предположений о законе распределения рассматриваемой случайной величины. В результате область его применений широка, но получение точных результатов с его помощью оказывается невозможным. В свою очередь, теорема Муавра-Лапласа опирается на свойство биномиального распределения: по центральной предельной теореме, это распределение неограниченно приближается к нормальному при неограниченном увеличении числа испытаний. Использование закона распределения рассматриваемой случайной величины и позволяет уточнить окончательный результат. Перейдем теперь к последнему заданию данной задачи. По условию и неравенству Бернулли, имеем  m  pq P  p   1 0,9, n 2  n  причем p 0,7, q 0,3,  0,02. Тогда полученное равенство 1 0,70,3 0,9 n 0,022 содержит единственную неизвестную: n . Решая это уравнение относительно этой неизвестной, получаем: n 0,70,3 5250. 0,022 0,1 6.2. Теоремы Бернулли и Чебышёва Теорема Бернулли. Пусть m n – частость наступления события А в n повторных независимых испытаниях, в каждом из которых это событие наступает с вероятностью p .Тогда для произвольного   0вероятность того, что частость m n будет отличаться от вероятности p не более чем на  (по абсолютной величине) неограниченно приближается к 1 при Другими словами, теорема Бернулли утверждает, что частость mn неограниченном увеличении значения n , т.е.  m  lim P   p   1.  n  n  наступления некоторого события сходится по вероятности к вероятности p наступления этого события. Доказательство. Учитывая, что вероятность произвольного события не превосходит 1, из неравенства Бернулли следует 1  m  pq P   p   1. 2 n  n   m  pq   lim 1 limP   p   lim1.  2 n   n  n   n  n  Переходя к пределу при n   , получаем Крайние левый и правый пределы этого двойного неравенства равны 1. Таким  m  1limP   p   1, n   n  образом, имеем что равносильно утверждению теоремы Бернулли. Теорема Бернулли утверждает, что, если за значение вероятности p некоторого события взять значение частости m n наступления этого события, найденную по результатам n испытаний, то вероятность погрешности (даже сколь угодно малой) приближенного равенства p m n будет стремиться к нулю с увеличением числа испытаний n . Теорема Чебышёва. Пусть случайные величины X 1, X 2, , X n независимы, одинаково распределены и a M (X 1)  M (X n ). Тогда для произвольного   0 вероятность того, что среднее арифметическое этих случайных величин отличается от их общего математического ожидания не более чем на  (по абсолютной величине) , неограниченно приближается к 1 при неограниченном увеличении числа n этих случайных величин т.е.  X  X 2   X n  limP  1  a   1. n  n   Другими словами, теорема Чебышёва утверждает, что среднее арифметическое некоторого числа случайных величин, имеющих одинаковое математическое ожидание, сходится по вероятности к их общему математическому ожиданию. Говоря о приложениях теоремы Чебышёва, отметим, в первую очередь, следующую возможность. Если за значение некоторого неизвестного параметра а взять среднее арифметическое результатов X 1, X 2, , X n независимых измерений этого параметра, то вероятность погрешности (даже сколь угодно малой) приближенного равенства a X 1  X 2   X n n будет стремиться к нулю при неограниченном увеличении числа n этих измерений. Теоремы Бернулли и Чебышёва являются называемого закона явными реализациями так больших чисел, утверждающего, что при проведении достаточно большого числа испытаний погрешности отдельных испытаний взаимно погашают друг друга (тем самым среднее арифметическое независимых случайных величин – результатов этих испытаний – стремится к постоянной величине при неограниченном увеличении числа испытаний). 7. ВЫБОРОЧНЫЙ МЕТОД 7.1. Оценка неизвестного параметра. Свойства оценок Определение. Случайная величина H n называется оценкой неизвестного параметра h , если значение этой случайной величины, найденное по результатам серии из n измерений, может быть принято за приближенное значение этого параметра т.е. если справедливо равенство h H n . Пример. Если в качестве неизвестного параметра рассматривается вероятность p P (A ) наступления некоторого события A , то оценкой этого параметра m служит частость n наступлений события A в n независимых испытаниях (см. статистическое определение вероятности и теорему Бернулли). Пример. Пусть случайные величины X 1, X 2, , X n имеют одинаковое математическое ожидание, т.е. a M (X 1) M (X 2 )  M (X n ) . Тогда оценкой значения a общего математического ожидания таких случайных величин служит среднее арифметическое X 1  X 2   X n n этих случайных величин. Важным частным случаем рассмотренной ситуации является следующий Пример. Оценкой некоторого параметра a служит среднее арифметическое X 1  X 2   X n n результатов X 1, X 2, , X n независимых измерений этого параметра (см. теорему Чебышёва). При непосредственном использовании приближенного равенства h H n говорят о точечном оценивании неизвестного параметра. Возможно также интервальное оценивание неизвестного параметра. Для того, чтобы объяснить, в чем оно состоит, введем в рассмотрение следующие понятия. Определение. Для произвольного   0интервал (H n   , H n   ) называется доверительным интервалом; сама величина  называется в этом случае предельной ошибкой выборки. Определение. Вероятность того, что неизвестное значение оцениваемого параметра накрывается доверительным интервалом, называется доверительной вероятностью. Таким образом, если H n – оценка параметра h , то P (H n    h  H   ) P ( H n  h   ) P ( H n  h  ) – доверительная вероятность (мы предполагаем, что оценка H n является непрерывной случайной величиной). Интервальное оценивание состоит, например, в вычислении доверительной вероятности для заданной предельной ошибки выборки. Решение задачи интервального оценивания связано с определением характера закона распределения используемой оценки H n . Рассмотрим теперь некоторые свойства оценок. Определение. Оценка H n параметра h называется несмещенной, если математическое ожидание этой оценки равно оцениваемому параметру, т.е. M (H n ) h. Определение. Оценка H n параметра h называется состоятельной, если для произвольного   0выполняется следующее предельное соотношение limP ( H n  h   ) 1. n  Другими словами, оценка H n параметра h состоятельна, если эта оценка сходится по вероятности к данному параметру. (Напомним, что примеры сходимости такого рода дают теоремы Бернулли и Чебышёва, см. § 6.2.) Определение. Несмещенная оценка некоторого параметра называется эффективной, если она обладает наименьшей дисперсией среди всех несмещенных оценок, найденных по выборке заданного объема. Пример. Частость mn наступления некоторого события является несмещенной, состоятельной и эффективной оценкой вероятности p этого события. Заметим, что свойства несмещенности и состоятельности частости были фактически рассмотрены нами ранее в несколько ином контексте. Действительно, несмещенность частости – равенство M (m n)  p – является одним из свойств биномиально распределенной случайной величины (см. § 3.3). Состоятельность частости утверждается теоремой Бернулли (см. § 6.2). Пример. Среднее арифметическое некоторого числа независимых и одинаково распределенных случайных величин является несмещенной и состоятельной оценкой общего математического ожидания этих случайных величин. Действительно, несмещенность – есть свойство 5 математического ожидания (см. § 3.3). Состоятельность утверждается теоремой Чебышёва (см. § 6.2). 7.2. Первичная обработка результатов эксперимента. Характеристики вариационных рядов Пусть произведено n независимых измерений некоторой случайной величины X : X 1 – результат первого измерения, X 2 – результат второго измерения, … , X n– результат n -го измерения. Тогда через X обозначим среднее результатов n измерений рассматриваемой случайной арифметическое величины X , то есть X  X 1  X 2   X n n . X 1, X 2, , X n – случайные величины, то X также Заметим, что, поскольку является случайной величиной. Пример. Детали некоторого вида расфасованы по ящикам. Результаты обследования шести из этих ящиков (на предмет наличия в них бракованных деталей) представлены в таблице: i 1 2 3 4 5 6 Xi 1 1 2 1 где i – номер ящика, X i – число бракованных деталей в i -ом ящике. Тогда X  X 1  X 2    X n 0  1 0  1 2  1 02  13 21 5    . n 6 6 6 Приведенное вычисление подсказывает возможность более компактного представления результатов обследования, а именно – использование таблицы следующего вида: xi 1 2  ni 2 3 1 6 где xi – число бракованных деталей в ящике; ni – число ящиков. Такая таблица называется вариационным рядом. Аналогично, в общем случае имеем Определение. Вариационным рядом признака X называется таблица вида xi x1 x2 … xm  ni n1 n2 … nm n где xi – данного возможные признака, ni – значения числа объектов, i 1,2,..., m , n – число m n обследованных объектов ( i 1 i n ). Отметим, что величины ni , значения которых заполняют нижнюю строку вариационного ряда, называются эмпирическими частотами. Очевидно, что признак X , для которого строится вариационный ряд, есть случайная величина. В том случае, когда результаты обследования представлены вариационным рядом, формула для вычисления X имеет вид m X  x i i 1 n ni . (1) Сама величина X в этом случае называется средней вариационного ряда или выборочной средней. Появление в данном случае дополнительного эпитета выборочный связано с тем, что обследованные объекты выбираются из некоторой объемлющей (так называемой генеральной) совокупности объектов. Напомним, что X есть случайная величина. В тех случаях, когда данные эксперимента представлены вариационным рядом, а X вычисляется по формуле (1), случайными являются эмпирические частоты ni . Вариационный ряд является оценкой закона распределения случайной величины (признака) X . Поясним, почему это так. По вариационному ряду построим равнозначную ему таблицу, заменяя строку эмпирических частот ni частостями ni n . В результате имеем: xi x1 x2 … xm  ni n n1 n n2 n … nm n 1 Учитывая, что частости ni n являются оценками вероятностей pi P (X xi ) ( pi ni n , см. § 7.1), приходим к требуемому утверждению. Принимая во внимание последнее замечание, получаем m m n X  xi  i  xi pi M (X ) n i 1 i 1 . Таким образом, средняя вариационного ряда (выборочная средняя) X является оценкой математического ожидания M (X ) той случайной величины (признака) X , для которой построен данный вариационный ряд. Можно доказать, что эта оценка является несмещенной и состоятельной. Учитывая полученные результаты, аналогично построим оценку для дисперсии D (X ) случайной величины X : m m n D (X )  (xi  M (X ))2 pi  (xi  X )2  i . n i 1 i 1 Выражение, стоящее в правой части последнего равенства называется 2 выборочной дисперсией и обозначается s , то есть 1 m s2   (xi  X )2 ni . n i 1 2 Выборочная дисперсия s – оценка для дисперсии D (X ) случайной величины X . 2 Можно доказать, что выборочная дисперсия s является смещенной 2 2 оценкой для D (X ) , то есть M (s ) D (X ). Несмещенная оценка ŝ для D( X ) определяется равенством ˆs 2  n s 2 . n 1 Заметим, что для вычисления выборочной дисперсии удобно использовать формулу – аналог свойства 3 дисперсии (см. § 3.3): s2 X 2  (X )2. Определение. Вариационный ряд называется дискретным, если число возможных значений признака – конечно, и непрерывным (интервальным), если возможные значения признака полностью заполняют некоторый интервал. Вариационные ряды, которые встречались нам до сих пор в данном параграфе, являются дискретными. Рассмотрим пример интервального вариационного ряда. Пример. По результатам обследования некоторого малого предприятия получены следующие данные о ежемесячной заработной плате его сотрудников:  xi  1, xi  5 – 15 ni 3 15 – 25 – 25 35 5 2  где xi – размер заработной платы 10 (ден. ед.), ni – число сотрудников. Для нахождения параметров непрерывного вариационного ряда – выборочной средней, выборочной дисперсии – этот вариационный ряд сначала сводится к дискретному (в результате выбора середины для каждого из рассматриваемых интервалов), 2 после чего X и s вычисляются по приведенным выше формулам. Например, данный интервальный вариационный ряд сводится к следующему дискретному: xi 10 20 30  ni 3 5 2 10 Тогда 1 m 1 X   xi ni  (103 205 302) 19. n i 1 10 1 m 1 s2   (xi  X )2 ni  ((10 19)2 3 (20 19)2 5 (30  19)2 2) 49 n i 1 10 Или 1 m 1 X 2   xi2 ni  (102 3 202 5 302 2) 410, n i 1 10 s2 X 2  (X )2 410  192 49. 7.3. Сплошное и выборочное наблюдения Пусть дана некоторая (генеральная) совокупность объектов и требуется оценить значение некоторого параметра этой совокупности (например, среднее значение прибыли для малых предприятий некоторого региона или долю выборщиков, проголосовавших за данного кандидата на выборах). Предположим, что от полного обследования всей генеральной совокупности решили отказаться. Среди возможных причин здесь можно указать разрушение объекта в результате обследования (в том случае, когда, например, требуется узнать средний срок службы лампочек в партии, изготовленной на некотором заводе, полное обследование, конечно, даст исчерпывающую информацию, но сама совокупность перестанет существовать). Другая возможная причина – высокая стоимость продолжительность полного (например, обследования выводы или его чрезмерная экспресс-анализа результатов голосования на некоторых выборах требуется получить в кротчайшие сроки, что невозможно совокупность при может тотальном обладать обследовании). таким свойством Наконец, как генеральная «необозримость» (например, рыба некоторого вида в данном море). Тогда из генеральной совокупности выделяют часть (выборку). Обследуя ее, находят значение исследуемого параметра в выборке. На основании этих результатов делают вывод о значении этого параметра во всей генеральной совокупности (см. ниже §§ 7.4, 7.5). Среди основных принципов выборочного метода следует отметить случайность и массовость. В самом деле, объекты в выборку следует отбирать случайным образом, в противном случае объективных данных о генеральной совокупности не получить. Также, следует постараться взять в выборку так много объектов как возможно, поскольку малая выборка будет плохо отражать свойства всей генеральной совокупности. Определение. Ошибкой репрезентативности называется ошибка, связанная с тем, что не все объекты генеральной совокупности попадут в выборку (и, тем самым, будут обследованы). Заметим, что ошибка репрезентативности выборочного метода принципиально неустранима. В зависимости от способа формирования, выборки бывают собственнослучайные, механические, типические, серийные (подробнее см. учебник Н.Ш. Кремера). В дальнейшем мы будем рассматривать лишь собственно-случайные выборки, которые составляются следующим образом: Предположим, что объекты генеральной совокупности некоторым образом перенумерованы. Из полной совокупности номеров случайным образом отбирают столько номеров, сколько элементов должно быть в выборке. Элементы генеральной совокупности с такими номерами и подвергаются обследованию. Выборка называется повторной, если перед отбором очередного номера из полной совокупности номеров предыдущий номер возвращается назад в совокупность; в противном случае – бесповторной. В данном курсе мы рассмотрим следующие из задач выборочного метода: – оценка неизвестного значения генерального среднего (см. § 7.4); – оценка неизвестного значения генеральной доли (см. § 7.5). 7.4. Оценка генеральной средней Пусть задана генеральная совокупность объектов, для которой фиксирован некоторой числовой признак X . Требуется оценить среднее значение признака X в генеральной совокупности – генеральную среднюю X 0 . Для этого из генеральной совокупности выделяют часть (выборку), и по результатам ее обследования находят среднее значение признака X в выборке – выборочную среднюю X , с помощью которой и выполняют оценивание неизвестного значения X 0 . Другими словами, выборочная средняя X является оценкой генерального среднего X 0 . Пример. Пусть некоторая совокупность деталей обследуется на предмет их длины. Тогда X 0 – средняя длина деталей в генеральной совокупности, X – средняя длина деталей в выборке, X – длина детали, взятой наудачу из генеральной совокупности. В том случае, когда оценивание сводится к использованию приближенного равенства X 0 X , говорят о точечном оценивании генеральной средней (см. § 7.1). Возможно также интервальное оценивание генеральной средней (см. § 7.1). Для того чтобы объяснить, в чем оно состоит, введем в рассмотрение следующие понятия. Определение. Для произвольного   0интервал доверительным интервалом; величина (X   , X   ) называется  называется в этом случае предельной ошибкой выборки. Определение. Вероятность того, что неизвестное значение генеральной средней X 0 накрывается доверительным интервалом, называется доверительной вероятностью. Таким образом, P ( X  X 0  ) – доверительная вероятность. Интервальное оценивание состоит, например, в вычислении доверительной вероятности для заданной предельной ошибке выборки. Как и всякая оценка, выборочная средняя X является случайной величиной. Действительно, элементы выборки отбираются из генеральной совокупности случайным образом, а значение X зависит от того, какие именно элементы попали в выборку. Рассмотрим свойства выборочной средней X как случайной величины. Теорема 1. Математическое ожидание выборочной средней X генеральной средней X 0 , то есть M ( X ) X0 . равно Среднее квадратическое отклонение  X  'X  выборочной средней вычисляется по формулам X  2 n – в случае повторной выборки и  'X  2  n  1   n  N  – в случае бесповторной, 2 где n – объем выборки, N – объем генеральной совокупности,  D( X ) – дисперсия признака X для рассматриваемой генеральной совокупности (генеральная дисперсия). Напомним, что, по определению среднего квадратического отклонения, X равно корню квадратному из дисперсии выборочной средней, то есть X  D X  (аналогично в случае бесповторной выборки). Замечание. При применении на практике формул Теоремы 1 полагают, что  2 s X2 . Теорема 2. Закон распределения выборочной средней неограниченно приближается к нормальному при неограниченном увеличении объёма выборки. Согласно результатам § 4.3, для произвольной нормально распределенной случайной величины Z справедлива формула   P Z  M  Z      D Z        . Учитывая Теорему 2, в последнем равенстве положим Z  X . Тогда, по Теореме 1, M  Z  M  X   X 0 и D  Z  D  X   X2 , и приведенная формула – свойство нормального закона распределения принимает вид:   P X  X 0    X     . Вероятность, стоящая в левой части последнего равенства называется доверительной вероятностью (см. выше), поэтому сама эта формула называется формулой доверительной вероятности. Теорема 3. Выборочная средняя X является несмещенной и состоятельной оценкой генеральной средней X 0 . Пример. Для обследования средней заработной платы трехсот рабочих была образована выборка, состоящая из пятидесяти рабочих. Результаты выборочного обследования представлены в таблице: Заработна я плата в месяц, ден. 100-120 120-140 140-160 160-180 180-200 200-220  ед. Число рабочих 1. 5 10 19 10 4 2 50 Найти вероятность того, что средняя заработная плата всех рабочих отличается от средней выборочной не более чем на 5 ден. ед. (по абсолютной величине) в случае повторной и бесповторной выборок. 2. Найти границы, в которых с вероятностью 0,9545 заключена средняя заработная плата всех рабочих. 3. Сколько рабочих надо взять в выборку, чтобы полученные в п. 2 доверительные границы можно было гарантировать с вероятностью 0,9973. Решение. Исходный вариационный ряд является интервальным. Для нахождения его характеристик, прежде всего, сведем этот вариационный ряд к дискретному: где xi 110 130 150 170 190 210  ni 5 10 19 10 4 2 50 xi – возможное значение заработной платы – середина i - го интервала исходного вариационного ряда (ден. ед.); ni – число рабочих; n 50 . X X2  1 6 xi ni   1  1105 13010  15019 17010  1904  2102 1516 ,  n i 1 50 . 1 6 2 xi ni   1  1102 5 1302 10  1502 19 1702 10  1902 4  2102 2 23572  n i 1 50 . 2 sx2  X 2   X  23572  1516 , 2 589, 44. Для нахождения доверительной вероятности (см. п. 1 задания) воспользуемся одноименной формулой квадратические при отклонения  5 . Но сначала вычислим выборочной средней для рассматриваемых типов выборок. а) Повторная выборка. X  s X2 589, 44  3, 433. n 50  5   5  P X  X 0 5         1, 46 0,8557.  3, 433 X    б) Бесповторная выборка, N 300. средние каждого из s X2  n 589, 44  50   'X  ,  1    1  3134 n  N 50  300  .  5 P X  X 0 5     'X     5  ,  0,89       160 ,  3134   . Доверительный интервал в данном случае: ,  5; 1516 ,  5  146, 6; 156,6  X   , X     1516 . Тем самым получаем, что: неизвестное значение средней заработной платы всех рабочих накрывается интервалом (146,6;156,6) с вероятностью 0,8557 в случае повторной выборки и с вероятностью 0,89 в случае бесповторной выборки. В п. 2 задания искомым является доверительный интервал, для нахождения которого следует вычислить предельную ошибку выборки  . Из условия и формулы доверительной вероятности в случае повторной выборки следует, что      X   0, 9545  . По таблице значений функции Лапласа найдем такое значение t , что  t   t  0, 9545  t 2 X . Имеем . Поскольку , то  t X 23, 433 6,866 . Соответствующий доверительный интервал: ,  6,866; 1516 ,  6,866  144, 73; 158, 47  X   , X     1516 . Аналогично, в случае бесповторной выборки имеем  t ' X 23134 , 6,268 . Соответствующий доверительный интервал: ,  6, 268; 1516 ,  6, 268  145,33; 157,87  X   , X     1516 . Таким образом, неизвестное значение средней заработной платы всех рабочих с вероятностью 0,9545 накрывается доверительным интервалом (144,73; 158,47) в случае повторной выборки и доверительным интервалом (145,33; 157,87) в случае бесповторной выборки. При решении п. 3 задания будем считать известными приближенные значения 2 выборочной средней X и выборочной дисперсии s X . Также используем предельные ошибки выборки  , найденные в п. 2. Рассмотрим сначала случай повторной выборки. Из условия и формулы доверительной вероятности следует, что      0, 9973 X  . По таблице значений функции Лапласа найдем такое значение аргумента t , что   t  0, 9973 t 3 : . Тогда  t X и  t X . Используя известную формулу для  X (см. Теорему 2 данного параграфа), имеем равенство:  t s X2 n , в котором единственной неизвестной является искомый объем выборки n . Решая получившееся уравнение относительно n , получаем n t 2s X2 2 . Подставляя в правую часть последнего равенства известные величины, получаем  32 589, 44 112, 7 113 6,8662 (заметим, что округление в данном случае, по смыслу искомой величины, следует произвести до целых, причем в большую сторону, чтобы обеспечить, как говорят, запас по вероятности). Повторяя проведенные рассуждения для случая бесповторной выборки, имеем:  t ' X ,  t s X2 n n   1  N.   1 1  2 t 2s X2    n N , Решая полученное уравнение относительно n , получаем 1 2 1  2N  t 2s X2 6, 2682 300  32 589, 44 2 2  n  93, 4 94 2 2 2 n t s N t s 3  589 , 44 X X Откуда , (также как и выше округление здесь произведено в большую сторону). Таким образом, для того, чтобы с вероятностью 0,9973 неизвестное значение средней заработной платы всех рабочих накрывалось доверительным интервалом (144,73; 158,47) в случае повторной выборки, в эту выборку следует взять 113 рабочих. Аналогично, для того, чтобы с вероятностью 0,9973 неизвестное значение средней заработной платы всех рабочих накрывалось доверительным интервалом (145,33; 157,87) в случае бесповторной выборки, в выборку следует взять 94 рабочих. Замечание. Если в задаче на выборочный метод объем генеральной совокупности много больше объема выборки (в ряде случаев это предполагается по умолчанию, а объем генеральной совокупности просто не n 0 указан), естественно считать, что N . Как следует из формул Теоремы 1, случаи повторной и бесповторной выборок дают тогда совпадающие результаты. 7.5 Оценка генеральной доли Пусть требуется оценить долю тех объектов заданной генеральной совокупности, которые удовлетворяют некоторому условию A – генеральную долю p . Для этого из генеральной совокупности выделяют выборку, и по результатам её обследования находят долю тех объектов, которые удовлетворяют условию A – выборочную долю  . Очевидно, что  m n , где n – объем выборки, m – число тех её объектов, которые удовлетворяют условию A. Выборочная доля в данном случае является той величиной, с помощью которой мы получим информацию о неизвестном значении генеральной доли. Таким образом, выборочная доля  является оценкой генеральной доли p . Пример. p – доля бракованных деталей генеральной совокупности,  – доля бракованных деталей в выборке. Условие (событие) A – деталь, взятая наудачу из генеральной совокупности – бракована. Простейший способ оценивания – точечное оценивание – подразумевает использование приближенного равенства p  . Как и всякая оценка, выборочная доля  является случайной величиной. Действительно, выборка из генеральной совокупности выделяется случайным образом. Соответственно то значение, которое примет выборочная доля, будет случайным. Следующие теоремы характеризуют выборочную долю как случайную величину. Теорема 1. Математическое ожидание выборочной доли равно генеральной доле: M  p . Среднее квадратическое отклонение   (  ' ) выборочной доли вычисляется по формулам   p  1 p  n – в случае повторной выборки и  '  p  1 p   n  1  n  N – в случае бесповторной выборки, где N – объем генеральной совокупности. Напомним, что по определению среднего квадратического отклонения в случае повторной выборки имеем   D    (аналогично в случае бесповторной выборки). Замечание. При применении формул Теоремы 1 полагают p  . Теорема 2. Закон распределения выборочной доли неограниченно приближается к нормальному закону при неограниченном увеличении объема выборки. Подобно тому, как мы это сделали в предыдущем параграфе, как следствие Теоремы 2, получаем формулу доверительной вероятности:    P    p         – в случае повторной выборки. Заменяя в последнем равенстве   на  ' , получаем формулу доверительной вероятности в случае бесповторной выборки. По определению, величина  , фигурирующая в формуле доверительной вероятности, называется предельной ошибкой выборки. Интервал     ;     называется доверительным интервалом. Выше было указано, в чем состоит точечная оценка генеральной доли. Интервальное оценивание сводится, например, к вычислению значения доверительной вероятности при заданной предельной ошибке выборки. Теорема 3. В случае повторной выборки выборочная доля является несмещенной и состоятельной оценкой генеральной доли. Пример. Выборочные данные о надое молока для 100 коров из 1000 представлены таблицей: Надой молока 10-20 20-30 30-40 40-50 50-60  ,ц Число коров 1. 2 18 46 30 4 100 Найти вероятность того, что доля всех коров с надоем молока более 40 ц отличается от такой доли в выборке не более чем на 0,05 (по абсолютной величине), для случая повторной и бесповторной выборок. 2. Найти границы, в которых с вероятностью 0,9596 заключена доля всех коров с надоем более 40 ц. 3. Сколько коров надо обследовать, чтобы с вероятностью 0,9786 для генеральной доли коров с надоем более 40 ц можно было гарантировать те же границы что и в п.2. Решение. Число m коров с надоем более 40 ц равно 34 ( m 30 4 , см. заданный вариационный ряд). Тогда  m 34  0,34 n 100 . Для нахождения доверительной вероятности п. 1 задания воспользуемся одноименной формулой при  0,05 . Пусть рассматриваемая выборка – повторная. Тогда по формуле Теоремы 1, учитывая Замечание, получаем     1   0,340,66  0, 04737 n 100 . Следовательно   P    p         0, 05  ,  0, 7109       106  0,04737   . Аналогично, в случае бесповторной выборки:  '    1    n 0,340,66  100   1    1  0, 04494 n 100  1000   N ,   P    p       ' Доверительным в   0, 05  ,  0, 733       111 , 04494    . данном случае является интервал     ;      0,34 0, 05; 0,34 0, 05  0,29; 0,39 . Таким образом, неизвестное значение доли всех коров с надоем более 40 ц накрывается доверительным интервалом (0,29;0,39) с вероятностью 0,7109 в случае повторной выборки и с вероятностью 0,733 в случае бесповторной выборки. В п. 2 задания при заданном значении доверительной вероятности искомым является доверительный интервал. Поскольку значение выборочной доли известно, остается найти предельную ошибку выборки  . Пусть выборка – повторная. По условию, принимая во внимание формулу доверительной вероятности, имеем   P    p         0, 9596  . По таблице значений функции Лапласа найдем такое t , что   t  0,9596: t 2,05 . Тогда    t и, используя найденное выше значение   , получаем  t  2,050,04737 0, 097. Соответственно, доверительным будет интервал:     ;      0,34 0,097; 0,34 0,097  0,243; 0, 437 . Пусть выборка – бесповторная. Аналогично предыдущему, получаем предельную ошибку выборки  t ' 2,050,04494 0,092 и доверительный интервал:     ;      0,34 0,092; 0,34 0,092  0,248; 0, 432 . Таким образом, доля всех коров с надоем молока более 40 ц с вероятностью 0,9596 накрывается доверительным интервалом (0,243; 0,437) в случае повторной выборки и интервалом (0,248; 0,432) выборки. в случае бесповторной В п. 3 по заданным значениям доверительной вероятности и предельной ошибки выборки найдем необходимый объем выборки. Из начала решения заимствуем значение выборочной доли , найденное по исходному вариационному ряду. Пусть выборка – повторная. По условию, принимая во внимание формулу доверительной вероятности, имеем:   P    p         0, 9786  . По таблице значений функции Лапласа найдем такое t , что   t  0,9786: t 2,3 . Тогда    t и,  t  . Подставляя вместо   выражение из Теоремы 1, приходим к уравнению относительно неизвестной величины n :  t   1   n . Решая это уравнение относительно n , подставляя в полученную формулу известные величины, завершаем решение t 2  1   2,32 0,340,66 n  126,16 127 2 0, 0972 (заметим, что, как и ранее, округление здесь произведено в большую сторону). Аналогично, в случае бесповторной выборки из условия и формулы доверительной вероятности следует равенство  t ' или, принимая во внимание известное выражение для  ' (см. Теорему 1):  t   1    n  1  n N.  Решая это уравнение относительно n , получаем t 2  1   N n 2  N  t 2  1   . Подставляя в правую часть последнего равенства известные значения, окончательно имеем: n 2,32 0,340,661000 122, 9993 123 0, 0922 1000  2,32 0,34,66 . Таким образом, в повторную выборку надо взять 127 коров, чтобы с вероятностью 0,9786 можно было утверждать, что доля всех коров с надоем молока более 40 ц накрывается доверительным интервалом (0,243; 0,437). Аналогично, в бесповторную выборку надо взять 123 коровы, чтобы с вероятностью 0,9786 можно было утверждать, что доля всех коров с надоем молока более 40 ц накрывается доверительным интервалом (0,248; 0,432).