Теория вероятностей и математическая статистика

⌛ 2004 год
👀 567 просмотров
📌 512 загрузок
🏢️ Ташкентский финансовый институт

Выбери формат для чтения

Конспект лекции по дисциплине «Теория вероятностей и математическая статистика», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Теория вероятностей и математическая статистика», Word формат

МИНИСТЕРСТВО ВЫСШЕГО И СРЕДНЕГО СПЕЦИАЛЬНОГО ОБРАЗОВАНИЯ РЕСПУБЛИКИ УЗБЕКИСТАН ТАШКЕНТСКИЙ ФИНАНСОВЫЙ ИНСТИТУТ ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА (КУРС ЛЕКЦИЙ) ДЛЯ ВСЕХ НАПРАВЛЕНИЙ БАКАЛАВРИАТА ОБЛАСТИ ОБРАЗОВАНИЯ« БИЗНЕС И УПРАВЛЕНИЯ» Ташкент 2004 1 ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. (курс лекций) Ш.Ш.Бабаджанов. Ташкент .: Ташкент финансовый институт, . Данный курс состоит из лекций по теории вероятностей и математической статистики и написан в соответствии с требованиями образовательного стандарта для всех направлений бакалавриата области образования «Бизнес и управления», который утвержден MB и ССО Республики Узбекистан от 28 февраля 2002 года. Все лекции, относящиеся к теории вероятностей полностью, а лекции по математической статистике, частично снабжены упражнениями. Некоторые упражнения носят элементарный характер, целью которых является содействовать лучшему усвоению студентами вводимых в соответствующих лекциях понятий. Есть задачи повышенной трудности, которые требуют от студента определенных усилий. С помощью результатов таких задач студент может расширить свои теоретические знания. Курс лекции обсужден и рекомендован к изданию на заседании кафедры «Математики». Протокол № 11 от 13 января 2004г. Зав. кафедрой: профессор К.С.Сафаева. Обсужден и рекомендован к изданию решением Межвузовского учебнометодического совета при Ташкентском финансовом институте. Проректор по учебнометодической работе А.В.Вахабов Составитель: к.ф.-м.н., и.о.доцента Ш.Ш.Бабаджанов Рецензенты: к.ф.-м.н., доцент О.О.Норходжаев к.ф.-м.н., доцент У.Н.Каландаров к.ф.-м.н.,доцент Х.А.Абдуваитов ст. преподаватель Э.Б.Адигамова © Ташкент финансовый институт, 2004 2 Стану ли я отказываться от своего обеда, только потому, что не полностью понимаю процесс пищеварения? Оливер Хевисайд ПРЕДИСЛОВИЕ Эта книга представляет собой обработку лекций, которые автор в течение ряда лет читал студентам кредитно-экономического факультета Ташкентского финансового института. Данный курс лекций написан в соответствии с требованиями образовательного стандарта для всех направлений бакалавриата области образования «Бизнес и управления», который утвержден МВ и ССО Республики Узбекистан от 28 февраля 2002 года. Изложение, в основном очень подробное, местами становится сжатым. Все лекции, относящиеся к теории вероятностей полностью, а лекции по математической статистике, частично снабжены упражнениями. Некоторые упражнения носят элементарный характер, целью которых является содействовать лучшему усвоению студентами вводимых в соответствующих лекциях понятий. Есть задачи повышенной трудности, которые требуют от студента определенных усилий. С помощью результатов таких задач иногда студент может расширить свои теоретические знания, которые в силу ограниченности объема не освещены в лекциях. Поэтому рекомендуется не пропускать упражнения. В математической литературе на русском языке существует очень много курсов по теории вероятностей и математической статистике. Студентам рекомендуется обращаться к этим книгам, поскольку то, что трудно в одном изложении, может оказаться простым в другом Автор 3 ЛЕКЦИЯ № 1 ПРЕДМЕТ И ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ П Л А Н: 1.Предмет теории вероятностей. 2.Виды случайных событий. 3.Классическое определение вероятности. 4.Относительная частота. Устойчивость относительной частоты. 5.Ограниченность классического определения вероятности. Статистическая вероятность. Геометрическая вероятность. КЛЮЧЕВЫЕ СЛОВА: Событие, испытание, опыт, достоверное событие, невозможное событие, случайные события, несовместные события, единственно возможные события, равновозможные события, элементарные события, пространство элементарных событий, вероятность события. Эта лекция посвящена введению основных понятий теории вероятностей – понятий случайного события и его вероятности. Учитывая математическую подготовку студента-экономиста рассмотрим интуитивный подход к этим понятиям. Он базируется на совершенно естественных, но вместе с тем не вполне строгих рассуждениях. Тем не менее этот способ изложения материала позволяет быстрее дойти до сути дела, быстрее овладеет основными понятиями. Чтобы придать понятиям теории вероятностей строгость, присущую другим математическим понятиям, можно воспользоваться аксиоматическим методом академика А.Н.Колмогорова. Он состоит в том, что с самого начала фиксируются не подлежащие определению понятия данной теории. Их основные свойства формулируются в виде аксиом. После этого все предложения теории выводятся из аксиом строго логическим путем, без обращения к посторонним понятиям, наглядности «здравому смыслу» и т. д. Но такое построение теории требует от студента знание абстрактной теории меры, интеграла Лебега и т. д. 1. Под событием понимается всякий факт, который может произойти в данных условиях. Теория вероятностей рассматривает события в тесной связи с теми условиями в которых они наступают. Реализацию совокупности условий S на практике называют испытанием (опытом). События можно подразделить на следующие три вида: достоверные, невозможные и случайные. 4 Достоверным называют событие, которое обязательно произойдёт, если будет осуществлена определенная совокупность условий S . Достоверное событие обозначают, обычно, через Ω . Например, если в сосуде содержится вода при нормальном атмосферном давлении и температуре 20°, то событие «вода в сосуде находится в жидком состоянии» есть достоверное. В этом примере заданные атмосферное давление и температура воды составляют совокупность условий S . Невозможным называют событие , которое заведомо не произойдет , если будет осуществлена совокупность условий S . Невозможное событие обозначают, обычно, через ∅ . Например, событие «вода в сосуде находится в твердом состоянии» заведомо не произойдет, если будет осуществлена совокупность условий предыдущего примера. Случайным называют событие, которое при осуществлении совокупности условий S может либо произойти, либо не произойти. Случайные события обозначают через A,B, C ,K . Например, если брошена монета, то она может упасть так, что сверху будет либо герб, либо надпись. Поэтому событие «при бросании монеты выпал герб» — случайное. Каждое случайное событие, в частности - выпадение герба, есть следствие действия очень многих случайных причин (в нашем примере: сила, с которой брошена монета, форма монеты и многие другие). Невозможно учесть влияние на результат всех этих причин, поскольку число их очень велико и законы их действия неизвестны. Поэтому теория вероятностей не ставит перед собой задачу предсказать, произойдет единичное событие или нет,— она просто не в силах это сделать. По-иному обстоит дело, если рассматриваются случайные события, которые могут многократно наблюдаться при осуществлении одних и тех же условий S , т. е. если речь идет о массовых однородных случайных событиях. Оказывается, что достаточно большое число однородных случайных событий, независимо от их конкретной природы, подчиняется определенным закономерностям, а именно – вероятностным закономерностям. Установлением этих закономерностей и занимается теория вероятностей. Итак, предметом теории вероятностей является изучение вероятностных закономерностей массовых однородных случайных событий. Знание закономерностей, которым подчиняются массовые случайные события, позволяет предвидеть, как эти события будут протекать. Например, хотя, как было уже сказано, нельзя наперед определить результат одного бросания монеты, но можно предсказать, причем с небольшой погрешностью, число появлений герба, если монета будет брошена достаточно большое число раз. При этом предполагается, конечно, что монета бросается в одних и тех же условиях. Методы теории вероятностей широко применяются в различных отраслях естествознания и техники: в теории надежности, теории массового 5 обслуживания, в теоретической физике, геодезии, астрономии, теории стрельбы, теории ошибок наблюдений, теории автоматического управления , общей теории связи и во многих других теоретических и прикладных науках. Теория вероятностей служит также для обоснования математической и прикладной статистики, которая, в свою очередь, используется при планировании и организации производства, при анализе технологических процессов, предупредительном и приемочном контроле качества продукции и для многих других целей. В последние годы методы теории вероятностей все шире и шире проникают в различные области науки и техники, способствуя их прогрессу. Краткая историческая справка. Первые работы, в которых зарождались основные понятия теории вероятностей, представляли собой попытки создания теории азартных игр (Кардано, Гюйгенс, Паскаль, Ферма и др. в XVI— XVII вв.). Следующий этап развития теории вероятностей связан с именем Якова Бернулли (1654—1705). Доказанная им теорема, получившая впоследствии название «Закона больших чисел», была первым теоретическим обоснованием накопленных ранее фактов. Дальнейшими успехами теория вероятностей обязана Муавру, Лапласу, Гауссу, Пуассону и др. Новый, наиболее плодотворный, период связан с именами П. Л. Чебышева (1821—1894) и его учеников А. А. Маркова (1856—1922) и А. М. Ляпунова (1857—1918). В этот период теория вероятностей становится стройной математической наукой. Ее последующее развитие связано с именами С. Н. Бернштейна, В.И.Романовского, А.Н.Колмогорова, А.Я.Хинчина, В.Гнеденко, Н.В.Смирнова, Т.А.Сармысакова, С.Х.Сирожиддинова и др. Выше мы назвали событие случайным, если при осуществлении определенной совокупности условий S оно может либо произойти, либо не произойти. В дальнейшем вместо того, чтобы говорить «совокупность условий S осуществлена», мы будем говорить кратко: «произведено испытание». Таким образом, мы будем рассматривать событие как результат испытания. Пример 1.1. Стрелок стреляет по мишени, разделенной на четыре области. Выстрел — это испытание. Попадание в определенную область мишени — событие. Пример 1.2. В урне имеются цветные шары. Из урны наудачу берут один шар. Извлечение шара из урны есть испытание, Появление шара определенного цвета — событие. 2. События называют несовместными, если появление одного из них исключает появление других событий в одном том же испытании. Пример 2.1. Из ящика с деталями наудачу извлечена деталь. Появление стандартной детали исключает появление нестандартной детали. События «появилась стандартная деталь» и «появилась нестандартная деталь» несовместные. 6 Пример 2.2. Брошена монета. Появление герба исключает появление надписи. события «появился герб» и «появилась надпись» — несовместные. События называют единственно возможными, если появление в результате испытания одного и только одного из них является достоверным событием. Очевидно, единственно возможные события попарно несовместны. Пример 2.3. Приобретены два билета денежно-вещевой лотереи. Обязательно произойдет одно и только одно из следующих событий: «выигрыш выпал на первый билет и не выпал на второй», «выигрыш не выпал на первый билет и выпал на второй», «выигрыш выпал на оба билета», «на оба билета выигрыш не выпал». Эти события единственно возможные. Пример 2.4. Стрелок произвел выстрел по цели. Обязательно произойдет одно из следующих двух событий: попадание или промах эти события единственно возможные. События называют равновозможными, если есть основания считать, что ни одно из этих событий не является более возможным, чем другие. Пример 2.5. Появление герба и появление надписи при бросании монеты есть события равновозможные. действительно, предполагается, что монета изготовлена из однородного материала, имеет правильную цилиндрическую форму и наличие чеканки не оказывает влияния на выпадение той или иной стороны монеты. Пример 2.6. Появление того или иного числа очков на брошенной игральной кости есть события равновозможные. действительно, предполагается, что игральная кость изготовлена из однородного материала, имеет форму правильного многогранника и наличие очков не оказывает влияния на выпадение той или иной грани. 3.Вероятность является одним из основных понятий теории вероятностей. Существует несколько определений этого понятия. здесь будет дано определение, которое называют классическим. Далее (п.5) мы укажем слабые стороны этого определения и приведем другие (статистическое и геометрическое) определения вероятности, позволяющее преодолеть недостатки классического определения. Рассмотрим пример. Пусть в урне содержится 6 одинаковых, тщательно перемешанных шаров, причем 2 из них — красные, 3 — синие и 1 — белый. очевидно, возможность вынуть наудачу из урны цветной шар (т. е. красный или синий) больше, чем возможность извлечь белый шар. Можно ли охарактеризовать эту возможность числом? Оказывается, можно. это число и называют вероятностью события. Таким образом, вероятность есть число, характеризующее возможность появления события. Поставим своей задачей дать количественную оценку возможности того, что взятый наудачу шар будет цветным. Появление цветного шара будем рассматривать в качестве события A . Каждый из возможных результатов испытания (испытание состоит в извлечении шара из урны), т. е. каждое событие, которое может наступить в испытании, назовем элементарным 7 ω ,ω ,ω 1 2 3 исходом. Элементарные исходы обозначим через и т. д. В нашем ω примере возможны следующие 6 элементарных исходов: 1 — появился белый шар; ω 2 ,ω3 ω ,ω ,ω — появился красный шар; 4 5 6 — появился синий шар. Совокупность элементарных событий обозначается Ω и называется пространством элементарных событий. Элементарные события взаимно исключают друг друга и в результате данного опыта обязательно произойдёт одно из них. Пространство элементарных событий образует так называемую п о л н у ю г р у п п у п о п а р н о н е с о в м е с т н ы х с о б ы т и й , так как появление хотя бы одного из событий полной группы есть достоверное событие. Легко видеть, что эти исходы единственно возможные (обязательно появится один шар) и равновозможные (шар вынимают наудачу, шары одинаковы и тщательно перемешаны). Те элементарные исходы, при которых интересующее нас событие наступает, назовем благоприятствующими этому событию. A В нашем примере благоприятствуют событию (появлению цветного шара) следующие 5 исходов: ω 2 ,ω3 ,ω 4 ,ω5 ,ω 6 . A элементарных Отношение числа благоприятствующих событию A исходов к их общему числу называют вероятностью события и обозначают p ( A) . В рассматриваемом примере всего элементарных исходов — 6, из них 5 A благоприятствуют событию . Следовательно, вероятность того, что взятый шар окажется цветным, равна p ( A) = 5 6 . Найденное число (вероятность) и дает ту количественную оценку возможности появления цветного шара, которую мы поставили своей задачей найти. Дадим теперь определение вероятности. A называют отношение числа Вероятностью события благоприятствующих этому событию исходов к общему числу всех единственно возможных и равновозможных элементарных исходов испытания. Таким образом, вероятность события A определяется формулой p ( A) = m n m , где —число элементарных исходов, благоприятствующих событию A ; n — число всех возможных элементарных исходов испытания. Здесь предполагается, что элементарные исходы единственно возможные и равновозможные. 8 Из определения вероятности вытекают следующие ее свойства: 1. Вероятность достоверного события равна единице. Действительно, если событие достоверно, то каждый элементарный исход испытания благоприятствует событию. В этом случае m = n и, следовательно, p ( A) = m n = =1 n n 2. Вероятность невозможного события равна нулю. Действительно, если событие невозможно, то ни один из элементарных исходов испытания не благоприятствует событию. В этом случае m = 0 и, следовательно, p ( A) = m 0 = =1 n n 3. Вероятность случайного события есть положительное число, заключенное между нулем и единицей. Действительно, случайному событию благоприятствует лишь часть из общего числа элементарных исходов испытания. В этом случае 0 < m < n , а, 0< значит, m <1 n и, следовательно, 0 < p( A) < 1 Итак, вероятность любого события удовлетворяет неравенствам 0 ≤ p( A) ≤ 1 4.Относительная частота, наряду с вероятностью, принадлежит к основным понятиям теории вероятностей. Относительной частотой события называют отношение числа испытаний, в которых событие появилось, к общему числу фактически произведенных испытаний. Таким образом, относительная частота события A определяется формулой W ( A) = m n где m — число появлений события, n — общее число испытаний. Сопоставляя определения вероятности и относительной частоты, заключаем: определение вероятности не требует, чтобы испытания производились в действительности; определение же относительной частоты предполагает, что испытания были произведены фактически. Другими словами, вероятность вычисляют до опыта, а относительную частоту — после опыта. Пример 4.1. Отдел технического контроля обнаружил 3 нестандартных детали в партии из 80 случайно отобранных деталей. Относительная частота появления нестандартных деталей 9 W ( A) = 3 80 . Пример 4.2. По цели произвели 24 выстрела, причем зарегистрировано 19 попаданий. Относительная частота поражения цели W ( A) = было 19 24 . Длительные наблюдения показали, что если в одинаковых условиях производятся опыты, в каждом из которых число испытаний достаточно велико, то относительная частота обнаруживает свойство устойчивости. Это свойство состоит в том, что в различных опытах относительная частота изменяется мало (тем меньше, чем больше произведено испытаний), колеблясь около некоторого постоянного числа. Оказалось, что это постоянное число есть вероятность появления события. Таким образом, если опытным путем установлена относительная частота, то полученное число можно принять за приближенное значение вероятности. Подробнее и точнее связь между относительной частотой и вероятностью будет изложена далее. Теперь же проиллюстрируем свойство устойчивости на примерах. Пример 4.3. По данным шведской статистики относительная частота рождения девочек за 1935 г. по месяцам характеризуется следующими числами (числа расположены в порядке следования месяцев, начиная с января): 0,486; 0,489; 0,490; 0,471; 0,478; 0,482; 0,462; 0,484; 0,485; 0,491; 0,482; 0,473. Относительная частота колеблется около числа 0,482, которое можно принять за приближенное значение вероятности рождения девочек. Заметим, что статистические данные различных стран дают примерно то же значение относительной частоты. Пример 4.4. Многократно проводились опыты бросания монеты, в которых подсчитывали число появления герба. Результаты нескольких опытов приведены в таблице 1. Таблица 1 Число бросаний Число появлений Относительная герба частота 4040 2048 0,5069 12000 6019 0,5016 24000 12012 0,5005 Здесь относительные частоты незначительно отклоняются от числа 0,5, причем тем меньше, чем больше число испытаний. Например, при 4040 испытаниях отклонение равно 0,0069, а при 24 000 испытаний — лишь 0,0005. Приняв во внимание, что вероятность появления герба при бросании монеты равна 0,5, мы вновь убеждаемся, что относительная частота колеблется около вероятности. 10 5.«Классическое» определение вероятности предполагает, что число элементарных исходов испытания — конечно. На практике же весьма часто встречаются испытания, число возможных исходов которых — бесконечно. В таких случаях классическое определение неприменимо. Уже это обстоятельство указывает на ограниченность классического определения. Правда, указанный недостаток может быть преодолен путем соответствующего обобщения определения вероятности, например, введением понятия геометрической вероятности. Пусть, например, на плоскости имеется некоторая область G и в ней содержится другая область g . Требуется найти вероятность того, что точка взятая наудачу, попадает в область g . При этом выражению «точка, взятая наудачу в области G » придается следующий смысл: эта точка может попасть в любую точку области G . Вероятность попадания точки в какую-либо часть области G пропорционально мере ( mes ) этой части (длине, площади, объёму и т. д.) и не зависит от ее расположения и формы: p ( A) = mesG mesg . Наиболее слабая сторона классического определения состоит в том, что очень часто невозможно представить результат испытания в виде совокупности элементарных событий. Еще труднее указать основания, позволяющие считать элементарные события равновозможными. Обычно о равновозможности элементарных исходов испытания заключают из соображений симметрии. Так обстоит дело, например, при бросании игральной кости, когда предполагают, что кость имеет форму правильного многогранника (куба). Однако задачи, в которых можно исходить из соображений симметрии, на практике встречаются весьма редко. По этой причине наряду с классическим определением пользуются также статистическим определением вероятности, принимая за вероятность события относительную частоту или число, близкое к ней. Например, если в результате достаточно большого числа испытаний оказалось, что относительная частота весьма близка к числу 0,4, то это число можно принять за статистическую вероятность события. Вопросы для самопроверки 1.Что называется событием? 2.Какие бывают события? 3.Что является предметом теории вероятностей ? 3.Какие виды случайных событий бывают? Дайте их определения. 4.Что называется вероятностью события? Дайте классическое определение вероятности. Приведите ее свойства. 5.Какие еще определения вероятности вы знаете? 6.В чем заключается ограниченность классического определения вероятности? 11 Упражнения 1. В урне имеются 10 шаров: 3 белых и 7 черных. Из урны наугад вынимается один шар. Какова вероятность того, что этот шар: а) белый; б) черный? 2. Из слова «НАУГАД» выбирается наугад одна буква. Какова вероятность того, что это буква «Я»? Какова вероятность того, что это гласная? 3. Брошены три монеты. Найти вероятность того, что выпадут два «герба»? 4. Бросают игральную кость. Какова вероятность выпадения номера 4 на верхней грани упавшей на стол кости? Какова вероятность выпадения номера, большего 4? 5. Брошены две игральные кости. Какова вероятность выпадения на двух костях в сумме не менее 9 очков? Какова вероятность выпадения единицы по крайней мере, на одной кости? 6. Из пяти карточек с буквами А, Б, В, Г, Д наугад одна за другой выбираются три и располагаются в ряд в порядке появления. Какова вероятность, что получится слово «ДВА»? 7. В урне 3 белых и 7 черных шаров. Какова вероятность того, что вынутые наугад два шара окажутся черными? 8. Ребенок играет с четырьмя буквами разрезной азбуки А, А, М, М. Какова вероятность того, что при случайном расположении букв в ряд он получит слово «МАМА»? 9. При наборе телефонного номера абонент забыл две последние цифры и набрал их наудачу, помня только, что эти цифры нечетные и разные. Найти вероятность того, что номер набран правильно? 10. А и В и еще 8 человек стоят в очереди. Определить вероятность того, что А и В отделены друг от друга тремя лицами? 11. Среди 25 экзаменационных билетов 5 «хороших». Два студента по очереди берут по одному билету. Найти вероятности следующих событий: А={первый студент взял хороший билет}; В={второй студент взял хороший билет}; С={оба студента взяли хорошие билеты}. 12. (Задача о выборке.) В партии из 50 изделий 5 бракованных. Из партии наугад выбираются 6 изделий. Определить вероятность того, что среди этих 6 изделий 2 окажутся бракованными. 13. При стрельбе была относительная частота попадания в цель оказалась равной 0,6. Сколько было сделано выстрелов, если получено 12 промахов? 14. В партии из 100 деталей обнаружено 5 нестандартных деталей. Чему равна относительная частота появления нестандартных деталей? 15. При стрельбе из винтовки относительная частота пропадания в цель оказалась равной 0,85. Найти число попаданий, если всего было 120 выстрелов. 16. После бури на участке между 40-м и 70-м километрами телефонной линии произошел обрыв провода. Какова вероятность того, что разрыв произошел между 50-м и 55-м километрами линии? 12 17. (Задача о встрече.) Два лица А и В условились встретиться в определенном месте между двумя и тремя часами дня. Пришедший первым ждет другого в течении10 мин., после чего уходит. Чему равна вероятность встречи этих лиц, если приход каждого из них в течение указанного часа может произойти в любое время? 18. Какой толщины должна быть монета, чтобы вероятность падения на 1 ребро была бы 3 . Литература: [1]: с.14-36; [2]: с.16-32, c.56-59; 13 [3]: 10-18. ЛЕКЦИЯ №2 ТЕОРЕМА СЛОЖЕНИЯ И УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ. УСЛОВНАЯ ВЕРОЯТНОСТЬ П Л А Н: 1. Теорема сложения вероятностей несовместных событий. 2. Полная группа событий. 3.Противопожные события. 4.Теорема умножения вероятностей независимых событий. 5.Условная вероятность. 6. Теорема умножения вероятностей зависимых событий. 7. Теорема сложения вероятностей совместных событий. К Л Ю Ч Е В Ы Е С Л О В А: Полная группа событий, противоположные события, зависимые и независимые события, условная вероятность, совместные события. В предыдущей лекции были введены способы непосредственного определения вероятностей, а именно: классическое, геометрическое и статистическое определения вероятности. Однако не эти непосредственные способы являются основными в теории вероятностей: их применение не всегда удобно и не всегда возможно. Поэтому, как правило, для определения вероятностей событий применяются не непосредственные прямые методы, а косвенные, позволяющие по известным вероятностям одних событий определять вероятности других событий, с ними связанных. Применения этих косвенных методов связаны со следующими основными теоремами теория вероятностей: теорема сложения вероятностей и теорема умножения вероятностей. Эта лекция посвящена этим теоремам. Перед тем как формулировать и доказывать основные теоремы, введем некоторые вспомогательные понятия, а именно понятия о сумме событий и произведении событий. 1. Суммой A + B двух событий A и B называют событие, состоящее в появлении события A или события B , или обоих этих событий. Например, если из орудия произведены два выстрела и A ={попадание при первом выстреле}, B ={попадание при втором выстреле}, то A + B ={попадание при первом выстреле, или при втором, или в обоих выстрелах}. В частности, если два события A и B - несовместные, то A + B -событие, состоящее в появлении одного из этих событий, безразлично какого. Суммой нескольких событий называют событие, которое состоит в появлении хотя бы одного из этих событий. Например, событие A + B + C состоит в появлении одного из следующих событий: A , B , C , A и B , A и C , B и C , A и B и C . 14 Пусть события A и B — несовместные, причем вероятности этих событий даны. Как найти вероятность того, что наступит либо событие A , либо событие B ? Ответ на этот вопрос дает теорема сложения. Т е о р е м а. Вероятность появления одного из двух несовместных событий, безразлично какого, равна сумме вероятностей этих событий: p ( A + B ) = p ( A) + p (B ) . Доказательство. Введем обозначения: n - общее число возможных элементарных исходов испытания; m1 - число исходов, благоприятствующих событию A ; m2 - число исходов, благоприятствующих событию B . Число элементарных исходов, благоприятствующих наступлению либо события A , либо события B , равно m1 + m2 . Следовательно, m1 + m2 m1 m2 = + n n n . m1 m2 = p ( A) = p (B ) Приняв во внимание, что n и n ,окончательно получим p ( A + B ) = p ( A) + p (B ) . p( A + B ) = СЛЕДСТВИЕ. Вероятность появления одного из нескольких попарно несовместных событий, безразлично какого, равна сумме вероятностей этих событий: p( A1 + A2 + ... + An ) = p( A1 ) + p( A2 ) + ... + p( An ) . Доказательство. Рассмотрим три события A, B и C .Так как рассматриваемые события попарно несовместны, то появление одного из трех событий A, B и C , равносильно наступлению одного из двух событий A + B и C , поэтому, в силу указанной теоремы, p( A + B + C ) = p(( A + B ) + C ) = p( A + B ) + p (C ) = p( A) + p(B ) + p (C ) . Для произвольного числа попарно несовместных событий доказательство проводится методом математической индукции. Пример 1.1. В урне 30 шаров: 10 красных, 5 синих и 15 белых. Найти вероятность появления цветного шара. Решение. Появление цветного шара означает появление либо красного, либо синего шара. Вероятность A ={появление красного шара} p ( A) 10 1 = 3 = 3 . Вероятность B ={появление синего шара} 5 1 p (B ) = 30 = 6 . и B несовместны (появление шара одного цвета События A исключает появление шара другого цвета), поэтому теорема сложения применима. 15 Искомая вероятность 1 p ( A + B ) = p ( A) + p (B ) = 3 + 1 6 1 = 2. Пример 1.2. Стрелок стреляет по мишени, разделенной на 2 области. Вероятность попадания в первую область равна 0,45 , во вторую – 0,35. Найти вероятность того, что стрелок при одном выстреле попадает либо в первую, либо во вторую область. Решение. События A ={стрелок попал в первую область} и B = {стрелок попал во вторую область} — несовместны (попадание в одну область исключает попадание в другую), поэтому теорема сложения применима. Искомая вероятность p ( A + B ) = p( A) + p(B ) =0,45+0,35=0,80. 2. Полной группой называют совокупность единственно возможных событий испытания. Пример 2.1. Стрелок производит по мишени 2 выстрела. События A1 ={одно попадание}, A2 ={2 попадания} и A3 ={промах} образуют полную группу. Т е о р е м а. Сумма вероятностей событий A1 , A2 ,..., An , образующих полную группу, равна единице: p( A1 ) + p( A2 ) + ... + p( An ) = 1. Доказательство. Так как появление одного из событий полной группы достоверно, а вероятность достоверного события равна единице, то p( A1 + A2 + ... + An ) = 1. (1) Любые два события полной группы несовместны, поэтому применить теорему сложения: p( A1 + A2 + ... + An ) = p( A1 ) + p( A2 ) + ... + p( An ) можно (2) Сравнивая (1) и (2), получим p( A1 ) + p( A2 ) + ... + p( An ) = 1. Пример 2.2. Консультационный пункт института получает пакеты с контрольными работами из городов A, B и C . Вероятность получения пакета из города A равна 0,7, из города B — 0,2. Найти вероятность того, что очередной пакет будет получен из города C . Решение. События «пакет получен из города A », «пакет получен из города B » и «пакет получен из города C » образуют полную группу, поэтому сумма вероятностей этих событий равна единице: 0,7 + 0,2 + p =1. Отсюда искомая вероятность p = 1— 0,9 = 0,1. 3. Противоположными называют два единственно возможных события, образующих полную группу. Если одно из двух противоположных событий обозначено через A , то другое принято обозначать A . 16 Пример 3.1. Попадание и промах при выстреле по цели — противоположные события. Если A ={попадание}, то A ={промах}. Пример 3.2. Из ящика наудачу взята деталь. События «появилась стандартная деталь» и «появилась нестандартная деталь» — противоположные. ТЕОРЕМА. Сумма вероятностей противоположных событий равна единице: () p( A) + p A = 1. Доказательство. Противоположные события образуют полную группу, а сумма вероятностей событий, образующих полную группу, равна единице (п. 2). Замечание 1. Если вероятность одного из двух противоположных событий обозначена через p , то вероятность другого события обозначают через q . Таким образом, в силу предыдущей теоремы p + q = 1. Пример 3.3. Вероятность того, что день будет дождливым p =0,7. Найти вероятность того, что день будет ясным. Решение. События «день дождливый» и «день ясный» — противоположные, поэтому искомая вероятность q = 1 − p =1- 0,7 = 0,3. Замечание 2. При решении задач на отыскание вероятности события A часто выгодно сначала вычислить вероятность события A , а затем найти искомую вероятность по формуле: () p ( A) = 1 − p A . 4. Два события называют независимыми, если вероятность одного из них не зависит от появления или не появления другого. Пример 4.1. Монета брошена 2 раза. Вероятность появления герба в первом испытании (событие A ) не зависит от появления или не появления герба во втором испытании (событие B ). В свою очередь, вероятность выпадения герба во втором испытании не зависит от результата первого испытания. Таким образом, события A и B — независимые. Пример 4.2. В урне 5 белых и 3 черных шара. Из нее наудачу берут один 5 шар. Очевидно, вероятность появления белого шара (событие A ) равна 8 . Взятый шар возвращают в урну и испытание повторяют. Вероятность появления белого шара при втором испытании (событие B ), по-прежнему, 5 8 равна и не зависит от результата первого испытания. В свою очередь, вероятность извлечения белого шара при первом испытании не зависит от исхода второго испытания. Таким образом, события A и B — независимые. Несколько событий называют попарно независимыми, если каждые два из них независимы 17 Пример 4.3. Монета брошена 3 раза. Пусть A, B, C — события, состоящие в появлении герба соответственно в первом, втором и третьем испытаниях. Ясно, что каждые два из рассматриваемых событий (т. е. A и B , A и C , B и C ) — независимы. Таким образом, события A, B и C — попарно независимые. Два события называют зависимыми, если вероятность появления одного из них зависит от наступления или не наступления другого события. Пример 4.4. В ящике 100 деталей: 80 стандартных и 20 нестандартных. Наудачу берут одну деталь, не возвращая ее в ящик. Если появилась стандартная деталь (событие A ), то вероятность извлечения стандартной детали при втором испытании (событие B ) 79 p (B ) = 99 ; если же в первом испытании 80 вынута нестандартная деталь, то вероятность p(B ) = 99 . Таким образом, вероятность появления события B зависит от наступления или не наступления события A . События A и B — зависимые. Произведением двух событий A и B называют событие AB , состоящее в совместном появлении этих событий. Например, если в ящике содержатся детали, изготовленные заводами № 1 и № 2, и A ={появление стандартной детали}, B ={деталь изготовлена заводом № 1}, то AB ={появление стандартной детали завода № 1}. Произведением нескольких событий называют событие, состоящее в совместном появлении всех этих событий. Пусть события A и B независимые, причем вероятности этих событий известны. Как найти вероятность совмещения событий A и B ? Ответ на этот вопрос дает теорема умножения. Т е о р е м а. Вероятность совместного появления двух независимых событий равна произведению вероятностей этих событий: p( AB ) = p( A) ⋅ p(B ). Доказательство. Введем обозначения: n — число возможных элементарных исходов испытания, в которых событие A наступает или не наступает; n1 — число исходов, благоприятствующих событию A (n1 ≤ n ) ; m — число возможных элементарных исходов испытания, в которых событие B наступает или не наступает; m1 — число исходов, благоприятствующих событию B (m1 ≤ m ) . Общее число возможных элементарных исходов испытания (в которых наступает и A и B , либо A и B , либо A и B , либо A и B ) равно nm . Действительно, каждый из n исходов, в которых событие A наступает или не наступает, может сочетаться с каждым из m исходов, в которых событие B появляется или не появляется. Из этого числа n1m1 исходов благоприятствуют совмещению событий A и B . Действительно, каждый из n1 исходов, благоприятствующих событию A , может сочетаться с каждым из m1 исходов, благоприятствующих событию B . 18 Вероятность совместного наступления событий A и B n1m1 n1 m1 = ⋅ nm n m n1 m1 = p ( A) = p (B ) Приняв во внимание, что n и m , окончательно получим: p ( AB ) = p ( A) ⋅ p (B ) . p( AB ) = Для того чтобы обобщить теорему умножения на несколько событий, введем понятие независимости событий в совокупности. Несколько событий называют независимыми в совокупности, если каждое из них и любая комбинация остальных событий (содержащая либо все остальные события, либо часть из них) есть события независимые. Например, если события A1 , A2 и A3 независимые в совокупности, то независимыми являются события: A1 и A2 , A1 и A3 , A2 и A3 , A1 A2 и A3 , A1 A3 и A2 , A2 A3 и A1 . Подчеркнем, что если несколько событий независимы попарно, то отсюда еще не следует их независимость в совокупности. В этом смысле требование независимости событий в совокупности сильнее требования их по парной независимости. (см. упр. 6.) Приведем теперь следствие из теоремы умножения. С л е д с т в и е. Вероятность совместного появления нескольких событий, независимых в совокупности, равна произведению вероятностей этих событий: p( A1 A2 ... An ) = p( A1 ) p( A2 )... p( An ) Доказательство. Рассмотрим три события A, B, C . Совмещение событий A, B и С равносильно совмещению событий AB и C , поэтому p( ABC ) = p(( AB ) ⋅ C ) Так как события A, B и С независимы в совокупности, то независимы, в частности события A, B и С , а также A и B . По теореме умножения для двух независимых событий будем иметь: p (( AB ) ⋅ C ) = p ( AB ) ⋅ p (C ) = p ( A) ⋅ p (B ) ⋅ p (C ) . Итак, окончательно получим p ( ABC ) = p ( A) ⋅ p (B ) ⋅ p (C ) . Для произвольного n доказательство проводится методом математической индукции. Замечание. Если события A1 , A2 ,..., An независимы совокупности, то и противоположные им события A1 , A2 ,..., An также независимы в совокупности. Пример 1. Найти вероятность совместного появления герба при одном бросании двух монет. Решение. Вероятность появления герба первой монеты (событие A ) p ( A) 1 = 2 . Вероятность появления герба второй монеты (событие B ) 1 p (B ) = 2 . 19 Так как события A и B независимые, то искомая вероятность по теореме умножения равна 1 1 1 p ( AB ) = p ( A) ⋅ p (B ) = 2 · 2 = 4 . 5.Пусть события A и B зависимые. Из определения зависимых событий следует, что вероятность одного из событий зависит от появления или не появления другого. Поэтому, если нас интересует вероятность, например события B , то важно знать, наступило ли событие A . Условной вероятностью p A (B ) называют вероятность события B , вычисленную в предположении, что событие A уже наступило. Пример 5.1. В урне содержится 3 белых и 3 черных шара. Из урны дважды вынимают наудачу по одному шару, не возвращая их в урну. Найти вероятность появления белого шара при втором испытании (событие B ), если при первом испытании был извлечен черный шар (событие A ). Решение. После первого испытания в урне осталось всего 5 шаров, из них 3 белых. Искомая условная вероятность 3 p A (B ) = 5 . Замечание. Из определения независимых событий следует, что появление одного из них не изменяет вероятности наступления другого. Поэтому для независимых событий справедливы равенства: p A (B ) = p ( B ) и p B ( A) = p ( A) Таким образом, условные вероятности независимых событий равны их безусловным вероятностям. 6. Пусть события A и B зависимые, причем вероятности p( A) и p A (B ) известны. Как найти вероятность совмещения этих событий, т. е. вероятность того что появится и событие А и событие В ? Ответ на этот вопрос дает теорема умножения вероятностей зависимых событий. Т е о р е м а . Вероятность совместного появления двух зависимых событий равна произведению вероятности одного из них на условную вероятность другого вычисленную в предположении, что первое событие уже наступило: p ( AB ) = p ( A) ⋅ p A (B ) . Доказательство. Введем обозначения: n — число возможных элементарных исходов испытания, в которых событие A наступает или не наступает; n1 — число исходов, благоприятствующих событию A (n1 ≤ n ) ; m — число элементарных исходов испытания, в которых наступает событие B , в предположении, что событие A уже наступило, т.е. эти исходы благоприятствуют наступлению события AB (m ≤ n1 ) . Вероятность совместного наступления событий A и B 20 p ( AB ) = m n1 m = ⋅ n n n1 . n1 m1 = p ( A) = p A (B ) Приняв во внимание, что n и m , окончательно получим: p ( AB ) = p ( A) ⋅ p A (B ) . (3) Замечание. Применив формулу (3) к событию BA , имеем: p (BA) = p(B ) ⋅ pB ( A) , или (поскольку событие BA не отличается от события AB ) p ( AB ) = p (B ) ⋅ pB ( A) (4) Сопоставляя формулы (3) и (4), заключаем о справедливости равенства p ( A ) ⋅ p A ( B ) = p (B ) ⋅ p B ( A) СЛЕДСТВИЕ. Вероятность совместного появления нескольких зависимых событий равна произведению вероятности одного из них на условные вероятности всех остальных, причем вероятность каждого последующего события вычисляется в предположении, что все предыдущие события уже появились: p( A1 A2 ... An ) = p( A1 ) ⋅ p A1 ( A2 ) ⋅ p A1 A2 ( A3 )... p A1 A2 ... An −1 ( An ) где p A1 A2 ... An −1 ( An ) , — вероятность события , вычисленная в предположении, что события A1 , A2 ,..., An −1 наступили. В частности, для трех зависимых событий будем иметь: p ( ABC ) = p ( A) ⋅ p A (B ) ⋅ p AB (C ) . Заметим, что порядок, в котором расположены события, может быть выбран любым, т. е. безразлично, какое событие считать первым, вторым и т. д. n Для произвольного доказательство производится методом математической индукции. Пример 6.1. У сборщика имеется 3 конусных и 7 эллиптических валиков. Сборщик наудачу взял один валик, а затем второй. Найти вероятность того , что первый из взятых валиков – конусный, а второй – эллиптический. Решение. Вероятность того, что первый из взятых валиков окажется конусным (событие A ) 3 p ( A) = 10 . Вероятность того, что второй из валиков окажется эллиптическим (событие B ), вычисленная в предположении, что первый валик – конусный, т.е. условная вероятность равна 7 p A (B ) = 9 . Искомая вероятность по теореме умножения вероятностей зависимых событий равна 3 7 7 p ( AB ) = p ( A) ⋅ p A (B ) = 10 · 9 = 30 . 21 Замечание. Выразим условную p ( AB ) = p ( A) ⋅ p A (B ) считая p ( A) ≠ 0 : p A (B ) = вероятность из соотношения p( AB ) p ( A) 7. Нами была рассмотрена (в п.1) теорема сложения для несовместных событий. Здесь будет изложена теорема сложения для совместных событий. Два событий называют совместными, если появления одного из них не исключает появления другого в одном и том же испытании. Пример7.1. A ={появление четырех очков} при бросании игральной кости; B ={появление четного числа очков}. События A и B – совместные. Пусть события A и B совместны, причем даны вероятности этих событий и вероятность их совместного появления. Как найти вероятность события A + B , состоящего в том что появится хотя бы одно из событий A и B ? Ответ на этот вопрос даёт теорема сложения вероятностей совместных событий. Т е о р е м а . Вероятность появления хотя бы одного из двух совместных событий равна сумме вероятностей этих событий без вероятности их совместного появления: p ( A + B ) = p( A) + p (B ) − p ( AB ) . Доказательство. Поскольку события A и B по условию совместны, то событие A + B наступит, если наступит одно из следующих трех несовместных событий: AB, AB или AB . По теореме сложения вероятностей несовместных событий ( ) ( ) p( A + B ) = p AB + p AB + p( AB ) (5) Событие A произойдет, если наступит одно из двух несовместных событий: AB или AB . По теореме сложения вероятностей несовместных событий имеем: Отсюда ( ) p( A) = p AB + p( AB ) ( ) p AB = p( A) − p( AB ) . Аналогично будем иметь: ( ) p AB = p(B ) − p( AB ) Подставив полученные последние две формулы в (5) получим p ( A + B ) = p( A) + p (B ) − p ( AB ) . Замечание. При использовании полученной формулы следует иметь ввиду, что события A и B могут быть как независимыми так и зависимыми. Пример7.2. Вероятности попадания в цель при стрельбе первого и второго орудий соответственно равны: p1 = 0,7 ; p2 = 0,8. Найти вероятность попадания при одном залпе (из обеих орудий) хотя бы одним из орудий. 22 Решение. Вероятность попадания в цель каждым из орудий не зависит от результата стрельбы из другого орудия, поэтому события A ={попадания первого орудия} и B ={попадания второго орудия} независимы. Вероятность события AB ={оба орудия дали попадания} p ( AB ) = p ( A) ⋅ p (B ) =0,7·0,8 = 0,56. Искомая вероятность p ( A + B ) = p( A) + p(B ) − p ( AB ) = 0,7 + 0,8 - 0,7·0,8 = 0,94. Вопросы для самопроверки 1.Что называется суммой: а) двух событий; б) двух несовместных событий; в) нескольких событий? 2.Сформулируйте теорему сложения для: а) двух несовместных событий; б) нескольких попарно несовместных событий; в) двух совместных событий. 3.Что называется полной группой событий? 4. Какие события называются противоположными? 5.Дайте определения: а) двух независимых и зависимых событий; б) попарно независимых (нескольких) событий; в) независимых (нескольких) событий по совокупности. 6.Если несколько событий независимы попарно, то следует ли отсюда их независимость в совокупности? 7. Что называется произведением: а) двух событий; б) нескольких событий? 8.Сфромулируйте теорему умножения вероятностей для: а) двух независимых событий; б) нескольких событий, независимых по совокупности; в) двух и более зависимых событий. 9. Что называется условной вероятностью? 23 Упражнения 1. Бросили монету и игральную кость. Определить, зависимы или независимы события: A ={выпал «герб»}; B ={выпало четное число очков}. 2. Брошены последовательно три монеты. Определить зависимы или независимы события: A ={выпадение «герба» на первой монете}; B ={выпадение хотя бы одной «цифры»}. 3. Доказать, что если A и B - независимые события с положительными вероятностями, то они совместны. 4. Бросили игральную кость. Какова вероятность того, что выпало простое число очков, если известно, что число выпавших очков нечетно? 5. В ящике лежат 12 красных, 8 зеленных и 10 синих шаров. Наудачу вынимаются два шара. Какова вероятность, что вынутые шары разного цвета, если известно, что не вынут синий шар? 6. Привести пример, показывающий, что из по парной независимости событий A , B , C не следует их независимость в совокупности. 7. В одном ящике 5 белых и 10 красных шаров, в другом ящике 10 белых и 5 красных шаров. Найти вероятность того, что хотя бы из одного ящика будет вынут один белый шар, если из каждого ящика вынуто по одному шару. 8. Вероятность того, что в течение одной смены возник неполадка станка, равна 0,05. Какова вероятность того, что не произойдет ни одной неполадки за три смены? 9. Предположим, что для одной торпеды вероятность потопить 1 корабль равна 2 . Какова вероятность того, что 4 торпеды потопят корабль, если для потопления корабля достаточно одного попадания торпеды в цель? 10. В ящике 10 красных и 6 синих пуговиц. Вынимаются наудачу две пуговицы. Какова вероятность того, что пуговицы будут одноцветными? 11. Найти вероятность того, что наудачу взятое двузначное число окажется кратным 2, либо 5, либо тому, и другому одновременно. 12. Общество из n человек садится за круглый стол. Найти вероятность того, что два определенных лица окажутся рядом. 13. Студент пришел на зачет, зная из 30 вопросов только 24. Какова вероятность сдать зачет, если после отказа отвечать на вопрос преподаватель задает еще один вопрос? 14. В круг радиуса R вписан квадрат. Чему равна вероятность того, что поставленные наудачу внутри круга 2 точки окажутся внутри квадрата? 15. Сколько раз нужно бросить игральную кость, чтобы с вероятностью, не меньшей: а) 0,5; б) 0,9, хотя бы один раз выпала шестерка (шесть очков)? 16. Бросаются 4 игральные кости. Найти вероятность того, что на них выпадет по одинаковому числу очков. 24 17. Два охотника стреляют в волка, причем каждый делает по одному выстрелу. Для первого охотника вероятность попадания в цель 0,7, для второго 0,8. Какова вероятность попадания в волка (хотя бы при одном выстреле) ? Как изменится результат, если охотники сделают по два выстрела? 18. Гардеробщица выдала одновременно номерки четырем лицам, сдавшим в гардероб свои шляпы. После этого она перепутала все шляпы и повесила их наугад. Найти вероятности следующих событий: A = {каждому из четырех лиц гардеробщица выдаст его собственную шляпу}; B = {ровно три лица получат свои шляпы}; C = {ровно два лица получат свои шляпы}; D = {ровно одно лицо получит свою шляпу}; E = {ни одно из четырех лиц не получит своей шляпы}. Литература: [1]: c.37-52; [2]: c.33-51; [3]: c.19-21. 25 Л Е К Ц И Я №3 ФОРМУЛА ПОЛНОЙ ВЕРОЯТНОСТИ И ФОРМУЛЫ БАЙЕСА П Л А Н: 1. Формула полной вероятности. 2. Формулы Байеса. К Л Ю Ч Е В Ы Е С Л О В А: Полная вероятность, послеопытные (апостериорные ) и доопытные (априорные) вероятности, гипотезы. Следствием основных теорем – теоремы сложения вероятностей и теоремы умножения вероятностей – является так называемая формула полной вероятности. А следствием теоремы умножения и формулы полной вероятности является так называемая теорема гипотез или формула Байеса. Эта лекция посвящается этим формулам. 1. Одним из эффективных методов подсчета вероятностей является формула полной вероятности, с помощью которой решается широкий круг задач. Т е о р е м а (теорема о полной вероятности). Пусть B1 , B2 ,..., Bn — попарно не-совместные события, имеющие соответственно вероятности p(B1 ), p(B2 ),..., p(Bn ) . Пусть событие A может наступить только вместе с одним из pB1 ( A), pB2 ( A),..., pBn ( A) B1 , B2 ,..., Bn событий , и —условные вероятности события А при условии, что B1 , B2 ,..., Bn наступили. Тогда вероятность p( A) события A равна p ( A) сумме произведений вероятностей событий Bn на условные вероятности B : n p( A) = p(B1 ) ⋅ pB1 ( A) + p(B2 ) ⋅ pB2 ( A) + ... + p(Bn ) ⋅ pBn ( A) . (1) Доказательство. По условию, A(B1 + B2 + ... + Bn ) = A и AB1 + AB2 + ... + ABn = A . Применяя сначала теорему сложения, а затем теорему ум-ножения вероятностей, получим p( A) = p( AB1 ) + p( AB2 ) + ... + p( ABn ) = p(B1 ) ⋅ pB1 ( A) + p(B2 ) ⋅ pB2 ( A) + ... + p(Bn ) ⋅ pBn ( A) . Формула (1) называется формулой полной вероятности. Пример 1.1. Производится серия из четырех выстрелов по некоторому объекту. Вероятности попадания в цель одного, двух, трех и четырех снарядов заданы таблицей 1 2 3 4 0,4 0,26 0,22 0,03 Вероятности разрушения объекта при условии попадания одного, двух, трех и четырех снарядов даны в таблице 26 1 2 3 4 0,5 0,7 0,8 0,99 Найти вероятность разрушения объекта. Решение. Первая таблица задает вероятности p(B1 ), p(B2 ), p(B3 ), p(B4 ) , а вторая p ( A), p ( A), p ( A), p ( A) B B B B —вероятности (событие Bi состоит в попадании в цель i ( i =1, 2, 3, 4) снарядов, событие A ={разрушение мишени}). По формуле (1) находим p ( A) = 0,4 · 0,5 + 0,26 · 0,7 + 0,22 · 0,8 + 0,03 · 0,99 = 0,5877. 1 2 3 4 2. Теперь приступаем к обсуждению формул Байеса. ТЕОРЕМА (теорема Байеса). Пусть события B1 , B2 ,..., Bn попарно несовместны и пусть событие A может наступить только вместе с одним из событий B1 , B2 ,..., Bn - Известны вероятности p(B1 ), p(B2 ),..., p(Bn ) событий B1 , B2 ,..., Bn , и условные вероятности p B1 ( A ), p B2 ( A ),..., p Bn ( A ) события A при условиях B1 , B2 ,..., Bn .Известно также, что событие A наступило. Тогда вероятности событий B1 , B2 ,..., Bn при условии, что событие A наступило, находятся по формулам p (Bi ) ⋅ pBi ( A) , i = 1,2,..., n p A (Bi ) = p (B1 ) ⋅ pB1 ( A) + p (B2 ) ⋅ pB2 ( A) + ... + p (Bn ) ⋅ pBn ( A) Комментари и к теореме. p A (Bi ) называются после опытными (апостериорными) вероятностями событий Bi , а вероятности p(Bi ) — до опытными (априорными) вероятностями событий Bi ). Эти вероятности различаются, как будет видно из 1) Вероятности примеров. 2) Знаменатель в правой части частью формулы (1) и равен p( A) . 3) События B1 , B2 ,..., Bn называются формулы часто (2) совпадает с правой гипотезами и формула (2) Bi , при которой наступило событие A. дает вероятности гипотезы Доказательство. Согласно теореме умножения вероятностей, имеем p( ABi ) = p A (Bi ) ⋅ p( A) = p(Bi ) ⋅ pBi ( A) Отсюда p A (Bi ) = . p(Bi ) ⋅ pBi ( A) p ( A) (3) Подставляя в знаменатель правой части равенства (3) вместо p( A) правую часть формулы (1), получаем соотношение (2). Формулы (2) называются формулами Байеса (или формулами гипотез). 27 Пример 2.1. Поломка прибора (событие A ) может быть вызвана одной из трех причин B1 , B2 , B3 , вероятности которых p(B1 ) = 0,7, p(B2 ) =0,2, p(B3 ) = 0,1. При ( ) наличии этих причин поломка прибора происходит с вероятностями pB A = 0,1, 1 p B 2 ( A) =0,2, p B3 ( A ) = 0,99. Известно, что прибор вышел из строя. Найти вероятности p A (B1 ) , p A (B2 ) , p A (B3 ) . Решение. Используя формулы (2), получим 0,7 ⋅ 0,1 0,07 7 = = ; p A (B1 ) 0,7 ⋅ 0,1 + 0,2 ⋅ 0,2 + 0,1 ⋅ 0,2 0,13 13 0,2 ⋅ 0,2 0,04 4 = = ; p A (B2 ) = 0,7 ⋅ 0,1 + 0,2 ⋅ 0,2 + 0,1 ⋅ 0,2 0,13 13 = 0,1 ⋅ 0,2 0,02 2 = = . p A (B3 ) = 0,7 ⋅ 0,1 + 0,2 ⋅ 0,2 + 0,1 ⋅ 0,2 0,13 13 Из результатов вычислений видно, что апостериорные вероятности отличаются от априорных. Вопросы для самопроверки 1. Сформулируйте теорему о полной вероятности. 2. На чем основывается доказательство теоремы вероятности? 3. Сформулируйте теорему Байеса. 4. Что называется гипотезами? 28 о полной Упражнения 1. Имеются два одинаковых ящика с шарами. В первом ящике 2 белых и 1 черный шар, во втором - 1 белый и 4 черных шара.. Наудачу выбирают один ящик и вынимают из него шар. Какова вероятность, что вынутый шар окажется белым? 2. В группе спортсменов 20 лыжников, б велосипедистов и 4 бегуна. Вероятность выполнить квалификационную норму такова: для лыжника 0,9, для велосипедиста 0,8 и для бегуна 0,75. Найти вероятность того, что спортсмен выбранный наудачу, выполнит норму 3. Сборщик получил 3 коробки деталей, изготовленных заводом № 1, и 2 коробки деталей, изготовленных заводом № 2.Вероятность того, что деталь завода № 1 стандартна равна 0,8, а завода № 2 — 0,9. Сборщик наудачу извлек деталь из наудачу взятой коробки Найти вероятность того, что извлечена стандартная деталь. 4. В первом ящике содержится 20 деталей, из них 15 стандартных; во втором -30 деталей, из них 24 стандартных; в третьем -10 деталей, из них 6 стандартных. Найти вероятность того, что наудачу извлеченная деталь из наудачу взятого ящика — стандартная. 5. В телевизионном ателье имеется 4 кинескопа. Вероятности того, что кинескоп выдержит гарантийный срок службы, соответственно равны 0,8; 0,85; 0,9; 0,95. Найти вероятность того, что взятый наудачу кинескоп выдержит гарантийный срок службы. 6. В двух ящиках имеются радиолампы. В первом ящике содержится 12ламп, из них 1 нестандартная; во втором 10 ламп, из них 1 нестандартная. Из первого ящика наудачу взята лампа и переложена во второй. Найти вероятность того, что наудачу извлеченная из второго ящика лампа будет нестандартной. 7.В цехе работают 20 станков. Из них10 марки А, 6 марки В и марки С. Вероятность того, что качество детали окажется отличным, для этих станков соответственно равна: 0,9; 0,8 и 0,7. Какой процент отличных деталей выпускает цех в целом? 8. Имеются две урны: в первой 3 белых шара и 2 черных; во второй 4 белых и 4 черных. Из первой урны во вторую перекладывают, не глядя, два шара. После этого из второй урны берут один шар. Найти вероятность то-го, что этот шар будет белым. 9. Студент знает не все экзаменационные билеты. В каком случае вероятность вытащить неизвестный билет будет для него наименьшей, когда он тащит билет первым или последним? 10. Предположим, что 5% всех мужчин и 0,25% всех женщин дальтоники. Наугад выбранное лицо страдает дальтонизмом. Какова вероятность того, что это мужчина? (Считать, что мужчин и женщин одинаковое число.) 11. Два стрелка независимо один от другого стреляют по одной мишени, делая каждый по одному выстрелу. Вероятность попадания в мишень для 29 первого стрелка 0,8, для второго 0,4. После стрельбы в мишени обнаружена одна пробоина. Найти вероятность того, что в мишень попал первый стрелок. 12. На фабрике, изготовляющей болты, первая машина производит 25%, вторая —35%, третья — 40% всех изделий. В их продукции брак составляет соответственно 5, 4 и 2%. а) Какова вероятность того, что случайно выбранный болт дефектный? б) Случайно выбранный из продукции болт оказался дефектным. Какова вероятность того, что он был произведен первой, второй, третьей машиной? 13. В ящик, содержащий 3 одинаковых детали, брошена стандартная деталь, а затем наудачу извлечена одна деталь. Найти вероятность того, что извлечена стандартная деталь, если равновероятны все возможные предположения о числе стандартных деталей первоначально находившихся в ящике. 14. При отклонении от нормального режима работы автомата срабатывает сигнализатор С-1 с вероятностью 0,8, а сигнализатор С-11 срабатывает с вероятностью 1. Вероятности того, что автомат снабжен сигнализатором С-1 или С-11 соответственно равны 0,6 и 0,4. Получен сигнал о разладке автомата Что вероятнее: автомат снабжен сигнализатором С-1 или С-11? Литература: [1]: c.52-53; [2]: c.51-55; [3]: c.28-30 30 ЛЕКЦИЯ №4 ПОСЛЕДОВАТЕЛЬНОСТЬ НЕЗАВИСИМЫХ ИСПЫТАНИЙ. ФОРМУЛА БЕРНУЛЛИ П Л А Н: 1. Последовательность независимых испытаний (схема Бернулли). 2.Формула Бернулли. 3.Наивероятнейшее число появлений события в независимых испытаниях. К Л Ю Ч Е В Ы Е С Л О В А: Последовательность независимых испытаний, схема Бернулли, формула Бернулли, наивероятнейшее число. При практическом применении теории вероятностей часто приходится встречаться с задачами, в которых одно и то же испытание или аналогичные испытания повторяются неоднократно. В результате каждого испытания может появиться или не появиться некоторое событие A , причем нас интересует не результат каждого отдельного испытания, а общее число появлений события A в результате испытаний. Например, если производится серия выстрелов по одной и той же цели, нас, как правило, интересует не результат каждого выстрела, а общее число попаданий. Такие задачи рассматриваются на этой и следующей лекциях. Оказываются, при определенных условиях, они решаются весьма просто. 1. Пусть производится серия из n испытаний, в каждом из которых событие A может наступить, а может и не наступить. Пусть при этом выполнено следующее условие: вероятность p наступления события A в каждом испытании постоянна, т. е. не зависит ни от номера испытания, ни от результатов предыдущих испытаний. Это условие означает, что последовательность испытаний независима (вероятность p не зависит от результатов предыдущих испытаний). Последовательность испытаний, удовлетворяющих указанному условию, называется последовательностью независимых испытаний (или схемой Бернулли). Схема Бернулли полностью определяется двумя числами — натуральным числом n , означающим количество испытаний, и числом p ( 0 < p < 1 ), означающим вероятность наступления события A в одном испытании (безразлично, в каком по счету). Примеры. Следующие серии опытов представляют собой конкретные модели схемы Бернулли: 1.1.Монету подбрасывают n раз; вероятность появления герба в одном испытании есть p=1 2. 31 1.2.Производят n выстрелов по мишени. Предполагается, что вероятность попадания в мишень при каждом выстреле постоянна и равна p. Отметим, однако, что если в процессе стрельбы стрелок пристрелялся и стал лучше поражать мишень, то такая последовательность испытаний не является схемой Бернулли. 2. Из кучи зерна отбирают n зерен для проверки их на всхожесть. Вероятность того, что каждое зерно при проверке дает положительный результат, постоянна (так будет, например, в том случае, когда куча зерна большая, а зерна отбирают наугад после перемешивания). В связи со схемой Бернулли рассматривают такие задачи: 1. Найти вероятность Pn (k ) того, что в серии из n испытаний событие A наступит ровно k раз. Решение этой задачи дает формула Бернулли (см. ниже, п.2). 2. Найти вероятность Pn (k1 , k2 ) того, что в серии из n испытаний количество k наступлений события A будет находиться в пределах k1 ≤ k ≤ k2 . 3. Решить задачу 1 для больших чисел n и k с (формула Бернулли, дающая решение задачи 1, неудобна для вычислений при больших n и k ). Задача 3 решается с помощью локальной теоремы Муавра- Лапласа (следующая лекция). 4. Решить задачу 2 для больших чисел n , k1 , k2 (формула Бернулли мало 1 2 пригодна для вычислений Pn (k1 , k2 ) при больших ). Задача решается с помощью интегральной теоремы Муавра-Лапласа (следующая лекция). n ,k ,k 2. Теорема. Вероятность Pn (k ) того, что в последовательности из n испытаний в схеме Бернулли событие A наступит ровно n раз, выражается формулой Pn (k ) = Cnk p k q n − k n! где С = (n − k )!k! число сочетании из n элементов по k ; p — вероятность наступления события A в одном испытании; q = 1 − p — вероятность не наступления события A в одном испытании. k n Доказательство. Рассмотрим последовательность из k плюсов и n − k минусов, расположенных в произвольном, но фиксированном порядке. Каждая такая последовательность задает событие при « n -кратном испытании по схеме Бернулли: знак « + » или «-» на k -м месте последовательности означает соответственно наступление или не наступление события A при k -м испытании. Вероятность такого события (расположение k плюсов и n − k минусов в произвольном, но фиксированном порядке) в силу теоремы k n−k умножения вероятностей равна p q и не зависит от порядка плюсов и минусов в рассматриваемой последовательности. При этом последовательности 32 с различным расположением k плюсов и n − k минусов определяют различные попарно несовместные события. Количество последовательностей из k плюсов и n − k минусов равно числу сочетаний из n элементов по k . Действительно, последовательность будет полностью определена, если из множества номеров {1,2,3,..., n} выбрано k штук и плюсы последовательности поставлены на места с номерами из выбранного множества. Отсюда по теореме сложения вероятностей получаем Pn (k ) = Cnk p k q n − k , где, как известно, число сочетаний из n элементов по k выражается формулой n! С = (n − k )!k! . k n Примеры. 2.1. Найти вероятность того, что при 10-кратном бросании монеты выпадет ровно 3 герба. Решение. Здесь получим n = 10, k = 3, ⎛1⎞ P10 (3) = C ⎜ ⎟ ⎝2⎠ 3 10 3 p= 7 1 2 . Согласно формуле Бернулли, 10 10 ⋅ 9 ⋅ 8 ⎛ 1 ⎞ 120 ⎛1⎞ ⎜ ⎟ = ⎜ ⎟ = 1⋅ 2 ⋅ 3 ⎝ 2 ⎠ 1024 . ⎝2⎠ 2.2.Пусть вероятность поражения мишени при одном выстреле равна 1 3 .Найти вероятность того, что из 6 выстрелов три поразят мишень. Решение. находим Используя формулу Бернулли при ⎛1⎞ P6 (3) = C ⎜ ⎟ ⎝ 3⎠ 3 6 3 n = 6, k = 3, 2 1 p= , q= 3, 3 3 6⋅5⋅4 8 160 ⎛2⎞ ⋅ = ⎜ ⎟ = 1 ⋅ 2 ⋅ 3 729 729 . ⎝3⎠ 2.3. Пусть вероятность того, что взятое наудачу из кучи зерно окажется всхожим, равна 0,9. Какова вероятность того, что из 7 отобранных зерен ровно 5 окажутся всхожими? Решение. Имеем 7.6.5.4.3 P7 (5) = С 0, 95· 0, 12 = 1.2.3.4.5. = 21· 0, 0059049 = 0, 124. 5 7 2.4. В схеме Бернулли, связанной с бросанием монеты, вычислить вероятности P10 (k ) , где k =0, 1, 2, ..., 10 (т. е. вероятности того, что в 10 испытаниях герб выпадет ровно k раз). 33 Рис.1. Рис.2. Решение. Используя формулу Бернулли при получим P10 (10) = 1 , 1024 P10 (1) = 210 252 P10 (6) = , , 1024 1024 1 P10 (10 ) = 1024 . P10 (5) = 10 , 1024 P10 (2) = P10 (7 ) = 45 , 1024 120 , 1024 P10 (3) = P10 (8) = 45 , 1024 1 p=q= 2, 120 , 1024 k = 0,1,2,...,10 , P10 (4) = P10 (9) = 210 , 1024 10 , 1024 Результаты вычислений иллюстрирует рис.1. Как видно из рисунка, наибольшей из вероятностей P10 (k ) является P10 (5) ≈ 0,25 . Сравнительно велики и значения P10 (4) и P10 (6) P10 (0) = P10 (10) ≈ 0,001 . (≈ 0,21) ; в то же время «крайние» значения k дают Обратим внимание на характерный вид изображенной на рисунке ломаной, имеющей пик в точке k =5. В дальнейшем нам часто придется иметь дело с y= 1 2π − x2 2 e кривой (рис.2.). Она называется гауссовой кривой (или кривой нормального распределения) и играет исключительно важную роль в теории вероятностей. Тот факт, что ломаная на рис. 1 и кривая на рис. 2 имеют значительное сходство, не случаен. Причины этого явления раскрываются локальной теоремой Муавра-Лапласа. Для вычисления вероятностей Pn (k1 , k2 ) того, что в схеме Бернулли из n испытаний количество m наступлений события A будет находиться в пределах k1 ≤ m < k2 , можно использовать формулу Pn (k1 , k2 ) = Pn (k1 ) + Pn (k1 + 1) + ... + Pn (k 2 − 1) . (1) [Событие, о котором идет речь, является суммой попарно несовместных событий Bi (i = k1 , k1 + 1,..., k2 − 1) , состоящих в том, что в n испытаниях событие A наступит ровно i раз; затем, используя теорему сложения вероятностей, получаем формулу (1).] В частности, вероятность того, что в n испытаниях событие наступит: а) менее k раз; б) более k раз; в) не менее k раз; г) не более k раз, находят соответственно по формулам: 34 Pn (0 ) + Pn (1) + ... + Pn (k − 1); Pn (k + 1) + Pn (k + 2) + ... + Pn (n ); Pn (k ) + Pn (k + 1) + ... + Pn (n ); Pn (0 ) + Pn (1) + ... + Pn (k ). 3. Число k0 (наступления события в независимых испытаниях, в каждом из которых вероятность появления события равна p ) называют наивероятнейшим, если вероятность того, что событие наступит в этих испытаниях k0 раз, превышает (или, но крайней мере, не меньше) вероятности остальных возможных исходов испытаний. Наивероятнейшее число k0 определяют из двойного неравенства np − q ≤ k0 < np − p , причем: а)если число np − q -дробное, то существует одно наивероятнейшее число k0 ; б)если число np − q – целое, то существует два наивероятнейших числа, а именно: k0 и k0 + 1 ; в)если число np - целое, то наивероятнейшее число k0 = np . Пример 3.1. Испытывается каждый из 15 элементов некоторого устройства. Вероятность того, что элемент выдержит испытание, равна 0,9. Найти наивероятнейшее число элементов, которые выдержат испытание. Решение. По условию, n =15, p = 0,9, q =0,1. Найдем наивероятнейшее число k0 из двойного неравенства np − q ≤ k0 < np − p . Подставив данные задачи, получим 15·0,9 – 0,1 ≤ k0 < 15·0,9 + 0,9, или 13,5< k0 < 14,4. Так как k0 — целое число и поскольку между числами 13,4 и 14,4 заключено одно целое число, а именно 14, то искомое наивероятнейшее число k0 =14. Пример 3.2. Найти наивероятнейшее число появления герба в задаче 2.4. np − q = 10· 0,5 – 0,5 = 4,5 – дробное число; существует одно Решение. наивероятнейшее число k0 . Имеем 4,5< k0 < 5,5. Следовательно, k0 =5.Нетрудно заметить, что расчеты проведенные в п.2. это подтверждает, т.е. , наибольшей из вероятностей P10 (k ) является P10 (5) ≈ 0,25 . 35 Вопросы для самопроверки 1.Что называется схемой Бернулли? 2. Приведите примеры последовательности испытаний, которые не образуют схему Бернулли. 3. Какие задачи рассматриваются в связи со схемой Бернулли? 4. Сформулируйте теорему Бернулли. 5. На чем основывается доказательство теоремы Бернулли? 6. Что называется наивероятнейшим числом? 36 Упражнения 1. Вероятность малому предприятию быть банкротом за время t равна 0,2. Найти вероятность того, что из восьми малых предприятий за время t сохранятся: а) два; б) более двух. 2. В среднем пятая часть поступающих в продажу автомобилей некомплектны. Найти вероятность того, что среди десяти автомобилей имеют некомплектность: а) три автомобиля; б) менее трех. 3. Производится залп из шести орудий по некоторому объекту. Вероятность попадания в объект из каждого орудия равна 0,6. Найти вероятность ликвидации объекта, если для этого необходимо не менее четырех по паданий. 4. В среднем по 15% договоров страховая компания выплачивает страховую сумму. Найти вероятность того, что из десяти договоров с наступлением страхового случая будет связано с выплатой страховой суммы: а) три договора; б) менее двух договоров. 5. Предполагается, что 10% открывающихся новых малых предприятий прекращают свою деятельность в течение года. Какова вероятность того, что из шести малых предприятий не более двух в течение года прекратят свою деятельность? 6. В семье десять детей. Считая вероятности рождения мальчика и девочки равными между собой, определить вероятность того, что в данной семье: а) не менее трех мальчиков; б) не более трех мальчиков. 7. Два равносильных противника играют в шахматы. Что более вероятно: а) выиграть 2 партии из 4 или 3 партии из 6?; б) не менее 2 партий из 6 или не менее 3 партий из 6? (Ничьи в расчет не принимаются). 8. В цехе 6 моторов. Для каждого мотора вероятность того, что он в данный момент включен, равна 0,8. Найти вероятность того, что в данный момент; а) включено 4 мотора, б) включены все моторы, в) выключены все моторы. 9. Найти вероятность того, что событие А появится в пяти независимых испытаниях не менее двух раз, если в каждом испытании вероятность появления события А равна 0,3. 10. Событие В появится в случае, если событие А появится не менее двух раз. Найти вероятность того, что наступит событие В, если будет произведено 6 независимых испытаний, в каждом из которых вероятность появления события А равна 0,4. 11. Произведено 8 независимых испытаний, в каждом из которых вероятность появления события А равна 0,1.Найти вероятность того, что событие А появится хотя бы 2 раза. 12. Монету бросают 6 раз. Найти вероятность того, что герб выпадет: а) менее двух раз, б) не менее двух раз. 37 13. Наблюдениями установлено, что в некоторой местности в сентябре в среднем бывает 12 дождливых дней. Какова вероятность, что из случайно взятых в этом месяце 8 дней 3 дня окажутся дождливыми? 14. Что вероятнее выиграть у равносильного противника (ничейный исход партии исключен): три партии из четырех или пять из восьми? 15. Изделия некоторого производства содержат 5% брака. Найти вероятность того, что среди пяти взятых наугад изделий: а) нет ни одного испорченного; б) будут два испорченных. 16. Для прядения смешаны поровну белый и окрашенный хлопок: Какова вероятность среди пяти случайно выбранных волокон смеси обнаружить менее двух окрашенных? 17. Вероятность получения удачного результата при производстве сложного химического опыта равна 2/3. Найти наивероятнейшее число удачных опытов, если общее их количество равно 7. 18. Батарея дала 14 выстрелов но объекту, вероятность попадания в который равна 0,2. Найти наивероятнейшее число попаданий и вероятность этого числа попаданий. 19. Вероятность попадания в цель при каждом выстреле и орудия равна 0,8. Сколько нужно произвести выстрелов, чтобы: наивероятнейшее число попаданий было равно 20? 20.Всхожесть семян данного сорта растений оценивается с вероятностью, равной 0,8. Какова вероятность того, что из пяти посеянных семян взойдут не менее четырех? 21. (Задача Банаха.) Некий курящий математик носит с собой две коробки спичек. Каждый раз, когда он хочет достать спичку, он выбирает наугад одну из коробок. Найти вероятность того, что когда математик вынет в первый раз пустую коробку, в другой коробке окажутся r спичек (r = 0,1,2,…,n; n – число спичек, бывших первоначально в каждой из коробок). Литература: [1]: c.55-56; [2]: c.67-70; [3]: c.30-35. 38 Л Е К Ц И Я №5 ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ МУАВРА-ЛАПЛАСА.ТЕОРЕМА ПУАССОНА П Л А Н: 1. Локальная теорема Муавра - Лапласа. 2. Интегральная теорема Муавра-Лапласа. 3. Правило «трёх сигм» в схеме Бернулли. 4. Теорема Пуассона. К Л Ю Ч Е В Ы Е С Л О В А: Локальная теорема Муавра – Лапласа, интегральная теорема МуавраЛапласа, правило, «трёх сигм», практически достоверные события, теорема Пуассона. k k n−k 1. Формула Бернулли Pn (k ) = Сn p q , выражающая Pn (k ) через n и p в схеме Бернулли, становится неудобной при больших n : в этом случае затрудk нение вызывает вычисление Сn . Существует удобный в практическом отношении способ вычисления вероятностей Pn (k ) -приближенный, но достаточно точный при больших n . Его описание дано в следующей теореме. Т е о р е м а 1 (локальная теорема Муавра - Лапласа). При больших значениях n в схеме Бернулли справедливо приближенное равенство 1 Pn (k ) ≈ npq ϕ (x ) , k − np 1 x2 − npq ( ) x ϕ где x = , а = 2π e 2 . (1) Комментарий к теореме 1. 1) Локальная теорема Муавра-Лапласа является глубоким математическим фактом, ее доказательство связано с использованием нетривиальных и тонких построений. 2) Функция ϕ (x ) , упоминаемая в теореме, табулирована: таблицы значений этой функции приведены в каждом учебнике по теории вероятностей. Эта функция четная; ее график называется нормальной или гауссовой кривой и изображен на рис. 1. 3) Заметим, что Pn (k ) стремится к нулю при n → ∞ . Наибольшая из вероятностей Pn (k ) достигается при k ≈ np ( k -ближайшее к np целое число). В этом случае 1 1 Pn (k ) ≈ npq ϕ (x ) = 2π 1 npq . 39 Пример1.1 Вычислить вероятность того, что при 100-кратном бросании монеты герб выпадет: а) ровно 50 раз; б) ровно 60 раз. Решение. а) Здесь n =100, k = 50, p = 0,5, q = 0,5. Используя формулу (1), получим Следовательно, таблице). 50 − 0,5 ⋅ 100 1 ϕ ( х) = ϕ ( х) 1 P100 (50) = 100 ⋅ 0,5 ⋅ 0,5 · 5 , где x = 100 ⋅ 0,5 ⋅ 0,5 =0. 1 1 ϕ P100 (50) = 5 (0)= 5 0,3989=0,079 (значение ϕ (0) найдено по 60 − 0,5 ⋅ 100 10 1 ϕ ( ) P 60 100 ⋅ , ⋅ , 5 ( ) x б) Аналогично находим 100 =5 , где x = = 5 =2. Таким 1 1 ϕ образом, P100 (60) = 5 (2) = 5 0,0540 = 0,0108. Рис.1. Из формулы (1) вытекает, что график функции Pn (k ) приближенно ϕ ( х) k − np совпадает с графиком функции f = npq , где x = npq , k -целое число. Это Pn (k ) означает, что график функции приближенно совпадает с гауссовской 1 x2 − кривой y = ϕ (x ) = 2π e 2 ,сдвинутой вправо на np и сжатой по вертикали в npq раз. При этом график Pn (k ) обладает характерной чертой — наличием пика в точке k ≈ np (рис. 1). В учебниках по теории вероятностей можно встретить более строгую формулировку локальной теоремы Муавра - Лап-ласа. 2. Вычисление вероятностей Pn (k1 , k2 ) в схеме Бернулли по формуле Pn (k ) = Cnk p k q n − k при больших n является еще более затруднительным, чем исполь- зование формулы Бернулли для вычисления Pn (k ) . Заметим, что в практическом отношении вероятности Pn (k1 , k2 ) имеют большее значение, чем Pn (k ) . Действительно, при больших n часто бывает не столь существенным знать то обстоятельство, что событие A произойдет ровно k раз, но важно знать, что количество наступлений этого события будет находиться в заданных пределах. Так, при проверке семян на всхожесть не столь важно знать, что из выбранных 40 1000 семян ровно 907 окажутся всхожими, но важно знать, что всхожесть семян находится в пределах от 900 до 950. Как отмечалось выше, вероятности Pn (k ) при больших n малы. Вероятности Pn (k1 , k2 ) могут быть сколь угодно близки к единице. Удобный приближенный способ вычисления вероятностей Pn (k1 , k2 ) в схеме Бернулли дает следующая теорема. Т е о р е м а 2 (интегральная теорема Муавра - Лапласа). При больших значениях n в схеме Бернулли имеет место приближенное равенство ( ) ( ) Pn (k1 , k2 ) ≈ Φ k2/ − Φ k1/ k1 − np / где k1 = npq , k2 − np k 2/ = npq , (2) Φ (x ) = 1 2π х ∫ e − x2 2 dx . Комментарий к теореме 2. 1) Функция Φ (x ) называется функцией Лапласа; она табулирована. Таблицы функции Φ (x ) даны в каждом учебнике по теории вероятностей. Эта функция нечетная. 2) Отметим, что Φ(0 ) = 0 , Φ(1) = 0,3413 , Φ(2 ) = 0,4772 , Φ(3) = 0,4986 , Φ(∞ ) = 0,5 . / / Таким образом, если в формуле (2) положить k2 =3, k1 =- 3, то получим Pn (k1 , k2 ) =0,9973. Существует более строгая формулировка интегральной теоремы Муавра — Лапласа (см. например,[6].) Пример 2.1. Вычислить вероятность того, что при 100-кратном бросании монеты количество гербов будет находиться в следующих пределах: а)[45;55]; б) [40;60]; в)[35;65]. Решение: Здесь p =0,5, q =0,5, n =100, npq = 100.0,5.0,5 =5. 45 − 50 55 − 50 / / а) k1 = 5 =-1, k2 = 5 =1; Р100 (45,55)≈ Φ (1) - Φ (-1)= 2 Φ (1)=0,6826. 40 − 50 60 − 50 / / б) k1 = 5 =-2, k2 = 5 =2; Р100 (40,60)≈ Φ (2) - Φ (-2)=2 Φ (2)=0,9545. 35 − 50 65 − 50 / / в) k1 = 5 =-3; k2 = 5 =3; Р100 (35,65)≈ Φ (3) - Φ (-3)= 2 Φ (3)=0,9973. Из результатов вычислений видно, что вероятности рассматриваемых событий достаточно велики, в особенности последняя вероятность, равняя 0,9973. События, имеющие большую вероятность, называются практически достоверными. В этом случае считается, что в результате опыта событие обязательно наступит. Насколько должна быть велика вероятность, чтобы событие считать практически достоверным? Это зависит от характера задачи: во всякой задаче замена случайного события практически достоверным? Это зависит от характера задачи: во всякой задаче замена случайного события практически достоверным содержит «элемент риска». Ясно, что в различных 41 условиях допустимый риск различен. Все же часто останавливаются на вероятности 0,9973. Мы также примем за определение практически достоверного события такое случайное событие, вероятность которого не меньше, чем 2Ф(3)= 0,9973. 3. Рассмотрим схему Бернулли с большим количеством n испытаний; обозначим через σ число Лапласа вытекает, что npq . Из интегральной Pn (np − 3σ , np + 3σ ) = 0,9973 (3) Действительно, при k1 = np − 3σ , k2 = np + 3σ Pn (k1 , k2 ) ≈ Φ (3) - Φ (-3) = 2 Φ (3) = 0,9973. теоремы Муавра — / / имеем k1 = -3, k2 = 3 и Формула (3) позволяет для каждой схемы Бернулли указать интервал (k1 , k2 ) такой, что количество наступлений события A принадлежит этому интервалу с вероятностью 0,9973; иными словами, событие k1 ≤ m < k2 практически достоверно. Формула (3) называется правилом «трех сигм», а интервал (k1 , k2 ) , где k1 = np − 3 npq , k 2 = np + 3 npq — трехсигмовым интервалом. Заметим, что трехсигмовый интервал оказывается удивительно узким. Если любому здравомыслящему человеку, не знакомому с теорией вероятностей, предложить угадать интервал, в который с практической достоверностью попадет количество наступлений событий при последовательных испытаниях, то, как правило, в ответе будет дан гораздо более широкий интервал. Пример 3.1. Некоторая система состоит из 10000 (независимых) элементов. Вероятность выхода из строя одного элемента равна 0,5. Пусть n — количество вышедших из строя элементов системы. Найти трехсигмовый интервал. Решение. Имеем n =10000, p =0,5, q = 0, σ = 10000.0,5.0,5 =50, k1 = np − 3σ = 5000 -150, k2 = np + 3σ = 5000+150. Итак, с вероятностью 0,9973 можно утверждать, что количество вышедших из строя элементов находится в пределах 5000+150 (событие практически достоверное). В частности, если взять запас в 5000 элементов для замены вышедших из строя, то в 50% случаев этого запаса не хватит. Если же увеличить этот запас всего на 3%, т. е. взять 5150 элементов, то его хватит наверняка (т. е. с вероятностью большей, чем 0,9973). Оценка трехсигмового интервала этого примера «на глаз», «по здравому смыслу» приводит, как правило, к большому преувеличению истинного значения. С помощью интегральной теоремы Муавра - Лапласа можно пояснить, почему и в каком смысле вероятность p события A в одном испытании m n совпадает (приближенно) с частотой наступления события A в n испытаниях. Действительно, с вероятностью 0,9973 выполняется неравенство 42 np - 3 npq ≤ m < np +3 npq , откуда после деления всех его частей на n получим p -3 pq m pq ≤ < p+3 n n n . pq →∞ n m n Так как 3 при n → ∞ , то частота с практической n достоверностью при больших так угодно мало отличается от p . Следствие. Вообще говоря, используя интегральную теорему Муавра-Лапласа легко можно получить вероятность отклонения относительной частоты от постоянной вероятности в n независимых испытаниях в более общем случае т.е. формулу ⎛ ⎛m ⎞ P⎜⎜ − p ≤ ε ⎟⎟ ≈ 2Φ⎜⎜ ε ⎝ n ⎠ ⎝ n ⎞ ⎟ pq ⎟⎠ . Пример 3.2.Вероятность того, что деталь не стандартна, p = 0,1 . Найти вероятность того, что среди случайно отобранных 400 деталей относительная частота появления нестандартных деталей отклонится от вероятности p = 0,1 по абсолютной величине не более, чем на 0,03. Решение. По условию n = 400; p = 0,1; q = 0,9; ε = 0,03. Требуется найти вероятность ⎛ ⎛m ⎞ P⎜⎜ − p ≤ ε ⎟⎟ ≈ 2Φ⎜⎜ ε ⎝ n ⎠ ⎝ n ⎞ ⎟ pq ⎟⎠ ⎛ P⎜⎜ , имеем: ⎝ ⎛ m ⎞ P⎜⎜ − 0,1 ≤ 0,03 ⎟⎟. ⎝ 400 ⎠ Пользуясь формулой ⎛ ⎞ 400 ⎞ m ⎟ − 0,1 ≤ 0,03 ⎟⎟ ≈ 2Φ⎜⎜ 0,03 ⎟ , 1 , 9 400 ⋅ ⎠ ⎝ ⎠ = 2Φ(2 ) .По таблице значений функции Лапласа находим 2Φ(2) = 0,9544 . Итак, искомая вероятность приближенно равна 0,9544. Смысл полученного результата таков: если взять достаточно большое число проб по 400 деталей в каждой, то примерно в 95,44% этих проб отклонение относительной частоты от постоянной вероятности p = 0,1 по абсолютной величине не превысит 0,03. Пример 3.3. Вероятность того, что деталь не стандартна, p = 0,1 . Найти, сколько деталей надо отобрать, чтобы с вероятностью равной 0,9544 можно было утверждать, что относительная частота появления нестандартных деталей (среди отобранных) отклонится от постоянной вероятности p по абсолютной величине не более, чем на 0,03. Решение. По условию p = 0,1; q = 0,9; ε = 0,03 ; ⎛m ⎞ P⎜⎜ − 0,1 ≤ 0,03 ⎟⎟ = 0,9544 ⎝ n ⎠ . Требуется найти n . ⎛ ⎛m ⎞ P⎜⎜ − p ≤ ε ⎟⎟ ≈ 2Φ⎜⎜ ε n ⎠ ⎝ Воспользуемся формулой ⎝ 43 n ⎞ ⎟ pq ⎟⎠ . В силу условия, ( ) ⎛ n ⎞ ⎟ = 2Φ 0,1 n = 0,9544. 2Φ⎜⎜ 0,03 ⎟ ⋅ , 1 , 9 ⎝ ⎠ Следовательно, Φ 0,1 n = 0,4772 =0,4772. По таблице значений функции ( Лап-ласа находим ) Φ (2 ) = 0,4772 . Для отыскания числа n получаем уравнение 0,1 n = 2. Отсюда искомое число деталей n =400. Смысл полученного результата таков: если взять достаточно большое число проб по 400 деталей, то в 95, 44% этих проб относительная частота появления нестандартных деталей будет отличаться от постоянной вероятности p = 0,1 по абсолютной величине не более, чем на 0,03, т. е. относительная частота будет заключена в границах от 0,07 (0,1—0,03=0,07) до 0,13 (0,1+0,03=0,13). Другими словами, число нестандартных деталей в 95,44% проб будет заключено от 28 (7% от 400) до 52 (13% от 400). Если взять лишь одну пробу из 400 деталей, то с большой уверенностью можно ожидать, что в этой пробе будет нестандартных деталей не менее 28 и не более 52. Возможно, хотя и маловероятно, что нестандартных деталей окажется меньше 28, либо больше 52. Более строгая формулировка утверждения о близости частоты и вероятности дана в теореме Бернулли (один из вариантов закона больших чисел), которую рассмотрим в последующих лекциях. 4. Представляет интерес схема Бернулли с малой вероятностью p появления события A в одном испытании и с большим количеством n испытаний. Пусть при большом n малая вероятность p такова, что np = λ , где λ — некоторое число. Вероятность Pn (k ) в такой схеме Бернулли описывается следующей теоремой. λ Т е о р е м а 3 (теорема Пуассона). Пусть n → ∞ , λ >0 постоянно и p = n . Тогда в схеме Бернулли из n независимых испытаний, в каждом из которых вероятность наступления события A равна p , имеет место приближенное равенство λk Pn (k ) = P (k ) ≈ e − λ k! . (4) Комментарий к теореме 3. Обратим внимание на следующее обстоятельство: вероятность наступления события A ровно k : раз не зависит от n , что выглядит неправдоподобно. Это можно объяснить так. Пусть n велико; увеличивая n в μ раз и уменьшая p во столько же раз (так что np не p Р изменяется), мы в самом деле имеем Pn (k , p ) ≈ μn ( k , μ ) - Таким образом, 44 независимость вероятности рассматриваемого события от n объясняется тем, что она вычислена в разных схемах Бернулли. Теорему примем без доказательства. Пример. Учебник издан тиражом 100000 экземпляров. Вероятность того, что учебник сброшюрован неправильно, равна 0,0001.Найти вероятность того, что тираж содержит ровно 5 бракованных книг. Решение. По условию, n =100000, p =0,0001, k =5. События, состоящие в том, что книги сброшюрованы неправильно, независимы, число n велико, а вероятность p мала, поэтому воспользуемся формулой (4). Найдём λ : λ = np =100000·0,0001=10. P100000(5) = e −10 0,000045 105 5 5 = 10 · 120 = 0,0375. Вопросы для самопроверки 1.В чем заключаются затруднения возникающие при вычислении вероятностей в схеме Бернулли при больших n ? 2.Сформулируйте локальную теорему Муавра-Лапласа (теорему 1). 3.Приведите свойства функции ϕ (x ) , которая упоминается в теореме 1. 4. Исходя из теоремы 1 прокомментируйте поведения вероятностей Pn (k ) , при n → ∞ и k ≈ np . 5.Напишите вид гауссовской функции. 6.В чем заключается сходство функции Pn (k ) и гауссовской функции? 7.Сформулируйте интегральную теорему Муавра-Лапласа (теорему 2). 8.Как называется функция Φ(x ) , упоминаемая в теореме 2? Назовите ее свойства. 9.Что представляет собой «трехсигмовый интервал»? 10.Сформулируйте теорему Пуассона. Прокомментируйте теорему. 45 Упражнения 1.Вероятность появления успеха в каждом испытании равна 0,25. Какова вероятность, что при 300 испытаниях успех наступит: а) ровно 75 раз? б) ровно 85 раз? 2.В первые классы должно быть принято 200 детей. Определить вероятность того, что среди них окажется 100 девочек, если вероятность рождения мальчика равна 0,515. 3.Какова вероятность того, что в столбике из 100 наугад отобранных монет число монет, расположенных «гербом» вверх, будет от 45 до 55? 4.Производство дает 1% брака. Какова вероятность того, что из взятых на исследование 1100 изделий выбраковано будет на больше 17? 5.Всхожесть семян данного растения равна 0,9. Найти вероятность того, что из 900 посаженных семян число проросших будет заключено между 790 и 830. 6.Вероятность появления успеха в каждом из 625 независимых испытаний равна 0,8. Найти вероятность того, что частота появления успеха отклонится по абсолютной величине от его вероятности не более чем на 0,04. 7.Сколько нужно произвести опытов с бросанием монеты чтобы с вероятностью 0,92 можно было ожидать отклонение частоты выпадения «герба» от теоретической вероятности 0,5 на абсолютную величину, меньшую чем 0,01. 8.Вероятность появления успеха в каждом из 400 независимых испытаний равна 0,8. Найти такое положительное число ε , что с вероятностью 0,9876 абсолютная величина отклонения частоты появления успеха от его вероятности 0,8 не превысит ε . 9.Игральную кость бросают 80 раз. Найти приближенно границы, в которых число m , выпадений шестерки будет заключен с вероятностью 0,9973. 10.В банк отправлено 4000 пакетов денежных знаков. Вероятность того, что пакет содержит недостаточное или избыточное число денежных знаков, равна 0,0001. Найти вероятность того, что при проверке будет обнаружено: а) три ошибочно укомплектованных пакета; б) не более трех пакетов. 11.Строительная фирма, занимающаяся установкой летних коттеджей, раскладывает рекламные листки по почтовым ящикам. Прежний опыт работы компании показывает, что примерно в одном случае из двух тысяч следует заказ. Найти вероятность того, что при размещении 100тыс. листков число заказов будет: а) равно 48; б) находиться в границах от 45 до 55. 12.В вузе обучаются 3650 студентов. Вероятность того, что день рождения студента приходится на определенный день года, равна 1/365. Найти: а) наиболее вероятное число студентов, родившихся 1 мая, и вероятность такого события; б) вероятность того, что по крайней мере 3 студента имеют один и тот же день рождения. 46 13.Учебник издан тиражом 10000 экземпляров. Вероятность того, что экземпляр учебника сброшюрован неправильно, равна 0,0001. Найти вероятность того, что: а) тираж содержит 5 бракованных книг; б) по крайней мере 9998 книг сброшюрованы правильно. 14.Известно, что в среднем 60% всего числа изготовляемых заводом телефонных аппаратов является продукцией первого сорта. Чему равна вероятность того, что в изготовленной партии окажется: а) 6 аппаратов первого сорта, если партия содержит 10 аппаратов; б) 120 аппаратов первого сорта, если партия содержит 200 аппаратов? 15.Вероятность того, что перфокарта набита оператором неверно, равна 0,1. Найти вероятность того, что: а) из 200 перфокарт правильно набитых будет не меньше 180; б) у того же оператора из десяти перфокарт будет неверно набитых не более двух. 16.Аудиторную работу по теории вероятностей с первого раза успешно выполняют 50% студентов. Найти вероятность того, что из 400 студентов работу успешно выполнят: а). 180 студентов, б) не менее 180 студентов. 17.При обследовании уставных фондов банков установлено, что пятая часть банков имеют уставный фонд свыше 100 млн. д.е.. Найти вероятность того, что среди 1800 банков имеют уставный фонд свыше 100 млн. д.е..: а) не менее 300; б) от 300 до 400 включительно. 18.Сколько нужно взять деталей, чтобы наивероятнейшее число годных деталей было равно 50, если вероятность того, что наудачу взятая деталь будет бракованной, равна 0,1? 19.Вероятность того, что пассажир опоздает к отправлению поезда, равна 0,01. Найти наиболее вероятное число опоздавших из 800 пассажиров и вероятность такого числа опоздавших. Литература: [1]: c.57-63; [2]: c.70-75; [3]: c.96-98. 47 Л Е К Ц И Я №6 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ ВИДЫ. РАСПРЕДЕЛЕНИЕ ДИСКРЕТНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ П Л А Н: 1. Случайная величина. Дискретные и непрерывные случайные величины. 2. Биномиальное и пуассоновское распределения. 3. Операции над случайными величинами. К Л Ю Ч Е В Ы Е С Л О В А: Случайная величина, дискретная случайная величина, непрерывная случайная величина, биномиальное распределение, пуассоновское распределение, зависимые и независимые случайные величины, степень, сумма, разность и произведения случайных величин. Случайные события могут быть представлены через случайные величины. Понятия «случайная величина» расширяет область применения методов теория вероятностей в решении практических задач. Поэтому понятие «случайной величины» является одним из важнейших понятий теории вероятностей. 1.Случайной величиной называется величина, которая в результате испытания принимает то или иное значение. При этом заранее неизвестно, какое именно значение случайная величина примет в результате опыта. Изучая случайную величину, прежде всего интересуются множеством ее возможных значений. Это может быть конечное множество чисел или счетное множество чисел, не имеющее предельной точки (например, множество Z целых чисел). Такие случайные величины называются дискретными. Возможно, что множество значений случайной величины содержит целый отрезок числовой оси. Такие случайные величины называются непрерывными. Примеры случайных величин: 1.1. Количество очков, выпавшее при бросании игральной кости; множество значений {1, 2, 3, 4, 5, 6 }. 1.2. Количество наступлений события A в схеме Бернулли; множество значений { 0, 1, 2, ..., n }. 1.3. Количество элементов, вышедших из строя в системе из n элементов; множество значений { 0, 1, 2. ..., n }. 1.4. Время безотказной работы электролампы; множество значений [0 , T], где Т—максимальное время безотказной работы. 1.5. Расстояние между центром мишени и точкой попадания; множество значений [0, L], где L — максимальное отклонение точки попадания от центра мишени. 1.6. Угол между начальным направлением и направлением остановившейся стрелки рулетки; множество значений [0, 2 π ]. 48 Случайные величины в примерах 1-3 являются дискретными, а в примерах 4 - 6 - непрерывными. Наиболее удобными для изучения являются дискретные случайные величины. Определение 1.Распределением (законом распределения) дискретной случайной величины называется функция, сопоставляющая каждому возможному значению хk случайной величины её вероятность рk (0 ≤ рk ≤ 1), причем ∑р k = 1. Заметим, что « pk есть вероятность хk » означает то же самое, что « pk есть вероятность события X = xk ». Соотношение что события ∑р k = 1 вытекает из того факта, X = x1 , X = x2 ,..., X = xn ,... (*) попарно несовместны, а их сумма есть событие достоверное (при каждом осуществлении опыта величина X принимает одно и только из своих значений, т.е.наступает одно и только одно из событий (*), т.е. ∑ p( X = x ) = ∑ p = 1. ) Распределение дискретной случайной величины с конечным числом n возможных значений удобно задавать таблицей k k х1 х2 х3 х4 … xn p1 p2 p3 p4 … pn Так, для случайной величины распределения имеет вид из примера 1 таблица 1 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6 1/6 Для случайной величины из примера 2 при n = 10, р = 1/2 таблица распределения такова (см. пример 2. 4 из лекции № 4 ): Распределение полностью характеризует случайную величину, указывая 1 1 1024 10 1024 2 3 4 5 45 120 210 252 1024 1024 1024 1024 6 7 8 9 10 210 1024 120 1024 45 1024 10 1024 1 1024 возможные значения и вероятности, с которыми эти значения появляются в результате испытаний. Для первого из рассмотренных распределений все 49 значения равновероятны, а для второго значения резко различаются по своим вероятностям: значение 10 имеет вероятность, в 252 раза меньшую, чем значение 5. Это, в частности, означает, что случайная величина принимает значение 5 в 252 раза чаще, чем 10. Отметим, что если при рассмотрении дискретных случайных величин мы могли ограничиться событиями, представляющимися в виде суммы конечного или счетного множества элементарных событий X = xk то при переходе к непрерывным случайным величинам нам следует прежде всего расширить класс событий. В необходимости такого расширения можно убедиться на примере. Пусть с испытательной целью определяется полное время работы электрической лампы; для этого выпущенную заводом лампу эксплуатируют без перерыва до выхода ее из строя. Результатом такого испытания является величина X -срок службы лампы. Очевидно, эта величина является случайной – предсказать заранее ее значение невозможно. Элементарным событием в данном примере будет любое событие вида X = a , где a - неотрицательное число. Однако в отличие от дискретного случая каждое отдельно взятое элементарное событие не представляет теперь большого интереса. Действительно возможных значений для X существует несчетное множество, между тем в любой серии испытаний мы имеем дело всегда с конечным числом ламп. Поэтому ясно, что данное фиксированное значение a в серии испытаний, как правило, не будет встречаться вообще или же будет наблюдаться чрезвычайно редко. Другими словами, вероятность события X = a , будет равна нулю. В то же время события, выражаемые при помощи неравенств скажем, X < 1000 (лампа перегорела, не прослужив 1000 часов), представляются значительно более важными. Вероятности таких событий дают существенную информацию о распределении значений величины X и тем самым – о качестве ламп. Разумеется, вслед за событиями такого рода мы должны привлечь к рассмотрению и их комбинации, получаемые при помощи конечного или счетного числа операций сложения, умножения и перехода к противоположному событию. В первую очередь, с помощью такого рода событий можно ввести понятия распределения непрерывной случайной величины. Рассматривают два вида распределений непрерывной случайной величины: интегральное и дифференциальное; их называют также интегральной и дифференциальной функциями распределения, интегральным и дифференциальным законами распределения. Обсуждению понятия распределения непрерывной функции посвящена лекция №8. 2. В этом пункте ознакомимся с двумя важными примерами дискретных случайных величин. Соответствующие им законы носят названия: биномиальное распределение, пуассоновское распределение. 50 Определение 2. Распределение случайной величины X , равной количеству наступлений события A в схеме Бернулли из n испытаний, называется биномиальным распределением. В этом распределении значению k ∈ {0, 1, 2, ..., n } случайной величины X соответствует вероятность Pn (k ) = Сn p q , где p — вероятность наступления события A в одном испытании, q = 1 − p . Комментарий к определению 2. Биномиальное распределение дискретно (т. е. является распределением дискретной случайной величины X ). Биномиальное распределение широко используется в теории и практике статистического контроля продукции, при описания функционирования систем массового обслуживания, в теории стельбы и в других областях. Примером биномиального распределения служит последняя таблица на стр.2. Здесь n =10, p =1/2. Определение 3. Распределение случайной величины X , принимающей k k n−k ak −a значения k ∈ {0, 1, 2, ...} с вероятностями k! e , где a >0 - некоторый пара- метр, называется пуассоновским распределением (или распределением Пуассона}. Комментарий к определению 3. Пуассоновское распределение дискретно (т. е. является распределением дискретной случайной величины. По пуассоновскому распределены, например, число рождения четверней, число сбоев на автоматической линии, число отказов сложной системы в «нормальном режиме», число «требований на обслуживание», поступивших в единицу времени в системах массового обслуживания и др. 3. Операции над случайными величинами. Вначале введем понятие независимости случайных величин. Две случайные величины называются независимыми, если закон распределения одной из них не меняется от того, какие возможные значения приняла другая величина. Так, если дискретная случайная величина X может принимать значения xi (i = 1,2,..., n ) , а случайная величина Y - значения y j ( j = 1,2,..., m ) , то независимость дискретных случайных величин X и Y означает независимость событий X = xi и Y = y j при любых i = 1,2,..., n и j = 1,2,..., m . В противном случае случайные величины называются зависимыми. Например, если имеются билеты двух различных денежных лотерей, то случайные величины X и Y , выражающие соответственно выигрыш по каждому билету (в денежных единицах), будут независимыми, так как при любом выигрыше по билету одной лотереи (например, при X = xi ) закон распределения выигрыша по другому билету ( Y ) не изменится. Если же 51 случайные величины X и Y выражают выигрыш по билетам одной денежной лотереи, то в этом случае X и Y являются зависимыми, ибо любой выигрыш по одному билету ( X = xi ) приводит к изменению вероятностей выигрыша по другому билету ( Y ), т.е. к изменению закона распределения Y . Определим математические операции над дискретными случайными величинами. Пусть даны две случайные величины - X и Y : х1 х2 х3 х4 … xn p1 p2 p3 p4 … pn y1 y2 y3 y4 … ym p1 p2 p3 p4 … pm Произведением kX случайной величины X на постоянную величину k называется случайная величина, которая принимает значения kxi с теми же вероятностями pi . m − й степенью случайной величины X , т.е. X m , называется случайная m величина, которая принимает значения xi с теми же вероятностями pi . Пример3.1. Дана случайная величина X : xi pi -2 0,5 1 0,3 2 0,2 2 Найти закон распределения случайных величин: а) Y = 3X ; б) Z = X . Решение. а) Значения случайной величины Y будут: 3(-2)=-6; 3·1=3; 3·2=6 с теми вероятностями 0,5; 0,3; 0,2, т.е. yi pi -6 0,5 3 0,3 6 0,2 б) Значения случайной величины Z будут: (-2)2=4, 12=1, 22=4 с теми же вероятностями 0,5; 0,3; 0,2. Так как значение Z = 4 может быть получено возведением в квадрат значений (-2) с вероятностью 0,5 и (+2) с вероятностью 0,2, то по теореме сложения P(Z = 4) = 0,5+0,2 - 0,7. Итак, закон распределения случайной величины Z : 52 zi 1 4 pi 0,3 0,7 Суммой (разностью или произведением) случайных величин X и Y называется случайная величина, которая принимает все возможные значения вида xi + y j (x − y i j xi ⋅ y j ) или где i = 1,2,..., n ; j = 1,2,..., m , с вероятностями pij того, что случайная величина X примет значение xi , а Y — значение y j : )] [( )( = P X = xi Y = y j Если случайные величины X и Y независимы, т.е. независимы любые pij события X = xi , Y = y j , то по теореме умножения вероятностей для независимых событий pij P( X = x ) ⋅ P(Y = y ) = p ⋅ p i j i j = . Замечание. Приведенные выше определения операций над дискретными случайными величинами нуждаются в уточнении, так как в ряде случаев одни и те же значения xim , xi ± y j , xi y j могут получаться разными способами при разp,p личных значениях xi , y j , вообще говоря, с различными вероятностями i j . Замечание. Выше ввели понятие независимости случайных величин X и Y , основанное на независимости связанных с ними событий X = xi и Y = y j при любых i и j . Ниже можно дать общее определение независимых непрерывных случайных величин, основанное на независимости событий X < x и Y < y . Напомним, что необходимость введения события такого рода мы обсудили в конце п.1. Определение 4. Непрерывные величины X и Y независимы, если независимы события X 0). Комментарий к свойствам коэффициента корреляции. Свойства 1°— 3° означают, что коэффициент корреляции измеряет степень зависимости случайных величин X, Y в следующем смысле. Для независимых величин X и Y коэффициент корреляции r(Х,Y) равен нулю, а крайние возможные значения r(X, Y), равные 1 и - 1 , соответствуют функциональной зависимости между X и Y, имеющей вид Y=аХ+b; функциональная зависимость между X и Y — самый тесный вид зависимости. В общем случае независимость величин X и Y означает, что условное распределение величины Y при заданном значении Х=Х0 совпадает с безусловным распределением Y; если же Y является функцией от X, то при Х=Х0 она принимает вполне определенное значение, так что при условии Х=Х0 величина Y даже не является случайной. Зависимостям, близким к зависимости вида Y=аХ+b соответствуют значения r(Х,Y) близкие к 1 или — 1 (при а>0 или a<0 соответственно). Если величины X и Y слабо зависимы, то значения r(Х,Y) близки к нулю. Следует иметь в виду, что существуют зависимые величины X и Y, коэффициент корреляции которых равен нулю; их называют некоррелированными. Если величины X и Y связаны нелинейной функциональной зависимостью, то r(Х,Y) может отличаться от 1 и -1. Итак, коэффициент корреляции измеряет степень линейной зависимости между случайными величинами X и Y. 62 Вопросы для самопроверки 1. Разъясните необходимость введения числовых характеристик для случайных величин. 2. Дайте определение понятия математического ожидания. 3. Какой вероятностный смысл имеет математическое ожидание? 4. Дайте определение дисперсии. 5. Какой вероятностный смысл имеет дисперсия? 6. Что называется среднеквадратичным отклонением? 7. Чему равны числовые характеристики: а) биномиального распределения? б) пуассоновского распределения? 8. Приведите свойства математического ожидания и прокомментируйте их. 9. Приведите свойства математической дисперсии и прокомментируйте их. 10. Приведите свойства среднеквадратического отклонения и прокомментируйте их. 11. Что представляет собой коэффициент корреляции? 12. Приведите свойства коэффициента корреляции и прокомментируйте их. 63 Упражнения 1.Найти математическое ожидание и дисперсию случайных величин из упражнений 2, 10-16 лекции №5. 2.Вероятность того, что в библиотеке необходимая студенту книга свободна, равна 0,3. Составить закон распределения числа библиотек, которые посетит студент, если в городе 4 библиотеки. Найти математическое ожидание и дисперсию этой случайной величины. 3.Экзаменатор задает студенту вопросы, пока тот правильно отвечает. Как только число правильных ответов достигнет четырех либо студент ответит неправильно, экзаменатор прекращает задавать вопросы. Вероятность правильного ответа на один вопрос равна 2/3. Составить закон распределения числа заданных студенту вопросов. 4. Торговый агент имеет 5 телефонных номеров потенциальных покупателей и звонит им до тех пор, пока не получит заказ на покупку товара. Вероятность того, что потенциальный покупатель сделает заказ, равна 0,4. Составить закон распределения числа телефонных разговоров, которые предстоит провести агенту. Найти математическое ожидание и дисперсию этой случайной величины. 5.Каждый поступающий в институт должен сдать 3 экзамена. Вероятность успешной сдачи первого экзамена 0,9, второго — 0,8, третьего — 0,7. Следующий экзамен поступающий сдает только в случае успешной сдачи предыдущего. Составить закон распределения числа экзаменов, сдававшихся поступающим в институт. Найти математическое ожидание этой случайной величины. 6.Охотник, имеющий 4 патрона, стреляет по дичи до первого попадания или до израсходования всех патронов. Вероятность попадания при первом выстреле равна 0,6, при каждом последующем — уменьшается на 0,1. Необходимо: а) составить закон распределения числа патронов, израсходованных охотником; б) найти математическое ожидание и дисперсию этой случайной величины. 7.Из поступивших в ремонт 10 часов 7 нуждаются в общей чистке механизма. Часы не рассортированы по виду ремонта. Мастер, желая найти часы, нуждающиеся в чистке, рассматривает их поочередно и, найдя такие часы, прекращает дальнейший просмотр. Составить закон распределения числа просмотренных часов. Найти математическое ожидание и дисперсию этой случайной величины. 8.Имеются 4 ключа, из которых только один подходит к замку. Составить закон распределения числа попыток открывания замка, если испробованный ключ в последующих попытках не участвует. Найти математическое ожидание, дисперсию и среднеквадратическое отклонение этой случайной величины. 9.Одна из случайных величин задана законом распределения 64 xi 1 1 pi 0,1 0,8 0,1 а другая имеет биномиальное распределение с параметрами n=2, р=0,6. Составить закон распределения их суммы и найти математическое ожидание этой случайной величины. 10.Случайные величины X ИY независимы и имеют один и тот же закон распределения: Значение Вероятность 1 0,2 2 0,3 4 0,5 Составить закон распределения случайных величин 2X и Х+ Y. Убедиться в том, что 2Х ≠ Х+Y, но М(2Х) = М(Х+Y). 11.Два стрелка сделали по два выстрела по мишени. Вероятность попадания в мишень для первого стрелка равна 0,6, для второго — 0,7. Необходимо: а) составить закон распределения общего числа попаданий; б) найти математическое ожидание и дисперсию этой случайной величины. 12.Пусть X, Y, Z - случайные величины: X – выручка фирмы, Y - ее затраты, Z=X-Y - прибыль. Найти распределение прибыли Z, если затраты и выручка не зависимы и заданы распределениями: X Y : : 13.Пусть X - выручка фирмы в долларах. Найти распределение выручки в cумах Z=Х·Y в пересчете по курсу доллара Y,если выручка X не зависит от курса Y, а распределения Х и Y имеют вид X: xi 1000 2000 pi 0,7 0,3 Y: xi 890 976 pi 0,4 0,6 14.Сделано два высокорисковых вклада: в 15 тыс.д.е.- в компанию В. Компания А обещает 50% годовых, но может «лопнуть» с вероятностью 0,2. Компания В обещает 40% годовых, но может «лопнуть» с вероятностью 0,15. Составить закон распределения случайной величины — общей суммы прибыли 65 (убытка), полученной от двух компаний через год, и найти ее математическое ожидание. 15.Дискретная случайная величина X задана рядом распределения X: xi pi 1 0,2 2 0,3 3 0,3 4 0,1 5 0,1 Найти условную вероятность события Х<5 при условии, что Х>2. 16.Случайные величины Х1, X2 независимы и имеют одинаковое распределение xi 1 2 3 pi 1/4 1/4 1/4 1/4 Найти вероятность события Х1+ X2 > 2. Литература: [1]: c .75-95; [2]: c.94-103, c.140-150; 66 [3]: c.42-51. Л Е К Ц И Я №8 ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ.ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ НЕПРЕРЫВНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН П Л А Н: 1. Интегральная и дифференциальная функции распределения. 2.Числовые характеристики непрерывных случайных величин. 3.Числовые характеристики некоторых основных непрерывных случайных величин. К Л Ю Ч Е В Ы Е С Л О В А: Непрерывная случайная величина, интегральная функция распределения, дифференциальная функция распределения (дифференциальный закон распределения), плотность вероятности случайной величины, нормальное, равномерное и показательное распределения. В лекции №6 мы обсуждали вопрос о необходимости введения событий вида X < a и с помощью примеров убедились, что вероятности таких событий дают существенную информацию о распределении значений непрерывных величин X . 1.Теперь перейдем к обсуждению понятия распределения непрерывной случайной величины. Рассматривают два вида распределений непрерывной случайной величины: интегральное и дифференциальное; их называют также интегральной и дифференциальной функциями распределения, интегральным и дифференциальным законами распределения. Определение 1. Интегральной функцией распределения непрерывной случайной величины X называется функция переменной t , выражающая вероятность того, что X в результате испытания примет значение, меньшее, чем число t . Комментарии к определению 1. 1) Если вероятность того, что случайная величина X примет значение, меньшее чем t, обозначить через P ( X < t ), то интегральная функция распределения есть функция F ( t ) переменной t , определенная равенством F ( t ) = P ( X < t ). (1) 2) Для непрерывной случайной величины X невозможно задать распределение по аналогии с дискретной случайной величиной. Действительно, для каждой непрерывной случайной величины X вероятность того, что X примет заданное значение x , как правило, равна нулю. Это видно из следующих рассуждений. Пусть все значения случайной величины принадлежат отрезку [a, b] . Разобьем этот отрезок на n равных частей Δ i { i =1, 2, … , n , n —велико) и обозначим через pi вероятность того, что случайная 67 величина X примет значение в интервале Δ i .Будем предполагать, что близкие значения величины X имеют близкие вероятности. При этом предположении каждое значение, принадлежащее интервалу Δ i (I =1, 2, ..., n), имеет вероятность, равную нулю. Действительно, разделим интервал Δ i на N частей Δ′j (j = 1, 2, ..., N ); тогда вероятность того, что случайная величина X примет значение из Δ′j , равна (приближенно) рi N , а вероятность P (х) того, что pj N случайная величина X примет значение, равное x, меньше чем при любом N. Отсюда следует, что Р(х) = 0. Бессодержательно говорить о вероятности появления данного конкретного значения случайной величины (такие вероятности для всех непрерывных случайных величин, как правило, равны нулю и поэтому не дают никакой информации о случайной величине). Имеет смысл рассматривать и изучать вероятности P ( α ≤ х< β ) того, что значение непрерывной случайной величины X попадет в заданный интервал [ α , β ). Такие вероятности, как правило, не равны нулю и содержат нужную информацию о случайной величине. Функция F ( t ) выражает вероятность того, что случайная величина X примет значение на множестве (-∞, t ). Отсюда легко получить вероятности вида P ( α ≤ X < β ). Свойства интегральной функции распределения 1°. Справедливы равенства F (-∞) = 0, F (+∞) = 1. (2) В самом деле, событие X < -∞ невозможно, его вероятность F (-∞) = 0; событие X <+ ∞ достоверно, его вероятность F (+∞) = 1. 2°. Функция F ( t )- монотонно неубывающая, т. е. F ( t 1) ≤ F( t 2) при t 1< t 2. 3°. Вероятность P ( t 1 ≤ X < t 2) того, что случайная величина X примет значение в полуинтервале [ t 1, t 2), равна F ( t 1) - F ( t 2) , т.е. P ( t 1 ≤ Х< t 2) = F( t 1) - F( t 2) . (3) Действительно, очевидно, что (-∞, t 1] ∪ ( t 1,t2]=(-∞, t 2] (рис.1). Согласно теореме сложения вероятностей, имеем F (t1)+ P ( t 1 ≤ X < t 2)= F ( t 2), (4) где, F ( t 1) и F ( t 2) по определению равны вероятностям того, что X примет значение соответственно в (-∞, t 1] и (-∞, t 2]. Отсюда непосредственно вытекает равенство (3). 68 Pис.1 Определение 2. Пусть X -непрерывная случайная величина и F ( t )-ее F (t) интегральная функция распределения; пусть, кроме того, дифференцируема всюду, за исключением, быть может, конечного числа точек. Производная F (t ) интегральной функции распределения называется дифференциальной функцией распределения (дифференциальным законом распределения) непрерывной случайной величины X . Комментарии к определению 2. / 1) Значения функции f (t ) = F (t ) называются плотностью вероятности случайной величины X .Такое название объясняется следующими обстоятельствами. По определению производной, / f (t ) = Выражение F ( t + Δ t ) - F ( t ) в силу (3) равно X примет значение в интервале [ t , t + Δ t ); отношение F (t + Δt ) − F (t ) Δt lim Δt → 0 F (t + Δt ) − F (t ) Δt (5) вероятности того, что есть «средняя вероятность», т. е. вероятность P ( t ≤ X < t + Δ t ), отнесенная к единице длины. Предел этого отношения естественно назвать плотностью вероятности. 2) Из формулы (5) вытекает, что F ( t + Δ t )– F ( t )≈ f (t ) Δ t (6) t Δ (если в равенстве (5) опустить знак предела, то при малом оно из точного станет приближенным и в качестве следствия даст (6)). Равенство (6) означает, что выражение f (t ) Δ t приближенно равно вероятности P ( t ≤ X < t + Δ t ), того, что случайная величина X примет значение в (малом) интервале [ t , t + Δ t ), т.е. P ( t 1 ≤ X < t 2) ≈ f (t ) Δ t . (7) 3) Полезно иметь в виду прием, позволяющий преобразовать непрерывную случайную величину X в дискретную случайную величину X с помощью малого изменения. 69 Разобьем числовую ось на равные малые отрезки точками ti (i = 0, ±1, ±2, ...); пусть Δ t = ti+1- ti. По данной непрерывной случайной величине X построим ~ дискретную случайную величину Х следующим образом. В качестве значений ~ случайной величины Х возьмем числа t i ( i = 0, ±1, ±2, ... ); вероятность ~ значения xi положим равной вероятности того, что непрерывная случайная величина X примет значение в интервале [ t i, t i+1 )т. е. P ( t i ≤ X < t i+1) = P ( t i ≤ X < t i+ Δ t ) =f(ti) Δ t . (8) Таким образом, таблица распределения дискретной случайной величины ~ Х в первой строке содержит числа t i, а во второй - соответствующие им вероятности f(ti) Δ t Очевидно, что соответствующие значения случайных ~ величин X и Х вида мало отличаются. Также мало отличаются и вероятности ~ вида P ( α ≤ X < β ) и вида P ( α ≤ Х < β ). Свойства дифференциальной функции распределения 1°. f (t ) ≥ 0 в точках t , где существует F '(t). В самом деле, так как F(t) является неубывающей функцией, то f (t ) = F '(t) ≥ 0. 2°. Справедливо равенство β ∫ f (t )dt β α α ≤ P( X< )= . если f (t ) непрерывна на Действительно, [ α , β ), то, определенный интеграл по формуле Ньютона — Лейбница, получим (9) вычисляя β ∫α f (t )dt = F ( β ) − F (α ) = P ( α ≤ X < β ). Здесь учтено, что F ( t )- первообразная равенство (3). 3°. Справедливо равенство функция (10) для f (t ) , а также +∞ ∫ f (t )dt =1. (11) Оно вытекает из соотношений (9) и (2). Геометрический смысл дифференциальной функции распределения иллюстрирует рис. 2: вероятность −∞ Рис. 2. 70 P ( α ≤ X < β ) численно равна площади заштрихованной криволинейной трапеции. Определение 3. Распределение непрерывной случайной величины X , заданное дифференциальной функцией распределения 1 − (t − a ) 2 f (t ) = σ 2π e 2σ 2 называется нормальным распределением; здесь a ∈ (-∞,+∞) и σ >0некоторые параметры. Комментарии к определению 3. 1) График функции (12) изображен на рис. 3. Его можно получить из «стандартного графика» нормального 1 −t 2 f (t ) = 2π e 2 распределения Рис. 3. ( a =6, σ =1) сдвигом на a единиц вправо, последующим растяжением по горизонтали относительно оси симметрии в σ раз. Напомним, что функция x2 y= 1 −2 e 2π табулирована. Эта функция упоминается в формулировке локальной теоремы МуавраЛапласа. 1 − (t − a ) 2 2 Кривая f (t ) = σ 2π e 2σ симметрична относительно прямой х = a . Зависимость графика f (t ) от параметров a и σ такова: a является абсциссой максимума функции; малым а соответствует крутой горб кривой, большим a пологий горб. Точки с абсциссами a - σ и a + σ являются точками перегиба. 2) Интегральный закон распределения, соответствующий 1 − (t − a ) 2 2 дифференциальному закону f (t ) = σ 2π e 2σ имеет вид t F (t ) = ∫ 1 − (t − a ) 2 σ 2π e 2σ 2 dt (13) Последний интеграл нельзя вычислить по формуле Ньютона - Лейбница, −∞ поскольку первообразная функция 1 − (t − a ) 2 2 для σ 2π e 2σ 71 не выражается через элементарные функции. Однако удобно выразить F ( t ) через (табулированную) t функцию Лапласа Ф( t )= ∫ 1 −t 2 2π e 2 dt. Именно, 1 t−a Φ( ) σ F (t ) = 2 + (14) 3) Вероятность P ( α ≤ X < β ) того, что случайная величина X значение в интервале [ α , β ), выражается через интегральную примет F(t) и дифференциальную f (t ) функции распределения следующим образом: P ( α ≤ X < β ) = F ( β ) − F (α ) , 15) β P (α ≤ X < β ) = ∫ f (t )dt [ср. с формулами (9) и (10)]. Правые части равенств (15) (табулированные) t ∫ −∞ функции 1 − (t − a ) 2 σ 2π e 2σ 2 dt. Тогда получим β −а ) Φ( σ P ( α ≤ X < β )= = β P (α ≤ X < β ) = ∫ α (16) α и (16) 1 ϕ (t ) = σ 2π Φ( можно выразить −t 2 e 2σ 2 α −а ) σ , β −а σ 1 − (t − a ) 2 σ 2π e 2σ 2 dt = 1 − а σ 2π ∫ α σ и −u 2 2 Φ (t ) = (17) β −a σ e через ∫ ϕ (t) du = α −a σ dt. (18) Пример. Величина X распределена нормально с параметрами a =5, σ =1. Найти вероятность того, что X примет значение в интервале [4, 7). Решение. Согласно формуле (17), получим ⎛7 −5⎞ ⎛ 4 −5⎞ Φ⎜ ⎟ Φ⎜ ⎟ P (4 ≤ X <7) = ⎝ 1 ⎠ - ⎝ 1 ⎠ = Ф (2)+Ф(1) = 0,4772 + 0,3413 = 0,8 185 [напомним, что функция Лапласа Ф( t ) нечетная, т. е. Ф(- t ) = -Ф( t )] 4) Функция у= f (t ) быстро убывает при t → ±∞ . Площадь под всей кривой равна 1 [это вытекает из соотношения (11)]. Площади криволинейных трапеций над интервалами [ а − σ , а + σ ), [ а − 2σ , а + 2σ ), [ а − 3σ , а + 3σ ) равны соответственно 0,6827; 0,9545; 0,9973. Таким образом, почти вся площадь под кривой сосредоточена над интервалом [ а − 3σ , а + 3σ ). Поскольку площадь криволинейной трапеции численно равна вероятности того, что случайная величина примет значение в соответствующем интервале, имеем P ( а − 3σ ≤ Х < a + 3σ ) = 0,9973. (19) 72 Это утверждение составляет содержание правила «трех сигм» для нормального распределения: практически достоверно, что нормальная случайная величина (т. е. случайная величина, имеющая нормальное распределение) с параметрами а, σ принимает значения в интервале [ а − 3σ , а + 3σ ). Слова «практически достоверно» означают — с вероятностью 0,9973. 5) Нормальное распределение (нормальная случайная величина) играет исключительно важную роль в теории вероятностей и в приложениях теории вероятностей к практическим задачам. Эта роль объясняется тем, что нормальное распределение часто возникает следующим образом. Пусть некоторая случайная величина X складывается из большого количества «мелких» случайных величин. При выполнении некоторых (не очень ограничительных условий) вне зависимости от того, как распределены слагаемые, их сумма, т. е. величина X , оказывается нормально распределенной. Главным условием этого, как уже было отмечено, является то обстоятельство, что X есть сумма большого количества «мелких» случайных величин. Соответствующее строгое математическое утверждение носит название центральной предельной теоремы (рассмотрим в лек.№9; теорема Ляпунова). Если известно, что изучаемая случайная величина складывается из большого количества случайных слагаемых, каждое из которых оказывает лишь небольшое влияние на всю сумму, то можно считать, что X распределена нормально. Например, ошибка, допускаемая при изменении какой-либо физической величины, складывается, по-видимому, из большого числа ошибок, вызванных многочисленными причинами. Поэтому, как правило, случайная ошибка измерения имеет нормальное распределение. 6) Вероятностный смысл параметров a и σ будет установлен в 3.п. Определение4.Распределение непрерывной случайной величины, заданное дифференциальной функцией распределения ⎧ 1 ⎪b − a ⎪ ⎨ ⎪ 0 f (t ) = ⎪⎩ при a≤t≤b при (− ∞, a ) ∪ (b,+∞ ) (20) называется равномерным распределением на отрезке [ a, b ]. Комментарии к определению 4. 1) Интегральный закон равномерного распределения имеет следующий вид: ⎧ 0 ⎪t − a ⎨ ⎪b − a F (t ) = ⎩ 1 при t < a, при a < t < b, при t > b. 73 3) Вероятность P ( α ≤ Х < β ) того, что равномерная случайная величина (т. е. случайная величина, имеющая равномерное распределение) примет значение в интервале [ α , β ), принадлежащем [ a, b ], выражается формулой P( α ≤ X < β) = β −α b−a ) (22) Таким образом, вероятность попадания значений равномерной случайной величины в интервал [ α , β ) ⊂ [a, b ] зависит только от длины интервала [ α , β ) и не зависит от положения этого интервала внутри [ a, b ]. Определение 5. Распределение непрерывной случайной величины X , заданное дифференциальной функцией распределения f (t ) = ⎧ae − at ⎪ ⎨ ⎪ 0 ⎩ t>0 при при t < 0, (23) (экспоненциальным) распределением; называется показательным здесь a>0 — некоторый параметр. Комментарии к определению 5. 1) Функция у= f (t ) быстро убывает при t →∞. Величина X принимает только неотрицательные значения. 2) Интегральная функция распределения F ( t ) показательной случайной величины X имеет вид F (t ) = ⎧1 − e − at ⎪ ⎨ ⎪ 0 ⎩ при t > 0, при t < 0. Действительно, t t ∫ ae ∫ − at − at f(t)dt = 0 dt = 1- e , t >0 3) Если α >0, β >0, то вероятность того, величина X примет значение в интервале [ α , β ), такова: F (t ) = −∞ что случайная β ∫β f (t ) − at α ≤ Х < β P( )= dt = F ( β ) – F ( α ) = 1 - e Если же α <0, β >0, то αβ P ( α ≤ Х < β ) = P ( 0 ≤ Х < β ) = 1- e (25) (26) Наконец, если a <0, β <0, то P ( α ≤ Х < β ) = 0. 4) В случае а>0, β >0 вероятность P ( α ≤ Х < β ) численно равна площади области, заштрихованной на рис. 4,а, а в случае a <0, β >0 — площади области, заштрихованной на рис. 4,б. 74 Рис.4 5) Вероятностный смысл параметра a , будет установлен в п.3. 2. Определение 6.Пусть X -непрерывная случайная величина и f (t ) -ее дифференциальная функция распределения. Математическим ожиданием непрерывной случайной величины X называется число +∞ ∫ tf (t )dt MX = − ∞ (27) (если этот интеграл сходится). Математическое ожидание непрерывной случайной величины имеет такой же вероятностный смысл, что и математическое ожидание дискретной случайной величины. Определение 7. Пусть X —непрерывная случайная величина и f (t ) — ее дифференциальная функция распределения. Дисперсией непрерывной X случайной величины называется число +∞ DX = ∫ (t − MX ) 2 f (t )dt (28) (если интеграл сходится); МX означает математическое ожидание случайной величины X. Комментарии к определению 7. 1) Дисперсия случайной величины X есть математическое ожидание −∞ случайной величины ( X − MX ) . 2) Истолкование дисперсии случайной величины как математического ожидания квадрата отклонения X от МХ позволяет описать вероятностный смысл дисперсий следующим образом. Дисперсия характеризует среднее значение квадрата отклонения значений X от ее математического ожидания. Чем больше эти отклонения по абсолютной величине, тем больше дисперсия, и обратно. Дисперсия измеряет меру рассеяния значений случайной величины относительно математического ожидания X . 3) Справедлива следующая формула, упрощающие вычисление дисперсии: 2 2 ⎞ ⎛ +∞ DX = ∫ t f (t )dt − ⎜⎜ ∫ tf (t )dt ⎟⎟ −∞ ⎠ . ⎝ −∞ +∞ 2 (29) В формуле (29) X —непрерывная случайная величина и f (t ) — ее дифференциальная функция распределения. 75 4) Квадратный корень из дисперсии называется среднеквадратическим σX ; отклонением и обозначается таким образом, σX = DX . Среднеквадратическое отклонение, как и дисперсия, является мерой рассеяния значений случайной величины относительно математического ожидания. Среднеквадратическое отклонение измеряется в тех же единицах, что и X, в то 2 время как дисперсия имеет измерение X . Поэтому иногда предпочтительнее иметь дело с σX , а не с DX . 3. 1. Нормальное распределение (см.п.1); дифференциальная функция X нормального распределения случайной величины имеет вид 1 f (t ) = e σ 2π − (t − a ) 2 2σ 2 . Можно доказать, что +∞ 1 MX = ∫ t e σ 2 π −∞ +∞ 1 DX = ∫ t e − ∞ σ 2π 2 − (t − a ) 2 2σ 2 dt = a , (30) −(t −a )2 2σ 2 dt = σ 2 , σХ = σ . (31) Таким образом, вероятностный смысл параметров нормального распределения состоит в следующем: а есть математическое ожидание 2 нормальной случайной величины; σ —дисперсия; σ -среднеквадратическое отклонение. 2. Равномерное распределение (см.п.1); дифференциальная функция распределения равномерной случайной величины X имеет вид В этом случае справедливы формулы +∞ MX = ∫ tf (t )dt = −∞ a+b , 2 DX = (32) 2 ⎞ ⎛ ( a − b) 2 a−b 2 ⎟ ⎜ t f t dt tf t dt = − ( ) ( ) σХ = ∫−∞ ⎟ ⎜∫ 12 ⎠ ⎝ −∞ 2 3 . ; +∞ +∞ (33) 3. Показательное распределение (см.п.1.); дифференциальная функция распределения показательной случайной величины X имеет вид ⎧ 0 ⎪ f (t ) = ⎨ ⎪λe − λt ⎩ при t < 0, при t > 0. Можно показать, что +∞ MX = ∞ − λt ∫ tf (t )dt = ∫ tλe dt = −∞ 1 λ 76 , (34) +∞ DX = ∫t −∞ 2 f (t ) dt − 1 λ 2 ∞ = ∫ λ t 2 e − λ t dt − 1 λ 2 = 1 λ 2 , σX = 1 λ . (35) Формулы (34) и (35) устанавливают вероятностный смысл параметра λ: 1 λ 1 есть математическое ожидание показательной случайной величины; λ — 2 1 дисперсия; λ — среднеквадратическое отклонение. Свойства математического ожидания и дисперсии непрерывной случайной величины аналогичны свойствам математического ожидания и дисперсии дискретной случайной величины (см. лек.№7). Как уже ранее отметили (см. лек.№7) из свойства математического ожидания и дисперсии в качестве следствия вытекает важный теоретиковероятностный факт, лежащий в основе законов больших чисел (см..лек.№9, теорема Чебышева). Вопросы для самопроверки 1.Дайте определение интегральной функции распределения. 2.Приведите свойства интегральной функции распределения. 3.Дайте определение дифференциальной функции распределения. 4.Приведите свойства дифференциальной функции распределения. 5.Дайте определение нормального распределения. Какую роль играет нормальное распределение в теории вероятностей и на практике? 6.Дайте определение равномерного распределения. 7.Дайте определение показательного распределения. 8.Как определяются числовые характеристики непрерывной случайной величины? 9.Чему равны числовые характеристики: а) нормального распределения; б) равномерного распределения; в)показательного распределения? 77 Упражнения 1.Цена деления шкалы измерительного прибора равна 0,2. Показания прибора округляют до ближайшего целого числа. Полагая, что при отсчете ошибка округления распределена по равномерному закону, найти:1)математическое ожидание, дисперсию и среднеквадратическое отклонение этой случайной величины; 2) вероятность того, что ошибка округления: а) меньше 0,04; б) больше 0,05. 2.Среднее время безотказной работы прибора равно 80 ч. Полагая, что время безотказной работы прибора имеет показательный закон распределения, найти: а)выражение его плотности вероятности и функции распределения; б) вероятность того, что в течение 100 ч прибор не выйдет из строя. 3.Текущая цена акции может быть смоделирована с помощью нормального закона распределения с математическим ожиданием 15 ден. ед . и средним квадратичным отклонением 0,2 ден. ед. 1. Найти вероятность того, что цена акции: а) не выше 15,3 ден. ед.; б) не ниже 15,4 ден. ед.; в) от 14,9 до 15,3 ден. ед. 2.С помощью правила трех сигм найти границы, в которых будет находиться текущая цена акции. 4.Цена некой ценной бумаги нормально распределена. В течение последнего года 20% рабочих дней она была ниже 88 ден. ед., а 75% — выше 90 ден.ед. Найти: а) математическое ожидание и среднеквадратическое отклонение цены ценной бумаги; б) вероятность того, что в день покупки цена будет заключена в пределах от 83 до 96 ден. ед.; в) с надежностью 0,95 определить максимальное отклонение цены ценной бумаги от среднего (прогнозного) значения (по абсолютной величине). 5.Случайная величина X имеет нормальное распределение с математическим ожиданием а = 25. Вероятность попадания А в интервал (10; 15) равна 0,09. Чему равна вероятность попадания X в интервал: а) (35;40);б) (30;35)? 6.20%-ная точка нормально распределенной случайной величины равна 50, а 40%-ная точка равна 35. Найти вероятность того, что случайная величина примет значение в интервале (25;45). 7.Коробки с шоколадом упаковываются автоматически: их средняя масса равна 1,06 кг. Найти стандартное отклонение, если 5% коробок имеют массу меньше 1 кг. Предполагается, что масса коробок распределена по нормальному закону. 8.Доказать, что если случайная величина X имеет нормальное распределение, то линейная функция Y= АX+В, (А ≠ 0) также имеет нормальное распределение. 9.(Логарифмически нормальное распределение). Плотность вероятности случайной величины X равна 78 ⎧ ⎪ 0, ⎪⎪ f (x ) = ⎨ (ln x − a )2 ⎪ 1 − 2 ⎪ e 2σ ⎪⎩ xσ 2π при x≤0 при x>0 Найти математическое ожидания и дисперсию. 2 10. Распределением χ («хи-квадрат») с n степенями свободы называется распределение случайной величины χ = X 1 + X 2 + ... + X n , где X 1 , X 2 ,..., X n — независимые случайные величины, распределенные нормально с параметрами 0 2 2 2 2 и 1. Найти: а) плотность вероятности случайной величины X 12 ; б) математическое ожидание и дисперсию случайной величины χ . 11.Месячный доход семей можно рассматривать как случайную величину, распределенную по логнормальному закону. Полагая, что математическое ожидание этой случайной величины равно 1000 ден. ед., а среднеквадратическое отклонение 800 ден. ед., найти долю семей, имеющих доход: а) не менее 1000 ден. ед.; б) менее 500 ден. ед. Литература: [1]: c.111-134; [2]: c.103-125, c.151-168; [3]: c.51-68 2 79 Л Е К Ц И Я №9 ЗАКОН БОЛЬШИХ ЧИСЕЛ. ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА ПЛАН: 1.Закон больших чисел. Неравенство Чебышева. Теорема Бернулли. Теорема Чебышева. 2. Предельные теоремы. Центральная предельная теорема Ляпунова. КЛЮЧЕ ВЫЕ СЛОВА: Закон больших чисел, неравенство Чебышева, теорема Бернулли, теорема Чебышева, предельная теорема, центральная предельная теорема Ляпунова, характеристическая функция, преобразования Фурье. 1. Из повседневного опыта известно, что массовые случайные явления обладают свойствами устойчивости средних. Это означает, что при независимых испытаниях случайной величины X среднее арифметическое x1 + x2 + ⋅ ⋅ ⋅ + xn n полученных значений при больших n стабилизируется. Случайные колебания значений каждого испытания взаимно компенсируются и x1 + x2 + ⋅ ⋅ ⋅ + xn n случайная величина , где X i есть i-е испытание величины X (i=1, 2, ...., n), при больших n теряет свой случайный характер. Теоремы, описывающие такие ситуации. называются законами больших чисел. Мы строго сформулируем и докажем два варианта закона больших чисел — теоремы Бернулли и Чебышева. В основе доказательства этих теорем лежит неравенство Чебышева, составляющего содержание следующей леммы. Лемма (неравенство Чебышева). Пусть X—произвольная случайная величина; МХ и DХ—соответственно ее математическое ожидание и дисперсия, ε >0 — произвольное число. Тогда справедливо неравенство P ( X − MX < ε ) > 1 − DX ε2 , (1) где P ( X − MX < ε ) означает вероятность того, что отклонение случайной величины X от своего математического ожидания меньше, чем ε . Комментарий к лемме. Неравенство (1) и теорема об устойчивости среднего арифметического (см. ниже) доказаны П. Л. Чебышевым. Доказательство. Пусть X -дискретная случайная величина, распределение, которой задано таблицей x1 x2 p1 p2 … … 80 xn pn Имеем DX = ∑ (xi − MX ) pi = ∑ (xi − MX ) pi + ∑ (x − MX ) pi n / 2 // 2 2 i =1 ∑ (x − MX ) / где 2 i 2 означает сумму всех слагаемых вида (xi − MX ) pi таких, pi 2 2 (x − MX ) что (xi − MX ) < ε , а ∑ i // что ∑ (x − MX ) / 2 i pi 2 pi 2 -сумму всех слагаемых вида (xi − MX ) pi таких, ∑ (x − MX ) // (xi − MX )2 ≥ ε 2 . , При этих условиях 2 i pi (x − MX ) ≥∑ / 2 i pi , ≥ 0, откуда DX ≥ ε 2 ∑ pi // ∑ где под знаком // , собраны вероятности всех тех значений xi , для 2 2 которых (xi − MX ) ≥ ε . Поэтому ∑ // pi = P( xi − MX ≥ ε ) и следовательно, DX ≥ ε P( X − MX ≥ ε ) = ε [1 − P( X − MX < ε 2 2 )] Из последнего соотношения получим P ( X − MX < ε ) > 1 − DX ε2 . Аналогично доказывается неравенство Чебышева для непрерывной случай-ной величины X с дифференциальной функцией распределения f (t ) . Замечание. Неравенство Чебышева записать в другом виде P ( X − MX ≥ ε ) ≥ P ( X − MX < ε ) > 1 − DX ε2 можно DX ε2 Теорема 1 (теорема Бернулли). Пусть k — количество наступлений события А в серии из n испытаний схемы Бернулли, р—вероятность наступления события А в одном испытании. Тогда lim P( n→∞ k − p <ε n ) = 1. (2) Комментарий к теореме 1. Теорема Бернулли утверждает, что вероятность k малого (меньшего, чем ε ) отклонения вероятности р от частоты n велика (при большом n). Иными словами, почти всегда будет наблюдаться малое отклонение частоты наступления события А в n испытаниях от вероятности наступления А в одном испытании. В частности, теорема объясняет, почему при многократном бросании монеты количество гербов составляет примерно половину от числа бросаний. Теорема Бернулли была исторически первым строго доказанным математическим фактом из числа тех утверждений, которые носят название закона больших чисел. Доказательство дано швейцарским математиком Я. Бернулли. 81 Доказательство распределения использованы теоремы 1. Как известно для биномиального pq ⎛k⎞ 1 ⎛k⎞ M ⎜ ⎟ = p, D⎜ ⎟ = 2 ⋅ npq = n ⎝n⎠ n ⎝n⎠ Mk = np, Dk = npq ,поэтому свойства математического (здесь ожидания и дисперсии: M (λX ) = λMX , D(λX ) = λ DX ). 2 Запишем неравенство Чебышева для X = k n : ⎛k ⎞ pq P⎜⎜ − p < ε ⎟⎟ > 1 − 2 . nε ⎝n ⎠ (3) Правая часть неравенства (3) при n → ∞ стремится к единице, поэтому и lim P( n→∞ k − p <ε n ) = 1. Теорема 2 (теорема Чебышева). Пусть X i (i = 1,2,..., n) — попарно независимые случайные величины, имеющие одинаковые распределения: MX i = a, DX i = σ 2 . Тогда имеет место соотношение ⎛ X + X2 + ⋅⋅⋅ + Xn ⎞ lim P⎜⎜ 1 − a < ε ⎟⎟ → 1 n →∞ n ⎝ ⎠ (4) Комментарий к теореме 2. Можно считать, что дана одна случайная величина X, которая (независимо) испытывается n раз; случайное значение i-го испытания определяет случайную величину X i . Теорема Чебышева утверждает, что малое X1 + X 2 + ⋅ ⋅ ⋅ + X n n (меньшее, чем ε ) отклонение среднего арифметического от математического ожидания а весьма вероятно. Иными словами, почти всегда будет наблюдаться малое отклонение (при больших n). Доказательство теоремы 2. Имеем 1 ( X1 + X 2 + ⋅ ⋅ ⋅ + X n ) = n 1 D ( X1 + X 2 + ⋅ ⋅ ⋅ + X n ) = n 1 1 ( MX 1 + MX 2 + ⋅ ⋅ ⋅ + MX n ) = na, n n 1 1 2 σ2 DX DX DX n + + ⋅ ⋅ ⋅ + = = ( ) σ 1 2 n n2 n2 n 2 (здесь использованы формулы M (λX ) = λMX , D(λX ) = λ DX ). X1 + X 2 + ⋅ ⋅ ⋅ + X n n Неравенство Чебышева для Х= дает M ⎛ X1 + X 2 + ⋅ ⋅ ⋅ + X n ⎞ σ2 < ε ⎟⎟ > 1 − 2 . P⎜⎜ n nε ⎝ ⎠ (5) Правая часть неравенства (5) при n → ∞ стремится к единице; отсюда и следует утверждение (4). 82 Теорему Бернулли можно рассматривать как частный случай теоремы X =k k (i ) Чебышева, если считать, что i (i ) ( i=1,2,…,n), где -количество наступлений события А в i- м испытании схемы Бернулли. Тогда частота наступления события А есть k X1 + X 2 + ⋅ ⋅ ⋅ + X n 1 = (k(1) + k( 2 ) + ⋅ ⋅ ⋅ + k( n ) ) = n n n и a = p,σ = np . 2 Пример 1.1.Для определения средней продолжительности горения электроламп в партии из 200 одинаковых ящиков было взято на выборку по одной лампе из каждого ящика. Оценить вероятность того, что средняя продолжительность горения отобранных 200 электроламп отличается от средней продолжительности горения ламп во всей партии не более чем на 5 ч (по абсолютной величине), если известно, что среднее квадратическое отклонение продолжительности горения ламп в каждом ящике меньше 7 ч. Решение. Пусть X I — продолжительность горения электролампы, взятой из i -го ящика (ч). 2 По условию дисперсия DX i < 7 = 49 . Очевидно, что X 1 + X 2 + ... + X 200 200 средняя продолжительность горения отобранных ламп равна ,а MX 1 + MX 2 + ... + MX 200 200 средняя продолжительность горения ламп во всей партии . Тогда вероятность искомого события: ⎛ X + X 2 + ... + X 200 MX 1 + MX 2 + ... + MX 200 ⎞ 49 P⎜⎜ 1 − < 5 ⎟⎟ > 1 − ≈ 0,9902 200 ⋅ 52 200 200 ⎝ ⎠ , т.е. не менее, чем 0,9902. Пример1.2.Сколько надо провести измерений данной величины, чтобы с вероятностью не менее 0,95 гарантировать отклонение средней арифметической этих измерений от истинного значения величины не более, чем на 1 (по абсолютной величине), если среднеквадратическое отклонение каждого из измерений не превосходит 5? Решение. Пусть X I , - результат i-го измерения (i =1,2,...,n) — истинное значение величины, т.е. М( X I )=а при любом i . Необходимо найти n, при котором ⎛ X + X 2 + ... + X n ⎞ − a < 1⎟⎟ > 0,95. P⎜⎜ 1 n ⎝ ⎠ Данное неравенство выполняется, если 1− DX 52 = − > 0,95 1 nε 2 n ⋅ 12 , откуда 25 < 0,05 n и n> 25 = 500 0,05 , т.е.потребуется не менее 501 измерений. 2. Кроме законов больших чисел, описывающих устойчивость средних значений и изложенных в п.1, в теории вероятностей имеет место еще одно замечательное явление. Как и законы больших чисел, это явление заключается в том, что при большом количестве случайных слагаемых, каждое 83 из которых вносит лишь небольшой вклад в общую сумму, распределение каждого из слагаемых не влияет на суммарный результат. Точнее, при указанных условиях вид распределения суммы не зависит от распределения слагаемых. Более строгое утверждение сформулировано в следующей теореме. Теорема (центральная предельная теорема Ляпунова). Пусть Х1, Х2,…, Хn,...— одинаково распределенные независимые случайные величины с 2 математическим ожиданием МХ=а и дисперсией DX i = σ . Тогда при большом n распределение суммы Y = X 1 + X 2 + ⋅ ⋅ ⋅ + X n близко к нормальному распределению. Комментарии к теореме. 1) Когда говорят, что последовательность распределений Z1 , Z 2 ,..., Z n стремится к некоторому распределению Z, имеют в виду, что (дифференциальные) функции fi (t ) распределений Z i стремятся к функции f (t ) распределения Z. 2) Так как MY = ∑ MX i = na и DY = ∑ DX i = nσ 2 , то величины a= MX n , MX σ2 = n малы при больших n. Величины Хi вносят «равномерно малый вклад», о чем шла речь выше. 3) Утверждение о нормальном законе распределения суммы Х1 + Х2 + ... +Хn справедливо при менее ограничительных условиях, чем те, которые фигурируют в условии теоремы. В частности, справедлив более сильный вариант теоремы Ляпунова, устанавливающий, что сумма Х1 + Х2 + ... +Хn имеет нормальное распределение при весьма общих предположениях относительно величин X 1 , X 2 ,..., X n . Доказательство центральной предельной теоремы использует аппарат характеристических функций и в общих чертах следует такой схеме. Каждой случайной величине соответствует характеристическая функция, сумме случайных величин соответствует произведение характеристических функций. Это произведение при неограниченном увеличении числа n слагаемых стремится к некоторой функции, которая оказывается характеристической функцией нормального распределения. Отсюда и следует утверждение центральной предельной теоремы. (Впрочем, важным обстоятельством, пропущенным в вышеуказанных рассуждениях, является тот факт, что если последовательность характеристических функций fi (t ) сходится к функции f (t ) , то последовательность распределений, соответствующих функциям f i (t ) , f (t ) . сходится к распределению, соответствующему функции В действительности именно доказательство этого факта является самым трудным местом в доказательстве предельной теоремы.) Понятие характеристической функции распределения, играющее столь важную роль в доказательстве центральной теоремы, является сложным понятием математики. Оно связано с важным общематематическим понятием 84 преобразования Фурье. Это выходит за рамки математического образования студентов-экономистов. Поэтому выше вместо строгого доказательства теоремы мы ограничиваемся приведением схемы доказательства в общих чертах. Вопросы для самопроверки 1.Сформулируйте лемму - неравенства Чебышева. 2.Приведите обе формы записи неравенства Чебышева. 3.Сформулируйте теорему Чебышева и прокомментируйте ее. 4.Сформулируйте теорему Бернулли. 5.Сформулируйте центральную предельную теорему Ляпунова и прокомментируйте ее. 6. На чем основывается доказательство центральной предельной теоремы Ляпунова. 85 Упражнения 1.(Правило «трех сигм».) Используя неравенство Чебышева, оценить вероятность того, что любая случайная величина X отклонится от своего математического ожидания менее чем на три средних квадратичных отклонения этой величины. 2.Длина изготовляемых изделий представляет случайную величину, среднее значение которой (математическое ожидание) равно 90 см. Дисперсия этой величины равна 0,0225. Используя неравенство Чебышева, оценить вероятность того, что: а) отклонение длины изготовленного изделия от ее среднего значения по абсолютной величине не превзойдет 0,4; б) длина изделия выразится числом, заключенным между 89,7 и 90,3 см. 3.Устройство состоит из 10 независимо работающих элементов. Вероятность отказа каждого элемента за время t равна 0,05. Используя неравенство Чебышева, оценить вероятность того, что абсолютная величина разности между числом отказавших элементов и средним числом (математическим ожиданием) отказов за время t окажется меньше двух. 4.Дискретная случайная величина X задана законом распределения X : 0,3 0,6 p: 0,2 0,8 Используя неравенство Чебышева, оценить вероятность того, что X − MX < 0,2. 5.Дана последовательность независимых случайных величин X 1 , X 2 ,..., X n ,... Случайная величина X i , (i = 1,2,...) может принимать только три − n, 0, n значения: с вероятностями, равными соответственно 1 , n 2 1− , n 1 n . Применима ли к этой последовательности теорема Чебышева? 6.Последовательность независимых случайных величин X 1 , X 2 ,..., X n ,... задана законом распределения: a −a Xi : n n +1 p: 2n − 1 2n + 1 Применима ли к этой последовательности теорема Чебышева? 7.Среднее изменение курса акции компании в течение одних биржевых торгов составляет 0,3%. Оценить вероятность того, что на ближайших торгах курс изменится более, чем на 3%. 8.Отделение банка обслуживает в среднем 100 клиентов в день. Оценить вероятность того, что сегодня в отделении банка будет обслужено: а) не более 200 клиентов; б) более 150 клиентов. 9.Электростанция обслуживает сеть на 1600 электроламп, вероятность включения каждой из которых вечером равна 0,9. Оценить с помощью неравенства Чебышева вероятность того, что число ламп, включенных в сеть 86 вечером, отличается от своего математического ожидания не более чем на 100 (по абсолютной величине). Найти вероятность того же события, используя следствие из интегральной теоремы Муавра—Лапласа. 10. Вероятность того, что акции, переданные на депозит, будут востребованы, равны 0,08. Оценить с помощью неравенства Чебышева вероятность то-го, что среди 1000 клиентов от 70 до 90 востребуют свои акции. 11.Среднее значение длины детали 50 см, а дисперсия -0,1. Используя неравенство Чебышева, оценить вероятность того, что случайно взятая деталь окажется по длине не менее 49,5 и не более 50,5 см. Уточнить вероятность того же события, если известно, что длина случайно взятой детали имеет нормальный закон распределения. 12.Оценить вероятность того, что отклонение любой случайной величины от ее математического ожидания будет не более двух средних квадратичных отклонений (по абсолютной величине). 13.В течение времени t эксплуатируются 500 приборов. Каждый прибор имеет надежность 0,98 и выходит из строя независимо от других. Оценить с помощью неравенства Чебышева вероятность того, что доля надежных приборов отличается от 0,98 не более чем на 0,1 (по абсолютной величине). 14.Вероятность сдачи в срок всех экзаменов студентом факультета равна 0,7. С помощью неравенства Чебышева оценить вероятность того, что доля сдавших в срок все экзамены из 2000 студентов заключена в границах от 0,66 до 0,74. 15.Бензоколонка N заправляет легковые и грузовые автомобили. Вероятность того, что проезжающий легковой автомобиль подъедет на заправку, равна 0,3. С помощью неравенства Чебышева найти границы, в которых с вероятностью, не меньшей 0,79, находится доля заправившихся в течение 2 ч легковых автомобилей, если за это время всего заправилось 100 автомобилей. 16.В среднем 10% работоспособного населения некоторого региона — безработные. Оценить с помощью неравенства Чебышева вероятность того, что уровень безработицы среди обследованных 10 000 работоспособных жителей города будет в пределах от 9 до 11 % (включительно). 17.Выход цыплят в инкубаторе составляет в среднем 70% числа заложенных яиц. Сколько нужно заложить яиц, чтобы с вероятностью, не меньшей 0,95, ожидать, что отклонение числа вылупившихся цыплят от математического ожидания их не превышало 50 (по абсолютной величине)? Решить задачу с помощью: а) неравенства Чебышева; б) интегральной теоремы Муавра-Лапласа. 18.Опыт работы страховой компании показывает, что страховой случай приходится примерно на каждый пятый договор. Оценить с помощью неравенства Чебышева необходимое количество договоров, которые следует заключить, чтобы с вероятностью 0,9 можно было утверждать, что доля страховых случаев отклонится от 0,1 не более чем на 0,01 (по абсолютной 87 величине). Уточнить ответ с помощью следствия из интегральной теоремы Муавра - Лапласа. 19.В целях контроля из партии в 100 ящиков взяли по одной детали из каждого ящика и измерили их длину. Требуется оценить вероятность того, что вычисленная по данным выборки средняя длина детали отличается от средней длины детали во всей партии не более чем на 0,3 мм, если известно, что среднее квадратичное отклонение не превышает 0,8 мм. 20.Сколько нужно произвести измерений, чтобы с вероятностью, равной 0,9973, утверждать, что погрешность средней арифметической результатов этих измерений не превысит 0,01, если измерение характеризуется средним квадратичным отклонением, равным 0,03? Литература: [1]: c.101-110, c.135-137; [2]: c.215-236; 88 [3]: c.89-99. Л Е К Ц И Я №10 ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ. ВЫБОРОЧНЫЙ МЕТОД ПЛАН: 1. Задача математической статистики. 2. Генеральная и выборочная совокупности. 3. Повторная и бесповторная выборки. Репрезентативная выборка. 4. Способы отбора. 5. Статистическое распределение выборки. 6. Эмпирическая функция распределения. 7. Полигон и гистограмма К Л Ю Ч Е В Ы Е С Л ОВ А: Генеральная совокупность, выборочная совокупность,. повторная и бесповторная выборки, репрезентативная выборка, статистическое распределение выборки, эмпирическая функция распределения, полигон , гистограмма. 1. Задача математической статистики Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении статистических данных — результатах наблюдений. Первая задача математической статистики — указать способы сбора и группировки (если данных очень много) статистических сведений. Вторая задача математической статистики — разработать методы анализа статистических данных, в зависимости от целей исследования. Изучение тех или иных явлений методами математической статистики служит средством решения многих вопросов, выдвигаемых наукой и практикой (правильная организация технологического процесса, наиболее целесообразное планирование и др.). Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов 2. Генеральная и выборочная совокупности Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным — контролируемый размер детали. Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяется сравнительно редко. Например, если совокупность содержит очень большое число объектов, то 89 провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Выборочной совокупностью, или просто выборкой, называют совокупность случайно отобранных объектов. Генеральной совокупностью называют совокупность объектов, из которых производится выборка. Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n=100. Замечание. Часто генеральная совокупность содержит конечное число объектов. Однако, если это число достаточно велико, то иногда в целях упрощения вычислений, или для облегчения теоретических выводов, допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объема генеральной совокупности (достаточно большого объема) практически не сказывается на результатах обработки данных выборки. 3. Повторная и бесповторная выборки. Репрезентативная выборка При составлении выборки можно поступать двояко: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен, либо не возвращен в генеральную совокупность. В соответствии со сказанным, выборки подразделяют на повторные и бесповторные. Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность. Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается. На практике обычно пользуются бесповторным случайным отбором. Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Это требование коротко формулируют так: выборка должна быть репрезентативной (представительной). В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществить случайно: каждый объект выборки отобран случайно из генеральной совокупности, если все объекты имеют одинаковую вероятность попасть в выборку. Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает. 4. Способы отбора 90 На практике применяются различные способы отбора. Принципиально эти способы можно подразделить на два вида: 1.Отбор, не требующий расчленения генеральной совокупности на части, сюда относятся: а) простой случайный бесповторный отбор; б) простой случайный повторный отбор. 2. Отбор, при котором генеральная совокупность разбивается на части, сюда относятся: а) типический отбор; б) механический отбор; в) серийный отбор. Простым случайным называют такой отбор, при котором объекты извлекают по одному из всей генеральной совокупности. Осуществить простой отбор можно различными способами. Например, для извлечения n объектов из генеральной совокупности объема N поступают так: выписывают номера от 1до N на карточках, которые тщательно перемешивают и наугад вынимают одну карточку; объект, имеющий одинаковый номер с извлеченной карточкой, подвергают обследованию; затем карточка возвращается в пачку и процесс повторяется, т. е. карточки перемешиваются, наугад вынимают одну из них и т. д. Так поступают n раз; в итоге получают простую случайную повторную выборку объема п. Если извлеченные карточки не возвращать в пачку, то выборка будет простой случайной бесповторной. При большом объеме генеральной совокупности описанный процесс оказывается очень трудоемким. В этом случае пользуются готовыми таблицами «случайных чисел», в которых числа расположены в случайном порядке. Для того чтобы отобрать, например 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд 50 чисел; в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами. Если бы оказалось, что случайное число таблицы превышает число N, то такое случайное число пропускают. При осуществлении бесповторной выборки случайные числа таблицы, уже встречавшиеся ранее, следует также пропустить. Типическим называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической»части. Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных типических частях генеральной совокупности. Например, если продукция изготовляется на нескольких машинах, среди которых есть более и менее изношенные, то здесь типический отбор целесообразен. Механическим называют отбор, при котором генеральная совокупность «механически» делится на столько групп, сколько объектов должно войти в выборку, и из каждой группы отбирается один объект. 91 Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь; если требуется отобрать 5% деталей, то отбирают каждую двадцатую деталь и т. д. Следует указать, что иногда механический отбор может не обеспечить репрезентативности выборки. Например, если отбирается каждый двадцатый обтачиваемый валик, причем сразу же после отбора производят замену резца, то отобранными окажутся все валики, обточенные затупленными резцами. В таком случае надо устранить совпадение ритма отбора с ритмом замены резца, для чего надо отбирать, скажем, каждый десятый валик из двадцати обточенных. Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию. Например, если изделия изготовляются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно. Подчеркнем, что на практике часто применяется комбинированный отбор, при котором сочетаются указанные выше способы. Например, иногда разбивают генеральную совокупность на серии одинакового объема, затем простым случайным отбором выбирают несколько серий и, наконец, из каждой серии простым случайным отбором извлекают отдельные объекты. 5. Статистическое распределение выборки Пусть из генеральной совокупности извлечена выборка, причем x1 наблюдалось n1 раз, х2 — n2 раз, хk— nk раз и ∑ i —объем выборки. Наблюдаемые значения хi называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом. Числа n =n ni = Wi наблюдений называют частотами, а их отношения к объему выборки n - относительными частотами. Статическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал). Заметим, что в теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми вариантами и их частотами, или относительными частотами. Пример. Задано распределение частот выборки объема равное20: xi 2 6 ni 3 10 12 7 Написать распределение относительных частот. 92 Решение. Найдем относительные частоты, для чего разделим частоты на объем выборки: W1 = 3 = 0,15, 20 W2 = 10 = 0,50, 20 W3 = 7 = 0,35. 20 Напишем распределение относительных частот: xi Wi 2 6 12 0,15 0,5 0,35 Контроль: 0,15+0,5+0,35 = 1 6. Эмпирическая функция распределения Пусть известно статистическое распределение частот количественного признака X. Введем обозначения: nx — число наблюдений, при которых наблюдалось значение признака меньшее х,, n— общее число наблюдений (объем выборки). nx Ясно, что относительная частота события Х<х равна n — Если х будет изменяться, то вообще говоря, будет изменятся и относительная частота, т. е. относительная частота — есть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической. Эмпирической функцией распределения (функцией распределения выборки) называют функцию F*(х), определяющую для каждого значения х относительную частоту события Х<х. Итак, по определению nx F*(х )= n , где nx — число вариант, меньших х, n — объем выборки. Таким образом, для того чтобы найти, например F*(х2), надо число вариант, меньших х2, разделить на объем выборки: = nx 2 F*(х) n . В отличие от эмпирической функции распределения выборки, интегральную функцию F(х) распределения генеральной совокупности называют теоретической функцией распределения. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(х) определяет вероятность события Х<х, а эмпирическая функция F*(х) определяет относительную частоту этого же события. Из теоремы Бернулли следует, что относительная частота события Х<х, т. е. F*(х) стремится по вероятности к вероятности F(х) этого события. Другими словами, числа F*(х) и F(х) мало отличаются одно от другого. Уже отсюда следует целесообразность использования эмпирической функции распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности. 93 Такое заключение подтверждается и тем, что F*(х) обладает всеми свойствами F(х) . Действительно, из определения функции F*(х) вытекают следующие ее свойства: 1) значения эмпирической функции принадлежат от резку [0,1]; 2) F*(х) — неубывающая функция; 3) если x1— наименьшая варианта, то F*(х)=0 при х< x1; если xk— наибольшая варианта, то F*(х)=1 при x> xk. Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности. Пример. Построить эмпирическую функцию по данному распределению выборки; варианты xi 2 6 10 частоты ni 12 18 30. Решение. Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, следовательно, F*(х)=0 при x ≤ 2. Значение X ≤ 6, а именно x1=2 наблюдалось 12 раз; следовательно 12 F*(х)= 60 при 2< x ≤ 6. Значения X ≤ 10, а именно x1 =2 и x1=6 набдюдались 12 + 18 =30 раз; следовательно, 30 F*(х)= 60 при 6< x ≤ 10. Так как x=10 –наибольшая варианта, то F*(х)= 1 при x>10. Искомая эмпирическая функция ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ F*(х)= ⎩ 0,2 0,5 1 при x ≤ 2, при 2 < x ≤ 6, при 6 < x ≤ 10, при x > 10 График этой функции изображен на рис. 1. Рис.1. 94 7. Полигон и гистограмма В целях наглядности строят различные графики статистического распределения и, в частности, полигон и гистограмму. Полигоном частот называют ломаную, отрезки которой соединяют точки (x1; n1), (x2; n2), …,(xk; nk), Для построения полигона частот на оси абсцисс откладывают варианты xk, а на оси ординат — соответствующие им частоты ni. Точки (xi; ni), соединяют отрезками прямых и получают полигон частот. Полигоном относительных частот называют ломаную, отрезки которой соединяют точки (x1; W1), (x2;W2), …,(xk;Wk) . Для построения полигона относительных частот на оси абсцисс откладывают варианты xk, а на оси ординат соответствующие им относительные частоты Wi. Точки (xi;Wi), соединяют отрезками прямых и получают полигон относительных частот. В случае непрерывного признака целесообразно строить гистограмму, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиною h и находят для каждого частичного интервала ni.— сумму частот вариант, попавших в i-й интервал. На рис. 2 изображен полигон относительных частот следующего распределения: X 1,5 W 0,1 3,5 0,2 5,5 0,4 7,5 0,3 Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною ni h, а высоты равны отношению h (плотность частоты). Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс ni на расстоянии h . Рис. 2. ni Площадь (i-го частичного прямоугольника равна h· h =ni— сумме частот вариант i-го интервала; следовательно, площадь гистограммы частот равна cумме всех частот, т. е. объему выборки. 95 На рис. 3 изображена гистограмма частот распределения объема n=100, Частичный интервал длиною h=5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 Сумма астот вариант ni Часичного интервала h ni 4 6 16 36 24 10 4 ni Плотность частоты h 0,8 1,2 3,2 7,2 4,8 2,0 0,8 приведенного в таблице 1. Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные Wi интервалы длиною h, а высоты равны отношению h (плотность относитель- ной частоты). Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, Wi параллельные оси абсцисс на расстоянии h . Площадь i-го частичного Wi прямоугольника равна h· h =Wi - относительной частоте, попавших в i-й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т, е. единице. Рис.3. 96 Вопросы для самопроверки 1.Назовите задачи математической статистики? 2.Что называется генеральной совокупностью? 3.Что называется выборочной совокупностью? 4.Какие способы отбора применяются на практике? Поясните способы отбора. 5.Что представляет собой статистическое распределение? 6.Что называется эмпирической функцией распределения? Приведите пример построения эмпирической функции распределения. 7.Приведите свойства эмпирической функции распределения. 8.Что называется теоретической функцией распределения? В чем различие между эмпирической и теоретической функциями? 9.Что называется полигоном? 10.Что называется гистограммой? В каких случаях целесообразно строить гистограмму? 97 Упражнения 1.Записать выборку 5, 3, 7, 10, 5, 5, 2, 10, 7, 2, 7, 7, 4, 2, 4 в виде: а) вариационного, ряда; б) статистического ряда. 2.Построить полигон частот выборки, представленной в виде статистического распределения: а) xi : 1 ni : 20 4 10 б) xi : ni : 3 1 2 3 5 14 7 6 4 2 5 3 7 4 10 2 3.Найти эмпирическую функцию распределения представленной статистическим распределением: xi : 1 ni : 10 4 15 для выборки, для выборки, 6 25 4.Найти эмпирическую функцию распределения представленной статистическим распределением: а) xi : 2 ni : 1 5 3 7 2 б) xi : 4 ni : 5 7 2 8 3 8 4 5.Построить гистограмму выборки, представленной частот. Объем выборки n = 55., в виде таблицы Номер Границы Число элементов выборки, интервала интервала попавших в интервал i xi − xi +1 ni 1 10-12 2 2 3 12—14 14—16 4 8 4 5 16—18 18—20 12 16 6 7 20—22 22—24 10 3 98 6. Построить график эмпирической функции xi : 5 ni : 2 7 3 10 8 распределения 15 7 7.Построить полигоны частот и относительных частот распределения xi : 1 ni : 10 Литература: [1]: c.187-196; 3 15 5 30 7 33 [2]: c.264-288; 9 12 [3]: c.124-140. 99 Л Е К Ц И Я №11 СТАТИСТИЧЕСКИЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ П Л А Н: 1.Статистические оценки параметров распределения. 2.Несмещенные, эффективные и состоятельные оценки. 3. Генеральная средняя. 4. Выборочная средняя. 5.Оценка генеральной средней по выборочной средней. Устойчивость выборочных средних. 6.Генеральная дисперсия. 7.Выборочная дисперсия. 8.Формула для вычисления дисперсии. 9.Оценка генеральной дисперсии по исправленной выборочной. 10.Другие характеристики вариационного ряда. К Л Ю Ч Е В Ы Е С Л О В А: Статистическая оценка, несмещенная оценка, эффективная оценка, состоятельная оценка, генеральная средняя, выборочная средняя, генеральная дисперсия, исправленная дисперсия, мода, медиана, размах, среднее абсолютное отклонение, коэффициентом вариации. 1. Статистические оценки параметров распределения Пусть требуется изучить количественный признак генеральной совокупности Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Естественно возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание и среднеквадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение; если же есть основания считать, что признак имеет, например распределение Пуассона, то необходимо оценить параметр λ , которым это распределение определяется. Обычно в распоряжении исследователя имеются лишь данные выборки, например, значения количественного признака x1 , x2, ,..., xn полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми), Через эти данные и выражают оцениваемый параметр. Рассматривая x1 , x2, ,..., xn как независимые случайные величины X 1 , X 2 ,..., X n , можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения — это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра Например, как будет показано далее, для оценки математического 100 ожидания нормального распределения служит функция (среднее арифметическое наблюдаемых значений признака): X = X 1 + X 2 + ... + X n n Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин. 2. Несмещенные, эффективные и состоятельные оценки Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям. Ниже указаны эти требования, Пусть Θ * есть статистическая оценка неизвестного параметра Θ теоретического распределения. Допустим, что по выборке объема n найдена оценка Θ 1* . Повторим опыт, т, е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным найдем оценку Θ 2* Повторяя опыт многократно, получим числа Θ1*, Θ 2*,…, Θ k*, которые, вообще говоря, будут различны между собой. Таким образом, оценку Θ * можно рассматривать как случайную величину, а числа Θ 1*, Θ 2*,…, Θ k* , — как ее возможные значения. Представим себе, что оценка Θ * дает приближенное значение Θ с избытком; тогда каждое, найденное по данным выборок, число Θ i* (i = 1, 2, ..., k) будет больше истинного значения Θ . Ясно, что в этом случае и математическое ожидание (среднее значение) случайной величины Θ * будет больше, чем Θ *, т. е. М ( Θ *)> Θ . Очевидно, что если Θ * дает оценку с недостатком, то М ( Θ *)< Θ . Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. По этой причине естественно потребовать, чтобы математическое ожидание оценки Θ * было равно оцениваемому параметру. Хотя соблюдение этого требования не устранит ошибок (одни значения Θ * больше, а другие меньше Θ ), однако ошибки разных знаков будут встречаться одинаково часто. Иными словами, соблюдение требований М ( Θ *)= Θ . гарантирует от получения систематических ошибок. Несмещенной называют статистическую ошибку Θ *, математическое ожидание которой равно оцениваемому параметру Θ при любом объеме выборки, т. е. М ( Θ *)= Θ . Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру. Однако было бы ошибочным считать, что несмещенная оценка всегда дает хорошее приближение оцениваемого параметра. Действительно, возможные значения Θ * могут быть сильно рассеяны вокруг своего среднего значения, т. е. дисперсия D( Θ *) может быть значительной. В этом случае, найденная по 101 данным одной выборки оценка, например Θ 1* , может оказаться весьма удаленной от среднего значения Θ *, а значит, и от самого оцениваемого параметра Θ ; приняв Θ 1* в качестве приближенного значения Θ , мы допустили бы большую ошибку. Если же потребовать, чтобы дисперсия Θ * была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффективности. Эффективной называют статистическую оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию. При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности. Состоятельной называют статистическую оценку, которая при n → ∞ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n → ∞ со стремится к нулю, то такая оценка оказывается и состоятельной. 3. Генеральная средняя. Пусть изучается дискретная генеральная совокупность относительно количественного признака X. Генеральной средней xг называют среднее арифметическое значений признака генеральной совокупности. Если все значения x1 , x2 ,..., xN признака генеральной совокупности объема N различны, то x1 + x2 + ... + xN N Если же значения признака x1 , x2 ,..., xk имеют N1 , N 2 ,..., N K , причем N1 + N 2 + ... + N k = N xг = xг = соответственно частоты x1 N1 + x2 N 2 + ... + xk N k N т. е. генеральная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам. 4. Выборочная средняя. Пусть для изучения генеральной совокупности количественного признака X извлечена выборка объема n. относительно Выборочной средней xв называют среднее арифметическое значение признака выборочной совокупности. Если все значения x1 , x2, ,..., xn признака выборки объема n различны, то xв = x1 + x2 + ... + xn n 102 Если же значения признака x1 , x2 ,..., xk имеют соответственно частоты n1 , n2 ,..., nk , причем n1 + n2 + ... + nk = n, xв = n1 x1 + n2 x2 + ... + nk xk n или k xв = ∑n x i i i =1 n т. е. выборочная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам. Замечание. Выборочная средняя, найденная по данным одной выборки, есть, очевидно, определенное число. Если же извлекать другие выборки того же объема из той же генеральной совокупности, то выборочная средняя будет изменяться от выборки к выборке. Таким образом, выборочную среднюю можно рассматривать как случайную величину, а следовательно, можно говорить о распределениях (теоретическом и эмпирическом) выборочной средней и о числовых характеристиках этого распределения (его называют выборочным), в частности, о математическом ожидании и дисперсии выборочного распределения. Заметим, что в теоретических рассуждениях выборочные значения наблюдений, x1 , x2 , ,..., xn признака X, полученные в итоге независимых также рассматривают как случайные величины x1 , x2, ,..., xn ,имеющие то же распределения и, следовательно, характеристики, которые имеют X. те же числовые 5. Оценка генеральной средней по выборочной средней. Устойчивость выборочных средних Пусть из генеральной совокупности (в результате независимых наблюдений над количественным признаком X) извлечена повторная выборка объема n со значениями признака x1 , x2, ,..., xn . Не уменьшая общности рассуждений, будем считать эти значения признака различными. Пусть генеральная средняя xг неизвестна и требуется оценить ее по данным выборки. В качестве оценки генеральной средней принимают выборочную среднюю xв = Убедимся, что x1 + x2 + ... + xn n xв есть несмещенная оценка, т. е. покажем, что математическое ожидание этой оценки равно xг . Будем рассматривать ха как случайную величину и x1 , x2, ,..., xn , как независимые, одинаково распределенные случайные величины X 1 , X 2 ,..., X n . Поскольку эти величины одинаково распределены, то они имеют одинаковые числовые характеристики, в частности, одинаковое математическое ожидание, которое обозначим через а. 103 Так как математическое ожидание среднего арифметического одинаково распределенных случайных величин равно математическому ожиданию каждой из величин, то ( ) ⎛ X + X 2 + ... + X n ⎞ M XВ = M⎜ 1 ⎟ = a. n ⎠ ⎝ (*) Приняв во внимание, что каждая из величин X 1 , X 2 ,..., X n имеет то же распределение, что и генеральная совокупность (которую мы также рассматриваем как случайную величину), заключаем, что и числовые характеристики этих величин и генеральной совокупности одинаковы. В частности, математическое ожидание а каждой из величин равно математическому ожиданию признака X генеральной совокупности, т. е. М (X) = xв = а. Заменив в формуле (*) математическое ожидание а через xг окончательно получим ( ) M X в = xг . Тем самым доказано, что выборочная средняя есть несмещенная оценка генеральной средней. Легко показать, что выборочная средняя является и состоятельной оценкой генеральной средней. Действительно, допустим, что случайные величины X 1 , X 2 ,..., X n имеют ограниченные дисперсии, мы вправе применить к этим вели- чинам теорему Чебышева (частный случай), в силу которой при увеличении n среднее арифметическое рассматриваемых величин, т. е. X в стремится по вероятности к математическому ожиданию а каждой из величин, или, что то же, к генеральной средней xг . (так как xг =а). Итак, при увеличении объема выборки n выборочная средняя стремится по вероятности к генеральной средней, а это и означает, что выборочная средняя есть состоятельная оценка генеральной средней. Из сказанного следует также, что если по нескольким выборкам достаточно большого объема из одной и той же генеральной совокупности будут найдены выборочные средние, то они будут приближенно равны между собой. В этом и состоит свойство устойчивости выборочных средних. Заметим, что если дисперсии двух совокупностей одинаковы, то близость выборочных средних к генеральным не зависит от отношения объема выборки к объему генеральной совокупности. Она зависит от объема выборки: чем объем выборки больше, тем меньше выборочная средняя отличается от генеральной. Например, если из одной совокупности отобран 1 % объектов, а из другой совокупности отобрано 4% объектов, причем объем первой выборки оказался большим, чем второй, то первая выборочная средняя будет меньше отличаться от соответствующей генеральной средней, чем вторая. Замечание. Мы предполагали выборку повторной. Однако полученные выводы применимы и для бесповторной выборки, если ее объем значительно 104 меньше объема генеральной совокупности. Это положение часто используется на практике. 6. Генеральная дисперсия Для того чтобы охарактеризовать рассеяние значений количественного признака X генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику — генеральную дисперсию. Генеральной дисперсией Dг называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения xг . Если все значения x1 , x2 ,..., xN признака генеральной совокупности объема N различны, то ∑ (x − x ) N Dг = 2 i i =1 г N Если же значения признака x1 , x2 ,..., xk имеют соответственно частоты N1 , N 2 ,..., N K , причем N1 + N 2 + ... + N k = N , то ∑ N (x − x ) k Dг = i =1 2 i i г N , т. е. генеральная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам. Пример. Генеральная совокупность задана таблицей распределения: xi 2 4 5 6 Ni 8 9 10 3. Найти генеральную дисперсию. Решение. Найдем генеральную среднюю (п. 3): xг = 8 ⋅ 2 + 9 ⋅ 4 + 10 ⋅ 5 + 3 ⋅ 6 120 = = 4. 8 + 9 + 10 + 3 30 Найдем генеральную дисперсию: 8(2 − 4) 2 + 9(4 − 4) 2 + 10(5 − 4) 2 + 3(6 − 4) 2 54 = = 1,8 30 30 Dг= Кроме дисперсии, для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой — средним квадратическим отклонением. Генеральным средним квадратическим отклонением называют квадратный корень из генеральной дисперсии: σ г = Dг 105 (стандартом) 7. Выборочная дисперсия Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения xв вводят сводную характеристику — выборочную дисперсию. Выборочной дисперсией Dв называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения xв . Если все значения x1 , x2, ,..., xn признака выборки объема n различны, то n Dв = Если же значения признака n1 , n2 ,..., nk , причем n1 + n2 + ... + nk = n, то ∑ (x − xв ) 2 i i =1 n x1 , x2 ,..., xk имеют соответственно частоты k Dв = ∑ n (x − x ) i =1 2 i i в n т. е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам. Пример. Выборочная совокупность задана таблицей распределения xi 1 2 ni 20 15 3 10 5. Найти выборочную дисперсию. Решение. Найдем выборочную xв = 4 20 ⋅ 1 + 15 ⋅ 2 + 10 ⋅ 3 + 5 ⋅ 4 100 = = 2. 20 + 15 + 10 + 5 2 среднюю (4): Найдем выборочную дисперсию: 20(1 − 2) 2 + 15(2 − 2) 2 + 10(3 − 2) 2 + 5(4 − 2) 2 50 Dв = = = 1. 50 50 Кроме дисперсии, для характеристики рассеяния значений признака выборочной совокупности вокруг своего среднего значения пользуются сводной характеристикой — средним квадратическим отклонением. Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии: σ в = Dв . 8. Формула для вычисления дисперсии Вычисление дисперсии, безразлично, выборочной или генеральной, можно упростить, используя следующую теорему. Теорема. Дисперсия равна среднему квадратов значений признака минус квадрат общей средней 2 [] 2 D=x − x . 106 Доказательство. Справедливость теоремы вытекает из элементарных преобразований. 9. Оценка генеральной дисперсии по исправленной выборочной Пусть из генеральной совокупности в результате n независимых наблюдений над количественным признаком X извлечена повторная выборка объема n: значения признака x1 , x2 ,..., xk частоты n1 , n2 ,..., nk , причем n1 + n2 + ... + nk = n, Требуется по данным выборки оценить (приближенно найти) неизвестную генеральную дисперсию Dг. Если в качестве оценки генеральной дисперсии принять выборочную дисперсию, то эта оценка будет приводить к систематическим ошибкам, давая заниженное значение генеральной дисперсии. Объясняется это тем, что как можно доказать, выборочная дисперсия является смещенной оценкой Dг., другими словами, математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно M (Dв ) = n −1 Dг . n Легко «исправить» выборочную дисперсию так, чтобы ее математическое ожидание было равно генеральной дисперсии. Достаточно для этого умножить n . Dг на дробь n − 1 Сделав это, получим «исправленную дисперсию», которую обычно 2 обозначают через s : ∑ n (x − x ) k n n Dв = s = n −1 n −1 i =1 i 2 i в n ∑ n (x − x ) k 2 = i =1 2 i i n −1 в . Исправленная дисперсия является, конечно, несмещенной генеральной дисперсии Действительно, оценкой n n −1 n ⎞ ⎛ n Dг = Du . M (Dв ) = Dв ⎟ = M s2 = M ⎜ n −1 n ⎝ n −1 ⎠ n −1 ( ) Итак, в качестве исправленную дисперсию оценки дисперсии принимают ∑ n (x − x ) k s2 = генеральной 2 i i =1 i в n −1 Для оценки же среднего квадратического отклонения генеральной совокупности используют «исправленное» среднее квадратическое отклонение, которое равно квадратному корню из исправленной дисперсии: ∑ n (x k i =1 s= i i − xв n −1 ) 2 . 107 Подчеркнем, что s не является несмещенной оценкой; чтобы отразить этот факт мы написали и будем писать далее так: «исправленное» среднее квадратическое отклонение. Замечание. Сравнивая формулы k Dв = ∑ n (x i =1 i i ∑ n (x − x ) k − xв ) 2 n и s2 = i =1 2 i i в n −1 видим, что они отличаются лишь знаменателями. Очевидно, при достаточно больших значениях n объема выборки, выборочная и исправленная дисперсия различаются мало. На практике пользуются исправленной дисперсией, если примерно n< 30. 10. Другие характеристики вариационного ряда Кроме выборочной средней и выборочной дисперсии применяются и другие характеристики вариационного ряда. Укажем главные из них. Модой M 0 называют варианту, которая имеет наибольшую частоту. Например, для ряда варианта 1 4 7 9 частота 5 1 20 6 мода равна 7. Медианой me называют варианту, которая делит вариационный ряд на две части, равные по числу вариант, Если число вариант нечетно, т. е. n = 2k + 1 , то me = xk +1 ; при четном n = 2k медиана me = xk + xk +1 2 . Например, для ряда 2 3 5 6 7 медиана равна 5; для ряда 2 3 5 6 7 9 5+6 = 5,5 медиана равна 2 . Размахом варьирования R называют разность между наибольшей и наименьшей вариантами: Например, для ряда 1 3 4 5 6 10 размах равен 10 - 1 =9. Размах является простейшей характеристикой рассеяния вариационного ряда. Средним абсолютным отклонением в называют среднее арифметическое абсолютных отклонений: 108 Θ= ∑n x − x ∑n i i в i Например, для ряда xi ni имеем xв = 4; 1 3 4 10 6 5 16 1 Θ = 2,2. Среднее абсолютное отклонение служит для характеристики рассеяния вариационного ряда. Коэффициентом вариации V называют выраженное в процентах отношение выборочного среднего квадратического отклонения к выборочной средней: V = σв xв ⋅ 100%. Коэффициент вариации служит для сравнения величин рассеяния двух вариационных рядов: тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше. Замечание. Выше предполагалось, что вариационный ряд составлен по данным выборки, поэтому все описанные характеристики называют выборочными; если вариационный ряд составлен по данным генеральной совокупности, то характеристики называют генеральными. Вопросы для самопроверки 1.Что называется статистической оценкой? 2.Каким требованиям должны удовлетворять статистические оценки? Укажите и дайте их определения. 3.Что называется генеральной средней? 4. Что называется выборочной средней? 5.Поясните, почему выборочную среднюю можно рассматривать как случайную величину? 6.Что является статистической оценкой для генеральной средней? Является ли это оценка несмещенной? 7. Что называется генеральной дисперсией? 8.Что называется выборочной дисперсией? 9.Что является статистической оценкой для генеральной дисперсии? Является ли это оценка несмещенной? 10.Что является исправленной дисперсией? Является ли это оценка несмещенной? 11.Дайте определения следующих выборочных характеристик (мода, медиана, размах варьирования, среднее абсолютное отклонение, коэффициент вариации). 109 Упражнения 1.В результате 5 измерений длины одним прибором (без систематических погрешностей, т. е. предполагается, что математическое ожидания измерений xi совпадают с истинной длиной) получены следующие результаты (в мм.): 92,94,103, 105,106. Найти: а)выборочную среднюю длину стержня; б) выборочную дисперсию и несмещенную оценку дисперсии ошибок прибора. 2.Ниже приведены результаты измерения роста (в см.) случайно отобранных 100 студентов: 154 − 158 10 рост : чис / ст : 158 − 162 14 162 − 166 26 166 − 170 28 170 − 174 12 174 − 178 8 178 − 182 2 Найти выборочное среднее и выборочную дисперсию роста обследованных студентов. Указание: Найти середины интервалов и принять их в качестве значений xi . 3.На телефонной станции производились наблюдения за числом неправильных соединений в минуту. Наблюдения в течении часа дали следующие результаты: 3 2 2 3 1 4 1 3 2 4 4 3 1 2 1 2 1 0 2 1 0 2 4 3 2 1 3 4 1 4 2 3 1 2 5 2 3 1 7 3 2 1 1 2 2 1 2 0 1 2 3 1 0 1 1 5 Найти среднее и дисперсию распределения. Сравнить распределение вероятностей с распределением Пуассона. Литература: [1]: c.197-216; [2]: c.289-310; [3]: c.141-150. 110 ЛЕКЦИЯ №12 ИНТЕРВАЛЬНЫЕ ОЦЕНКИ П Л А Н: 1.Точность оценки, доверительная вероятность (надежность). Доверительный интервал. 2.Доверительные интервалы для оценки математического ожидания нормального распределения при известном σ . 3.Доверительные интервалы для оценки математического ожидания σ нормального распределения при неизвестном . 4. Доверительные интервалы для оценки среднеквадратического отклонения σ нормального распределения. К Л Ю Ч Е В Ы Е С Л О В А: Точечная оценка, интервальная (доверительная вероятность) оценки. оценка, точность оценки, надежность 1.Точность оценки, доверительная вероятность (надежность). Доверительный интервал. Точечной называют оценку, которая определяется одним числом. Все оценки, рассмотренные в лекции №11 — точечные. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками. Интервальной называют оценку, которая определяется двумя числами — концами интервала. Интервальные оценки позволяют установить точность и надежность оценок (смысл этих понятий выясняется ниже). Пусть, найденная по данным выборки, статистическая характеристика Θ * служит оценкой неизвестного параметра Θ . Будем считать Θ постоянным числом ( Θ может быть и случайной величиной). Ясно, что Θ * тем точнее Θ − Θ∗ определяет параметр Θ , чем меньше абсолютная величина разности . Θ − Θ∗ Другими словами, если δ >0 и < δ , то, чем меньше δ , тем оценка точнее. Таким образом, положительное число δ характеризует точность оценки. Однако статистические методы не позволяют категорически утверждать, Θ − Θ∗ что оценка Θ * удовлетворяет неравенству < δ ; можно лишь говорить о вероятности γ , с которой это неравенство осуществляется. Надежностью (доверительной вероятностью) оценки Θ по Θ * называют Θ − Θ∗ δ вероятность γ , с которой осуществляется неравенство < . Обычно 111 надежность оценки задается наперед, причем в качестве γ берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999. Пусть вероятность того, что ( Θ − Θ∗ ) равна γ : <δ P Θ − Θ∗ < δ = γ Θ − Θ∗ Заменив неравенство < δ равносильным ему двойным неравенством ∗ ∗ − δ < Θ − Θ < δ , или Θ − δ < Θ < Θ∗ + δ ,имеем ( ) P Θ∗ − δ < Θ < Θ∗ + δ = γ . Это соотношение следует понимать так: вероятность того, что интервал ( Θ *- δ , Θ *+ δ ) заключает в себе (покрывает) неизвестный параметр Θ , равна γ . Доверительным называют интервал ( Θ *- δ , Θ *+ δ ), который покрывает неизвестный параметр с заданной надежностью γ . Замечание. Интервал ( Θ *- δ , Θ *+ δ ) имеет случайные концы (их называют доверительными границами). Действительно, в разных выборках, получаются различные значения Θ . Следовательно, от выборки к выборке будут изменяться и концы доверительного интервала, т. е. доверительные границы сами являются случайными величинами-функциями от x1 , x2 ,..., xn . Так как случайной величиной является не оцениваемый параметр Θ , а доверительный интервал, то более правильно говорить не о вероятности попадания Θ в доверительный интервал, а о вероятности того, что доверительный интервал покроет Θ . Метод доверительных интервалов разработан американским статистиком Ю. Нейманом, исходя из идей английского статистика Р. Фишера. 2. Доверительные интервалы для оценки математического ожидания нормального распределения при известном σ Пусть количественный признак X генеральной совокупности распределен нормально, причем среднеквадратическое отклонение σ этого распределения известно. Требуется оценить неизвестное математическое ожидание а по выборочной средней x . Поставим своей задачей найти доверительные интервалы, покрывающие параметр а с надежностью γ . Будем рассматривать выборочную среднюю x , как случайную величину X ( x изменяется от выборки к выборке) и выборочные значения признака x1 , x2 ,..., xn , как одинаково распределенные независимые случайные величины X 1 , X 2 ,..., X n (эти числа также изменяются от выборки к выборке). Другими словами, математическое ожидание каждой из этих величин равно а и среднеквадратическое отклонение — σ . Примем без доказательства, что если случайная величина X распределена нормально, то выборочная средняя X, найденная по независимым наблюдениям, также распределена нормально. Параметры распределения X таковы : M ( X ) = a, ( ) σ X = σ n 112 Потребуем, чтобы выполнялось соотношение ( ) P X −a <δ =γ, где γ — заданная надежность. Пользуясь формулой ⎛δ ⎞ P( X − a < δ ) = 2Φ⎜ ⎟, ⎝σ ⎠ заменив X через X и σ через получим ( ) M ( X ) = a, σ X = σ n, ⎛δ ⎞ P( X − a < δ ) = 2Φ⎜ ⎟, ⎝ σ ⎠ = 2Φ (t ), где t= δ n . σ δ =t Найдя из последнего равенства σ n , можем написать σ ⎞ ⎛ P⎜ X − a < t ⎟ = 2Φ (t ). n⎠ ⎝ Приняв во внимание, что вероятность Р задана и равна γ , окончательно имеем (чтобы получить рабочую формулу выборочную среднюю вновь обозначим через x ): σ σ ⎞ ⎛ P⎜ x − t < a < x+t ⎟ = 2Φ(t ) = γ . n n⎠ ⎝ Смысл полученного соотношения таков: с надежностью γ утверждать, что доверительный интервал σ σ ⎞ ⎛ ,x +t ⎟ ⎜x −t n n⎠ ⎝ δ =t γ σ покрывает неизвестный можно параметр а; точность оценки n. Итак, поставленная выше задача полностью решена. Укажем еще, что число t определяется из равенства 2Φ(t ) = γ , или Ф(t)= 2 по таблице функции Лапласа находят аргумент t, которому cоответствует γ значение функции Лапласа, равное 2 σ x−a 30 можно вместо распределения Стьюдента пользоваться нормальным распределением. Однако важно подчеркнуть, что для малых выборок (n<30), в особенности для малых значений n, замена распределения нормальным приводит к грубым ошибкам, а именно — к неоправданному сужению доверительного интервала, т. е. к повышению точности оценки. Например, если n=5 и γ =0,99, то пользуясь распределением Стьюдента, найдем tγ =4,6, а используя функцию Лапласа, найдем tγ =2,58, т. е. доверительный интервал в последнем случае окажется более узким, чем найденный по распределению Стьюдента. То обстоятельство, что распределение Стьюдента при малой выборке дает не вполне определенные результаты (широкий доверительный интервал), вовсе не свидетельствует о слабости метода Стьюдента, а объясняется тем, что малая выборка, разумеется, содержит малую информацию об интересующем нас признаке. 4. Доверительные интервалы для оценки среднеквадратического отклонения σ нормального распределения Пусть количественный признак X генеральной совокупности распределен нормально. Требуется оценить неизвестное генеральное среднеквадратическое отклонение σ по «исправленному» выборочному среднеквадратическому 116 отклонению s . Поставим перед собой задачу найти доверительные интервалы, покрывающие параметр σ с заданной надежностью γ . Потребуем, чтобы выполнялось соотношение P(σ − s < δ ) = γ или P (s − δ < σ < s + δ ) = γ Для того чтобы можно было пользоваться готовой таблицей, преобразуем двойное неравенство s −δ < σ < s +σ в равносильное неравенство δ Положив s ⎛ δ⎞ ⎛ δ⎞ s ⎜1 − ⎟ < σ < s ⎜1 + ⎟ s⎠ s⎠ , ⎝ ⎝ =q , получим s (1 − q ) < σ < s(1 + q ) . (1) Остается найти q. С этой целью введем в рассмотрение случайную величину «хи»: S χ= σ n −1 , где n — объем выборки. S 2 (n − 1) Доказано [1], что случайная величина σ2 распределена по закону χ ,поэтому квадратный корень из нее обозначают через χ . Дифференциальная функция распределения χ имеет вид: 2 χ R (χ , n ) = 2 n−2 n −3 2 − χ2 e 2 ⎛ n −1⎞ Γ⎜ ⎟ ⎝ 2 ⎠ . (2) Мы видим, что это распределение не зависит от оцениваемого параметра от объема выборки n. Преобразуем неравенство (1) так, чтобы оно приняло вид σ , а зависит лишь χ1 < χ ≤ χ 2 . Вероятность этого неравенства равна заданной вероятности γ , т. е. χ2 ∫χ R(χ , n )dχ = γ . 1 Предполагая, что q<1, перепишем неравенство (1) так: 1 1 1 < < . S (1 + q ) σ S (1 − q ) Умножив все члены неравенства на S n − 1 , получим n −1 S n −1 n −1 < < 1+ q σ 1− q или 117 n −1 n −1 <χ< 1+ q 1− q . Вероятность того, что это неравенство, а следовательно, и равносильное ему неравенство (1) будет осуществлено, равна n −1 1− q ∫ R(χ , n )dχ = γ . n −1 1+ q Из этого уравнения можно по заданным n и γ найти q. Практически для отыскания q пользуются таблицей (приложение в учебниках по теории вероятностей.) Вычислив по выборке s и найдя по таблице q , получим искомый доверительный интервал (1), покрывающий от с заданной надежностью γ , т. е. интервал s(1 − q ) < σ < s(1 + q ) . Пример . Количественный признак X генеральной совокупности распределен нормально. По выборке объема n=25 найдено «исправленное» среднеквадратическое отклонение s=0,8 Найти доверительный интервал, покрывающий генеральное средне - квадратическое отклонение σ с надежностью 0,95. Решение. По таблице по данным γ =0,95 и n=25 найдем q =0,32. Искомый доверительный интервал (1) таков: 0,8·(1-0,32)< σ <0,8·(1+0,32) или 0,544< σ <1,056. Замечание. Выше предполагалось, что q<1.Если q>1, то неравенство (1) примет вид (учитывая σ >0) 0< σ 1 могут быть найдены из уравнения ∞ ∫ R(χ , n )dχ = γ . n −1 1+ q Пример . Количественный признак X генеральной совокупности распределен нормально. По выборке объема n=10 найдено «исправленное» среднеквадратическое отклонение s=0,16. Найти доверительный интервал, покрывающий генеральное средне- квадратическое отклонение а с надежностью 0,999. Решение. По таблице по данным γ =0,999 и n=10 найдем q=1,80 (q>1). Искомый доверительный интервал таков: 0< σ <0,16·(1+1,8), или 0< σ <0,448. 118 Вопросы для самопроверки 1.Что называется точечной оценкой? 2. Что называется интервальной оценкой? 3.Что означает точность и надежность оценок? 4.Что является случайной величиной? Оцениваемый параметр или доверительный интервал? 5.Как находят доверительные интервалы для оценки математического ожидания нормального распределения при известном σ . 6. Как находят доверительные интервалы для оценки математического ожидания нормального распределения при неизвестном σ . 7. Как находят доверительные интервалы для оценки σ нормального распределения? 119 Упражнения В задачах 1-3 даны «исправленное» среднеквадратическое отклонение, выборочная средняя и объем малой выборки нормально распределенного признака. Найти, пользуясь распределением Стьюдента, доверительные интервалы для оценки неизвестного математического ожидания с заданной надежностью. 1. s = 1,5, x в = 16,8, n = 12, γ = 0,95. 2. s = 2,4, x в = 14,2, n = 9, γ = 0,99. 3. По данным 16 независимых равноточных измерений физической величины найдены x в = 23,161 и s = 0,400. Требуется оценить истинное значение a измеряемой величины и точность измерений σ с надежностью 0,95. 4.В течение продолжительного срока при анализе данного материала на содержание железа установлено стандартное отклонение 0,12%. Найти с доверительной вероятностью 0,95 доверительный интервал для истинного содержания железа в образце, если по результатам 6 анализов среднее содержание железа составило 32,56% 5.Выборка из большой партии электроламп содержит 100 ламп. Средняя продолжительность горения лампы из выборки оказалась равной 1000 ч. Найти с доверительной вероятностью 0,95 доверительный интервал для средней продолжительности а горения лампы всей партии, если известно, что среднее квадратичное отклонение продолжительности горения лампы а = 40 ч. 6.Станок-автомат штампует валики. По выборке объема n=100 вычислено выборочное среднее диаметров изготовленных валиков. Найти с доверительной вероятностью 0,95 точность, с которой выборочное среднее оценивает математическое ожидание диаметров изготовляемых валиков, зная, что их среднее квадратичное отклонение σ = 2 мм. Литература: [1]: c.216-252; [2]: c.310-330; [3]: c.151-166. 120 ЛЕКЦИЯ №13 ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ П Л А Н: 1. Функциональная, статистическая и корреляционная зависимости. 2. Условные средние. Корреляционная зависимость. 3. Две основные задачи теории корреляции. К Л Ю Ч Е В Ы Е С Л О В А: Функциональная зависимость , статистическая (вероятностная или стохастическая) зависимость, корреляционная зависимость, условные средние. уравнения регрессии, функция регрессии, линия регрессии. 1. Функциональная, статистическая и корреляционная зависимости Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других величин. Рассмотрим сначала зависимость (связь) Y от одной случайной (или неслучайной) величины X. В некоторых случаях эта связь является настолько тесной что, зная, какое значение приняла величина X, можно однозначно предсказать значение Y; это означает, что связь между величинами X и Y — функциональная. Возможен, однако, и другой крайний случай, когда зависимость между X и Y отсутствует вовсе, т, е. величины X и Y независимы. Точное определение независимости случайных величин было дано ранее в предыдущих лекциях. В общем случае связь между величинами X и Y находит свое выражение в том, что при фиксированном значении х величины Х, величина Y остается случайной, но с законом распределения, зависящим от X. Иначе говоря, каждому значению X = х отвечает свой закон, распределения величины Х. Рассмотренные выше крайние случаи – функциональная зависимость и полная независимость - вполне укладываются в эту общую cхему ; функциональная зависимость Y= f (X) означает, что при фиксированном значении X = x величина X принимает единственное значение f(х) (с вероятностью 1), а полная независимость означает, что при любом значении х величины X закон распределения величины Y-один и тот же (он не зависит от выбранного нами значения величины X). Связь между двумя случайными величинами, проявляющаяся том, что изменение одной из них влечет за собой изменение закона распределения другой, называется статистической (или вероятностной или стохастической). Вероятностная связь между двумя случайными величинами X и Y появляется обычно тогда, когда имеются общие случайные факторы, влияющие как на X, так и на Y (наряду с другими факторами, неодинаковыми для X и Y). Например, если X представляет со-бой некоторую функцию от случайных величин Uи V: 121 X=f(U,V), а Y есть функция от той же самой величины и другой случайной величины W: Y= ϕ (U,W), то величины X и Y будут связаны между собой вероятностной связью. Определение. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой; в этом случае статистическую зависимость называют корреляционной. Приведем пример случайной величины Y, которая не связана с величиной X функционально, а связана корреляционно. Пусть Y — урожай зерна, X — количество удобрений. С одинаковых по площади участков земли при равных количествах внесенных удобрений снимают различный урожай, т. е. Y не является функцией от X. Это объясняется влиянием случайных факторов (осадки, температура воздуха и др.). Вместе с тем, как показывает опыт, средний урожай является функцией от количества удобрений, т. е.Y связан с X корреляционной зависимостью. 2. Условные средние. Корреляционная зависимость. Уточним определение корреляционной зависимости, для чего введем понятие условной средней. Предположим, что изучается связь между случайной величиной Y и случайной величиной X. Пусть каждому значению X соответствует несколько значений Y. Например, пусть при x1=8 величина Y приняла значения: y1 = 5, y2 = 6, y3 = 10 . Найдем среднее арифметическое этих чисел: y8 = 5 + 6 + 10 3 Число у8 называют условным средним; черточка над буквой у служит обозначением среднего арифметического, а число 8 указывает, что рассматриваются те значения Y, которые соответствуют x1=8 . Применительно к примеру предыдущего пункта эти данные можно истолковать так: на каждый из трех одинаковых участков земли внесли по 8 единицы удобрений и сняли соответственно 5; 6 и 10 единиц зерна; средний урожай составил 7 соответствующих единиц. Условным средним y x называют среднее арифметическое значений Y, соответвующих значению Х=х. Если каждому значению х соответствует одно значение условной средней, то, очевидно, условная средняя есть функция от х; в этом случае говорят, что случайная величина Y зависит от X корреляционно. Корреляционной зависимостью Y от X называют функциональную зависимость условной средней y x от х: yx =f(x) (1) 122 Уравнение (1) называют уравнением регрессии Y на Х; функцию f(x) называют регрессией Y на X, а ее график — линией регрессии Y на X. Аналогично определяется условная средняя зависимость X от Y. xy , и корреляционная x Условным средним y значений X, соответствующих Y=у. Корреляционной зависимостью X от Y называют функциональную зависимость условной средней xy от у: = ϕ ( y) (2) Уравнение (2) называют уравнением регрессии X на Y функцию ϕ (х ) называют регрессией X на Y, а ее график — линией регрессии X на Y. xy 3. Две основные задачи теории корреляции. Первая задача теории корреляции — установить форму корреляционной связи, т. е. вид функции регрессии (линейная, квадратичная показательная и т. д.). Наиболее часто функции регрессии оказываются линейными. Если обе функции регрессии f(x) и ϕ (х ) линейны, то корреляцию называют линейной; в противном случае — нелинейной. Очевидно, при линейной корреляции обе линии регрессии являются прямыми линиями. Вторая задача теории корреляции — оценить тесноту (силу) корреляционной связи. Теснота корреляционной зависимости Y от X оценивается по величине рассеяния значений Yвокруг условного среднего yx . Большое рассеяние свидетельствует о слабой зависимости Y от X либо об отсутствии зависимости. Малое рассеяние указывает наличие достаточно сильной зависимости; возможно даже, что Y и X связаны функционально, но под воздействием второстепенных случайных факторов эта связь оказалась размытой, в результате чего при одном и том же значении х величина Y принимает различные значения. Аналогично (по величине рассеяния значений X вокруг условного среднего xy ) оценивается теснота корреляционной связи X от Y. Вопросы для самопроверки 1.Дайте определение функциональной зависимости. 2.Дайте определение статистической зависимости. 3.Что называется условным средним? 4.Дайте определение корреляционной зависимости. 5.Дайте определения уравнения регрессии. 6.В чем состоит задача теории корреляции? Литература: [1]: c.252-254; [2]: c.392-394; [3]: c.195-235. 123 ЛЕКЦИЯ №14 МЕТОД НАИМЕНЬШИХ КВАДРАТОВ П Л А Н: 1. Отыскание параметров выборочного уравнения прямой линии регрессии по не сгруппированным данным. 2. Корреляционная таблица. 3. Отыскание параметров выборочного уравнения прямой линии регрессии по сгруппированным данным. Выборочный коэффициент корреляции. К Л Ю Ч Е В Ы Е С Л О В А: Выборочный коэффициент корреляции, выборочное уравнения прямой линии регрессии, метод наименьших квадратов. 1. Отыскание параметров выборочного уравнения прямой линии регрессии по не сгруппированным данным Допустим, что количественные признаки X и Y связаны линейной корреляционной зависимостью. В этом случае обе линии регрессии будут прямыми. Предположим, что для отыскания уравнений этих прямых проведено n независимых испытаний, в результате которых получены n пар чисел: (x1 , y2 ), (x2 , y2 ),..., (xn , yn ). Поскольку наблюдаемые пары чисел можно рассматривать как случайную выборку из генеральной совокупности всех возможных значений случайной величины (X, Y), то величины и уравнения, найденные по этим данным, называют выборочными. Для определенности будем искать выборочное уравнение прямой линии регрессии Y на X. Рассмотрим простейший случай: различные значения х признака X и соответствующие им значения у признака Y наблюдались по одному разу. Очевидно, что группировать данные нет необходимости. Также нет надобности использовать понятие условной средней, поэтому искомое уравнение y x = kx + b можно записать так: Y = kx + b Угловой коэффициент прямой линии регрессии Y на X принято называть ρ выборочным коэффициентом регрессии Y на X и обозначать через yx . Итак, будем искать выборочное уравнение прямой линии регрессии Y на X вида: Y = ρ yx x + b (1) 124 Поставим своей задачей подобрать параметры ρ yx , и b так, чтобы точки (x1 , y2 ), (x2 , y2 ),..., (x1, yn ). , построенные по данным наблюдений на плоскости XOY, как можно ближе лежали вблизи прямой (1). Уточним смысл этого требования. Назовем отклонением разность YI − yi где YI — вычисленная (i = 1,2,..., n) по уравнению (1) ордината, соответствующая наблюдаемому значению xi ; yi — наблюдаемая ордината, соответствующая xi . ρ yx Подберем параметры и b так, чтобы сумма квадратов отклонений была минимальной (в этом состоит сущность метода наименьших квадратов). Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция ρ yx этих параметров (временно вместо ρ yx будем писать ρ ): n F ( ρ , b ) = ∑ (YI − yi ) 2 i =1 или F (ρ , b ) = ∑ ( ρxi + b − yi ) 2 Для отыскания минимума приравняем нулю соответствующие частные производные: n ∂F = 2∑ ( ρxi + b − yi )xi = 0; ∂ρ i =1 n ∂F = 2∑ ( ρxi + b − yi ) = 0. ∂ρ i =1 n ∑ (Для простоты записи вместо i =1 будем писать ∑ ) Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно ρ и b (∑ x )ρ + (∑ x )b = ∑ xy; (∑ x )ρ + nb = ∑ y. 2 (2) Решив эту систему, найдём искомые параметры: n∑ xy − ∑ x ⋅ ∑ y ρ yx n∑ x 2 − (∑ x ) 2 = ; (3) ∑ x ⋅ ∑ y − ∑ x ⋅ ∑ xy n∑ x − (∑ x ) = 2 2 2 b Аналогично можно найти выборочное уравнение прямой линии регрессии X на Y: x y = ρ xy y + c , 125 ρ где -выборочный коэффициент регрессии X на Y. П р и м е р. Найти выборочное уравнение прямой линии регрессии Y на X по данным n=5 наблюдений: x y xy 1 1,5 3 4,5 5 1,25 1,4 1,5 1,75 2,25 Решение. Составим расчетную таблицу 1. Таблица 1. xi yi x xi ⋅ yi 1,00 1,50 3,00 4,50 5,00 125 1,40 1,50 1,75 2,25 1,00 2,25 9,00 20,25 25,00 1,250 2,100 4,500 4,875 11,250 ∑x i = 15 ∑y i 2 i = 8,15 ∑x 2 i = 57,50 ∑x y i i = 26,975 Найдем искомые параметры, для чего подставим вычисленные по таблице суммы в соотношения (3): 5 ⋅ 26,975 − 15 ⋅ 8,15 = 0,202; 2 ρ yx = 5 ⋅ 57,5 − 15 57,5 ⋅ 8,15 − 15 ⋅ 26,975 = 1,024. 62,5 b = Напишем искомое уравнение регрессии: Y = 0,202 x + 1,024. Для того чтобы получить представление, насколько хорошо вычисленные по этому уравнению значения Yi согласуются с наблюдаемыми значениями yi, найдем отклонения Yi − yi , Результаты вычислений сведены в таблицу2. Таблица 2. xi Yi − yi yi, Yi 1,00 1,226 1,25 -0,024 1,50 1,327 1,40 -0,073 3,00 1,630 1,50 0,130 4,50 1,993 1,75 0,083 5,00 2,034 2,25 -0,216 Как видно из таблицы, не все отклонения достаточно малы. Это объясняется малым числом наблюдений. 2. Корреляционная таблица При большом числе наблюдений одно и то же значение х может n встретиться nx раз, одно и то же значение у может встретиться y раз, одна и та 126 же пара чисел (х, у) может наблюдаться nxy раз. Поэтому данные наблюдений группируют, т. е. подсчитывают частоты nx , n y , nxy . Все сгруппированные данные записывают в виде таблицы, которую называют корреляционной. Поясним устройство корреляционной таблицы на примере (табл. 3). Таблица 3. X ny 10 20 30 40 Y 0,4 0,6 0,8 5 3 8 nx 2 19 21 7 6 13 14 4 18 26 12 22 n=60 В первой строке таблицы указаны наблюдаемые значения (10; 20; 30; 40) признака X, а в первом столбце — наблюдаемые значения (0,4; 0,6; 0,8) признака Y. На пересечении строк и столбцов вписаны частоты nxy наблюдаемых пар значений признаков, Например, частота 5 указывает, что пара чисел (10; 0,4) наблюдалась 5 раз. Все частоты помещены в прямоугольнике, клетки которого выделены. Черточка означает, что соответственная пара чисел, например (20; 0,4), не наблюдалась. В последнем столбце записаны суммы частот строк. Например, сумма частот первой строки прямоугольника, клетки которого выделены, равна ny =5+7+ 14=26; это число указывает, что значение признака Y, равное 0,4 (в сочетании с различными значениями признака X) наблюдалось 26 раз. В последней строке записаны суммы частот столбцов. Например, число 8 указывает, что значение признака X, равное 10 (в сочетании с различными значениями признака Y) наблюдалось 8 раз. В клетке, расположенной в нижнем правом углу таблицы, помещена сумма всех частот (общее число всех наблюдений n). Очевидно нашем примере ∑n x =8+21 + 13+18=60 и ∑n y ∑n = ∑n x y = n. В = 26+ 12+22=60. 3. Отыскание параметров выборочного уравнения прямой линии регрессии по сгруппированным данным. Выборочный коэффициент корреляции В п.1/ для определения параметров уравнения прямой линии регрессии Y на X была получена система уравнений: (∑ x )ρ + (∑ x )b = ∑ xy;⎫⎪ (∑ x )ρ + nb = ∑ y ⎬⎪⎭ 2 yx (4) Предполагалось, что значения X и соответствующие им значения Y наблюдались по одному разу. Теперь же допустим, что получено большое число данных (практически для удовлетворительной оценки искомых параметyx 127 ров должно быть хотя бы 50 наблюдений), среди них есть повторяющиеся, и они сгруппированы в виде корреляционной таблицы. Запишем систему (4) так, чтобы она отражала данные корреляционной таблицы. Воспользуемся тождествами: ⎛ ∑ x ⎞⎟; ⎜ следствие из = x ⎜ n ⎟⎠ ⎝ ⎛ ∑ y⎞ ∑ y = n y⎜⎜ следствие из y = n ⎟⎟ ⎠ ⎝ ⎛ x2 ⎞ ∑ 2 2⎜ 2 ∑ x = x ⎜ следствие из x = n ⎟⎟ ⎝ ⎠ ∑ x = nx ∑ xy = ∑ n xy (учтено, что пара чисел (х, у) наблюдалась nxy раз). Подставив правые части тождеств в систему (4) и сократив обе части второго уравнения на n, получим: xy () ( ) ⎛⎜ n x 2 ⎞⎟ ρ + n x b = n xy;⎫ ∑ xy ⎪⎬ ⎝ ⎠ yx ⎪⎭ x ρ yx + b = y. () (5) Решив эту систему, найдем параметры ρ yx и b и, следовательно, искомое уравнение: y x = ρ yx x + b Однако более целесообразно, введя новую величину — коэффициент корреляции, написать уравнение регрессии в ином виде. Сделаем это. Найдем b из второго уравнения (5): b= y − ρ yx x Подставив правую часть этого равенства в уравнение получим: ( y x − y = ρ yx x − x y x = ρ yx x + b , ) (6) Найдем () 2 из системы (4) коэффициент регрессии, учитывая, что x − x =σ : 2 2 x ρ yx = ∑n xy xy − n x y () n⎡ x2 − x x ⎤ ⎢⎣ ⎦⎥ 2 = ∑n xy xy − n x y nσ x2 Умножим обе части равенства на дробь ρ yx = . σx : σy σ x ∑ nxy xy − n x y . ⋅ σy nσ xσ y Обозначим правую часть равенства через rB коэффициентом корреляции: 128 и назовем ее выборочным ρ yx σx = rВ σy или ρ yx = rB σy σx Подставив правую часть этого равенства в (6),окончательно получим выборочное уравнение прямой линии регрессии Y на X вида y x − y = rB σy x−x. σx ( ) Замечание1. Аналогично находят выборочное регрессии X на Y вида x y − x = rB где rB ( σx y− y σy уравнение прямой линии ) σx = ρ xy σy . Замечание2.Выборочный коэффициент корреляции имеет важное самостоятельное значение. Как следует из предыдущего, выборочный коэффициент корреляции определяется равенством rB = ∑n xy xy − x y nσ xσ y где х, у -варианты (наблюдавшиеся значения) признаков X и Y ; nxy - частота наблюдавшейся пары вариант (х, у); n -объем выборки (сумма всех частот); x, σ x, σ y y - выборочные средние; - выборочное среднеквадратические отклонения. Обсуждение и изучение свойств выборочного коэффициента корреляции продолжим в лекции №15. Вопросы для самопроверки 1.Что представляет собой метод наименьших квадратов (МНК)? 2.Что такое наблюдаемая ордината в МНК? 3.Напишите параметры выборочного уравнения прямой линии регрессии в случае, когда данные не сгруппированы? 4.Поясните устройство корреляционной таблицы. 5.Напишите параметры выборочного уравнения прямой линии регрессии в случае, когда данные сгруппированы? Литература: [1]: c.255-268; [2]: c.394-410; [3]: c.195-235. 129 ЛЕКЦИЯ №15 ТЕСНОТА КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ ПЛАН: 1. Выборочный коэффициент корреляции. 2. Выборочное корреляционное отношение. КЛЮЧЕВЫЕ СЛОВА: Выборочный коэффициент корреляции, выборочное корреляционное отношение, теснота корреляционной зависимости. 1. В лекции №14 установили, что выборочный коэффициент корреляции определяется равенством rв = ∑n xy xy − n x y nσ x σ y , где x,y- варианты признаков X,Y; - частота наблюдавшейся пары вариант (x, y ) ; n-объем выборки (сумма всех частот); n xy x, y -выборочные средние; σ x ,σ y -выборочные среднеквадратические отклонения. Выборочный коэффициент корреляции имеет важное самостоятельное значение. Ниже приведем свойства выборочного коэффициента корреляции из которых следует, что он служит для оценки тесноты линейной корреляционной зависимости. Воспользуемся формулами (вывод опускаем): ( S y = D y 1 − rв2 ); ( ) S x = D x 1 − rв2 , где S y - дисперсия наблюдавшихся значений y вокруг соответствующих значений условных средних y x ; Dy - дисперсия наблюдавшихся значений y вокруг соответствующих значений условных средних y . Аналогичный смысл имеют дисперсии S x , D x . 10. Абсолютная величина выборочного коэффициента корреляции не превосходит единицы. Доказательство. Любая дисперсия неотрицательна. В частности, ( ) S y = D y 1 − rв2 ≥ 0 . Следовательно, (1 − r ) ≥ 0 . 2 в Отсюда − 1 ≤ rв ≤ 1 , или 130 rв ≤ 1 . 2 . Если выборочный коэффициент корреляции равен нулю и выборочные линии регрессии прямые. То X и Y не связаны линейной корреляционной зависимостью. Доказательство. При rв = 0 уравнение выборочной прямой регрессии Y на X y x − y = rв σy x−x σx ( ) имеет вид: yx − y = 0 , или yx = y При . rв = 0 уравнение прямой регрессии Y на X имеет вид xy = x. Таким образом, при rв = 0 условные средние сохраняют постоянное значение при изменении соответствующих аргументов; в этом смысле можно считать, что X и Y не связаны линейной корреляционной зависимостью. Очевидно, в рассматриваемом случае прямые регрессии параллельны соответствующим координатным осям. Замечание. Если выборочный коэффициент корреляции равен нулю, то признаки X и Y могут быть связаны нелинейной корреляционной или даже функциональной зависимостью. r =1 30. Если в , то наблюдаемые значения признаков связаны линейной функциональной зависимостью. r =1 в , то Если Можно показать, что отсюда следует равенство: y − y − rв σy x−x =0 σx . ( ( ) S y = D y 1 − rв2 = 0 . ) Как видим, любая наблюдаемая пара чисел (x, y ) удовлетворяет этому линейному относительно x и y уравнению, т.е. значения признаков в выборке связаны линейной функциональной зависимостью. Заметим, что отсюда еще нельзя уверенно заключить, что и в генеральной совокупности признаки связаны линейной функциональной зависимостью (при репрезентативной выборке большого объема зависимость между совокупности будет близка к линейной, или даже будет линейной. 40. С возрастанием абсолютной величины выборочного коэффициента корреляции линейная корреляционная зависимость становится более тесной и при rв = 1 переходит в функциональную зависимость. Доказательство. Из формул 131 ( S y = D y 1 − rв2 ); ( ) S x = D x 1 − rв2 , rв S дисперсии y , S x убывают, т.е. уменьшается видно, что с возрастанием рассеяние наблюдаемых значений признаков вокруг условных средних, а это означает, что связь между признаками становится более тесной и при как следует из свойства 30, переходит в функциональную. rв = 1 , Из приведенных свойств вытекает смысл rв : выборочный коэффициент корреляции характеризует тесноту линейной связи между количественными r r признаками в выборке: чем ближе в к 1, тем связь сильнее; чем ближе в к 0, тем связь слабее. Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна ), то заключение о тесноте линейной зависимости между признаками, полученное по данным выборки, в известной степени может быть распространено и на генеральную совокупность. r г нормально Например, для оценки коэффициента корреляции n ≥ 50 ) можно воспользоваться распределенной генеральной совокупности (при формулой rв − 3 ⋅ 1 − rв2 n ≤ rг ≤ rв + 3 ⋅ 1 + rв2 n . Замечание 1. Знак выборочного коэффициента корреляции совпадает со знаком выборочных коэффициентов регрессии что следует из формул: ρ yx = rв σy ; σx ρ xy = rв σx σy (1) Замечание 2. Выборочный коэффициент корреляции равен среднему геометрическому выборочных коэффициентов регрессии. Действительно, перемножив левые и правые части (1) получим: ρ yx ⋅ ρ xy = rв2 Отсюда rв = ± ρ yx ⋅ ρ xy . Знак при радикале, в соответствии с замечанием 1, должен совпадать со знаком коэффициентов регрессии. 2. Для оценки тесноты линейной корреляционной связи между признаками в выборке служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи вводят новые сводные характеристики: η yx η xy - выборочное корреляционное отношение Y к X; - выборочное корреляционное отношение X к . Выборочным корреляционным отношением Y к X называют отношению η yx = σy x σy . 132 Здесь ∑ n (y σy = x ) ∑ n (y − y ) 2 2 −y x σy = n y n ; где n – объем выборки (сумма всех частот); x , n x - частота значения x признака X; ny - частота значения y признака Y; y - общая средняя признака Y; yx - условная средняя признака Y. Аналогично определяется выборочное корреляционное отношение X к Y: η xy = η yx Пример. Найти σx y σx . по данным корреляционной таблицы. X 10 20 30 ny 4 6 10 21 28 -28 15 6 6 12 20 38 12 Y 15 25 nx yx n = 50 Решение. Найдем общую среднюю y= ∑n n Найдем y y 38 ⋅ 15 + 12 ⋅ 25 = 17,4. 50 = ∑ n (y − y ) 2 σy = σy = x y n ∑ n (y x x −y 38(15 − 17 ) + 12(25 − 17,4 ) = 4,27. 50 2 = ) 2 n 2 10(21 − 17,4 ) + 28(15 − 17,4) + 12(20 − 16,4) = 2,73 50 . 2 = 2 2 Искомое корреляционное отношение η yx = σy x σy =0,64 Свойства выборочного корреляционного отношения. Поскольку η yx обладает теми свойствами ,что и η xy , перечислим свойства η yx только выборочного корреляционного отношения ,которое далее для η упрощения записи будем обозначать через и для простоты речи «корреляционным отношением». 10. Корреляционное отношение удовлетворяет двойному соотношению: 133 0 ≤ η ≤ 1. 20. Если η =0, то и признак Y с признаком X корреляционной зависимостью не связан и обратно. 30. Если η =1, то признак Yсвязан с признаком X функциональной зависимостью и обратно 40. η ≤ rв 50. Если зависимость. . η = rв , то имеет место точная линейная корреляционная Вопросы для самопроверки 1.Как определяется выборочный коэффициент корреляции? 2.Приведите свойства выборочной коэффициента корреляции? 3.Что характеризирует коэффициент корреляции? 4.В каких случаях заключение о тесноте линейной зависимости между признаками, полученное по данным выборки, может быть распространена и на генеральную совокупность? 5.Напишите формулу для оценки коэффициента корреляции нормально распределенной генеральной совокупности при больших n? 6.Как оценивается тесноту нелинейной корреляционной связи? 7.Приведите свойства выборочного корреляционного отношения. Литература: [1]: c.261-274; [2]: c.410-427; [3]: c.195-235. 134 ЛЕКЦИЯ №16 КРИВОЛИНЕЙНАЯ И МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИИ. ПЛАН: 1.Криволинейные корреляции. 2.Понятие о множественной корреляции. КЛЮЧЕВЫЕ СЛОВА: Криволинейные корреляции, множественная корреляция. В предыдущей лекции (лек. №15) было установлено: при η = 0 признаки не связаны корреляционной зависимостью; при η = 1 имеет место функциональная зависимость. В рассуждениях не делалось никаких допущений о форме корреляционной связи. Поэтому η служит мерой тесноты связи для любой, в том числе и линейной формы. В этом преимущество корреляционного отношения перед коэффициентом корреляции, который оценивает тесноту лишь линейной зависимости. Вместе с тем корреляционное отношение обладает недостатком: оно не позволяет судить, насколько близко расположены точки, найденные по данным наблюдений, к кривой определенного вида, например к параболе, гиперболе и т.д. Это объясняется тем, что при определении корреляционного отношения форма связи во внимание не принималась. x = ϕ (y) y 1. Если график регрессии y x = f (x ) или линией , то корреляцию называют криволинейной. Например, функции регрессии Y на X y x = ax 2 + bx + c - параболическая корреляция, изображается кривой могут имеет вид: b yx = a + x - гиперболическая корреляция, y x = ab - показательная корреляция и т. д. Теория криволинейной корреляции решает те же задачи , что и теория линейной корреляции – установление формы и тесноты корреляционной связи. Неизвестные параметры уравнения регрессии ищут методом наименьших квадратов. Для оценки тесноты криволинейной корреляции служат выборочные корреляционные отношения (лек.№15). Рассмотрим параболическую корреляцию, предположив, что данные выборки позволяют считать, что имеет место именно такая корреляция . В этом случае выборочное уравнение регрессии Y на X имеет вид: x y x = Ax 2 + Bx + C , где A,B,C – неизвестные параметры. 135 (1) Пользуясь МНК, получают систему линейных уравнений относительно неизвестных параметров (вывод опущен , поскольку он не содержит ничего нового сравнительно с п.1 лек.№14.) ( ∑ nx x 4 )A + (∑ nx x3 )B + (∑ nx x 2 )C = ∑ nx y x x 2 ( ∑ nx x3 )A + (∑ nx x 2 )B + (∑ nx x )C = ∑ nx y x x ( ∑ nx x )A + (∑ nx x 2 )B + nC = ∑ n x (2) yx Найденные из этой системы параметры A,B,C подставляют в (1) в итоге получают искомое уравнение регрессии. 2. Если исследовать связь между несколькими признаками, то корреляцию называют множественной. В простейшем случае число признаков равно трем, и связь между ними линейная: z = ax + by + c В этом случае возникают задачи: 1) найти по данным наблюдений выборочное уравнение связи вида z = Ax + Bx + C (3) т. е. требуется найти коэффициенты регрессии A, B и параметр C.; 2) оценить тесноту связи между Z и обоими признаками X.Y; 3) оценить тесноту связи между Z и X (при постоянномY), между Z и.Y (при постоянном Х). Первая задача решается МНК, причем вместо уравнения (3) удобнее искать уравнение связи вида ( ) ( ) z−z = A x−x +B y− y , где A= rxz − ryz rxy σ z ⋅ 1 − rxy2 σx B= ; ryz − rxz rxy σ z ⋅ 1 − rxy2 σy . Здесь rxz , ryz , rxy − коэффициенты корреляции соответственно между признаками X и Z, Z и X, X и Y; σ x ,σ y ,σ z -среднеквадратическое отклонения. Теснота связи признака Z с признаками X,Y оценивается выборочным совокупным коэффициентом корреляции: R= rxz2 − 2rxy rxz ryz + ryz2 1 − rxy2 ; причем 0 ≤ r ≤ 1 . Теснота связи между Z и X (при постоянном Y), междуZ и Y (при постоянном X) оценивается соответственно частными выборочными коэффициентами корреляции: rxz ( y ) = rxz − rxy ryz (1 − r )(1 − r ) ; 2 xy 2 yz ryz ( x ) = ryz − rxy rxz (1 − r )(1 − r ) . 2 xy 136 2 xz Эти коэффициенты имеют те же свойства и тот же смысл , что и обыкновенный выборочный коэффициент корреляции, т.е. служат для оценки линейной связи между признаками. Вопросы для самопроверки 1.В чем проявляется недостаток корреляционного отношения? 2.Какую задачу решает теория криволинейной корреляции? 3.Какой метод используется для нахождения коэффициентов регрессионных уравнений в теории криволинейной корреляции ? 4.Что называется множественной корреляцией? 5. Как выясняется теснота связи меду признаками во множественной корреляции? Литература: [1]: c.274-280; [2]: c.447-459; [3]: c.195-235. 137 ЛЕКЦИЯ №17. CТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И ИХ СТАТИСТИЧЕСКАЯ ПРОВЕРКА П Л А Н: 1. Статистическая гипотеза. Нулевая и конкурирующая, простая и сложная гипотезы. 2. Ошибки первого и второго рода. 3. Статистический критерий проверки нулевой гипотезы. Наблюдаемое значение критерия. 4. Критическая область. Область принятия гипотезы. Критические точки. 5. Отыскание правосторонней критической области. 6. Отыскание левосторонней и двусторонней критических областей. 7. Дополнительные сведения о выборе критической области. Мощность критерия. 8. Сравнение двух дисперсий нормальных генеральных совокупностей. КЛЮЧЕВЫЕ СЛОВА: Статистическая гипотеза, нулевая и конкурирующая, простая и сложная гипотезы, ошибки первого и второго рода, статистическая критерия, наблюдаемое значение критерия, критическая область, область принятия гипотезы, критические точки, правосторонняя критическая область, левосторонняя критическая область, двусторонняя критическая область, мощность критерия. 1. Статистическая гипотеза. Нулевая и конкурирующая, простая и сложная гипотезы. Часто необходимо знать закон распределения генеральной совокупности. Если закон распределения неизвестен, но имеются основания предположить, что он имеет определенный вид (назовем его А), выдвигают гипотезу: генеральная совокупность распределена по закону А. Таким образом, в этой гипотезе речь идет о виде предполагаемого распределения. Возможен случай, когда закон распределения известен, а его параметры неизвестны. Если есть основания предположить, что неизвестный параметр Θ равен определенному значению Θ0 , выдвигают гипотезу: Θ = Θ0 . Таким образом, в этой гипотезе речь идет о предполагаемой величине параметра одного известного распределения. Возможны другие гипотезы: о равенстве параметров двух или нескольких распределений, о независимости выборок и многое другие. Статистической называют гипотезу о виде неизвестного распределения, или о параметрах известных распределений. Например, статистическими будут гипотезы: 1) генеральная совокупность распределена по закону Пуассона; 138 2) дисперсия двух нормальных совокупностей равны между собой. В первой гипотезе сделано предположение о виде неизвестного распределения, во второй – о параметрах двух известных распределений. Гипотеза «3 февраля 2004 г. выпадет снег» не является статистической, поскольку в ней не идет речь ни о виде, ни о параметрах распределения. Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Если выдвинутая гипотеза будет отвергнута, то имеет место противоречащая гипотеза. По этой причине эти гипотезы целесообразно различать. Нулевой (основной) называют выдвинутую гипотезу H 0 . Конкурирующей (альтернативной) называют гипотезу H1 , которая противоречит нулевому. Например, если нулевая гипотеза состоит в предположении, что математическое ожидания а нормального распределения равно 10, то конкурирующая гипотеза, в частности может состоять в предположении, что а ≠ 0 . Коротко это записывают так: H 0 : a = 10; H1 : a ≠ 10 . Различают гипотезы, которые содержат только одно и более предложений. Простой называют гипотезу, содержащую только одно предложение. Например, если λ - параметр показательного распределения, то гипотеза H 0 : λ = 5 -простая гипотеза. Гипотеза H 0 : математическое ожидание нормального распределения равно 3 ( σ известно) –простая. Сложной называют гипотезу, которая состоит из конечного или бесконечного числа простых гипотез. Например, сложная гипотеза H : λ > 5 состоит из бесчисленного множества простых гипотез вида H i : λ = bi , где bi любое число, больше 5. Гипотеза H 0 : математическое ожидание нормального распределения равно 3 ( σ неизвестно) – сложная. 2. Ошибки первого и второго рода. Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает ее проверки. Поскольку проверку производят статистическими методами, ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т.е. могут быть допущены ошибки двух родов. Ошибкой первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибкой второго рода состоит в том, что принята неправильная гипотеза. Подчеркнем, что последствия этих ошибок могут оказаться весьма различными. Например, если отвергнуто правильное решение «продолжать строительство жилого дома», то эта ошибка первого рода повлечет материальный ущерб; если же принято неправильное решение «продолжать строительство», несмотря на опасность обвала стройки то эта ошибка второго рода может повлечь гибель людей. Разумеется, можно привести примеры, когда 139 ошибка первого рода влечет более тяжелые последствия, чем ошибка второго рода. Замечание 2.1. Правильное решение может быть принято также в двух случаях: 1) гипотеза принимается, причем и в действительности она правильная; 2) гипотеза отвергается, причем и в действительности она неверна. Замечание2.2.Вероятность совершить ошибку первого рода принято обозначать через α ; ее называют уровнем значимости. Наиболее часто уровень значимости принимают равным 0,05 или 0,01. Если, например, принят уровень значимости равный 0,05, то это означает, что е пяти случаях из ста мы рискуем допустить ошибку первого рода (отвергнуть правильную гипотезу). 3. Статистический критерий проверки нулевой гипотезы. Наблюдаемое значение критерия. Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближенное распределение которой известно. Эту величину обозначают через U или Z , если она распределена 2 нормально, F или v — по закону Фишера — Снедекора, Т — по закону Стьюдента, χ — по закону «хи-квадрат» и т. д. Поскольку в этой лекции вид распределения во внимание приниматься не будет, обозначим эту величину, в целях общности, через K . Статистическим критерием (или просто критерием) называют случайную величину К, которая служит для проверки нулевой гипотезы. Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия К принимают отношение исправленных выборочных дисперсий: 2 s12 F= 2 s2 . Эта величина случайная, потому что в различных опытах дисперсии будут принимать различные, наперед неизвестные значения и распределена по закону Фишера — Снедекора. Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий величин, и таким образом получают частное (наблюдаемое) значение критерия. Наблюдаемым значением K набл назначают значение критерия, вычисленное по выборкам. Например, если по двум выборкам, извлеченным из нормальных генеральных совокупностей, найдены исправленные выборочные 2 2 дисперсии s1 = 20 и s2 = 5 , то наблюдаемое значение критерия F F= s12 20 = = 4. 5 s22 4. Критическая область. Область принятия гипотезы. Критические точки. 140 После выбора определенного критерия, множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другое — при которых она принимается. Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятая гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают. Основной принцип проверки статистических, гипотез можно сформулировать так: если наблюдаемое значение критерия принадлежит критической области — гипотезу отвергают, если наблюдаемое значение критерия принадлежит области принятия гипотезы — гипотезу принимают. Поскольку критерий К — одномерная случайная величина, все ее возможные значения принадлежат некоторому интервалу. Поэтому критическая область и область принятия гипотезы также являются интервалами и, следовательно, существуют точки, которые их разделяют. K kкр K kкр K kкр kкр Рис.1. Критическими точками (границами) kкр называют точки, отделяющие критическую область от области принятия гипотезы. Различают одностороннюю (правостороннюю или левостороннюю) и двустороннюю критические области . Правосторонней называют критическую область, определяемую K >k k K < k кр kкр кр неравенством где кр — положительное число (рис.1,а). Левосторонней называют критическую область, определяемую неравенством где — отрицательное число (рис.1, б). Односторонней называют правостороннюю или левостороннюю критическую область. Двусторонней называют критическую область, определяемую неравенствами K < k1 , K > k2 , где k2 > k1 . В частности, если критические точки симметричны относительно нуля, двусторонняя критическая область определяется неравенствами (в предположении, что kкр K < − kкр , >0): K > kкр , или равносильным неравенством 141 K > kкр (рис. 1, в). 5. Отыскание правосторонней критической области. Как найти критическую область? Обоснованный ответ на этот вопрос требует привлечения довольно сложной теории. Ограничимся ее элементами. Для определенности начнем с нахождения правосторонней критической области, которая определяется неравенством K > kкр k где кр >0. Мы видим, что для отыскания правосторонней критической области достаточно найти критическую точку. Следовательно, возникает новый вопрос: как ее найти? С этой целью задаются достаточно малой вероятностью — уровнем значимости α . Затем ищут критическую точку, исходя из требования, чтобы, при условии справедливости нулевой гипотезы, вероятность того, что критерий K , примет значение, большее kкр была равна принятому уровню значимости: P (K > kкр ) = α Для каждого критерия имеются соответствующие таблицы, по которым и находят критическую точку, удовлетворяющую этому требованию. Замечание 5.1. Когда критическая точка уже найдена, вычисляют по данным выборок наблюденное значение критерия и, если окажется, что K набл > k кр , то нулевую гипотезу отвергают; если же K набл < k кр , то нет оснований, чтобы отвергнуть нулевую гипотезу. Пояснение. Почему правосторонняя критическая область была определена, исходя из требования, чтобы при справедливости нулевой гипотезы выполнялось соотношение P (K > kкр ) = α ? (1) Поскольку вероятность события K > k кр мала ( α — малая вероятность), такое событие, при справедливости нулевой гипотезы, в силу принципа практической невозможности маловероятных событий, в единичном испытании не должно наступить. Если все же оно произошло, т. е. наблюдаемое значение критерия оказалось больше k кр , то это можно объяснить тем, что нулевая гипотеза ложна и, следовательно, должна быть отвергнута. Таким образом, требование (1) определяет такие значения критерия, при которых нулевая гипотеза отвергается, а они и составляют правостороннюю критическую область. Замечание5.2. Наблюдаемое значение критерия может оказаться большим k кр не потому, что нулевая гипотеза ложна, а по другим причинам (малый объем выборки, недостатки методики эксперимента и др.). В этом случае, отвергнув правильную нулевую гипотезу, совершают ошибку первого рода. Вероятность этой ошибки равна уровню значимости α . Итак, пользуясь требованием (1), мы с вероятностью α рискуем совершить ошибку первого рода. 142 Заметим кстати, что в книгах по контролю качества продукции, вероятность признать негодной партию годных изделий называют «риском производителя», а вероятность принять негодную партию— «риском потребителя». Замечание 5.3. Пусть нулевая гипотеза принята; ошибочно думать, что тем самым она доказана. Действительно, известно, что один пример, подтверждающий справедливость некоторого общего утверждения еще не доказывает его. Поэтому более правильно говорить «данные наблюдений согласуются с нулевой гипотезой и, следовательно, не дают оснований ее отвергнуть». На практике для большей уверенности принятия гипотезы, ее проверяют другими способами, или повторяют эксперимент, увеличив объем выборки. Отвергают гипотезу более категорично, чем принимают. Действительно, известно, что достаточно привести один пример, противоречащий некоторому общему утверждению, чтобы это утверждение отвергнуть. Если оказалось, что наблюдаемое значение критерия принадлежит критической области, то этот факт и служит примером, противоречащим нулевой гипотезе, что позволяет ее отклонить. 6. Отыскание левосторонней и двусторонней критических областей. Отыскание левосторонней и двусторонней критических областей сводится (так же, как и для правосторонней) к нахождению соответствующих критических точек. Левосторонняя критическая область определяется (п. 4) неравенством K < k кр k кр ( <0). Критическую точку находят, исходя из требования, чтобы при справедливости, нулевой гипотезы, вероятность того, что критерий примет значение, меньшее k кр , была равна принятому уровню значимости: P ( K < k кр )= α Двусторонняя критическая область определяется (п.4) неравенствами K < k1 , K > k2 , . Критические точки находят, исходя из требования, чтобы, при справедливости нулевой гипотезы, сумма вероятностей того, что критерий примет значение меньшее k1 или большее k2 , была равна принятому уровню значимости: P (K k кр ) = α (2) Ясно, что критические точки могут быть выбраны бесчисленным множеством способов. Если же распределение критерия симметрично относительно нуля и имеются основания {например, для увеличения мощности(определение мощности будет дано в п.7.)) выбрать симметричные относительно нуля точки — k кр и k кр ( k кр >0), то P (K < −kкр ) = P (K > kкр ) . 143 Учитывая (2), получим P (K > kкр ) = α 2 Это соотношение и служит для двусторонней критической области. Как уже было указано (п.5), соответствующим таблицам. отыскания критические критических точек точки находят по 7. Дополнительные сведения о выборе критической области. Мощность критерия Мы строили критическую область, исходя из требования, чтобы вероятность попадания в нее критерия была равна α , при условии, что нулевая гипотеза справедлива. Оказывается целесообразным ввести в рассмотрение вероятность попадания критерия в критическую область при условии, что нулевая гипотеза неверна и, следовательно, справедлива конкурирующая. Мощностью критерия называют вероятность попадания критерия в критическую область, при условии, что справедлива конкурирующая гипотеза. Другими словами, мощность критерия есть вероятность того, что нулевая гипотеза будет отвергнута, если верна конкурирующая гипотеза. Пусть для проверки гипотезы принят определенный уровень значимости и выборка имеет фиксированный объем. Остается произвол в выборе критической области. Покажем, что ее целесообразно построить так, чтобы мощность критерия была максимальной. Предварительно убедимся, что если вероятность ошибки второго рода (принять неправильную гипотезу) равна β , то мощность равна 1- β . Действительно, если β — вероятность ошибки второго рода, т. е. события «принята нулевая гипотеза, причем справедлива конкурирующая», то вероятность противоположного события «отвергнута нулевая гипотеза, причем справедлива конкурирующая», т. е. мощность критерия равна 1- β . Пусть мощность 1- β возрастает; следовательно, уменьшается вероятность β совершить ошибку второго рода. Таким образом, чем мощность больше, тем вероятность ошибки второго рода меньше. Итак, если уровень значимости уже выбран, то критическую область следует строить так, чтобы мощность критерия была максимальной. Выполнение этого требования обеспечит минимальную ошибку второго рода, что, конечно, желательно. Замечание 7.1. Поскольку вероятность события «ошибка второго рода допущена» равна β , то вероятность противоположного события «ошибка второго рода не допущена» равна 1- β , т. е, мощности критерия. Отсюда следует, что мощность критерия есть вероятность того, что не будет допущена ошибка второго рода. Замечание 7.2. Ясно, что чем меньше вероятности ошибок первого и второго рода, тем критическая область «лучше», Однако, при заданном объеме выборки, уменьшить одновременной α и β невозможно: если уменьшать α , то 144 β будет возрастать. Например, если принять α = 0, то будут приниматься все гипотезы, в том числе и неправильные, т. е, возрастает вероятность β ошибки второго рода. Как же выбрать а наиболее целесообразно? Ответ на этот вопрос зависит от «тяжести последствий» ошибок для каждой конкретной задачи. Например, если ошибка первого рода повлечет большие потери, а второго рода — малые, то следует принять возможно меньшее α . Если α уже выбрано, то пользуясь теоремой Ю. Неймана и Э. Пирсона, изложенной в более полных курсах, можно построить критическую область, для которой β будет минимальным и, следовательно, мощность критерия максимальной. Замечание7.3. Единственный способ одновременного уменьшения вероятностей ошибок первого и второго рода состоит в увеличении объема выборок. 8. Сравнение двух дисперсий нормальных генеральных совокупностей. На практике задача сравнения дисперсий возникает, если требуется сравнить точность приборов, инструментов, самих методов измерений и т. д. Очевидно, предпочтительнее тот прибор, инструмент и метод, который обеспечивает наименьшее рассеяние результатов измерений, т. е. наименьшую дисперсию. Пусть генеральные совокупности X и Y распределены нормально. По независимым выборкам объемов n1 и n2, извлеченным из этих совокупностей, 2 2 найдены исправленные выборочные дисперсии s X и sY . Требуется по исправленным дисперсиям, при заданном уровне значимости α , проверить нулевую гипотезу, состоящую в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой: Н 0 : D( X ) = D(Y ) Учитывая, что исправленные дисперсии являются оценками генеральных дисперсий (см.лек.№11), т. е. ( ) M s X2 = D( X ), несмещенными ( ) M sY2 = D(Y ) , нулевую гипотезу можно записать так: ( ) ( ) H 0 : M s X2 = M sY2 . Таким образом, требуется проверить, что математические ожидания исправленных выборочных дисперсий равны между собой. Такая задача ставится потому, что обычно исправленные дисперсии оказываются различными. Возникает вопрос: значимо (существенно) или незначимо, различаются исправленные дисперсии? Если окажется, что нулевая гипотеза справедлива, т. е. генеральные дисперсии одинаковы, то различие исправленных дисперсий незначимо и объясняется случайными причинами, в частности, случайным отбором объектов выборки. Например, если различие исправленных выборочных дисперсий 145 результатов измерений, выполненных двумя приборами, оказалось незначимым, то приборы имеют одинаковую точность. Если нулевая гипотеза будет отвергнута, т. е. генеральные дисперсии неодинаковы, то различие исправленных дисперсий значимо и не может быть объяснено случайными причинами, а является следствием того, что сами генеральные дисперсии различны. Например, если различие исправленных выборочных дисперсий результатов измерений, произведенных двумя приборами, оказалось значимым, то точность приборов различна. В качестве критерия проверки нулевой гипотезы о равенстве генеральных дисперсий, примем отношение большей исправленной дисперсии к меньшей, т. е. случайную величину F= sб2 s м2 Величина F, при условии справедливости нулевой гипотезы имеет распределение Фишера — Снедекора со степенями свободы k1 = n1 − 1 и k2 = n2 − 1 где n1 — объем выборки, по которой вычислена большая исправленная дисперсия, n2 — объем выборки, по которой найдена меньшая дисперсия, Напомним, что распределение Фишера — Снедекора зависит только от чисел степеней свободы и не зависит oт других параметров. Критическая область строится в зависимости от вида конкурирующей гипотезы. Первый случай. Нулевая гипотеза Н 0 : D( X ) = D(Y ) . Конкурирующая гипотеза H1 : D( X ) > D(Y ) . В этом случае строят одностороннюю, а именно правостороннюю, критическую область, исходя из требования, чтобы вероятность попадания критерия F в эту область, в предположении справедливости нулевой гипотезы, была равна принятому уровню значимости: P (F > Fкр (α , k1 , k2 )) = α ( F α,k ,k ) 1 2 Критическую точку кр находят по таблице критических точек распределения Фишера — Снедекора (по приложению в учебниках) и тогда правосторонняя критическая область определяется неравенством F > Fкр , а область принятия нулевой гипотезы неравенством F < Fкр Обозначим отношение большей исправленной дисперсии к меньшей, вычисленное по данным наблюдений, через Fнабл и сформулируем правило проверки нулевой гипотезы. Правило 1. Для того чтобы, при заданном уровне значимости, проверить нулевую гипотезу Н 0 : D( X ) = D(Y ) о равенстве генеральных дисперсий нормальных совокупностей, при конкурирующей гипотезе H1 : D( X ) > D(Y ) , надо вычислить отношение большей исправленной дисперсии к меньшей, т. е. 146 Fнабл = sб2 s м2 и по таблице критических точек распределения Фишера — Снедекора, по заданному уровню значимости α и числам степеней свободы k1 и k2 ( k1 — число степеней свободы большей исправленной дисперсии), найти критическую точку Если Fнабл < Fкр F ( Fкр α , k1 , k2 ). — нет оснований отвергнуть нулевую гипотезу. >F кр Если набл — нулевую гипотезу отвергают. Пример 1. По двум независимым выборкам объемов n1 =12 и n2=15, извлеченным из нормальных генеральных совокупностей X и Y, найдены 2 2 исправленные выборочные дисперсии s X =11,41 и sY =6,52. При уровне значимости 0,05, проверить нулевую гипотезу Н 0 : D( X ) = D(Y ) о равенстве генеральных дисперсий, при конкурирующей гипотезе H1 : D( X ) > D(Y ) . Решение. Найдем отношение большей исправленной дисперсии к меньшей: Fнабл = 11,41 = 1,75. 6,52 Так как конкурирующая гипотеза имеет вид D( X ) > D(Y ) критическая область — правосторонняя. По таблице (приложение 7), по уровню значимости α =0,05 и числам степеней свободы k1 = 12 - 1 = 11 и k2 = 15 - 1 = 14, находим критическую точку Fкр (0,05;11;14 ) = 2,57 . Так как Fнабл < Fкр — нет оснований отвергнуть нулевую гипотезу о равенстве генеральных дисперсий. Здесь и далее критические точки для уровня значимости 0,05 взяты из табл. 6 учебника [5]; на уровне значимости 0,01 критические точки помещены в приложении 7 настоящего учебника. Второй случай. Нулевая гипотеза Н 0 : D( X ) = D(Y ) . Конкурирующая гипотеза H1 : D( X ) ≠ D(Y ) . В этом случае строят двустороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область, в предположении справедливости нулевой гипотезы, была равна принятому уровню значимости α . Как выбрать границы критической области? Оказывается, что наибольшая мощность (вероятность попадания критерия в критическую область, при справедливости конкурирующей гипотезы) достигается тогда, когда вероятность попадания критерия в каждый из двух интервалов критической области α равна 2 . Таким образом, если обозначить через F1 левую границу критической области и через F2 — правую, то должны иметь место соотношения 147 P(F < F1 ) = α 2 , P(F > F2 ) = α 2 (рис. 2): α α 2 2 F2 F1 рис.2 Мы видим, что достаточно найти критические точки, чтобы найти саму критическую область: F< F1 , F> F2 а также область принятия нулевой гипотезы: F1 Fкр Если — нулевую гипотезу отвергают. Пример 2. По двум независимым выборкам объемов n1 =10 и n2=18, извлеченным из нормальных генеральных совокупностей X и Y, найдены 2 2 исправленные выборочные дисперсии s X = 1,23 и sY =0,41. При уровне значимости α =0,01 проверить нулевую гипотезу о равенстве генеральных дисперсий, при конкурирующей гипотезе H1 : D( X ) ≠ D(Y ) . Решение. Найдем отношение большей исправленной дисперсии к меньшей: Fнабл = 1,23 =3 0,41 По условию конкурирующая гипотеза имеет вид D( X ) ≠ D(Y ) , поэтому критическая область — двусторонняя. По таблице, по уровню α = 0,1 = 0,05 2 2 значимости, вдвое меньшем заданного, т. е. при числам степеней свободы k1 = 10 -1=9, k2 = 18 - 1 = 17, находим критическую точку Fкр (0,05;9;17 ) = 2,5 . Fнабл > Fкр Так как , нулевую гипотезу о равенстве генеральных дисперсий отвергаем. Другими словами, выборочные исправленные дисперсии различаются значимо. Например, если бы рассматриваемые дисперсии характеризовали точность двух методов измерений, то следует предпочесть тот метод, который имеет меньшую дисперсию (0,41). 149 Вопросы для самопроверки 1.Что называется статистической гипотезой? Приведите примеры. 2.Дайте определения: нулевой и конкурирующей, простой и сложной гипотезы. 3.Что называется ошибками первого и второго рода? 4.Что называется статистическим критерием? Что называется наблюдаемым значением критерия? 5.Дайте определения: критической области, области принятия гипотезы, критической точки. 6.Сформулируйте основной принцип проверки статистических гипотез. 7.К чему сводится задача отыскания правосторонней критической области? А задача отыскания левосторонней и двусторонней критических областей? 8.Что называется мощностью критерия? 9.Какую роль играет конкурирующая гипотеза при построении критической области? 10 Сформулируйте правила для сравнения двух дисперсий нормальных генеральных совокупностей. Литература: [1]: c.281-292; [3]: c.334-346; [3]: c.166-179. 150 ЛЕКЦИЯ №18 ПРОВЕРКА ГИПОТЕЗЫ О НОРМАЛЬНОМ РАСПРЕДЕЛЕНИИ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ П Л А Н: 1.Критерий согласия Пирсона 2.Способ вычисления теоретических частот нормального распределения К Л Ю Ч Е В Ы Е С Л О В А: Критерий согласия, критерий согласия «хи-квадрат», эмпирические (наблюдаемые) частоты, теоретические (вычисленные в предположении нормального распределения) частоты. 1.В предыдущей лекции закон распределения генеральной совокупности предполагался известным. Если закон распределения неизвестен, но есть основания предположить, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А. Проверка гипотезы о предполагаемом законе неизвестного распределения производится так же, как и проверка гипотезы о параметрах распределения, т. е. при помощи специально подобранной случайной величины — критерия согласия. Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Имеется несколько критериев согласия: χ («хи квадрат») К. Пирсона, Колмогорова, Смирнова и др. Ограничимся описанием применения критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности (критерий аналогично применяется и для других распределений, в этом состоит его достоинство). С этой целью будем сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты. Обычно эмпирические и теоретические частоты различаются. Например эмп. частоты 6 13 38 74 106 85 30 10 4 теорет. частоты 3 14 42 82 99 76 37 11 2. Случайно ли расхождение частот? Возможно, что расхождение случайно (незначимо) и объясняется малым числом наблюдений, либо способом их группировки, либо другими причинами. Возможно, что расхождение частот неслучайно (значимо) и объясняется тем, что теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности. Критерий Пирсона отвечает на поставленный выше 2 151 вопрос. Правда, как и любой критерий, он не доказывает справедливость гипотезы, а лишь устанавливает, на принятом уровне значимости, ее согласие или несогласие с данными наблюдений. Итак, пусть по выборке объема п получено эмпирическое распределение: варианты xi : x1 , x2 ,... xs , ni : n1 , n2 ,... ns эмп. частоты Допустим, что в предположении нормального распределения генеральной / совокупности, вычислены теоретические частоты ni (например так, как в следующем пункте) При уровне значимости α , требуется проверить нулевую гипотезу; генеральная совокупность распределена нормально. В качестве критерия проверки нулевой гипотезы примем случайную величину χ =∑ 2 (n − n ) / 2 i i ni/ (1) Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия (1) и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений. Заметим, что возведением в квадрат разностей частот устраняют возможность взаимного погашения положительных и отрицательных / разностей. Делением на ni достигают уменьшения каждого из слагаемых; в противном случае сумма была бы настолько велика, что приводила бы к отклонению нулевой гипотезы даже и тогда, когда она справедлива. Разумеется, приведенные соображения не являются обоснованием выбранного критерия, а лишь пояснением. Доказано, что при n → ∞ закон распределения случайной величины (1), независимо от того, какому закону распределения подчинена генеральная 2 совокупность, стремится к закону распределения χ с k степенями свободы. Поэтому случайная величина (1) обозначена через χ , а сам критерий называют критерием согласия «хи квадрат». Число степеней свободы находят по равенству k = s − 1 − r , где s - число групп {частичных интервалов) выборки; r — число параметров предполагаемого распределения, которые оценены по данным выборки. В частности, если предполагаемое распределение - нормальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение) поэтому r =2 и число степеней свободы k = s − 1 − r = s -1-2= s -3. Если, например, предполагают, что генеральная совокупность распределена по закону Пуассона, то оценивают один параметр λ , поэтому r =1 и k = s —2. Поскольку односторонний критерий более «жестко» отвергает нулевую гипотезу, чем двусторонний, построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область, в 2 152 предположении справедливости нулевой гипотезы, была равна принятому уровню значимости α : Таким образом, правосторонняя критическая область определяется неравенством [ ] P χ 2 > χ кр2 (α ; k ) = α . а область принятия нулевой гипотезы – неравенством χ 2 > χ кр2 (α ; k ) , Обозначим значение критерия, вычисленное по данным наблюдений, через 2 χ набл и сформулируем правило проверки нулевой гипотезы. Правило. Для того чтобы, при заданном уровне значимости, проверить нулевую гипотезу H 0 : генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия χ 2 набл =∑ (n − n ) / 2 i i ni/ (2) и по таблице критических точек распределения χ , по заданному уровню 2 χ2 значимости α , и числу степеней свободы k = s -3, найти критическую точку кр . 2 χ2 Если χ набл < кр - нет оснований отвергнуть нулевую гипотезу. χ2 Если χ набл > кр - нулевую гипотезу отвергают. Замечание 1. Объем выборки должен быть достаточно велик, во всяком случае не менее 50. Каждая группа должна содержать не менее 5-8 вариант; малочисленные группы следует объединять в одну, суммируя частоты. Замечание 2. Поскольку возможны ошибки первого и второго рода, в особенности, если согласование теоретических и эмпирических частот «слишком хорошее», следует проявлять осторожность. Например, можно повторить опыт, увеличить число наблюдений, воспользоваться другими критериями, построить график распределения, вычислить асимметрию и эксцесс/ Замечание 3, В целях контроля вычислений, формулу (2) преобразуют к виду 2 ni2 ∑ / −n 2 χ набл = ni Рекомендуем читателю выполнить это преобразование самостоятельно, для чего надо в (2) возвести в квадрат разность частот, сократить результат на и учесть, что ∑ ni = n, ∑ ni = n . Пример. При уровне значимости 0,05, проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты: эмп. частоты 6 13 38 74 106 85 30 14 теорет. частоты 3 14 42 82 99 76 37 13. ni/ / 153 2 Решение. Вычислим χ набл , для чего составим расчетную таблицу 1. Таблица 1. 1 2 3 4 5 6 7 8 2 / / 2 2 ni i ni ni − ni ni ni2 (ni − ni/ ) (ni − ni/ ) ni/ ni/ 1 2 3 4 5 6 7 8 ∑ 6 13 38 78 106 85 30 14 366 3 14 42 82 99 76 37 13 366 3 -1 -4 -8 7 9 -7 1 9 1 16 64 49 81 49 1 3 0,07 0,38 0,78 0,49 1,07 1,32 0,08 36 169 1444 5476 11236 7225 900 196 2 χ набл = 7,19 12 12,07 34,38 66,78 113,49 95,07 24,32 15,08 373,19 2 Контроль: χ набл = 7,19; ni2 ∑ n / − n = 373,19 − 366 = 7,19. i Вычисления произведены правильно. Найдем число степеней свободы, учитывая, что число групп выборки (число различных вариант) s =8, k = 8 − 3 = 5 . По таблице критических точек распределения χ (приложение в учебниках по теории вероятностей), по уровню значимости α =0,05 и числу степеней 2 χ2 свободы k =5, находим кр (0,05; 5) = 11,1. χ2 Так как χ набл < кр -нет основания отвергнуть нулевую гипотезу. Другими словами, расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности. 2 2.Способ вычисления теоретических частот нормального распределения Как следует из предыдущего пункта, сущность критерия согласия Пирсона состоит в сравнении эмпирических и теоретических частот. Ясно, что эмпирические частоты находят из опыта. Как найти теоретические частоты, если предполагается, что генеральная совокупность распределена нормально? Ниже указан один из способов решения этой задачи. 2.1. Весь интервал наблюдаемых значений X (выборки объема n) делят на s частичных интервалов (xi , xi +1 ) середины частичных интервалов xi* = одинаковой длины. Находят xi + xi +1 * 2 ; качестве частоты n; варианты xi 154 принимают число вариант, которые попали в i -й интервал. В итоге получают последовательность равноотстоящих вариант и соответствующих им частот: x1* n1 x2* ... xs* n2 ... ns причем ∑ i . 2.2.Вычисляют, например, методом произведений, n =n среднюю x * и выборочное среднее квадратическое отклонение σ . 2.3.Нормируют к величине Z= случайную X, величину т. е. переходят X − x* σ * и вычисляют концы интервалов (zi , zi +1 ) : zi = причем выборочную * наименьшее xi − x* σ* Z, значение xi +1 − x* zi +1 = , σ* т.е. z1 полагают равным − ∞ ,а наибольшее, т.е. zs полагают равным ∞ . 2.4.Вычисляют теоретические вероятности pi попадания X в интервалы (xi , xi +1 ) по равенству ( Φ(z ) -функция Лапласа) Pi = Φ ( zi +1 ) − Φ( zi ) и, наконец, находят частоты ni = npi . Пример. Найти теоретические частоты по заданному интервальному распределению выборки объема n=200, предполагая, что генеральная совокупность распределена нормально (табл.2) Таблица 2. / Но мер интерала i 1 гр аницы xi 4 инт ервала xi +1 ч астота ni 6 ном ер инт ервала i 1 6 Гр x аницы i инт ервала xi +1 ч астота ni 14 16 2 5 2 6 8 1 2 7 16 18 6 3 8 10 4 2 8 18 20 5 4 10 12 12 3 14 2 9 5 2 20 22 1 3 2 6 n =200 155 xi + xi +1 4 + 6 =5 2 = 2 Решение.2.1.Найдем середины интервалов . Поступая аналогично, получим последовательность равностоящих вариант xi * и xi* = соответствующих им частот ni : xi * : 5 7 9 11 13 15 17 19 21 ni : 15 26 25 30 26 31 24 20 13 2.2. Найдем выборочную среднюю и выборочное среднеквадратическое отклонение x * = 12,63, σ * = 4,695. (zi , zi +1 ) учитывая, что x * = 12,63, 2.3.Найдем интервалы * 1/ σ =0,213, для чего составим расчетную таблицу 3. σ * = 4,695. и Таблица 3. Границы i интервала границы интервала xi xi +1 xi − x * xi +1 − x * 1 2 3 4 4 6 8 10 6 8 10 12 - 6,63 - 4,63 - 2,63 - 6,63 - 4,63 - 2,63 - 0,63 - 1,41 - 0,99 - 0,56 - 1,41 - 0,99 - 0, 56 - 0,13 5 6 7 8 12 14 16 18 14 16 18 20 - 0,63 1,37 3,37 5,37 1,37 3,37 5,37 7,37 - 0,13 0,29 0,72 1,14 0,29 0,72 1,14 1,57 9 20 22 7,37 - 1,57 ∞ 156 zi = xi − x * σ* z i +1 = xi +1 − x * σ* 2.4.Найдем теоретические вероятности pi и искомое теоретические частоты n = npi , для чего составим расчетную таблицу 4. / i i 1 2 3 4 5 6 7 8 9 Φ ( zi ) границы интервала zi z i +1 -∞ - 1,41 - 0,99 - 0, 56 - 0,13 0,29 0,72 1,14 1,57 - 1,41 - 0,99 - 0, 56 - 0,13 0,29 0,72 1,14 1,57 Φ ( zi +1 ) - 0,5 - 0,4207 - 0,3389 - 0,2123 - 0,0517 0,1141 0,2642 0,3729 0,4418 ∞ Таблица 4. pi = = Φ ( z i +1 ) − Φ ( z i ) - 0,4207 - 0,3389 - 0,2123 - 0,0517 0,1141 0,2642 0,3729 0,4418 0,5 0,0793 0,0818 0,1266 0,1606 0,1658 0,1501 0,1087 0,0689 0,0582 ∑p i ni/ = npi = = 200 pi 15,86 16,36 25,32 32,16 33,16 30,02 21,74 13,78 11,64 ∑n =1 / i = 200 Искомое теоретические частоты помещены в последнем столбце таблицы 4. Вопросы для самопроверки 1.Что называется критерием согласия Пирсона? Какие еще критерия согласия имеются? 2.Какие вопросы решает критерия Пирсона? 3.Сформулируйте правило проверки нулевой гипотезы. 4.Каково требование к объему выборки? Что делают, если не выполняется требование? Упражнения 1.При n = 4040 бросаниях монеты Бюффон получил ν 1 = 2048 выпаданий «герба» и ν 2 = n − ν 1 = 1992 выпаданий «решетки». Совместимы ли эти данные с гипотезой H 0 о том, что, монета была правильной, т.е. что вероятность выпаданий «герба» p=1/2? Принять α = 0,05. 2.Часы, выставленные в витринах часовых мастерских, показывают случайное время. Некто наблюдал показания 500 часов и получил следующие результаты: i: ni : 0 1 41 34 2 54 3 39 4 49 5 45 6 41 7 33 8 37 9 41 10 47 11 39 где i — номер промежутка от i -го часа до ( i +1)-го, i = 0, 1, ... , 11, а ni , — число часов, показания которых принадлежали i -му промежутку. Согласуются ли эти данные с гипотезой H 0 о том, что показания часов равномерно распределены на интервале (0, 12)? Принять α = 0,05. 157 3. Распределение числового признака следующей таблицей: X в выборке определяется 3,0-3,6 3,6-4,2 4,2-4,8 4,8-5,4 5,4-6,0 6,0-6,6 6,6-7,2 2 8 35 43 22 15 5 При уровне значимости α =0,01 проверить гипотезу о нормальности распределения X в генеральной совокупности. 4.Через равные промежутки времени в тонком слое раствора золота регистрировалось число частиц золота, попадавших в поле зрения микроскопа. В результате наблюдений было получено следующее эмпирическое распределение: xi ni 112 1 168 2 130 3 68 4 32 5 5 6 1 7 1 В первой строке приведено число xi частиц золота, а во второй строке частота ni , т. е. число интервалов времени, в течение которых в поле зрения n = ∑ ni = 517 попало ровно xi частиц; объем выборки . Проверить, используя критерий χ согласие с законом распределения Пуассона, приняв за уровень значимости α =0,05. 2 Литература: [1]: 329-335; [2]: c.358-370; [3]: c.179-184. 158 ЛИТЕРАТУРА 1.Гмурман В.Е. Теория вероятностей и математическая статистика.- М.: Высшая школа, 1999. 2.Кремер Н.Ш. Теория вероятностей и математическая статистика.- М.: ЮНИТИ, 2001. 3.Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая статистика.- М.: ИНФРА, 1997. 4.Колмогоров А.Н. Основные понятия теории вероятностей. –М.: Наука,1975. 5.Смирнов Н.В..Дунин-Барковский И.В. Курс теории вероятностей и математической статистики.- М.: Высшая школа, 1969. 6.Мантуров О.В. Курс высшей математики. –М.: Высшая школа,1998. 7.Агапов Г.И. Задачник по теории вероятностей. М.: Высшая школа,1986. 8. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике.- М.: Высшая школа, 1998. 9.Адиров Т, Адигамова Э. Теория вероятностей и математическая статистика. Сборник задач.Ташкент.: ТФИ, 2003. 159 Бабаджанов Шопулат Шомашрабович ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Редактор: Э.С. Хуснутдинова Темплан 2004 года Подписано в печать 29.03.04. Формат 30х42 1/8. Бумага №1. Оперативная печать. Усл. печ. л. 8,8. Уч.-изд. л. 9,0. Тираж 500 экз. Заказ № __ Цена договорная. Ташкентский Финансовый институт. 700084, Ташкент, ул. Х.Асомова, 7. Отпечатано в типографии ТФИ. 700084, Ташкент, ул. Х.Асомова,7. 160

«Теория вероятностей и математическая статистика» 👇

Готовые курсовые работы и рефераты

Купить от 250 ₽

Решение задач от ИИ за 2 минуты

Решить задачу

Найди решение своей задачи среди 1 000 000 ответов

Найти

Смотреть все 173 лекции

Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot

Теория вероятностей и математическая статистика

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ