Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по высшей математике
Основные понятия математической статистики. Статистические оценки параметров распределения

Основные понятия математической статистики. Статистические оценки параметров распределения

👀 1142 просмотра
📌 1119 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Основные понятия математической статистики. Статистические оценки параметров распределения», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Основные понятия математической статистики. Статистические оценки параметров распределения», Word формат

Оглавление 1. Основные понятия математической статистики ............... 3 1.1. Основные задачи математической статистики ........... 3 1.2. Понятие о выборочном методе. Генеральная и выборочная совокупности .................................................... 6 1.3. Характеристики генеральной совокупности ............... 8 1.4. Классификация выборок................................................ 9 1.5. Статистическое распределение выборки ................... 12 1.6. Эмпирическая функция распределения ..................... 13 1.7. Полигон и гистограмма частот ................................... 16 2. Статистические оценки параметров распределения ....... 22 2.1. Точечные оценки .......................................................... 22 2.2. Оценка генеральной средней повторной выборки ... 23 2.3. Оценка генеральной средней бесповторной выборки ............................................................................................... 26 2.4. Определение генеральной дисперсии ........................ 29 2.5. Метод максимального правдоподобия ...................... 35 2.6. Метод наименьших квадратов .................................... 39 3. Упрощенные методы расчета статистических характеристик выборки .......................................................... 42 3.1. Вариационный ряд с равноотстоящим вариантами. Условные варианты ............................................................. 42 3.2. Эмпирические моменты .............................................. 43 3.3. Сведение первоначальных вариант к равноотстоящим. Метод произведений ............................ 46 4. Интервальные оценки......................................................... 50 4.1. Точность оценки. Доверительный интервал и доверительная вероятность ................................................ 50 4.2. Доверительный интервал для оценки генеральной средней при известном среднем квадратическом отклонении ........................................................................... 51 5. Малая выборка .................................................................... 57 5.1. Распределение Стьюдента ........................................... 57 5.2. Доверительный интервал для оценки математического ожидания нормального распределения при неизвестном среднем квадратическом отклонении . 59 5.3. Доверительный интервал для оценки cреднего квадратического отклонения .............................................. 63 6. Проверка правдоподобия статистических гипотез ......... 68 6.1. Критерий для проверки гипотезы о вероятности события ................................................................................. 72 6.2. Критерий для проверки гипотезы о математическом ожижании ............................................................................. 76 6.3. Критерий для проверки гипотезы о равенстве двух дисперсий ............................................................................. 79 7. Критерии согласия .............................................................. 81 7.1. Критерий  2 Пирсона ................................................. 83 7.2. Критерий Колмогорова ................................................ 89 8. Элементы корреляционного анализа ................................ 93 8.1. Корреляционная таблица ............................................. 94 8.2. Отыскание приближенной линии регрессии по эмпирическим данным ........................................................ 99 8.3. Метод наименьших квадратов .................................. 100 9. Выборочный коэффициент регрессии ............................ 104 9.2. Выборочный коэффициент корреляции .................. 105 9.3. Методика вычисления rв и построения линии регрессии ............................................................................ 110 1. Основные понятия математической статистики 1.1. Основные задачи математической статистики Математические законы теории вероятностей отражают реальные закономерности, существующие в массовых случайных явлениях природы. Теория вероятностей позволяет определить теоретическим путем вероятностные характеристики одних явлений по известным характеристикам других, найденным в результате опыта, и тем самым прямо или косвенно опирается на экспериментальные данные. Предметом математической статистики как науки и является разработка методов регистрации и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений. Математическая статистика тесно связана с теорией вероятностей, на предельных теоремах которой базируется большинство ее выводов. Математическую статистику нередко определяют как науку о принятии решений в условиях неопределенности. Объясняется это тем, что, например, для определения закона распределения случайной величины необходимо располагать большим количеством опытных данных. Но на практике из-за сложности постановки и проведения экспериментов, их дороговизны, ограниченности сроков исследования объем необходимой информации может быть весьма ограниченным. Методы математической статистики позволяют, тем не менее, с оцениваемой точностью получить необходимые сведения об изучаемых величинах по имеющейся неполной ограниченной информации. В зависимости от характера решаемых практических задач и объема имеющихся экспериментальных данных различают следующие основные задачи математической статистики: 1. Оценка неизвестного закона распределения случайной величины. Она ставится так: известно, какие значения принимает случайная величина в результате опытов. Требуется оценить неизвестную функцию распределения. 2. Оценка неизвестных параметров распределения. Нередко из-за крайне ограниченного объема опытных данных задача оценки неизвестного закона распределения исследуемой случайной величины вообще не ставится. С другой стороны, характер закона распределения качественно может быть известен еще до опытов. Например, если удовлетворяются условия теоремы Ляпунова, можно утверждать, что случайная величина подчинена нормальному закону, параметры которого – математическое ожидание и дисперсия – неизвестны. Поэтому вторая задача ставится так: известна функция распределения случайной величины с точностью до k неизвестных параметров, от которых она зависит. Требуется по данным наблюдений случайной величины найти эти параметры. 3. Проверка правдоподобия статистических гипотез. На основании некоторых соображений можно предположить, что случайная величина X имеет функцию распределения F(x). Требуется выяснить, совместима ли принятая гипотеза о распределении Х с наблюдаемыми в опытах значениями случайной величины, то есть действительно ли F(x) будет функцией распределения случайной величины. Содержание математической статистики далеко не исчерпывается вышеперечисленными основными задачами. Ввиду большой важности для практических приложений в математической статистике развиваются и такие разделы, как корреляционный анализ и регрессионный анализ (изучающие зависимость между случайными величинами), дисперсионный анализ (выявляющий влияние значимости отдельных качественных факторов на результат эксперимента), дискриминантный анализ (решающий задачу различения, то есть позволяющий определить, основываясь на результатах наблюдений, какой из нескольких возможных совокупностей принадлежит объект, случайно извлеченный из одной из них), последовательный анализ (разрабатывающий способы определения числа необходимых испытаний в ходе исследования), теория планирования многофакторных экспериментов, статистический анализ случайных процессов и др. В настоящем пособии рассмотрены основные понятия математической статистики, наиболее часто используемые и определяемые в процессе статистической обработки опытных данных. Даны 30 вариантов домашнего задания для самостоятельной работы студентов. 1.2. Понятие о выборочном методе. Генеральная и выборочная совокупности Пусть требуется найти распределение некоторого качественного или количественного признака, характеризующего совокупность однородных объектов. Исследуемый признак - это случайная величина, значение которой от объекта к объекту меняется. Чтобы составить представление о распределении признака или о параметрах этого распределения, проводят либо сплошное изучение объектов совокупности, либо, чаще, случайным образом отбирают для изучения из всей совокупности только ограниченное число объектов. Например, при контроле качества некоторой партии автомобилей (или отдельных их агрегатов: двигателя, кузова и т.п.) контроль каждого автомобиля в отдельности, очевидно, даст наилучший эффект. Но, с другой стороны, такой контроль будет весьма длительным и дорогостоящим, если размер партии велик. Кроме того, суждение о качестве может быть связано с физическим уничтожением объекта, например, при испытаниях автомобиля на прочность или на пассивную безопасность (испытаниях на фронтальное столкновение с жесткой преградой, на удар сзади, боковой удар, на опрокидывание) или при определении ресурса работы двигателя, износостойкости отдельных узлов и т. п., так что до потребителя объект уже не дойдет. Поэтому о качестве партии автомобилей судят по результатам испытаний относительно малой совокупности автомобилей, определенным случайным образом отобранных из всей партии. Выборочной совокупностью (или просто выборкой) называется совокупность случайно отобранных объектов. Генеральной совокупностью называется совокупность однородных объектов, из которой по определенному правилу производится выборка. При этом, чтобы по данным выборки можно было надежно судить о характеристиках всей партии изделий, необходимо, чтобы выборка была образована случайно и была репрезентативной (представительной), то есть правильно отражала пропорции генеральной совокупности. Согласно закону больших чисел, по мере увеличения объема выборки ее характеристики будут сходиться по вероятности к соответствующим характеристикам генеральной совокупности. 1.3. Характеристики генеральной совокупности Пусть распределение признака объектов задано таблицей 3. Таблица 3 Значения признака X Частоты x1 n1   xi ni   xm nm Всего N Частотой ni называется число наблюдений каждого отдельного значения признака xi . Средняя арифметическая x0 значений признака в генеральной совокупности называется генеральной средней. Если все значения признака xi различны, то n x0   xi i 1 N . Если среди значений признака xi есть повторяющиеся с частотами ni (см. таблицу 3), то генеральная средняя определяется как средняя взвешенная значений признака по формуле m x0  Дисперсия  2  xi ni i 1 N , распределения признака в генеральной совокупности называется генеральной дисперсией и равна: m  02   ( xi  x0 ) 2 ni i 1 N . 1.4. Классификация выборок В зависимости от способа отбора объектов различают: собственно случайную повторную выборку, собственно случайную бесповторную выборку, типическую, механическую и серийную выборки. Собственно случайная повторная выборка образуется следующим образом: из генеральной совокупности случайно выбирается один элемент; после изучения он возвращается в генеральную совокупность и результаты фиксируются; затем снова случайным образом извлекается один элемент и после изучения возвращается обратно. Так производится n извлечений. В результате образуется выборка объема n, в которой один и тот же элемент может встречаться несколько раз. Собственно случайная бесповторная выборка. При образовании этой выборки, в отличие от повторной, отобранный элемент обратно не возвращается. Выборка без повторений образуется также, если из генеральной совокупности сразу взято нужное число элементов. Типическая выборка формируется так: генеральная совокупность разбивается на непересекающиеся группы. Затем из каждой группы по схеме повторной или бесповторной выборок отбирают определенное число элементов, которые в совокупности и образуют типическую выборку. Например, для контроля качества продукции цеха, в котором работают 100 станков, производящих однотипную продукцию, можно отбирать часть изделий от каждого станка. Все изделия, отобранные от 100 станков, в совокупности образуют типическую выборку. Механической называется выборка, которая получается при делении генеральной совокупности на столько групп, сколько объектов должно войти в выборку, и отборе из каждой группы по одному объекту. Примером механической выборки может служить 10%-ая выборка деталей со станка такая, что каждая десятая деталь со станка идет на проверку (при этом нужно, чтобы интервалы переналадки станка не были бы кратными интервалам, через которые отбирают детали, иначе в выборке могут оказаться только наиболее точно изготовленные детали или наоборот). Серийная выборка формируется следующим образом: генеральная совокупность разбивается на непересекающиеся группы (серии). Затем случайным образом отбираются серии, все элементы которых в совокупности образуют серийную выборку. Например, для контроля качества продукции цеха, в котором работают 100 станков, производящих однотипную продукцию, можно случайным образом (по схеме повторной или бесповторной выборок) отобрать, например, 15 станков, вся продукция которых и составит серийную выборку. Также, применительно к расчетам различают следующие виды выборки: Повторная – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность; Бесповторная – отобранный объект в генеральную совокупность не возвращается. 1.5. Статистическое распределение выборки Пусть произведена выборка объема n из генеральной совокупности и получены значения признака x1, x2, … xm, причем значение x1 наблюдалось n1 раз, x2  n2 раз и т. д. Очевидно, m  ni  n. i 1 Составим таблицу, в первую строку которой поместим наблюдавшиеся значения признака Х, расположенные в возрастающем порядке, а во вторую строку – соответствующие им относительные частоты Wi  ni n (i  1,2,...,m). X x1 W1 W Oчевидно, что m  Wi  1. x2 W2 ... ... xm Wm Такая таблица называется i 1 эмпирическим законом распределения признака Х или статистическим распределением выборки. Эмпирический закон распределения признака является статистическим аналогом теоретического закона распределения дискретной случайной величины в теории вероятностей. Совокупность значений признака, расположенных в порядке их возрастания, называется в статистике вариационным рядом, а сами значения признака называют нередко вариантами. 1.6. Эмпирическая функция распределения Пусть известно распределение частот некоторого количественного признака Х. Обозначим через n x число опытов, при которых наблюдалось значение признака Х, меньшее х, то есть частоту события Х < x, n – общее число наблюдений (объем выборки). Эмпирической функцией распределения (или функцией распределения выборки) называется функция F  ( x)  nx n , равная для каждого значения Х относительной частоте события Х < х. В отличие от F  (x ) интегральную функцию распределения генеральной совокупности F(x) называют теоретической функцией распределения. F(x), как известно, определяет вероятность, то есть степень возможности осуществления события X < x. Согласно теореме Бернулли  lim P F ( x)  F  ( x)   n   1. Поэтому эмпирическая функция распределения используется для оценки теоретической функции распределения генеральной совокупности, это аналог последней в статистике.  Свойства F (x). 1. O  F  ( x)  1. 2. F * ( x) - неубывающая функция. 3. Если х- наименьшее из наблюдавшихся значений признака, то при X < x F  ( x)  0; если х - наибольшее значение признака, то при Х >x F  ( x)  1. Пример. Построить эмпирическую функцию распределения по данному статистическому распределению выборки: xi -3 1 6 10 ni 10 12 18 20 Найдем объем выборки n   ni  60. Относительные частоты, соответствующие наблюдавшимся значениям признака, будут равны xi Wi -3 1 6 10 1/6 0,2 0,3 1/3 По определению F  (x) имеем: F  (3)  0 , так как значения 1 Х<-3 не наблюдались; F  (1)  , так как значения X  1, то 6 есть X  3 , наблюдались 10 раз. Значения X  6, а именно x1  3 и x2  1 наблюдались 10  12  22 раза, следовательно, при X  6 F * ( x)  11/ 30 и т.д. Так как x  10 наибольшее значение, то F * ( x)  1 при x  10. В результате получим при x  3, 0 1  при  3  x  1, 6  11 F  (x )   при 1  x  6, 30  2  3 при 6  x  10,  x  10. 1 при График F  (x) показан на рисунке. Эмпирическая функция распределения всегда ступенчатая. Как видно, эмпирическая функция распределения может быть построена как нарастающая сумма относительных частот. 1.7. Полигон и гистограмма частот Для наглядности в статистике часто пользуются геометрической интерпретацией статистического распределения выборки, строя, так называемые, полигон и гистограмму частот (или относительных частот). Для построения полигона частот (или относительных частот) при дискретном распределении признака по оси абсцисс откладывают значения признака хi, а по оси ординат – частоты ni (или соответственно относительные частоты Wi). Точки с координатами (xi, ni) (или (xi, Wi)) соединяют отрезками прямых. Полигон частот дает представление о том, насколько часто встречаются те или иные значения исследуемого признака. Пример. Для распределения Х 1 3 5 7 Wi 0,2 0,4 0,3 0,1 полигон относительных частот имеет вид, показанный на рисунке. Полигон относительных частот – это статистический аналог многоугольника распределения дискретной случайной величины в теории вероятностей. Если исследуемый признак – непрерывная случайная величина, то целесообразно строить гистограмму частот. Для этого интервал, в котором заключены все наблюдавшиеся значения признака, делят на ряд частичных интервалов одинаковой длины ∆. Далее находят ni - сумму частот значений признака, попавших в i - ый частичный интервал, и строят ступенчатую фигуру из прямоугольников с основанием, равным ∆, и площадью, равной ni. Если значения признака совпадают с границей интервала, то их включают в сумму частот значений признака, принадлежащих соседним интервалам с частотами, равными половине частоты этого признака. Полученный график называется гистограммой частот. Площадь гистограммы частот равна сумме частот всех наблюдавшихся значений признака, то есть объему выборки. Гистограмма относительных частот строится точно также, отличаясь от гистограммы частот лишь масштабом по оси ординат, а именно, по оси ординат откладывается плотность относительной частоты Wi /  . Поэтому площадь i –го прямоугольника будет равна Wi – относительной частоте значений признака, попавших в i – ый интервал, а площадь гистограммы относительных частот будет равна сумме всех Wi, то есть единице. Число интервалов r гистограммы определяют приближенно по формуле Старджесса для выборки объема n (округляя r до ближайшего целого значения): r  1  3,3 lg n. Пример. Произведено 100 измерений диаметров валиков, результаты которых представлены в таблице 4. Таблица 4 15,23 15,37 15,48 15,48 15,43 15,35 15,36 15,40 15,45 15,29 15,48 15,58 15,44 15,56 15,28 15,59 15,47 15,41 15,54 15,20 15,38 15,43 15,35 15,56 15,51 15,47 15,40 15,29 15,20 15,46 15,42 15,44 15,41 15,29 15,48 15,39 15,50 15,38 15,45 15,50 15,45 15,42 15,29 15,53 15,34 15,55 15,33 15,32 15,44 15,46 15,32 15,46 15,32 15,48 15,38 15,43 15,51 15,43 15,60 15,44 15,55 15,29 15,31 15,44 15,43 15,44 15,31 15,58 15,28 15,24 15,34 15,49 15,50 15,38 15,48 15,43 15,37 15,29 15,54 15,33 15,36 15,46 15,23 15,44 15,38 15,27 15,52 15,40 15,26 15,37 15,59 15,48 15,46 15,40 15,24 15,41 15,34 15,43 15,38 15,50 Построить гистограммы частот и относительных частот этого распределения. Как видно из таблицы, наименьшее значение диаметра15,20 мм, наибольшее15,60 мм, длина этого промежутка - 0,4 мм. Число частичных интервалов принимаем по правилу Старджесса, равным восьми. Подсчитываем число значений признака, попадавших в каждый интервал. Для построения гистограмм частот (и относительных частот) составим таблицу 5. Таблица 5 Частичный интервал  = 0,05 15,20-15,25 Сумма частот значений признака в частичном интервале ni 6 15,25-15,30 10 200 0,10 2,0 15,30-15,35 11 220 0,11 2,2 15,35-15,40 15 300 0,15 3,0 15,40-15,45 22,5 450 0,225 4,5 15,45-15,50 18,5 370 0,185 3,7 15,50-15,55 9 180 0,09 1,8 15,55-15,60 8 160 0,08 1,6 N= 100 Плотность относитель ной частоты Wi /  Плотность частоты ni /  Wi 120 0,06 1,2 Соответствующие рисунке. гистограммы изображены на При увеличении объема выборочной совокупности гистограмма относительных частот приближается к дифференциальному закону распределения признака в генеральной совокупности, то есть гистограмма относительных частот является статистическим аналогом плотности вероятностей f(x) непрерывной случайной величины. 2. Статистические оценки параметров распределения 2.1. Точечные оценки Любое значение неизвестного параметра, от которого зависит закон распределения случайной величины, вычисленное по опытным данным, всегда является приближенным. Оценкой параметра называется в статистике его приближенное случайное значение, вычисленное на основе ограниченного числа опытов. Если оценка параметра характеризуется одним числом, то она называется точечной. Пусть из генеральной совокупности произведена выборка объема n для изучения некоторого признака Х. Обозначим неизвестный параметр теоретического распределения интересующего нас признака объектов генеральной совокупности через  . Требуется по данным выборки найти «подходящую» оценку   для параметра  . Очевидно, для некоторой другой выборки оценка   будет принимать иное значение, то есть   - случайная величина, зависящая от данных опытов и их числа n. Чтобы оценка   давала близкое приближение к оцениваемому параметру, она должна удовлетворять определенным требованиям. 1. При увеличении n оценка   должна сходиться по вероятности к параметру  , то есть должно выполняться   равенство lim P        1. n Оценка, обладающая таким свойством, называется состоятельной. 2. Необходимо, чтобы пользуясь   вместо  , мы не допускали систематической (неслучайной) ошибки в сторону занижения или завышения действительного значения оцениваемого параметра, то есть, чтобы M (  )   . Оценка   , математическое ожидание которой равна оцениваемому параметру, называется несмещенной. 3. Оценка   должна обладать по сравнению с другими возможными оценками наименьшей дисперсией: D(  )  min . Оценка, обладающая таким свойством, называется эффективной. Ниже рассмотрены повторные и бесповторные выборки и точечные оценки генеральной средней и генеральной дисперсии, удовлетворяющие указанным требованиям. 2.2. Оценка генеральной средней повторной выборки Пусть распределение признака Х в генеральной совокупности характеризуется таблицей 3. Для оценки неизвестной генеральной средней Х производится повторная выборка объема n. При этом каждый отобранный объект вновь возвращается в генеральную совокупность и, следовательно, состав ее восстанавливается. Поэтому результат отбора любого объекта в выборку не будет влиять на результаты следующих отборов, то есть справедлива схема независимых повторяющихся испытаний. Пусть Xi - случайная величина, значение которой совпадает со значением интересующего нас признака xi при i-ом наблюдении (i = 1,2... n). Величины Хi можно рассматривать как n независимых и одинаково распределенных случайных величин с параметрами M ( X i )  x0 , D( X i )   02 . Если все Xi различны, то для определения генеральной средней используется в качестве оценки средняя арифметическая наблюдавшихся значений xi : 1 n  xi n i 1 , называемая выборочной средней. xв  Если среди значений xi (i  1,2,...,m) повторяющиеся значения с частотами ni, причем m есть  ni  n , то i 1 xв  1 m  xi ni n i 1 . (2.1) Выборочная средняя является статистическим аналогом математического ожидания случайной величины в теории вероятностей. 1. Так как величины Хi удовлетворяют условиям теоремы Чебышëва (они независимы, их дисперсии ограничены одной и той же постоянной C   02 ), то для выборки достаточно большого объема lim P( xв  x0   )  1, n то есть оценка xв является состоятельной. Поэтому для различных выборок достаточно большого объема из одной и той же генеральной совокупности выборочные средние будут практически совпадать между собой. В этом проявляется, так называемое, свойство устойчивости выборочных средних. 2. Выборочная средняя xв является несмещенной оценкой x0 , так как 1 n  1 n M ( xв )  M   xi    M ( xi )  x0 .  n i 1  n i 1 Дисперсия xв равна n 02  02 1 n  1 n . D( xв )  D  xi   2  D( xi )  2  n n  n i1  n i 1 Следовательно, с увеличением числа наблюдений n D( xв )  0 , то есть разброс значений xв относительно x0 уменьшается. 3. Можно показать также, что xв является эффективной оценкой, и при распределения увеличении величины xв , объема как выборки суммы закон одинаково распределенных независимых случайных величин, приближается к нормальному закону распределения с параметрами   0 M ( X )  a  x0 , n . (2.2) Поэтому   P( xв  x0   )  2    , где Ф( х)  (2.3) 1 x t 2 / 2  e dt - функция Лапласа. 2 0 2.3. Оценка генеральной средней бесповторной выборки Пусть, как и выше, Yi – случайная величина, значение которой совпадает со значением интересующего нас признака yi при отборе i- го элемента. Так как выбор каждого отдельного элемента по схеме бесповторной выборки будет влиять на исход последующих выборов, то Y1 ,Y2 ,,Yn - зависимые случайные величины. Можно показать, что Yi распределены по одному и тому же закону с параметрами M (Yi )  y0 , D(Yi )   02 . Выборочной средней бесповторной выборки называется средняя арифметическая значений yi : yв  1 n  yi , n i 1 Оценка yв - несмещенная оценка генеральной средней y0 , так как 1 n  1 n M ( y в )  M   yi    M ( yi )  y 0 .  n i 1  n i 1 Можно показать, что дисперсия выборочной средней равна D( y в )  Так как величины  02 N  n n Yi  N 1 . зависимые, то условия применимости теоремы Чебышëва к последовательности случайных величин Yi  не соблюдаются. Применяя поэтому к выборочной средней неравенство Чебышëва, можно записать P( yв  y0   )  1  D( y в ) 2  02 N  n 1 2  , n N  1 lim P( yв  y0   )  1, следовательно n то есть yв - состоятельная оценка y0 . Оценка yв является также эффективной оценкой генеральной средней. С увеличением объема выборки закон распределения yв приближается к нормальному. Поэтому P( yв  y0   )  2 Ф ( /  ), где   D( yв )   02 N  n n N 1   02  n 1   1 . n  N  1 Так как объем генеральной совокупности N, как правило, весьма большой, то   02  n 1   . n  N (2.4) Замечание. Сопоставляя формулы (2.2) и (2.4) можно заключить, что средние квадратичные отклонения выборочной средней бесповторной выборки всегда меньше аналогичной характеристики повторной выборки того же объема. Следовательно, бесповторная выборка точнее повторной выборки того же объема. Но различие между ними существенно лишь, если объем выборки велик по сравнению с объемом генеральной совокупности N. В противном случае точечные оценки параметров распределения для повторной и бесповторной выборок практически совпадают. 2.4. Определение генеральной дисперсии 2.4.1. Повторная выборка Если в выражениях для дисперсии случайной величины Х D( X )  M X  M ( X )  M ( X 2 )  M 2 ( X ) 2 заменить статистике математическое - ожидание его аналогом средней xв , то выборочной в получим статистический аналог дисперсии: D ( X )  1 n 1 n 2 2 ( x  x )  xi  xв2   i в n i1 n i1 (2.5) Величина D  ( X ) называется выборочной дисперсией. Если значения признака x1 , x2 ,..., xm повторяющиеся с частотами соответственно n1 , n2 ,...,nm , причем выборочная дисперсия вычисляется по формуле m D (X )  *  xi  xв  2 i 1 n или D * ( X )  x 2  xв2 , ni m  ni  n , i 1 то где x 2 xi2 ni   n Оценка - средняя квадратов значений признака. D* ( X ) является состоятельной. Действительно, первый член в правой части формулы (7.5) – среднее арифметическое n значений xi2 и, следовательно, сходится по вероятности к M ( X 2 ) , поэтому lim P( D  ( X )  D( X )   )  1 . n Можно показать, что   M D   02 n 1 . n Следовательно, D  - смещенная оценка параметра  02 . Ее использование приводит к систематической ошибке в определении генеральной дисперсии, давая заниженное значение  02 . Умножая D*(X) на поправочный множитель получим так называемую, исправленную дисперсию n D X   n D  X   n 1  xi  xв  2 i 1 n 1 (2.6) n , n 1 или для случая, когда имеются повторяющиеся значения признака m D X    xi  xв  2 i 1 n 1 ni . Очевидно, исправленная дисперсия является несмещенной оценкой дисперсии в генеральной совокупности. На практике ею пользуются, если n < 30. При бóльших n, естественно, обе оценки (2.5) и (2.6) отличаются друг от друга очень мало. Оценка D в общем случае не является эффективной. Однако для наиболее распространенного на практике нормального закона она оказывается асимптотически эффективной (то есть при больших n отношение ее дисперсии к минимально возможной дисперсии неограниченно приближается к единице). 2.4.2. Бесповторная выборка Как и для повторной выборки, можно показать, что величина 2 n D1 (Y )    yi  y в  i 1 n является смещенной оценкой генеральной дисперсии при бесповторной выборке:   M D1  n 1 N  02 . n N 1 Несмещенной оценкой генеральной дисперсии при этом будет исправленная дисперсия D1  n N 1   D1 n 1 N . Замечание. Дисперсии оценок генеральных средних x0 , y0 зависят от x0 , y0 (так как  0 выражается через x0 или y0 ). Но x0 , y0 являются неизвестными параметрами, иначе бы отпала необходимость в применении выборочного метода. Чтобы преодолеть это противоречие на практике, в формулах для дисперсий величин xв , yв генеральную дисперсию  02 заменяют выборочной (или исправленной) дисперсией. Рассмотрим примеры определения точечных оценок. Пример. При обработке наружного диаметра 15 карданных валов были получены следующие размеры в мм (см. таблицу 6). Определить несмещенные оценки математического ожидания и среднего квадратического отклонения диаметров, полагая, что обработанные диаметры имеют нормальное распределение. Результаты вычислений представлены в таблице 6. Таблица 6 № xi [мм ] xi  x в 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 42,22 41,87 42,56 42,03 42,48 42,31 40,15 42,82 43,83 43,40 41,13 41,72 41,35 44,13 42,00 0,047 0,397 0,293 0,237 0,213 0,043 2,117 0,553 1,563 1,133 1,137 0,547 0,917 1,863 0,267 2 xi  xв 0,0022 0,1576 0,0858 0,0562 0,0454 0,0018 4,4817 0,3058 2,4430 1,2837 1,2928 0,2992 0,8409 3,4708 0,0712 15 15  xi  634  ( xi  xв ) 2  14,8381 i 1 i 1 По данным таблицы находим 15 xв  15 1   xi  42,27, D  X   15 i1   xi  x в  2 i 1   D  X   1,03 . n 1  1,06, Пример. Объем генеральной совокупности N = 10000, объем выборки n=1000. В результате измерения интересующего нас признака X получено: xв  15,5, D ( X )  3,15. Найти вероятность того, что среднее значение признака Х отличается от своей оценки на величину   0,1 , если выборка повторная; бесповторная. Выборка повторная: По формуле (2.3) имеем   P xв  x0     2Ф  ,   где   0 n . Заменяя неизвестное  , его оценкой, получим  0    D  X   3,15  1,775, следовательно,   n  1,775  0,056 и 1000  0,1  P15,5  x0  0,1  2Ф   0,9265.  0,056  Выборка бесповторная. При этом   0  n  n 3,15  1000  1    1    1    0,053 и n  N n N 1000  10000   0,1  P15,5  x0  0,1  2 Ф    0,9412.  0,053  2.5. Метод максимального правдоподобия Для построения точечных оценок в статистике применяют различные методы: метод максимального правдоподобия, метод моментов, метод наименьших квадратов. Ограничимся первым из них. Пусть X – случайная величина, которая в результате n независимых опытов приняла значения: x1 , x2 , ..., xn , и пусть закон распределения X известен, но с точностью до некоторого параметра a, от которого он зависит. Требуется найти подходящую точечную оценку a параметра a. Введем обозначение: P( X  xi )  P( xi , a) и составим функцию L, равную произведению вероятностей независимых событий X  x1 ,..., X  xn , то есть вероятности совместного осуществления: L( x1 , x2 ,..., xn , a)  P( x1 , a)  P( x2 , a)  ...  P( xn , a). их Функция L( x1 , x2 ,..., xn , a) аргумента a ( xi  фиксированные числа) называется функцией правдоподобия дискретной случайной величины X. Идея метода заключается в том, что в качестве точечной оценки параметра a принимается такое значение a , при котором функция правдоподобия принимает максимальное значение. Действительно, в экспериментах реализуются обычно именно те значения x1 , x2 , ..., xn случайной величины X, вероятность которых максимальна. Оценку a называют оценкой максимального правдоподобия. Для отыскания максимума функции правдоподобия применяются обычные правила отыскания экстремума функции: dL  0 (его называют уравнением da правдоподобия), затем вычисляется вторая производная Решается уравнение d 2L . Если она при a  a отрицательна, то a - точка da 2 максимума. Найденную точку максимума a и принимают за оценку наибольшего правдоподобия параметра a. Замечания. 1. Функции L и lnL достигают максимума при одном и том же значении параметра a Поэтому вместо отыскания максимума функции L часто ищут максимум функции lnL – логарифмической функции правдоподобия, что оказывается удобнее. 2. Для непрерывной случайной величины X функцией правдоподобия называется функция параметра a вида: L( x1 , x2 ,..., xn , a)  f ( x1 , a)  f ( x2 , a)  ...  f ( xn , a), где f ( xi , a) - плотность вероятностей. Оценка максимального правдоподобия неизвестного параметра распределения непрерывной случайной величины строится так же, как и для дискретной случайной величины. Пример. Найти методом максимального правдоподобия оценки параметров a и  нормального закона распределения: f ( x)  1 e  2   x a 2 2 2 , если значения, принятые случайной величиной X в результате n испытаний равны: x1 , x2 , ..., xn . Так как нормальный закон распределения характеризуется двумя параметрами a1  a и a2   , то функция правдоподобия будет функцией двух переменных: L 1 e  2   x1 a 2 2 2  1 e  2   x2 a 2  ...  2 2 1 e  2   xn a 2  2 2  1 e  n ( 2 ) n Логарифмируя это выражение, получим:    1 ln L  ln  n  ln e n  ( 2 )    xi  a  2 2 2  n ln   ln  2  n  xi  a   2 2 2 Частные производные от логарифмической функции правдоподобия по a и  равны:  ln L 1 1   2  2( x1  a)  2( x2  a)  ...  2( xn  a)  2  x a 2   ln L n  xi  a    .   3 2 Поэтому система уравнений правдоподобия примет вид   ln L  a  0,    ln L  0   или  1  2   xi  na   0,  2  n    xi  a   0.   3 Решая эту систему, получим:  xi , a n x  a    i 2 2 n . Следовательно, искомые оценки максимального правдоподобия будут:  xi a n  xв , *  D  *  x  a 2 i n . 2.6. Метод наименьших квадратов Если требуется оценить зависимость величин у и х, причем известен вид связывающей их функции, но неизвестны значения входящих в нее коэффициентов, их величины можно оценить по имеющейся выборке с помощью метода наименьших квадратов. Для этого функция у = φ(х) выбирается так, чтобы сумма квадратов отклонений наблюдаемых значений у1, у2,…, уп от φ(хi) была n минимальной:  ( yi   ( xi ))2  min. i 1 При этом требуется найти стационарную функции φ(x; a, b, c…), то есть решить систему: точку  n     ( yi   ( xi ; a, b, c...))  a   0  i  i 1  n     ( yi   ( xi ; a, b, c...))    0  b i  i 1  n   ( yi   ( xi ; a, b, c...))    0  i 1  c i  ........................................  (решение, конечно, возможно только в случае, когда известен конкретный вид функции φ). Рассмотрим в качестве примера подбор параметров линейной функции методом наименьших квадратов. Для того, чтобы оценить параметры а и b в функции y = ax + b, найдем          xi ;    1.  а i  b i Тогда n n  n  n 2 ( y  ( ax  b )) x  x y  a x  b xi  0   i i i  i  i i  i 1  i 1 i 1 i 1 . Отсюда  .  n n n   ( yi  (axi  b))  0 yi  a  xi  bn  0   i 1   i 1 i 1 Разделив оба полученных уравнения на п и вспомнив определения эмпирических моментов, можно получить выражения для а и b в виде: a  ( K xy ) B ( Dx ) B , b  yB  ( K xy ) B ( Dx ) B xB . Следовательно, связь между х и у можно задать в виде: y  yB  ( K xy ) B ( Dx ) B ( x  xB ). 3. Упрощенные методы расчета статистических характеристик выборки 3.1. Вариационный ряд с равноотстоящим вариантами. Условные варианты Непосредственное использование значений признака (вариант), произвольным образом выбранных из генеральной совокупности, приводит к существенным затруднениям при вычислении статистических характеристик выборки. Упрощенные методы их расчета базируются на замене x C . первоначальных вариант xi условными u i  i  Здесь С – так называемый «ложный нуль» (новое начало отсчета),   xi  xi1. В качестве ложного нуля выбирают значение признака, имеющее наибольшую частоту. Оно обычно располагается примерно в середине вариационного ряда. Рассмотрим сначала вариационный ряд с равноотстоящими вариантами. Это означает, что   xi  xi1  const для любого i=1,2... Тогда условные варианты будут целыми числами. Действительно, взяв в качестве С произвольную варианту xm, получим ui  xi  xm x1  (i  1)   x1  (m  1)   im   целое число. Пример. Найти условные варианты статистического распределения выборки Х 145,2 150,2 155,2 160,2 165,2 W 0,1 0,2 0,3 0,25 0,15 Принимаем С = 155,2. Очевидно ∆ = 5. Условные варианты будут равны: u1  145,2  155,2  2, u2 = -1, u3 = 0, u4 = 1, u5 = 5 2. Проводить вычисления с ними, конечно проще, чем с первоначальными значениями признака xi. 3.2. Эмпирические моменты Аналогично числовым характеристикам (теоретическим моментам распределения генеральной совокупности), применяемым в теории вероятностей, в статистике рассматривают эмпирические моменты выборочного распределения. Обычным эмпирическим моментом порядка k называется среднее значение к– ых степеней разностей (Х – С): m M k   ni ( xi  C ) k i 1 n . m Здесь ni - частота варианты xi, n   ni - объем выборки, С – i 1 произвольное постоянное число («ложный нуль»). Начальным эмпирическим моментом порядка k называется обычный эмпирический момент k – го порядка при С = 0, то есть Mk  1 m ni xik .  n i 1 Очевидно, что М0 = 1, M 1  1m  ni xi  xв - выборочная n i 1 средняя. Центральным эмпирическим моментом порядка k называется обычный момент k – го порядка, если С  xв : mk  1m ni ( xi  xв ) k .  n i1 (8.1) Первые четыре центральных момента выражаются через обычные моменты следующим образом: m1  0, m2  M 2  (M 3 ) 2 , m3  M 3  3M 2  M 1  2(M 1 ) 3 , m4  M 4  4M 3  M 1  6M 2  (M 1 ) 2  3(M 1 ) 4 . Непосредственное вычисление центральных эмпирических моментов достаточно трудоемко. Для упрощения расчетов заменяют первоначальные варианты условными. Тогда приходят к так называемым условным эмпирическим моментам. Условным эмпирическим моментом порядка k называется начальный эмпирический момент k - го порядка для условных вариант: k 1 n 1 n  xi  C  k M k   ni ui   ni   . n i1 n i1    В частноcти, n   n    i 1 n xi  C 1  n ni xi i 1  1 ( x  C ) , M 1   ni  C  в n i 1    i 1 n n       поэтому xв  M 1    C . Очевидно, M k   ni ( xi  C ) k n  k   ni uik n  k  M k Поэтому центральные моменты через условные будут выражаться по формулам:      3(M ) . m2  2 M 2  (M1 ) 2 , m3  3 M 3  3M 2  M1  2  (M1 )3 ,  m4  4 M 4  4M1  M 3  6M 2  (M1 ) 2 4 1 Использование полученных формул позволяет значительно упростить вычисление оценок генеральной средней и генеральной дисперсии. 3.3. Сведение первоначальных вариант к равноотстоящим. Метод произведений Как правило, значения признака (варианты), регистрируемые в опытах, не являются равноотстоящими. При этом условные варианты получаются не целыми числами. Для сведения первоначальных вариант к равноотстоящим применяется следующий прием: Интервал, в котором заключены все наблюдавшиеся значения признака, делится на несколько равных частичных интервалов (желательно, чтобы в каждый частичный интервал попало не менее 10 первоначальных вариант); определяются середины частичных интервалов, которые и образуют последовательность равноотстоящих вариант; в качестве частоты каждой «новой» варианты принимается общее число первоначальных вариант, которые попали в соответствующий частичный интервал. При обработке опытных данных практически всегда приходится вычислять xв и m2 . Если объем выборки достаточно большой, то для сокращения вычислений обычно применяется метод произведений. Последовательность нахождения xв и этим методом рассмотрим на m2 конкретном примере. Пример. Из текущей продукции токарного автомата, обрабатывающего валики, сделана выборка объемом n =100 (см. таблицу 4). Требуется найти выборочную среднюю xв и второй центральный момент m2. Разобьем весь интервал изменения значений признака (диаметра валика - Х) 15,20 – 15,60 мм на 8 частичных интервалов: 15,20 – 15,25; 15,25-15,30; …,15,55-15,60. Приняв середины частичных интервалов в качестве новых вариант, получим вариационный ряд из равноотстоящих вариант: x1  15,225, x2  15,275,..., x8  15,575, частоты которых: n1  6, …, n8  8 (см. таблицу 7). Таблица 7 Интервалы xi ni ui ni ui 15,2015,25 15,2515,30 15,30- 15,225 6 -4 15,275 10 15,325 11 -24 ni u i2 96 ni (ui  1) 2 54 -3 -30 90 40 -2 -22 44 11 15,35 15,3515,40 15,4015,45 15,4515,50 15,5015,55 15,5515,60 15,375 15 -1 -15 15 15,425 22,5 22,5 15,475 18,5 1 18,5 18,5 74 15,525 9 2 18 36 81 15,575 8 3 24 72 128  ni 100 371,5 30,5 410,5 В четвертом столбце таблицы указаны условные x C варианты u i  i .  В качестве «ложного нуля» принята варианта C  xв  15,425. Очевидно, ∆ = 0,05. В 5-ом, 6-ом и 7-ом столбцах таблицы помещены величины ni ui , ni ui2 , ni (ui  1) 2 . В нижней строке указаны суммы соответствующих столбцов. Контроль правильности вычислений производится следующим образом:  ni (ui  1) 2   ni ui2  2 ni ui  n или 410,5 = 371,5 + 2∙(-30,5) + 100; 410,5 ≡ 410,5. По данным таблицы условные эмпирические моменты первого и второго порядков будут равны M1  1 1 ni u i  0,305, M 2   ni u i2  3,715.  n n Окончательно получим xв  M 1    C  0,305  0,05  15,425  15,410,   m2  2 M 2  (M1 ) 2  0,052 [3,715  (0,305) 2 ]  0,00905. Непосредственный подсчет выборочной средней и второго центрального момента по первоначальным значениям признака из таблицы 4 приводит к следующим результатам: xв  15,411, m2  0,00907. Как видно, замена первоначальных вариант равноотстоящими не приводит к существенным ошибкам, но при этом объем вычислений заметно сокращается. 4. Интервальные оценки 4.1. Точность оценки. Доверительный интервал и доверительная вероятность Точечные оценки параметров распределения при выборках малого объема могут существенно отличаться от действительных значений оцениваемых параметров. Поэтому в статистике часто пользуются интервальными оценками (особенно при небольшом числе наблюдений), которые служат для оценки точности и надежности точечных оценок. Интервальной называется оценка, которая определяется двумя числами – концами интервала, в котором заключено неизвестное значение параметра. Пусть для неизвестного параметра θ найдена по данным выборки несмещенная оценка θ*. Чтобы оценить возможную при этом ошибку, назначим некоторую достаточно большую вероятность γ такую, что любое событие, происходящее с вероятностью γ, можно считать практически достоверным. Найдем далее такое ε > 0, при котором с вероятностью γ можно утверждать, что отклонение θ* от θ по модулю не будет превосходить ε, то есть     P         или P              . Величина ε называется точностью оценки. Вероятность γ, с которой осуществляется неравенство       , называется доверительной вероятностью или надежностью оценки. Обычно γ задается равным 0,95; 0,99; 0,999. Интервал I   *   ;     , в котором с надежностью γ заключено неизвестное значение параметра θ, называется доверительным интервалом. Так как длина интервала и положение его на оси абсцисс, определяемое центром θ*, случайны, то говорят, что доверительный интервал Iγ накрывает неизвестный параметр θ с заданной надежностью γ. 4.2. Доверительный интервал для оценки генеральной средней при известном среднем квадратическом отклонении Пусть для случайной величины X с неизвестной генеральной средней x0 по данным выборки объема n найдена точечная оценка xв  простоты, что  xв  1 n  xi . Будем предполагать для n i 1 известно. Для построения доверительного интервала необходимо найти такое   0 , чтобы выполнялось неравенство P  xв  x0      . Воспользуемся тем, что xв как сумма независимых одинаково распределенных случайных величин Xi при достаточно большом n (а практически уже при n >10-20) согласно теореме Ляпунова имеет закон распределения, близкий к нормальному. Итак, считая, что X распределена по нормальному закону с параметрами M xв   x0 (так как xв несмещенная оценка) и  xв  , можно записать   P xв  x0    2Ф  .     Учитывая, что вероятность Р задана и равна γ, получим Pxв  t  x0  xв  t   2Фt    , где число t   называется квантилем нормального распределения и определяется из условия Ф t    2 . Следовательно, с надежностью γ можно утверждать, что доверительный интервал I   xв  t ; xв  t  накрывает генеральную среднюю x0 . Точность оценки при этом   t . Выражение для  xв  для повторной выборки зависит от вида выборки. Так,   xв   0 n , для бесповторной выборки  ( xв )   0 1 n 1   . n N Замечания.  02 1. По условию генеральная дисперсия предполагается известной, но если это не так, то для неë используется соответствующая точечная оценка. 2. Из формулы t   с учетом выражений для   получаем: для повторной выборки n t 2 02 2 , (4.7) для бесповторной выборки t 2 02 n t 2 02 2   N . (4.8) Следовательно, если требуется оценить генеральную среднюю с наперëд заданной точностью ε и надежностью γ, то потребный объем выборки определяется по формулам (7.7), (7.8) соответственно для повторной и бесповторной выборок. Пример. В условиях примера (стр. 106) построить доверительный интервал для математического ожидания, соответствующий доверительный вероятности γ=0,95 в предположении, что выборка является повторной. Так как xв  42,27 мм,   1,03 мм, то заменяя  0 его оценкой  , получим  xв   Dxв    02 n   n  1,03  0,266. 15 По таблице функции Лапласа (см. Приложение 2) находим t при заданном γ=0,95: Фt    2  0,475 и t  1,96. Точность оценки   t  1,96  0,266  0,52. Границы доверительного интервала xв    42,27  0,52  41,75 мм, xв    42,27  0,52  42,79 мм . Следовательно, с надежностью 0,95 можно утверждать, что генеральная средняя x0 заключена в пределах 41,75  x0  42,79. Отметим, что повышение надежности оценки γ приводит к возрастанию Φ(t), ε и доверительного интервала, то есть к уменьшению точности определения действительного значения параметра. Пример. В условиях примера (стр. 98) найти с надежностью 0,95 точность γ, с которой выборочная средняя оценивает математическое ожидание диаметров изготовляемых валиков и доверительный интервал для математического ожидания диаметров. Предполагается, что диаметры распределены нормально; выборка повторная. Для рассматриваемой выборки выборочная средняя xв   xi 100  15,411 мм.  D  xi  xв  2 99  0,00907  0,095. Поэтому  t 1,96  0,095   0,021 , xв    15,392, xв    15,430 и n 100 15,392  x0  15,430. Пример. Определить необходимый объем повторной и бесповторной выборок для определения средней продолжительности горения электрических лампочек, чтобы с вероятностью 0,99 предельная ошибка выборки не превышала 50 часов. Объем всей партии лампочек – 5000 шт. Генеральное среднее квадратическое отклонение принять равным 150 часов. По условию ε = 50,  = 150, N = 5000, γ = 0,99, следовательно,  t   nповт.  t 2 o2 2  2  0,495 и t=2,58. t 2 o2  59,2.  59,9; nбесп.  2 2 2   t o / N Итак, выборки должны содержать не менее 60 лампочек. 5. Малая выборка До сих пор объем выборочной совокупности предполагался достаточно большим. Поэтому оценки генеральной средней считались распределенными по нормальному закону. Однако на практике часто приходится иметь дело с выборками небольшого объема (n < 20 - 30). Оказывается, что заключения, аналогичные полученным при рассмотрении выборок большого объема, возможны и в случае малых выборок, если в генеральной совокупности рассматриваемый признак распределен по нормальному закону. 5.1. Распределение Стьюдента Рассмотрим две независимые случайные величины: Z, имеющую нормальное распределение и нормированную (то есть М( Z ) = 0, σ( Z) = 1), и V, распределенную по закону «хи-квадрат» с k  n  1 степенями свободы. Тогда величина Т Z V k имеет распределение, называемое t – распределением или распределением Стьюдента с k степенями свободы. Плотность вероятностей распределения Стьюдента равна  t2    S t , n   Bn 1   n  1   n / 2 , где n Г   2  , Г  x    e t t x1d t - гаммафункция. Bn   n  1  (n  1)  Г    2  В частности, при целочисленном аргументе Г ( n  1)  n! Распределение Стьюдента определяется одним параметром k  n  1 - числом степеней свободы и не зависит от неизвестных a и , что является его большим достоинством. С возрастанием числа степеней свободы распределение Стьюдента быстро приближается к нормальному. Для закона распределения Стьюдента математическое ожидание и дисперсия соответственно равны: M (k )  0 D( k )  1 k 2 при k  2, при k  3. Кривые распределения f (x) при различных значениях k показаны на рисунке. Как видно, кривые распределения Стьюдента по форме напоминают плотность нормального распределения, но при x   значительно медленнее приближаются к оси абсцисс. При k   распределение Стьюдента приближается к нормальному. Распределение Стьюдента играет большую роль в так называемой микростатистике (статистике малых выборок). 5.2. Доверительный интервал для оценки математического ожидания нормального распределения при неизвестном среднем квадратическом отклонении Пусть имеется генеральная совокупность практически неограниченно большого объема N, из которой образуется малая выборка объема n. В этом случае бесповторная выборка практически совпадает с повторной, так как величины 1  n и N N 1 очень мало отличаются от единицы. N Среднее средней xв квадратическое отклонение выборочной можно записать в виде  пв.  xв    n , где 2 1 n    xi  xв  n  1 i 1 2 - исправленная дисперсия малой выборки. Рассмотрим случайную величину T xв  xo  пв. возможные значения будем обозначать через t). доказать, что величина T распределена по Стьюдента с k = n-1 степенями свободы. Распределение Стьюдента определяется параметром k  n  1 - числом степеней свободы и не (ее Можно закону одним зависит от неизвестных a и  , . Как известно, если плотность вероятностей ƒ(x) – четная функция, и концы интервала симметричны относительно начала координат, то  P  x     2  f ( x)dx . Так как функция S (t, n) четная по аргументу t, то  x  x0 P в  t  пв.   t   2  S (t , n)dt   n, t      или t  t   P xв   xo  xв  n n  Величины  t , n и     n, t    .  табулированы. Пользуясь t таблицами распределения Стьюдента, по заданным n и γ можно найти tγ (см. Приложение 3). Итак, доверительный интервал t  t   I    xв  , xв  n n     с надежностью γ накрывает неизвестное математическое ожидание xв . Пример. Произведено 8 независимых опытов над случайной величиной X, распределенной нормально с неизвестными параметрами x0 и  0 . Результаты опытов приведены ниже. Построить xi 1 2 3 4 5 ni 1 2 2 2 1 доверительный интервал математического ожидания x0 с надежностью γ = 0,95. По данным опытов находим для xв  xi ni  n  3,0,    ni ( xi  xв ) 2 n 1  1,71. По таблице Приложения 3 для n = 8 и γ = 0,95 находим t  2,37. Поэтому xв  t  n 3 t  2,37  1,71  1,904, xв   4,096. 8 n Следовательно, xo с надежностью γ = 0,95 заключено в интервале 1,904< xo <4,096. Пример. Для определения скорости автомобиля было проведено 5 испытаний, по результатам которых вычислена средняя скорость v  27,8 м/с. Найти 95%-ый доверительный интервал, если известно, что рассеивание скорости подчинено нормальному закону со средним квадратическим отклонением   0,4 м/с. При n = 5 и   0,95 по таблице Приложения 3 находим t  2,78. Вычисляя границы доверительного интервала, получим: vв  t  n  27,8  2,78  0,4  27,3, 5 В результате 27,3  v  28,3. vв  t  n  27,8  2,78  0,4  28 5 5.3. Доверительный интервал для оценки cреднего квадратического отклонения Пусть случайная величина Х распределена в генеральной совокупности по нормальному закону. По данным выборки можно найти для нее   D . Требуется найти доверительный интервал, накрывающий неизвестное среднее квадратическое отклонение генеральной совокупности  0 c заданной надежностью γ. Пусть P o        или P     o        . Преобразуем неравенство в скобках к виду, удобному для использования готовых таблиц. Неравенство      0     равносильно неравенству  1  q    o   1  q , где q   /  . Предполагая, что q  1, перепишем в виде 1 1 1   .  1  q   o  1  q  Умножая обе части неравенства на  n  1 и обозначая   n 1 , получим 0 n 1 n 1  1 q 1 q . Можно показать, что плотность распределения величины  имеет вид [1]  2 n2   / 2 e . n 3 n  1   2 2 Г   2  Поэтому вероятность осуществления неравенства равна R  , n   2 P1     2    R(  , n)d   , 1 где 1  Интеграл n 1 n 1 , 2  . 1 q 1 q 2  R (  ,n ) d  табулирован. Вычислив по 1 данным выборки  и зная n и γ, можно по таблицам найти q  q , n , а затем определить доверительный интервал I    (1  q);  (1  q), в котором с надежностью γ заключено неизвестное значение  0 (см. Приложение 4). Замечание. Если q  1, то неравенство следует заменить неравенством 0   o   1  q . Можно показать, что в этом случае значения q  1 могут быть найдены из  уравнения  R   ,n  d    . 1 Пример. При обработке наружного диаметра 15 карданных валов были получены следующие размеры в мм (см. таблицу 6). Определить несмещенные оценки математического ожидания и среднего квадратического отклонения диаметров, полагая, что обработанные диаметры имеют нормальное распределение. Результаты вычислений представлены в таблице 6. Таблица 6 № xi [мм ] xi  x в 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 42,22 41,87 42,56 42,03 42,48 42,31 40,15 42,82 43,83 43,40 41,13 41,72 41,35 44,13 42,00 0,047 0,397 0,293 0,237 0,213 0,043 2,117 0,553 1,563 1,133 1,137 0,547 0,917 1,863 0,267 15  xi  634 i 1 Найти доверительный 2 xi  xв 0,0022 0,1576 0,0858 0,0562 0,0454 0,0018 4,4817 0,3058 2,4430 1,2837 1,2928 0,2992 0,8409 3,4708 0,0712 15  ( xi  xв ) 2  14,8381 i 1 интервал, накрывающий генеральное среднее квадратическое отклонение надежностью γ= 0,95. По данным таблицы находим 0 с 15 xв  15 1   xi  42,27, D  X   15 i1   xi  x в  2 i 1 n 1  1,06,   D  X   1,03 . По данным выборки объема n=15 исправленное среднее квадратическое отклонение  1,03 мм. При n  15 и   0,95 по таблице Приложения 4 найдем q  0,46 . Так как q  1, то подставляя в (7.9) значения  1,03 мм, q  0,46 , получим 0,56   0  1,50. 6. Проверка правдоподобия статистических гипотез Часто необходимо знать закон распределения генеральной совокупности. Если закон распределения неизвестен, но имеются основания предположить, что он имеет определенный вид (назовем его А), выдвигают гипотезу: генеральная совокупность распределена по закону А. Таким образом, в этой гипотезе речь идет о виде предполагаемого распределения. Возможен случай, когда закон распределения известен, а его параметры неизвестны. Если есть основания предположить, что неизвестный параметр  равен определенному значению 0, выдвигают гипотезу: =0. Таким образом, в этой гипотезе речь идет о предполагаемой величине параметра одного известного распределения. Возможны и другие гипотезы: о равенстве параметров двух или нескольких распределений, о независимости выборок и многие другие. Статистической гипотезой называют гипотезу о виде неизвестного распределения генеральной совокупности или о параметрах известных распределений. Основной (нулевой) называют выдвинутую гипотезу Н0. Конкурирующей (альтернативной) называют гипотезу Н1, которая противоречит нулевой. Простой называют гипотезу, содержащую только одно предположение, сложной – гипотезу, состоящую из конечного или бесконечного числа простых гипотез. Замечание: Пусть Н0 заключается в том, что математическое ожидание генеральной совокупности а = 1. Тогда существуют различные возможные варианты конкурирущей гипотезы Н1: 1. а ≠ 1 – простая гипотеза; 2. а > 1 – сложная гипотеза вида a=c, где с>1; 3. а < 1 – сложная гипотеза вида a=c, где с<1. В результате проверки правильности выдвинутой основной гипотезы возможны ошибки двух видов:  ошибка первого рода, состоящая в том, что будет отвергнута правильная нулевая гипотеза,  ошибка второго рода, заключающаяся в том, что будет принята неверная гипотеза. Вероятность ошибки первого рода, заключающаяся в том, что будет отвергнута правильная основная гипотеза, называется уровнем значимости α. Статистическим критерием (или просто критерием) называют случайную величину (обозначим ее через K), которая служит для проверки нулевой гипотезы. Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближенное распределение которой известно. Эту величину обозначают через U или Z, если она распределена нормально, через F – если она распределена по закону Фишера – Снедекора, через T – по закону Стьюдента, 2 – по закону «хи квадрат» и т.п. Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия принимают отношение исправленных выборочных дисперсий F s12 .. s22 Очевидно, что эта величина случайная, т.к. в различных опытах дисперсии принимают различные, заранее неизвестные значения. Наблюдаемым значением критерия Kнабл называют значение критерия, вычисленное по выборкам. Например, если в вышеприведенном случае s12  20, s22  5 , то Kнабл = 20/5 = 4. Критической областью называют область значений критерия, при которых нулевую гипотезу отвергают, областью принятия гипотезы – область значений критерия, при которых гипотезу принимают. Рассмотрим схему проверки гипотезы, разработанную в математической статистике. 1. выбирается статистический критерий К со следующим свойством: если гипотеза Н0 верна, то известен закон распределения случайной величины K; 2. вычисляется его наблюдаемое значение Кнабл по имеющейся выборке; 3. поскольку закон распределения К известен, то по известному уровню значимости α определяется критическое значение Ккр, разделяющее критическую область и область принятия гипотезы. Если вычисленное значение Кнабл попадает в область принятия гипотезы, то нулевая гипотеза принимается, если в критическую область – нулевая гипотеза отвергается. Возможны два случая: Кнабл. Ккр. Гипотеза отвергается Кнабл. Ккр. Гипотеза принимается Различают разные виды критических областей:  правостороннюю критическую область, определяемую неравенством K > Ккр (Ккр > 0);  левостороннюю критическую область, определяемую неравенством K < Ккр (Ккр < 0);  двустороннюю критическую область, определяемую неравенствами K < К1, K > К2 (К2 > К1). Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что верна конкурирующая гипотеза. Если обозначить вероятность ошибки второго рода (принятия неправильной нулевой гипотезы) β, то мощность критерия равна 1–β. Следовательно, чем больше мощность критерия, тем меньше вероятность совершить ошибку второго рода. Поэтому после выбора уровня значимости следует строить критическую область так, чтобы мощность критерия была максимальной. 6.1. Критерий для проверки гипотезы о вероятности события Пусть проведено п независимых испытаний (п – достаточно большое число), в каждом из которых некоторое событие А появляется с одной и той же, но неизвестной вероятностью р, и найдена относительная частота т п появлений А в этой серии испытаний. Проверим при заданном уровне значимости α нулевую гипотезу Н0, состоящую в том, что вероятность р равна некоторому значению р0. Примем в качестве статистического критерия, который мы ранее обозначали К, случайную величину M    p0  n n  , U p0 q0 имеющую нормальное распределение с параметрами M(U)=0, σ(U)=1 (то есть нормированную). Здесь q0=1–p0. Вывод о нормальном распределении критерия следует из теоремы Лапласа (при достаточно большом п относительную частоту можно приближенно считать нормально распределенной с математическим ожиданием р и средним квадратическим отклонением pq ). n Критическая область строится в зависимости от вида конкурирующей гипотезы. Если Н0: р = р0, а Н1: р ≠ р0, то критическую область нужно построить так, чтобы вероятность попадания критерия в эту область равнялась заданному уровню значимости α. При этом наибольшая мощность критерия достигается тогда, когда критическая область состоит из двух интервалов, вероятность попадания в каждый из которых равна  . 2 Поскольку U симметрична относительно оси Оу, вероятность ее попадания в интервалы (-∞; 0) и (0; +∞) равна 0,5, следовательно, критическая область тоже должна быть симметрична относительно Оу. Поэтому икр определяется по таблице значений функции Лапласа из условия Ф(и кр )  1 ,а 2 критическая область имеет вид (;икр )  (икр ;) . Замечание. Предполагается, что используется таблица х  t2 2 значений функции Лапласа, заданной в виде Ф( х)   е dt , где нижний предел интегрирования равен 0, а не -∞. Функция Лапласа, заданная таким образом, является нечетной, а ее значения на 0,5 меньше, чем значения стандартной функции Ф(х). Далее нужно вычислить наблюдаемое значение критерия: т    p0  n n  . U набл   p0 q0 Если |Uнабл| < uкр, то нулевая гипотеза принимается. Если |Uнабл| > uкр, то нулевая гипотеза отвергается. Теперь рассмотрим случай, когда конкурирующая гипотеза Н1: р > p0, то критическая область определяется неравенством U > uкр, то есть является правосторонней, причем р(U > uкр) = α. Тогда P(0  U  uкр )  1 1  2   . 2 2 Следовательно, икр можно найти по таблице значений функции Лапласа из условия, что Ф(и кр )  1  2 . 2 Если Uнабл < uкр, то нулевая гипотеза принимается. Если Uнабл > uкр, то нулевая гипотеза отвергается. Теперь рассмотрим третий случай, когда конкурирующая гипотеза имеет вид Н1: р < p0 критическая область является левосторонней и задается неравенством U < –uкр, где икр вычисляется так же, как в предыдущем случае. Если Uнабл > –uкр, то нулевая гипотеза принимается. Если Uнабл < –uкр, то нулевая гипотеза отвергается. Пример: Пусть проведено 49 независимых испытаний, и относительная частота появления события А оказалась равной 0,12. Проверим при уровне значимости α = 0,01 нулевую гипотезу Н0: р = 0,1 при конкурирующей гипотезе Н1: р > 0,1. Решение: Найдем U набл  (0,12  0,1) 49  0,467 . 0,1  0,9 Критическая область является правосторонней, а икр находим из равенства  uкр .   1  2  0,01  0,49 . 2 Из таблицы значений функции Лапласа определяем икр = 2,33. Итак, Uнабл < uкр, и гипотеза о том, что р = 0,1, принимается. 6.2. Критерий для проверки гипотезы о математическом ожижании Пусть генеральная совокупность Х имеет нормальное распределение, и требуется проверить предположение о том, что ее математическое ожидание равно некоторому числу а0. Рассмотрим две возможности. 1) Известна дисперсия σ2 генеральной совокупности. Тогда по выборке объема п найдем выборочное среднее х В и проверим нулевую гипотезу Н0: М(Х) = а0. Учитывая, что выборочное среднее Х является несмещенной оценкой М(Х), то есть M ( Х )  M ( X ) , можно записать нулевую гипотезу так: М( Х ) = а0. Для ее проверки выберем критерий U X  a0 ( X  a0 ) n  .  (X )  Это случайная величина, имеющая нормальное распределение, причем, если нулевая гипотеза справедлива, то М(U) = 0, σ(U) = 1. Выберем критическую область в зависимости от вида конкурирующей гипотезы: 1 , 2 двусторонняя,  если Н1: М( Х ) ≠ а0, то икр: Ф(и кр )  критическая U набл  ( х  a0 ) n  область , и, если |Uнабл| < uкр, то нулевая гипотеза принимается; если |Uнабл| > uкр, то нулевая гипотеза отвергается.  если Н1: М( Х ) > а0, то икр: Ф(и кр )  1  2 , 2 критическая область правосторонняя, и, если Uнабл < uкр, то нулевая гипотеза принимается; если Uнабл > uкр, то нулевая гипотеза отвергается.  если Н1: М( Х ) < а0, то икр: Ф(и кр )  1  2 , 2 критическая область левосторонняя, и, если Uнабл > - uкр, то нулевая гипотеза принимается; если Uнабл < - uкр, то нулевая гипотеза отвергается. 2) Дисперсия генеральной совокупности неизвестна. В этом случае выберем в качестве критерия случайную величину ( X  a0 ) n , S где S – исправленное среднее квадратическое отклонение. Такая случайная величина имеет распределение Стьюдента с k = n – 1 степенями свободы. Рассмотрим те же, что и в T предыдущем случае, конкурирующие гипотезы и соответствующие им критические области. Предварительно вычислим наблюдаемое значение критерия: Tнабл  ( х В  a0 ) n . S если Н1: М( Х ) ≠ а0, то критическая точка tдвуст.кр. находится по таблице критических точек распределения Стьюдента по известным α и k = n – 1. Если | Tнабл | < tдвуст.кр., то нулевая гипотеза принимается. Если | Tнабл | > tдвуст.кр., то нулевая гипотеза отвергается.   если Н1: М( Х ) > а0, то по соответствующей таблице находят tправост.кр.(α, k) – критическую точку правосторонней критической области. Нулевая гипотеза принимается, если Tнабл < tправост.кр..  при конкурирующей гипотезе Н1: М( Х ) < а0 критическая область является левосторонней, и нулевая гипотеза принимается при условии Tнабл > – tправост.кр.. Если Tнабл < –tправост.кр.., нулевую гипотезу отвергают. 6.3. Критерий для проверки гипотезы о равенстве двух дисперсий Пусть имеются две нормально распределенные генеральные совокупности Х и Y. Из них извлечены независимые выборки объемов соответственно п1 и п2, по которым вычислены исправленные выборочные дисперсии s X2 и sY2 . Требуется при заданном уровне значимости α проверить нулевую гипотезу Н0: D(X) = D(Y) о равенстве дисперсий рассматриваемых генеральных совокупностей. Учитывая несмещенность исправленных выборочных дисперсий, можно записать нулевую гипотезу так: Н0: M ( s X2 )  M ( sY2 ) . Замечание. Конечно, исправленные дисперсии, вычисленные по выборкам, обычно оказываются различными. При проверке гипотезы выясняется, является ли это различие незначимым и обусловленным случайными причинами (в случае принятия нулевой гипотезы) или оно является следствием того, что сами генеральные дисперсии различны. В качестве критерия примем случайную величину 2 S бол F  2 ьш. . S м еньш. Она имеет распределение Фишера-Снедекора со степенями свободы k1 = n1 – 1 и k2 = n2 – 1, где п1 – объем выборки, по которой вычислена большая исправленная дисперсия, а п2 – объем второй выборки. Рассмотрим два вида конкурирующих гипотез:  пусть Н1: D(X) > D(Y). Наблюдаемым значением критерия будет отношение большей из исправленных дисперсий к меньшей: Fнабл. 2 Sбол  2 ьш. . По таблице критических точек S м еньш. распределения Фишера-Снедекора можно найти критическую точку Fнабл(α; k1; k2). При Fнабл < Fкр нулевая гипотеза принимается, при Fнабл > Fкр отвергается.  если Н1: D(X) ≠ D(Y), то критическая область является двусторонней и определяется неравенствами F < F1, F > F2, где р(F < F1) = р( F > F2) = α/2. При этом достаточно найти правую критическую точку F2 = Fкр (  2 , k1, k2). Тогда при Fнабл < Fкр нулевая гипотеза принимается, при Fнабл > Fкр отвергается. 7. Критерии согласия Между статистическим распределением случайной величины, которое строится всегда по ограниченному числу опытов, и предполагаемым теоретическим распределением неизбежно некоторое расхождение. Оно порождается либо случайными причинами, обусловленными ограниченным числом наблюдений, либо может быть неслучайным и связано с тем, что принимаемая гипотеза о предполагаемом законе распределения случайной величины противоречит опытным данным. Для оценки близости теоретического и эмпирического распределений и применяют критерии согласия. Они позволяют установить, является ли расхождение эмпирического и теоретического распределений несущественным (случайным) или значимым (неслучайным). Идея их построения заключается в следующем. Чтобы принять (или отвергнуть) некоторую гипотезу Н о том, что случайная величина Х подчинена определенному закону распределения с функцией F(x), вводят в рассмотрение величину W, которая характеризует меру расхождения между теоретической F(x) и эмпирической F(x) функциями распределения. Очевидно, W - случайная величина, закон распределения которой зависит от закона распределения Х и числа опытов n. Пусть в результате данной серии опытов установлено, что W приняла некоторое значение w. Предположим, что принятая гипотеза верна и найдем вероятность того, что расхождение W между эмпирическим и теоретическим распределениями за счет чисто случайных причин (связанных с недостаточным объемом опытных данных) не меньше, чем наблюдавшееся для данной серии опытов расхождение w, то есть, что W ≥ w. Если эта вероятность мала, то это значит, что причины расхождения неслучайны, и гипотеза о предполагаемом характере распределения случайной величины противоречит опытным данным, то есть ее надо отбросить, и наоборот. Вопрос о том, как мала или велика должна быть указанная вероятность, решается не из математических, а из практических соображений с учетом конкретных условий задачи. Обычно в качестве практически невозможных отклонений принимают такие, вероятность которых не превосходит 0,05 или 0,01 и т.п. Такую вероятность называют уровнем значимости. Итак, если PW  w  0,01 (или 0,05 и т.п.), то выдвинутая гипотеза о теоретическом законе распределения противоречит опытным данным и должна быть отброшена и наоборот, если PW  w  0,01 , то гипотезу Н можно принять для данного уровня значимости. В зависимости от того, какая величина принимается в качестве меры W, различают те или иные критерии согласия. Ниже будут рассмотрены лишь два из них, наиболее часто применяемые. 7.1. Критерий  2 Пирсона Допустим, что произведено n опытов над случайной величиной Х. Всю область изменения значений Х разобъем на S частичных интервалов или разрядов (в случае непрерывной величины) или групп, состоящих из отдельных значений дискретной величины. Подсчитаем эмпирические частоты ni тех значений xi, которые попали в i-ый разряд (группу). Предположим теперь, что для Х принят некоторый закон распределения. Тогда можно найти вероятность попадания Х в каждый из S разрядов: p1 , p2 , ... ps . Величины ni  npi называются теоретическими (выравнивающими) частотами. Критерий  2 Пирсона служит для оценки степени различия между частотами эмпирического и теоретического распределений и вычисляется как сумма квадратов разностей между теоретическими и эмпирическими частотами, отнесенная к теоретическим частотам (по всем S разрядам). (ni  npi ) 2 . W   npi i 1 2 s Очевидно, величина  2 является случайной и тем меньше, чем ближе ni к ni . Как известно, в теории вероятностей распределением  2 с k степенями свободы называется распределение суммы квадратов k независимых  2  12   22  ...   k2 , каждая случайных величин которых подчинена из нормированному нормальному закону. вероятностей этой величины имеет вид: 0  k k f ( w)    1 1 2 w2 e  k /2  2 Г (k / 2) Плотность при w  0, при w  0. Кривые распределения  2 для различных значений k показаны на рисунке. Здесь Г (x) - гамма - функция, k - число степеней свободы, k  S  1  m , где S – число разрядов (групп), на которые делится диапазон всех наблюдавшихся значений случайной величины, m – число параметров предполагаемого теоретического распределения (например, для нормального закона m=2). Распределение  2 , как видно, характеризуется одним параметром k – числом степеней свободы. Можно показать, что закон распределения случайной величины W приближается к закону распределения  2 с S степенями свободы. Для распределения 2 существуют специальные таблицы, в которых указана вероятность того, что случайная величина W  2 примет значение, не меньше, чем вычисленное по данным опытов число w   q2 . Можно также сравнить наблюдаемые значения критерия  q2 с, так 2 : называемыми, критическими точками распределения  кр 2 если  q2   кр - нет оснований отвергать гипотезу, если 2  q2   кр - принятую гипотезу отвергают (см. Приложение 5). Пример. Произведено 250 измерений с точностью до 1мк диаметра валиков, обработанных на токарном автомате. В таблице 8 приведены отклонения Х от номинального размера, разбитые на интервалы по 5 мк в каждом, и числа деталей ni , попадающих в указанные интервалы. Проверить статистическую гипотезу о нормальном распределении признака Х в генеральной совокупности, используя критерий  2 Пирсона. Таблица 8 Интервалы Δ, мк 0-5 Среднее значение, мк 2,5 7,5 15 75 ni 5 – 10 10 –15 15 - 20 20 – 25 12,5 17,5 22,5 100 50 10 1. По данным выборки методом произведений найдем оценки генеральной средней и генеральной дисперсии: xв  xi ni  n  xi  xв  2  11,8,  *  ni n  4,691, n   ni  250. Теоретические частоты для предполагаемого нормального распределения определяются по формуле ni  где функция  ui   1), ui  xi  xв в n 0   ui , 1 u 2 / 2 e табулирована (см.Приложение 2 . Вычисления сведем в таблицу 9. Таблица 9 xi ni xi  xв ui  ui  2,5 15 - 9,3 - 1,98 0,0562 7,5 75 - 4,3 - 0,92 0,2613 69,6 0,7 0,15 0,3945 105,1 5,7 1,22 0,1895 50,5 2,28 0,0297 7,9 12,5 100 17,5 50 22,5 10 10,7 ni 15 Определяем меру расхождения  q2 (см. таблицу 10). Таблица 10 ni ni ni  ni ni  ni 2 ni  ni 2 ni 15 15 75 69,6 5,4 29,16 0,42 100 105,1 - 5,1 26,01 0,25 50 50,5 0,5 0,25 0,01 10 7,9 2,1 4,41 0,56  q2  1,24 При числе степеней свободы K = S – 3 = 2 и уровне 2  6. значимости 0,05 по таблице Приложения 5 находим  кр Так как наблюдаемое значение критерия  q2  1,24 меньше 2  кр  6 , гипотеза о соответствии данных наблюдений нормальному закону распределения признака в генеральной совокупности не опровергается. Замечание. При применении критерия  2 Пирсона необходимо, чтобы как общее число значений признака n, так и числа наблюдений в отдельных разрядах ni были достаточно велики. Практически необходимо, чтобы n > 50 – 60, а ni  4  8. Если какоелибо из ni меньше установленного минимального значения, то один или несколько ближайших интервалов следует объединить. При этом соответственно уменьшится число степеней свободы k. 7.2. Критерий Колмогорова В качестве меры расхождения между эмпирическим и теоретическим распределениями можно рассматривать максимум модуля разности между эмпирической и теоретической функциями распределения: Dn  max F  x   F x  . А.Н.Колмогоровым было показано, что независимо от вида функции F(x) при неограниченном возрастании n (а практически при n не менее нескольких десятков) интегральная функция распределения случайной величины n  Dn / n приближается к функции K      1m e 2m  . 2 2 Обозначим конкретное значение n , полученное в данной серии опытов, через 0 . Тогда Pn  0   1  K 0 . Значения вероятности P n  табулированы и приводятся в литературе. Пусть, например, уровень значимости равен 0,01. Тогда, если Pn  0   0,01, то гипотеза о том, что Х имеет функцию распределения F  x  , не противоречит опытным данным, и наоборот. Критерий Колмогорова может быть использован также для решения вопроса о том, принадлежат ли две выборки объемов n1 и n2 одной генеральной совокупности. При этом находят величину Dn1 ,n2  max F1 x   F2 x  ,   где Fi  x  - эмпирические функции распределения 1-ой и 2-ой выборок соответственно (i=1,2), а величина  определяется из выражения  n  1 Dn n и при n   имеет 1 / n1  1 / n2 1 2 асимптотической функцией распределения функцию K   критерия Колмогорова. Замечание. Достоинством критерия Колмогорова является его простота, а недостаток состоит в том, что его можно применять только, если предполагаемая теоретическая функция распределения F(x) полностью известна (то есть известен не только вид распределения, но и все входящие в него параметры). Пример. Имеются две группы однородных деталей, изготовленных одним станком, по 60 штук в каждой. Результаты измерений длины Х после группировки данных приведены в таблице 11. Таблица 11 Длина деталей, Мм ni 1-ая 2-ая F1 x  F2 x  F1  x   F2  x  Группа группа 72 1 - 0,0167 - 0,0167 72,1 2 2 0,050 0,0333 0,0167 72,2 4 8 0,1167 0,1667 72,3 11 10 0,3 0,3333 0,0333 72,4 12 16 0,5 0,6 0,1 0,05 72,5 16 18 0,7667 0,9 0,1333 72,6 8 4 0,9 0,9667 0,0667 72,7 6 2 1,0 1,0 Проверить с помощью критерия Колмогорова гипотезу о том, что обе выборки принадлежат одной генеральной совокупности. 1. Эмпирические функции распределения F1 x  и F2 x  для каждой из групп строятся как нарастающие суммы относительных частот (см. таблицу 11). 2. Максимум модуля разности между ними, как видно из таблицы 11, равен Dn1n2  0,1333. 3. Определив   Dn1n2 n1n2 , n1  n2 где n1  n2  60 и, следовательно,   0,73 , по таблице Приложения 6 для данного значения  найдем соответствующее значение вероятности P   0,66089  0,01. Следовательно, при уровне значимости 0,01 гипотеза о том, что обе выборки принадлежат одной генеральной совокупности, не опровергается. 8. Элементы корреляционного анализа Как известно, если величины Х и У связаны между собой функциональной зависимостью, то зная значение одной величины, можно точно указать значение другой. В теории вероятностей и в математической статистике рассматривается другой, более общий тип зависимости между величинами, а именно, так называемая статистическая (вероятностная) зависимость. Статистической называется зависимость между переменными величинами Х и У, при которой каждому значению одной величины Х соответствует определенное распределение другой величины У, зависящее от того, какое значение приняла величина Х. В частности, если при изменении одной из величин изменяется среднее значение другой, то такая статистическая зависимость называется корреляционной. Определение степени зависимости между случайными величинами по эмпирическим данным и является целью корреляционного анализа. Для простоты будет рассмотрена зависимость между двумя случайными величинами. Если исследуется связь между несколькими случайными величинами, то говорят о множественной корреляции. 8.1. Корреляционная таблица Пусть произведено достаточно большое число независимых опытов над системой случайных величин (Х, У), причем одно и то же значение x j наблюдалось n x j раз (j = 1, 2,..., t), одно и то же значение y i  n y i раз (i= 1, 2, …, s), каждая пара значений xi , y j  наблюдалась ni j раз (отдельные значения ni j могут быть нулями). Данные таких опытов обычно группируют и записывают в виде так называемой корреляционной таблицы. Корреляционная таблица для двух переменных в общем случае имеет вид: Таблица 12 X x1 x2 ... xj ... xt ny y1 n11 ... n1 j . n1t ny 1 y2 n21 n12 n22 . n2j . n2t  . ni1 . ni2 . . . nij . . . nit n y2 . n yi ys . ns1 . ns2 . . . nsj . . . nst . n ys nx nx1 nx2 . nxj . nxt n Y yi  В первой строке таблицы 12 указаны наблюдавшиеся значения случайной величины X,, в первом столбце – все наблюдавшиеся значения Y. Если число их велико, то каждый из интервалов, в котором заключены наблюдавшиеся значения x j и соответственно yi делят на ряд частичных интервалов. Тогда значения xj и yi будут средними значениями в каждом частичном интервале. Очевидно, сумма частот j-го столбца s n x j  n1 j  n2 j    ns j   ni j . i 1 t Сумма частот i - ой строки n y i   ni j . j 1 Сумма всех частот (общее число наблюдений) равна t s j 1 i 1 s t n   n x j   n y i   ni j i 1 j 1 (8.1) и помещается в правом нижнем углу таблицы. Общие средние арифметические переменных x и y равны соответственно t s  x j nx j x j 1 n t  x j ni j  i 1 j 1 n , s s y t yi ni j  yi n yi  i 1 j 1 i 1 n  n . Корреляционная таблица наглядно показывает распределение значения Y для каждого значения X (и наоборот) и является статистическим аналогом таблицы распределения вероятностей системы двух случайных величин. Рассмотрим, например, распределение значений Y при X =xj (см. таблицу 13) Таблица 13 Значения Y Частоты y1 y2 ... yi ... ys Всего n1j n2j ... nij ... nsj nxj Средняя арифметическая этого распределения называется условной (групповой) средней переменной Y для данного значения xj и обозначается через y j . Очевидно, что s yj   yi ni j i 1 nx j ( j  1,2,...,t ) (8.2) Каждому отдельному значению xj переменной X соответствует вполне определенное значение условной средней y j переменной Y, то есть y j  f (x). Следовательно, статистическая зависимость между yj и X является корреляционной. Аналогично, средняя арифметическая всех наблюдавшихся значений X при условии Y = yi называется условной (групповой) средней переменной X для данного значения yi: t xi   x j ni j i 1 n (i=1,2,...,s), (8.3) причем xi    y  . Условные средние являются статистическим аналогом условных математических ожиданий в теории вероятностей. Уравнение y j  f  x  называется выборочным (или эмпирическим) уравнением регрессии Y на X, функция f(x) называется выборочной регрессией Y на X, а ее график – выборочной линией регрессии Y на X. Аналогично, уравнение xi    y  называется выборочным уравнением регрессии X на Y; функция  ( y ) - выборочной регрессией X на Y, а ее график – выборочной линией регрессии X на Y. Двумя основными задачами теории корреляции являются: - изучение зависимости условных средних y j от X (и соответственно xi от Y), то есть установление вида функции регрессии, - оценка силы (тесноты) корреляционной зависимости между величинами X и Y. 8.2. Отыскание приближенной линии регрессии по эмпирическим данным Отметим, прежде всего, одно важное свойство линии регрессии. Можно показать, что справедлива следующая теорема: среднее значение суммы квадратов отклонений  величин yi от выборочной линии регрессии y j  f  x  меньше, чем от графика любой другой функции. По опытным данным можно построить эмпирическую («истинную») линию регрессии, но она представляет собой ломаную линию, и уравнение еë для практического использования непригодно. Поэтому обычно строят приближенную (теоретическую) линию регрессии того или иного вида, определяя неизвестные параметры этой функции из условия минимума . Можно показать, что если переменные X и Y представляют собой суммы большого числа независимых (или почти независимых) случайных величин, то X и Y связаны линейной корреляционной зависимостью (если она вообще существует). Так как на практике именно этот случай реализуется чаще всего, то приближенную функцию регрессии ищут, как правило, в виде линейной функции y  h( x)  a x  в. При этом задача сводится лишь к отысканию неизвестных параметров a и в. Это можно сделать различными способами. Наиболее распространенным из них, позволяющим получить в некотором смысле наилучшее приближение к экспериментальным данным, является метод наименьших квадратов. 8.3. Метод наименьших квадратов Суть метода состоит в следующем: пусть известны результаты эксперимента (x1, y1), (x2, y2),...,(xn, yn) и выбран с точностью до k неизвестных параметров вид функции y = f (x, a1, a2,..., ak), (10.4) аппроксимирующей экспериментальные данные. Согласно методу наименьших квадратов неизвестные параметры ai выбираются так, чтобы сумма квадратов отклонений была минимальной k 2   yi  f xi , a1 , a2 ,ak  i 1  min . (8.5) Под отклонением понимается разность между наблюдавшимся значением yi и расчетным значением y, вычисленным по уравнению (8.4) при x=xi. Для отыскания значений ai , обеспечивающих минимум левой части уравнения (10.5), необходимо приравнять нулю производные по ai . Тогда получим n  f    0,   yi  f  xi , a1 , a2 ,, ak     a i  1   1 x  xi  n   y  f  x , a , a ,, a    f   0, i i 1 2 k   a  (8.6)  2  x xi  i 1  ................................................................. n  f     yi  f  xi , a1 , a2 ,, ak     0.  a  i 1  k  x xi  f   - значения частных производных Здесь числа   a  i  x xi функции по параметрам i в точке xi. Число уравнений в системе (8.6) равно числу неизвестных параметров. В интересующем нас случае функция f xi , a1 , , ak   y  hx  a x  в линейна и содержит два неизвестных параметра. Необходимыми условиями минимума суммы квадратов отклонений условных средних (то есть «истинной» линии регрессии) от приближенной функции регрессии являются условия    0,  0, a в где  1 s t y j  a x j  в 2 ni j  1  y j  a x j  в 2  nx j .  n i 1 j 1 n j В результате получим два линейных уравнения 1  n   y j  ax j  в n x j  0,  j   1  y  a x  в x n  0 j j xj  n j j или t t  t x n n  x j  y j nx j  j xj j 1 j 1  j 1 a в , n n  n    t t t   x 2j n x j x n  j x j  y j x j nx j  j 1 j 1 j 1 a в .  n n n Так как 1 t 1 t t 1 t 2 2 x n  x , y x n   j j x j n  yi x j ni j  xy,  j xj n j 1 n j 1 i 1 j 1 1 t 1 s t y  n   j x j n  y j ni j  y, n j 1 i 1 j 1 с учетом обозначений (8.1), (8.2) можно записать  x  a  в  y ,  2  x  a  x  b  xy, откуда следует: a Функция xy  x  y x2  x 2 , в x 2  y  x  xy x2  x 2 . (8.7) y  hx   a x  в , коэффициенты которой определяются по формуле (10.7), называется линейной среднеквадратической регрессией Y на X. 9. Выборочный коэффициент регрессии Угловой коэффициент a прямой линии регрессии Y на X называется выборочным коэффициентом регрессии Y на X и обозначается через  y / x  a. Уравнение линейной среднеквадратической регрессии Y на X можно записать теперь в виде y  y   y / x  x  x . Так как  x j  x  t  x2  2 j 1 n nx j  x 2j nx  j j n  2 x  x j nx j j n   x2  2x  x  x 2  x2  x 2 , то из первого выражения (8.7) следует y/ x  xy  x y  x2 . (9.1) Аналогично, уравнение линейной среднеквадратической регрессии X на Y имеет вид: x  x   x / y  y  y , где x 2  nx j j n  x/ y   y2  y 2  y 2  xy  x y  y2 , 1 s  yi  y 2 n yi - выборочная дисперсия Y.  n i1 Замечание. В частном случае, когда все значения X и соответствующие им значения Y различны, а общее число n 2 опытов равно n, из условия минимума     yi  a xi  в  i 1 получим n  [ yi  (axi  b)]  xi  0, i 1 n  [ y  (ax  b)]  0. i  i 1 i Разрешая эту систему относительно a и в, найдем следующие выражения для коэффициентов уравнения регрессии: a  y/x  n xi yi   xi  yi n xi2   xi  2 , xi2 yi   xi  xi yi  в . 2 n xi2   xi  9.2. Выборочный коэффициент корреляции Умножим обе части равенства (9.1) на дробь  x /  y и обозначим полученное выражение через rв   y / x  x xy  x y   y  x y . (9.2) Величина rв называется выборочным (эмпирическим) коэффициентом корреляции и применяется в статистике в качестве точечной оценки теоретического коэффициента корреляции r  M  xy   M  x M  y   x y при ограниченном объеме опытных данных. Выборочный коэффициент корреляции является мерой тесноты линейной корреляционной зависимости между случайными величинами X и Y. Из (10.9) следует, что  y / x  rв y . x (9.3) Поэтому уравнение линейной среднеквадратической зависимости Y от X можно записать в виде: y  y  rв y x  x  x или в более симметричной форме yy y  rв xx x . Аналогично, выборочный коэффициент регрессии X на Y равен   x / y  rв x , y (9.4) а уравнение регрессии X на Y записывается в виде  xx yy  rв . x  x  rв x  y  y  x y y или Из (10.10), (10.11) следует, что знак rв совпадает со знаками коэффициентов регрессии. Но так как регрессии одного знака, то  y / x  x / y  0 и поэтому rв    y / x   x / y , то есть выборочный коэффициент корреляции равен среднему геометрическому из коэффициентов регрессии и имеет знак последних. Свойства коэффициента корреляции 1. Если между величинами X и Y существует линейная функциональная связь y  a x  в a   y / x  0, то rв  1. Действительно, rв   y / x x ,  y2  y 2  y 2 , y y 2  ax  в   a 2 x 2  2aвx  в 2 , 2 Но а y 2  ax  в   a 2 x 2  2aвx  в 2 . 2  Cледовательно, rв  a   y2  a 2 x 2  x 2  a 2 x2 и является и x a   1. a x a Равенство rв  1 необходимым достаточным условием линейной функциональной связи между величинами Х и У. 2. Чем больше угол между линиями регрессии У на Х и Х на У, тем меньше rв . Это наглядно иллюстрируется рисунком. Очевидно,  y / x  tg , 1 /  y / x  tg , следовательно, tg  tg      1/ x/ y   y/ x 1   y/ x / x/ y 1  rв2  x/ y   y/ x . Итак, с уменьшением rв увеличивается tg . При   0  y / x  1/  x / y , rв  1, и линии регрессии совпадают между собой и функциональной зависимости. с прямой линейной 3. При rв  0 отсутствует линейная корреляционная зависимость между X и Y. Отметим, что при этом может существовать нелинейная связь между X и Y (корреляционная или функциональная). 4. Если коэффициент корреляции rв определен по выборке объема n из неограниченной генеральной совокупности, то можно считать коэффициент корреляции генеральной совокупности приближенно равным rв . При этом средняя квадратичная ошибка будет равна 1  rв2 r  . n При достаточно большом n (практически при n  50 ) для оценки коэффициента распределенной генеральной корреляции нормально совокупности можно пользоваться формулой rв  3 r  r  rв  3 r . 9.3. Методика вычисления rв и построения линии регрессии Методику вычислений rв рассмотрим на конкретном примере. Пример. Результаты измерений угловых колебаний ведущего моста автомобиля X и угловых колебаний подрессоренной массы (галопирование) Y сведены в корреляционную таблицу 14. Найти уравнение линейной среднеквадратической регрессии Y на X, установить тесноту связи между признаками. Для каждого интервала значений X вычислить фактические значения условных средних yi и их значения по уравнению регрессии. Расчет может быть значительно упрощен, если перейти от величин X и Y к условным вариантам по формулам uj  x j  C1 h1 , vi  yi  C 2 . h2 Легко убедиться в том, что при этом  x  h1 u ,  y  h2 v , x  h1u  C1 , y  h2v  C2 , xy  h1h2 uv  C2 h1u  C1h2 v  C1C2 . Поэтому выборочный коэффициент корреляции rв в новых обозначениях не меняется по величине и будет равен rв  uv  u  v  u v . Трудоемкость расчета связана с вычислением uv. Для составления корреляционной таблицы в условных вариантах добавим к исходной корреляционной таблице (поле которой выделено толстыми линиями) дополнительные строки uj,  nuv vi , i u j  nuv vi и столбцы vi ,  nuvu j , j i vi  nuv u j . j В качестве ложного нуля С1 для X примем находящуюся примерно в середине вариационного ряда для X величину C1  15  10 3 , аналогично принимаем С2  13,2  10 3. Шаг hk (k  1,2) равен разности между двумя соседними вариантами: h1  6, h2  5,6. Легко показать, что суммы элементов нижней строки и правого столбца равны между собой:  u j  nuvvi   vi  nuvu j  nuv. j i i j nuv целесообразно вычислять по обеим формулам. Их совпадение должно вычислений. свидетельствовать о правильности Таблица 14 u V y  103 x  103 4 -12 – (6,4) -9,2 3 -6,4 – (0,8) -3,6 - -0,8 – 4,8 2 2,0 - 4,8 – 10,4 1 7,6 -4 -3 -2 -1 (12)(-6) (6)0 0- 6- 12- 18- 24- 306 12 18 24 30 36 n y  nv -9 -3 3 1 1 2 3  nuvu j j 9 15 21 27 2 1 1 1 3 1 1 3 6 2 2 4 5 j 33 1 2 vi  nuv u j 3 4 -16 6 5 -15 13 7 -14 14 -4 4 10,4 – 16,0 13,2 1 1 2 3 3 5 1 16,0 – 21,6 18,8 1 1 3 5 5 4 1 2 21,6 – 27,2 24,4 3 6 7 2 2 1 3 27,2 – 32,8 30,0 2 3 1 1 1 nx  nu 4 6 14 22 18 28 5 3  nuvvi 7 6 11 21 -4 -23 -5 -1 -28 -18 - 22 21 -23 -10 -3 16 -6 20 -12 -12 22 -21 -42 6 -10 -30 100 i u j  nuv vi i -125 Величины u , v ,  u ,  v при большом числе наблюдений подсчитываются методом произведений, а при сравнительно малом числе наблюдений - непосредственно, исходя из определения этих величин по формулам:  u j nu u v  j n  vi nv i n  (4)  4  (3)  6  (2)  14  (1)  22  1  28  2  5  3  3 100 (4)  3  (3)  6  (2)  13  (1)  14  1  20  2  22  3  6 100 аналогично u2  1 u 2j nu  2,71,  n j v2  1 vi2 nv  3,30,  n i  u  u 2  u 2  2,71  (0,37) 2  1,60;  v  v 2  v 2  3,30  Искомый коэффициент корреляции равен rв  uv  u  v  u v   1,25  (0,37)  0,12  0,416. 1,60  1,81 Возвращаясь к старым переменным, получим x  h1u  C1  6(0,37)  15  10 3  12,78  10 3 , y  h2 v  C 2  5,6  0,12  13,2   10 3  13,87  10 3 ,  x  h1 u  6  1,60  103  9,60  103 ;  y  h2 v  5,6  1,81  103  10,14  103. Приближенное (теоретическое) уравнение линейной регрессии примет вид y  13,87  10 3 10,14  10 3  0,416  x  12,78  10 3 3 9,6  10   или окончательно y  0,44 x  19,49  10 3. (9.4) Фактические значения условных средних, вычисленные по данным корреляционной таблицы, равны: y x 9  y x3  13,2  18,8  2  30  23, 4 7,6  13,2  18,8  3  24,4  18,8. 6 Аналогично y x 3  17,6, y x 9  18,55, y x15  13,62, y x 21  8,6, y x 27  7,6, y x 33  11,33. Эти значения, а также условные средние, найденные по уравнению регрессии (10.12) при x  x j , приведены ниже в таблице 15: Таблица 15 По данным корреляционной таблицы По уравнению регрессии -9 -3 3 9 15 21 27 33 23 18,80 17,6 18,55 13,62 8,60 7,60 11,33 23,45 20,81 18,17 15,53 12,89 10,25 7,61 4,97 Как видно из таблицы, согласование фактически наблюдавшихся и расчетных условных средних удовлетворительное. Эмпирическая и приближенная (теоретическая) линии регрессии Y на X показаны на рисунке.

ВЫСШАЯ МАТЕМАТИКА

#Лекция

Основные понятия математической статистики. Статистические оценки параметров распределения

Тебе могут подойти лекции

Элементы математической статистики. Вариационные ряды и их характеристики

Математическая статистика. Применение в профессиональной деятельности

Прикладная теория вероятностей

Статистическое распределение выборки.

Математическая статистика

Статистические методы в экологических исследованиях

Парная линейная регрессия

Элементы математической статистики

Эконометрика.Математическое моделирование экономических процессов

Генеральная совокупность и выборка. Эмпирическая функция распределения, гистограмма и полигон частот)

Основные понятия математической статистики. Статистические оценки параметров распределения

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ