Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по статистике
Оценки параметров распределений и доверительные интервалы для параметров

Оценки параметров распределений и доверительные интервалы для параметров

👀 981 просмотр
📌 909 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Оценки параметров распределений и доверительные интервалы для параметров», doc

Загружаем конспект в формате doc

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Оценки параметров распределений и доверительные интервалы для параметров», Word формат

ЛЕКЦИЯ 2. Оценки параметров распределний и доверительные интервалы для параметров 1. Статистическое оценивание неизвестных параметров распределений. Точечные оценки Параметр распределения – это любая числовая величина, характеризующая закон распределения вероятностей некоторого семейства случайных величин. Следующие примеры иллюстрируют понятие параметра. 1. Может случиться, что случайная величина принадлежит некоторому семейству (множеству) случайных величин, и это множество описывается конечным числом числовых величин, то есть конечным числом параметров. Например, семейство нормальных случайных величин зависит от двух параметров . В теории надежности в качестве обобщения экспоненциального закона применяют семейство распределений Вейбулла. Функция распределения вероятностей элементов этого семейства равна нулю при отрицательных значениях , а при неотрицательных значения имеет вид:. Числовые величины являются параметрами распределения Вейбулла. 2. Все числовые характеристики случайных величин тоже можно рассматривать как параметры. В данном случае речь идет о множествах таких случайных величин, которые соответствующими характеристиками обладают (напомним, что случайная величина может не иметь даже математического ожидания). Очень часто бывает так, что неизвестные параметры совпадают с какими-либо числовыми характеристиками или достаточно просто через числовые характеристики выражаются. В частности, если , то , а . Часто заранее известно, к какому семейству распределений принадлежит практическая случайная величина. Например, если – результат физического измерения, то можно уверенно предполагать, что такая практическая случайная величина достаточно точно приближается нормальным законом распределения, . И для восстановления закона распределения по экспериментальным данным надо только по этим данным определить параметры и . Сделать это можно только приближенно. Другими словами, можно только оценить значения параметров. А для того чтобы оценивать значение параметра, надо иметь правило, по которым должны производиться соответствующие вычисления, то есть функцию (формулу) от выборочных значений случайной величины. Замечание. Большинство понятий, которые будут в дальнейшем определяться, справедливы и для многомерных случайных величин. Но для того чтобы не усложнять обозначений, мы не будем ставить черточки над обозначениями случайных величин и их значений. Точечная оценка параметра – это функция (формула) , с помощью которой по выборочным значениям можно вычислять приближенные значения параметра. Например, все формулы для вычисления выборочных характеристик естественно рассматривать как оценки теоретических характеристик. Выборочные значения получаются в результате проведения серии экспериментов, в разных сериях получаются разные выборочные значения, и, конечно, оценка является случайной величиной. Точнее, при повторении серии экспериментов на месте значения появится другое значение исходной случайной величины . Поэтому при теоретическом изучении оценку рассматривают как функцию от одинаково распределенных (так же как исходная величина ) независимых случайных величин . В математической статистике функции от одинаково распределенных независимых случайных величин принято называть статистиками. И строгое определение точечной оценки выглядит так. Точечная оценка параметра – это функция от одинаково распределённых независимых случайных величин (статистика), предназначенная для приближенного вычисления значения параметра по экспериментальным данным. Для того чтобы вычислить конкретное приближенное значение параметра, надо получить выборочные значения и найти соответствующее значение функции . Формула для оценивания параметра, конечно, всегда зависит от числа переменных, но во многих случаях такие формулы очень похожи, поэтому зависимость от числа переменных как бы просто подразумевается. В частности, так обстоит дело, когда в качестве оценок теоретических числовых характеристик используются выборочные характеристики. Выбор достаточно хорошей формулы для оценки параметра является непростой задачей. Поэтому к таким формулам необходимо предъявлять определенные требования, позволяющие сравнивать разные оценки между собой. К таким требованиям для точечных оценок относятся, прежде всего, несмещенность, эффективность и состоятельность. Первые два условия ставятся при фиксированном объеме выборки, но могут относиться и к последовательности однотипных оценок. Третье условие должно выполняться при стремлении объема выборки к бесконечности, то есть имеет предельный (асимптотический) характер. Другими словами, понятие состоятельности, как и другие асимптотические свойства оценок, относится именно к последовательности оценок. Оценка параметра называется несмещенной, если ее математическое ожидание совпадает с оцениваемым параметром: . Все выборочные характеристики являются естественными оценками соответствующих теоретических характеристик. Можно было бы ожидать, что такие оценки являются несмещенными, но это не совсем так. Точнее, все начальные выборочные моменты являются несмещенными оценками теоретических моментов, но все центральные выборочные моменты – это смещенные оценки. Ограничимся доказательством этого утверждения для выборочного математического ожидания и выборочной дисперсии одномерной случайной величины. Теорема 1. Оценка , то есть выборочное среднее, является несмещенной оценкой теоретического математического ожидания. Доказательство. Воспользовавшись свойством линейности математического ожидания, получим: . Теорема 2. Выборочная дисперсия является смещенной оценкой теоретической дисперсии, точнее, справедливо равенство: . Для того чтобы получить несмещенную оценку дисперсии, вводится исправленная оценка дисперсии . Математическое ожидание этой оценки действительно совпадает с теоретической дисперсией: . Исправленная оценка дисперсии непосредственно задается формулой: . Эта формула при первоначальном знакомстве с математической статистикой представляется какой-то странной и неестественной. ПРИМЕР 1. Получена выборка: . Найти значение несмещенной (исправленной) оценки дисперсии и значение исправленного выборочного среднего квадратического отклонения. РЕШЕНИЕ. Объем выборки . По известным формулам найдем: . Можно показать, что утверждение, аналогичное утверждению теоремы 2, справедливо и для выборочного корреляционного момента: . Исправленная несмещенная оценка корреляционного момента имеет вид: . Для того чтобы приближенное значение параметра , которое находится с помощью несмещенной оценки , было в большом числе случаев достаточно близким к оцениваемому параметру, необходимо, чтобы случайная величина имела как можно меньший разброс значений относительно своего математического ожидания . Стандартной мерой разброса значений случайной величины относительно математического ожидания является дисперсия. Поэтому из двух несмещенных оценок , одного и того же параметра более эффективной считается та оценка, у которой дисперсия меньше. Несмещенная оценка называется эффективной, если она обладает наименьшей дисперсией среди всех несмещенных оценок данного параметра. Известно, что если случайная величина имеет нормальное распределение, то выборочное среднее является эффективной оценкой математического ожидания. В большинстве практически важных случаев эффективных оценок вообще не существует, но всегда существует точная нижняя грань дисперсий всевозможных несмещенных оценок, к которой можно приближаться с любой степенью точности. Оценка (последовательность оценок) называется состоятельной, если последовательность оценок сходится по вероятности к оцениваемому параметру: . С практической точки зрения состоятельность оценки (последовательности оценок) доставляет нам уверенность в том, что при большом объеме выборки вычисленное с помощью этой оценки приближенное значение параметра будет не слишком сильно отличаться от истинного значения. Все выборочные начальные моменты являются несмещенными оценками теоретических моментов. Из теоремы Хинчина вытекает, что если теоретический начальный момент существует, то последовательность соответствующих выборочных моментов при стремлении объема выборки к бесконечности сходится по вероятности к теоретическому моменту. Центральные моменты являются линейными функциями начальных моментов. Поэтому справедлива следующая теорема. Теорема 3. Если существует теоретический начальный момент некоторого типа, то соответствующий выборочный начальный момент является состоятельной оценкой теоретического момента. Если существуют все начальные моменты до некоторого порядка включительно, то существуют и все центральные моменты таких же типов. При этом выборочные центральные моменты являются состоятельными оценками теоретических центральных моментов. 2. Интервальные оценки параметров распределений Несмещенность, эффективность и другие естественные требования к оценкам параметров имеют качественный характер. Однако в теории обычных приближенных вычислений всегда возникает вопрос о точности приближения. Если – приближенное не случайное значение числовой величины , то приближение считается достаточно хорошим, если абсолютная погрешность не превосходит заданной точности : . В математической статистике оценка является случайной величиной, поэтому количественное утверждение о точности оценивания должно иметь вероятностный смысл. Соответствующая степень уверенности в заданной точности приближения называется надежностью оценки. Точнее, пусть параметр, – его оценка и верно равенство: Тогда называют точностью оценки, а – надежностью. Конечно, точность и надежность оценки связаны между собой. В общем случае при фиксированном объеме выборки повышение надежности приводит к уменьшению точности, а повышение точности понижает надежность: выигрывая в одном, приходится проигрывать в другом. Обычно в приложениях в качестве стандартных используют для надежности значения или . Равенство можно переписать в форме , которая позволяет ввести более общее понятие оценки. Можно считать, что интервал накрывает параметр с вероятностью . Накрывающий случайный интервал называют доверительным. Точнее, в общем случае доверительным интервалом для параметра называется интервал , концы которого являются функциями от выборочных значений: , то есть статистиками , и который накрывает параметр с заданной надежностью : . Если удается построить для параметра доверительный интервал, то говорят об интервальном оценивании. Доверительный интервал , связанный с точечной оценкой , называют симметричным доверительным интервалом. С другой стороны, с несимметричным доверительным интервалом всегда можно связать естественную точечную оценку параметра . Правда, заменить несимметричный интервал симметричным с помощью такой точечной оценки в общем случае нельзя. Большинство известных интервальных оценок являются приближенными. Существует не слишком много случаев построения точного доверительного интервала, то есть такого, для которого равенство выполнялось бы точно. Ниже рассматриваются несколько таких частных случаев, связанных с распределением, которое очень часто возникает в приложениях, а именно, с нормальным распределением. 3. Доверительный интервал для математического ожидания нормальной случайной величины при известной дисперсии Пусть случайная величина имеет нормальное распределение, , но значение математического ожидания неизвестно, а вот среднее квадратическое ожидание задано. Надо построить доверительный интервал для параметра . На первый взгляд кажется, что такая ситуация имеет частный характер, но в действительности это не так. Дело в том, что задача достаточно надежного оценивания математического ожидания нормальной случайной величины возникает при измерении какой-либо физической величины прибором с известной, заранее установленной и помеченной точностью. Пусть измеряемое неизвестное значение равно . При любом измерении неизбежны ошибки, которые имеют случайный, непредсказуемый характер. Другими словами, ошибка измерения является случайной величиной, а результат измерения и ошибка измерения связаны равенством . Многочисленные многолетние эксперименты показали, что распределение вероятностей ошибки измерения хорошо приближается нормальным законом. Предположим, что математическое ожидание ошибки равно нулю (в этом случае говорят, что измерение производится без систематических ошибок), а погрешность прибора характеризуется средним квадратическим отклонением (в приложениях обычно указывается на приборе и называется стандартом). При таких предположениях , а является случайной величиной, распределенной по нормальному закону с математическим ожиданием и средним квадратическим отклонением . В качестве стандартной, в любом смысле хорошей оценки параметра (несмещенная, эффективная и состоятельная оценка) естественно взять выборочное среднее: . Напомним, что любая линейная комбинация нормальных случайных величин является нормальной случайной величиной (усиленная устойчивость нормального закона). В частности, выборочное среднее распределено по нормальному закону: . В данном случае (несмещенность), а дисперсия и среднее квадратическое отклонение случайной величины связано с дисперсией и средним квадратическим отклонением случайной величины равенствами: , . Итак, – нормальная случайная величина, , и можно пользоваться формулами, по которым вычисляется вероятность попадания нормальной случайной величины на числовой промежуток. Вероятность попадания нормальной величины на симметричный (относительно математического ожидания) промежуток находится по формуле: , где – функция Лапласа. Поэтому справедливы равенства, связывающие точность и надежность оценки : или . Положим и обозначим через функцию, обратную к функции Лапласа. Она определена на интервале , потому что функция Лапласа строго возрастает на всей числовой оси и отображает числовую ось на интервал . Теоретически , а практически для нахождения по заданной надежности надо «прочитать таблицу значений функции Лапласа наоборот». Симметричный доверительный интервал для неизвестного математического ожидания имеет вид:, а величина точности определяется по заданной надежности с помощью формулы: . Полученные формулы позволяют не только построить симметричный доверительный интервал, но, как показывает следующий пример, решать и другие задачи. ПРИМЕР 1. Производится измерение физической величины . Известно, что среднеквадратическое отклонение (характеристика точности измерительного прибора, стандарт) единиц. Произведено 25 измерений, в результате которых получены значения и вычислено значение выборочного среднего: единиц. 1) Найти с надежностью доверительный интервал для измеряемой величины , то есть, по заданной надежности вычислить точность оценки . 2) Сколько надо иметь выборочных данных для того, чтобы можно было с вероятностью не меньшей 0,95 утверждать, что отклонение оценки от измеряемого значения не превосходит двух единиц? 3) С какой вероятностью можно утверждать, что отклонение оценки от измеряемой величины не превзойдет двух метров? РЕШЕНИЕ. 1) По заданной надежности находим с помощью таблицы значений функции Лапласа значение : , . Находим значение точности по формуле. В нашем случае: . Доверительный интервал – это интервал . В данном случае . Следовательно, можно с вероятностью 0,99 (то есть практически достоверно) утверждать, что истинное значение величины заключено в пределах: . 2) Определение необходимого для достижения заданной точности и надежности количества экспериментов является чрезвычайно важной практической задачей. Потому что лишние испытания – это лишние расходы, а недостаточное количество экспериментов может привести к большим ошибкам. Снова по заданной надежности находим с помощью таблицы значений функции Лапласа значение : , . Так как , то для приближенного вычисления необходимого количества экспериментов можно использовать формулу: , . Вообще говоря, правая часть последней формулы целым числом не является. Поэтому правильнее пользоваться неравенством , наименьшее целое решение которого и решает с минимальными потерями поставленную задачу. В данном случае: . В качестве наименьшего целого решения неравенства нужно взять значение . 3) Найдем вероятность того, что отклонение оценки от измеряемого расстояния не превзойдет двух метров при 25 измерениях. В данном случае заданы значения и , а значение надо найти. Определяем значение по известной формуле (она применяется в третий раз): . Находим: . В заключение этого пункта отметим, что если объем выборки достаточно велик, то можно отбросить предположение о нормальности случайной величины , потому что, согласно центральной предельной теореме справедливо приближенное равенство: , которое позволяет строить доверительный интервал для математического ожидания произвольной случайной величины, имеющей математическое ожидание и дисперсию. Если же объем выборки очень большой, то можно и дисперсию считать известной. А в соответствующие формулы вместо теоретического среднего квадратического отклонения подставлять выборочное среднее квадратическое отклонение или значение исправленной оценки . 4. Распределения хи-квадрат и Стьюдента В теории оценивания параметров распределений и в других разделах математической статистики большую роль играют некоторые специальные законы распределения вероятностей, в частности, распределение (читается хи-квадрат) и распределение Стьюдента (-распределение, см. Комментарии). Эти и некоторые другие специальные случайные величины являются функциями от независимых нормальных случайных величин. Точнее, пусть случайные величины независимы и распределены по стандартному нормальному закону: . Распределением с степенями свободы называется распределение суммы квадратов независимых стандартных нормальных случайных величин: . На рисунке 5 изображены эскизы графиков плотности и функции распределения вероятностей случайных величин для нескольких значений . Рисунок 1. Графики плотности распределения хи-квадрат Можно показать, что математическое ожидание случайной величины хи-квадрат с степенями свободы равно (см. Дополнения), а дисперсия равна : , , . Так как случайные величины являются суммами одинаково распределенных независимых случайных величин, имеющих математическое ожидание и дисперсию, то к последовательности этих величин применима интегральная центральная предельная теорема в форме Линденберга-Леви. Поэтому законы распределения вероятностей последовательности случайных величин сходятся к нормированному нормальному закону . А при достаточно больших значениях справедливо приближенное равенство: . Говорят, что распределение хи-квадрат является асимптотически нормальным. В таблицах этого распределения число степеней свободы обычно не превосходит тридцати. При значениях для определения необходимых вероятностей используется нормальное распределение и таблицы значений функции Лапласа. - распределением (-распределением) или распределением Стьюдента с степенями свободы называется распределение случайной величины . На рисунке 6 представлены эскизы графиков плотности распределения вероятностей случайной величины для некоторых значений . Рисунок 2. Графики плотности - распределения Стьюдента Так как и , то справедливы равенства: и . Поэтому при больших значениях верно приближенное равенство . А при справедливы предельные равенства: , . Другими словами, распределение Стьюдента асимптотически нормально, и при больших значениях его можно заменять стандартным нормальным законом: . Практически это асимптотическое приближение можно использовать при значениях . Комментарии. Стьюдент – это псевдоним известного английского ученого-статистика Уильяма Госсета (1876 – 1937). Госсет свое образование завершил в Оксфорде в 1899 году, где прослушал курсы химии и математики. После окончания университета поступил на работу на пивоваренный завод Гиннеса в Дублине. Проводил исследования по улучшению технологии производства пива и выведению высокоурожайных сортов ячменя. В 1906-1907 годах работал в биометрической лаборатории известного статистика Карла Пирсона. Статьи по математической статистике, принесшие ему славу, опубликовал в 1908 году в журнале «Биометрика» под псевдонимом, так как руководство фирмы запретило своим сотрудникам публикацию материалов, которые могли составлять коммерческую тайну. 5. Теорема Фишера и доверительный интервал для математического ожидания нормальной случайной величины при неизвестной дисперсии Процедура построения доверительного интервала для математического ожидания нормальной случайной величины при неизвестной дисперсии основана на следующей теореме выдающегося английского статистика Роналда Фишера (см. Комментарии). Теорема Фишера. Если – независимые одинаково распределенные нормальные случайные величины с параметрами и , то случайная величина , , имеет распределение с степенями свободы: . Кроме того, случайные величины и независимы. Как уже отмечалось , случайная величина распределена нормально с параметрами и . Нормируем нормальную случайную величину , то есть вычтем из нее математическое ожидание и полученную разность разделим на ее среднее квадратическое отклонение. В результате получим нормальную случайную величину с нулевым математическим ожиданием и единичной дисперсией: . Случайная величина , имеющая распределение Стьюдента с числом степеней свободы , задается как функция от независимых нормированных нормальных случайных величин с помощью формулы: . Подставляя в эту формулу вместо абстрактной случайной величины величину , а вместо случайной величины величину , и учитывая, что , получим равенство: . Построена статистика с известным распределением вероятностей, и эту статистику легко применить для построения симметричного доверительного интервала. С этой целью по заданной надежности , числу степеней свободы , с помощью таблицы распределения Стьюдента, находят число такое, что верно неравенство: , то есть . Введем обозначение . Вот и все! Теперь с надежностью можно утверждать, что истинное значение математического ожидания заключено в пределах: . То есть доверительный интервал для математического ожидания нормальной случайной величины при неизвестной дисперсии имеет вид: , где . Следует отметить, что в некоторых таблицах вместо надежности используется вероятность противоположного события . ПРИМЕР 1. Произведено 9 экспериментов, в результате которых получены выборочные значения нормальной случайной величины , и вычислены выборочное математическое ожидание (выборочное среднее) и выборочная дисперсия . Найти доверительный интервал для математического ожидания случайной величины с надежностью . РЕШЕНИЕ. Найдем значение исправленной оценки среднего квадратического отклонения : . По таблице распределения Стьюдента по заданной надежности и числу степеней свободы находим значение . По формуле находим значение точности оценки: . Доверительный интервал для математического ожидания имеет вид: Комментарии. Роналд Эйлмер Фишер (1890, Лондон, – 1962, Аделаида, Австралия) – выдающийся статистик, биолог и генетик. Внес фундаментальный вклад в математическую статистику, разработал теорию оценок параметров распределений, теорию проверки статистических гипотез, теорию планирования эксперимента. По мнению многих специалистов именно Фишер заложил основы современной математической статистики. Фишер считается одним из основателей популяционной генетики. 6. Доверительный интервал для неизвестной дисперсии нормальной случайной величины Для того чтобы построить доверительный интервал для дисперсии нормального распределения, вся теорема Фишера не нужна. Достаточно утверждения о распределении «подправленной» выборочной дисперсии: . Надо по заданной надежности найти такой интервал , чтобы выполнялось неравенство . Двойное неравенство равносильно неравенствам и . Следовательно, несимметричный доверительный интервал для дисперсии нормальной случайной величины имеет вид: , где . Значения и определяются по распределению и по заданной надежности из условия . Задача нахождения чисел имеет бесконечно много решений. Для того чтобы в этом убедиться достаточно посмотреть на эскиз графика плотности распределения на рисунке 7. Рисунок 7. Эскизы графика плотности распределения величины Обычно считают, что площади и под кривой плотности распределения случайной величины слева от значения и справа от значения одинаковы. Так как общая площадь под кривой плотности равна единице (интеграл от плотности ), то всегда . А так как по предположению площади и одинаковы, то должны выполняться равенства . Таким образом, для получения подходящих значений величин и можно использовать условия: . Но чаще всего строится симметричный доверительный интервал для среднего квадратического отклонения. При этом используется распределения функции от этой случайной величины . Для того чтобы такую функцию получить, проделаем следующие преобразования: , поэтому . Следовательно, верны равенства: , . Используя распределение хи-квадрат, можно создать таблицу распределения вероятностей случайной величины , и для заданной надежности найти такое число , что выполняется равенство: . Тогда получится, что , , . Другими словами, симметричный доверительный интервал для среднего квадратического отклонения нормальной случайной величины имеет вид: . Значения чисел приводятся в таблицах. Например, такая таблица есть в задачнике «Руководство к решению задач по теории вероятностей и математической статистике» В.Е. Гмурмана (Приложение 4). Следует учесть, что в таблице Гмурмана для удобства число – это не число степеней свободы, а объем выборки!!! ПРИМЕР 1. Произведено 9 экспериментов, в результате которых получены выборочные значения нормальной случайной величины и вычислена выборочная дисперсия . Построить доверительный интервал для среднего квадратического отклонения с надежностью . РЕШЕНИЕ. Находим значение исправленной оценки среднего квадратического отклонения : . По таблице распределения случайной величины для значения и числа степеней свободы находим значение . Поэтому: , , , .

ВЫСШАЯ МАТЕМАТИКА

#Лекция

Оценки параметров распределений и доверительные интервалы для параметров

Тебе могут подойти лекции

Доверительные интервалы

Статистические оценки параметров распределения

Элементы математической статистики. Вариационные ряды и их характеристики

Оценка

Статистические оценки параметров распределения

Статистическое распределение выборки.

Статистическая оценка параметров распределения

Сравнение эффективности двух точечных оценок неизвестного параметра.

Понятие об интервальном оценивании

Основные свойства статистических характеристик параметров распределения. Построение доверительных интервалов

Оценки параметров распределений и доверительные интервалы для параметров

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ