Статистическое распределение выборки.

👀 5799 просмотров
📌 5723 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Статистическое распределение выборки.», docx

Загружаем конспект в формате docx

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Статистическое распределение выборки.», Word формат

Лекция 7. Статистическое распределение выборки. Вопросы: 1. Математическая статистика и ее задачи. 2. Понятие выборки. Эмпирическая функция распределения. Полигон и гистограмма. 3. Важнейшие характеристики выборки. 4. Статистические оценки. Свойства точечных оценок 5. Точечные оценки математического ожидания и дисперсии. Принцип максимального правдоподобия построения точечных оценок. 6. Интервальные оценки 1. Математическая статистика и ее задачи Слово «статистика» произошло от латинского «статус» - государство. Этим словом в 18 веке стали обозначать разного рода сведения о государстве (данные о численности населения, экономике и т.п.). Развитие общества и науки привело к тому, что «статистикой» стали называть целую науку. Математическая статистика, как наука, занимается созданием методов сбора и обработки статистических данных для получения научных и практических выводов. Отдельные показатели, вычисленные по результатам наблюдений (например, средний уровень жизни) также часто называются статистиками. Методы математической статистики позволяют представить множество результатов в компактном, удобном виде, выделить существенную информацию. Если оказывается, что данных недостаточно для понимания сути явления и требуется проведение дополнительных экспериментов, то методы математической статистики позволяют ответить на вопрос, как такой эксперимент поставить и как затем обработать его результаты. Среди задач, решаемых математической статистикой, можно выделить 3 основных класса: 1. Приближенное определение закона распределения случайных величин. 2. Приближенное определение параметров распределения случайных величин. 3. Проверка правдоподобия гипотез о распределении случайных величин. Другими словами, математическая статистика разрабатывает математический аппарат прикладной статистики, т.е. находит и с помощью теории вероятностей обосновывает различные методы обработки и анализа результатов наблюдений. 2. Понятие выборки. Эмпирическая функция распределения. Полигон и гистограмма Пусть требуется изучить совокупность однотипных объектов (людей, машин, деталей) или явлений (заболеваний, увлечений,…). Изучать объект или явление можно, с точки зрения качественного или количественного признака. Скажем, если объекты – это детали, то количественным признаком может быть контролируемый размер детали, а качественным – ее стандартность. В обоих случаях с деталью признак можно рассматривать как случайную величину Х: в 1-ом случае – непрерывную, во 2-ом – дискретную (если х = 0 – дефектная, х = 1 – стандартная). Всё интересующее нас множество объектов называется генеральной совокупностью. В статистике применяют два основных подхода: метод сплошных наблюдений и выборочный метод. Однако на практике сплошные наблюдения проводят редко, так как это дорого и долго. Выборочный метод основан на том, что из всей обследуемой совокупности случайно отбирают часть элементов. Выборочной совокупностью или выборкой называется совокупность случайно отобранных объектов. Объемом выборки называется число объектов этой совокупности. Чтобы выборка достаточно хорошо представляла пропорции генеральной совокупности, чтобы результат обследования не оказался случайным, ложным, необходимо, чтобы выборка была репрезентативной (представительной). Это достигается случайностью выбора, когда каждому элементу обеспечивается равная со всеми остальными элементами вероятность попасть в выборку. Выбор элемента из совокупности и измерение значений признака называется статистическим наблюдением. Значение признака может изменяться от объекта к объекту. Это изменение называется вариацией, а значение признака – вариантой. Если значения признака сгруппировать по отдельным значениям (дискретная выборка) или интервалам значений (интервальная выборка) и расположить в порядке возрастания значений, получим вариационный ряд. Частотой признака или интервала называется число элементов данной выборки с данной вариантой или принадлежащих данному интервалу: ni. Отношение частоты к объему выборки называют относительной частотой или частостью: ni/n. Статистическим распределением выборки называется таблица из 2-х строк. В верхней строке в порядке возрастания указаны наблюдаемые значения , во 2-й – соответствующие им частоты или относительные частоты. Эмпирической функцией распределения называют функцию , определяющую для каждого значения х относительную частоту события Х < х: , где - число вариант, меньших х; n – объем выборки. В отличие от эмпирической функции распределения, определяемой по выборке, функцию распределения генеральной совокупности называют теоретической. Отличие между этими функциями состоит в том, что F(x) определяет вероятность события Х < х, а - относительную частоту этого события. Свойства : 1. ; 2. - неубывающая функция; 3. =0, при х<х1; =1, при х>хn. Полигоном частот (относительных частот) называют ломаную линию, отрезки которых соединяют точки с координатами . Гистограммой частот (относительных частот) называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высоты . Гистограммы целесообразно использовать в случае непрерывного признака. Длины частичных интервалов могут быть и не равными. 3. Важнейшие характеристики выборки 1. Статистический начальный момент k-того порядка: . Если использовать интервальный вариационный ряд, то в качестве хi выступает середина каждого интервала. Средним выборочным называют среднее арифметическое значений признака – 1-й начальный момент. , - генеральное среднее, . 2. Статистическим центральным моментом k-того порядка называют . Выборочной дисперсией называют среднее арифметическое квадратов отклонений вариант от их средней – 2-й центральный момент. , - генеральная дисперсия, Теорема: дисперсия равна среднему арифметическому квадратов значений признака – квадрат общей средней. . Доказательство: . 3. Выборочное среднеквадратическое отклонение: . 4. Если все значения признака разбиты на несколько групп, то можно говорить о групповой и общей средней. Групповой средней называют среднее арифметическое значений признака, принадлежащих группе: . Общей средней называют среднее арифметическое значений, принадлежащих всей совокупности . Например, Группа 1 2 Значение признака 1 2 3 4 Частота 10 15 5 15 Объем 25 20 1) (10+30)=40/25=8/5; 2) (15+60)=75/20=15/4; 3) . 5. Если все значения признака разбиты на группы, то можно говорить о групповой, внутригрупповой, межгрупповой и общей дисперсиях. Групповой дисперсией называют дисперсию значений признака, принадлежащих группе, относительно групповой средней. , - объем группы, j – номер группы. Внутригрупповой дисперсией называют среднее арифметическое групповых дисперсий, взвешенное по объемам групп: , . Межгрупповой дисперсией называют дисперсию групповых средних относительно общей средней: . Общей дисперсией называют дисперсию значений признака всей совокупности относительно общей средней. . Справедлива формула: . Пример. Для предыдущего примера. 1) ; ; 2); ; 3) ; ; 6. Медиана – значение серединного элемента вариационного ряда. 7. Размах вариационного ряда: k = хmax – xmin. 8. Коэффициент вариации: . 4. Статистические оценки. Свойства точечных оценок Одной из задач математической статистики является определение неизвестных параметров распределения бесконечной совокупности по известной конечной выборке. Поскольку элементы выборки являются случайными величинами, то случайным будет и значение параметра, определенное по этой выборке. {Если – неизвестный параметр, а – его оценка, то = (х1, х2, …, хn}. Если, например, имеется несколько выборок одного и того же объема из одной совокупности, то каждая из них даст свое значение интересующего параметра. Поэтому по конечной выборке нельзя точно судить о значении параметра, а можно лишь более или менее точно оценить этот параметр. Численные значения отдельных параметров, определенные по конечной выборке, называются оценками параметров. Оценки бывают двух видов: точечные и интервальные. Точечная оценка характеризуется одним числом – приближенным значением оцениваемого параметра. Точечная оценка используется при выборках большого объема. Интервальная оценка определяется двумя числами – концами интервала. Интервальная оценка используется при выборках малого объема. Рассмотрим свойства точечных оценок. Итак, – истинное значение параметра, - точечная оценка. В наших примерах под часто понимают математическое ожидание или дисперсию. Как подобрать оценку так, чтобы вне зависимости от случайности элементов выборки, оценка была бы «хорошей». Под хорошей понимают такую оценку, которая с большой вероятностью близка к истинному . Поэтому точечная оценка должна обладать следующими тремя свойствами: 1. Несмещенность. Оценка не должна содержать систематической ошибки, преувеличивающей или преуменьшающей значение параметра для всех выборок. Это означает, что математическое ожидание оценки должно совпадать с истинным значением параметра М(n)= , для каждого n. 2. Состоятельность. Оценка должна приближаться к значению параметра по мере увеличения объема выборки. Так как оценка является случайной величиной, об этом приближении можно говорить лишь в вероятностном смысле. Таким образом, , для . 3. Эффективность. Эффективной будет та из несмещенных оценок, у которой при данном объеме n дисперсия минимальна D()=min. 5. Точечные оценки математического ожидания и дисперсии. Принцип максимального правдоподобия построения точечных оценок Рассмотрим точечные оценки математического ожидания и дисперсии. Теорема: Выборочное среднее является несмещенной и состоятельной оценкой математического ожидания значений признака генеральной совокупности. Доказательство: 1. Сделаем из генеральной совокупности Х репрезентативную выборку объема n. Будем считать, что значения признака различны, и рассматривать величину как случайную. Величины х1, …, хn – независимые одинаково распределенные случайные величины Х1, …, Хn (так как принадлежат одной генеральной совокупности). Следовательно, математические ожидания значений признака всей совокупности. Тогда , т.е. оценка несмещенная. 2. Пусть величины Х1, …, Хn имеют ограниченную дисперсию. Мы вправе применить к ним теорему Чебышева о том, что при увеличении n среднее арифметическое рассматриваемых величин, т.е. () сходится по вероятности к среднему арифметическому их математических ожиданий, т.е. так как , то . Следовательно, является состоятельной оценкой . Теорема: дисперсия выборочной средней в n раз меньше генеральной дисперсии. Доказательство: сделаем репрезентативную выборку объема n. Все значения признака различны и , . Эти же характеристики имеет вся генеральная совокупность. . Следствие: . Можно показать, что выборочная дисперсия является смещенной оценкой генеральной дисперсии, а именно. Теорема: математическое ожидание выборочной дисперсии в раз меньше генеральной дисперсии: . Доказательство: сделаем репрезентативную выборку. , . . Так как одинаковы, то одинаковы будут и . Рассмотрим: Так как Хi независимые случайные величины, то независима и величина (), , то (предыдущая теорема). . Чтобы получить несмещенную оценку надо выборочную дисперсию умножить на . Исправленная дисперсия является несмещенной оценкой генеральной дисперсии. . При большом n (n > 30) и отличаются мало, при небольшом n (n < 30) используется . Оценка среднеквадратического отклонения или являются смещенными, однако это смещение несущественно. Принцип максимального правдоподобия построения точечных оценок Метод наибольшего правдоподобия точечной оценки неизвестных параметров заданного распределения сводится к отысканию max функций одного или нескольких оцениваемых параметров. Пусть имеется случайная величина Х, дискретная или непрерывная, закон распределения которой задан, но неизвестен параметр . Требуется найти его точечную оценку. Сделана выборка х1, …, хn объема n. Функцией правдоподобия случайной величины называют функцию аргумента θ: Здесь - вероятность дискретной случайной величины принять значение хi, - плотность распределения в точке хi. По методу наибольшего правдоподобия за оценку принимается значение аргумента, при котором L принимает max значение, т.е. значение, при котором вероятность получения данных значений выборки max. Так как max ln L достигается при том же значении, что и L при фиксированных х1, …, хn, то решают уравнение правдоподобия: . (1) Корни уравнения (1) - θ* или критические точки ln L. Если в θ* вторая производная Найденная точка θ* - оценка наибольшего правдоподобия. Эта оценка является состоятельной, асимптотически эффективной и нормальной. Если параметров два θ1 и θ2, то функция правдоподобия и для отыскания max решают систему . Пример. Х – время безотказной работы элемента имеет показательное распределение , х 0. Получено эмпирическое распределение n = 1000 элементов: где хi – среднее время безотказной работы одного элемента; ni – количество элементов. Определить методом наибольшего правдоподобия точечную оценку . Решение: 1. Составим функцию правдоподобия: . . 2. Запишем уравнение правдоподобия: ; ; . 3. Проверим условие max: - точка max. 4. ; Ответ: 6. Интервальные оценки Точечные оценки дают приближенное значение неизвестного параметра. Если известен закон распределения оценки или ее дисперсия, то можно указать пределы, в которых с большой вероятностью находится неизвестное значение параметра. Иногда дисперсия сама может зависеть от неизвестного параметра, тогда границы, в которых лежит неизвестный параметр, тоже от него зависят. Поступим следующим образом. Пусть – оцениваемый параметр распределения случайной величины Х, а = - оценка этого параметра, полученная по выборке х1, …, хn. Очевидно, что оценка тем точнее определяет параметр , чем меньше . Следовательно, если и , то характеризует точность. Статистические методы не позволяют категорически утверждать, что оценка удовлетворяет неравенству , можно лишь говорить о вероятности , с которой выполняется это неравенство. Надежностью (доверительной вероятностью) оценки , отвечающей точности , называется вероятность , с которой осуществляется неравенство: . Выбор доверительной вероятности полностью зависит от исследователя и определяется, в первую очередь, физической сутью рассматриваемого явления. В математической статистике обычно используется = 0,9; 0,95; 0,99; реже 0,999 и т.д. Неравенство можно записать в виде: . Полученный интервал называется доверительным. Надо понимать, что не является вероятностью параметру принадлежать интервалу (). Вероятность - это вероятность, с которой построенный по выборке доверительный интервал накроет значение . Вероятность для любой случайной величины попасть в некоторый интервал легко определяется, если известен закон распределения. Таким образом, для определения доверительного интервала необходимо знать закон распределения. На практике обычно используют два типа доверительных интервалов: симметричный и односторонний. Доверительный интервал для оценки математического ожидания нормального распределенного признака при известном Пусть имеется выборка х1, …, хn из значений нормально распределенного признака Х, N(a; ). Параметр известен. Определим доверительный интервал для а. Случайная величина имеет нормальное распределение с параметрами , (в силу центральной предельной теоремы при больших n). Следовательно, величина распределена нормально с параметрами и ее распределение не зависит от а. Тогда симметричный интервал будет иметь вид: ; или . Неравенство, стоящее в скобках, можно переписать в виде: . Таким образом, мы получим интервал, в котором оказывается а. Вероятность этого интервала выбирается заранее. Следовательно, зная , можно определить t из условия: , затем определить точность: и получить границы искомого интервала: . Односторонние интервалы определяются аналогично: и, следовательно, и, следовательно, Доверительный интервал для оценки математического ожидания нормально распределенного признака при неизвестном Ситуация, когда неизвестны оба параметра, более естественна. Пусть опять имеется выборка х1, …, хn из значений Х с N (a; ). Известно, что случайная величина имеет распределение Стьюдента с (n - 1) степенью свободы. Распределение Стьюдента симметрично и определяется объемом выборки n и не зависит от а и . Зададим . По таблицам распределения Стьюдента можно определить величину или по таблицам критических точек для двустороннего интервала (). Неравенство в скобках, как и ранее, можно записать в виде: , получив доверительный интервал для оценки а, здесь S – исправленное выборочное среднеквадратическое отклонение. Односторонние интервалы можно получить следующим образом. 1. . По таблицам критических точек для одностороннего интервала определяется и, интервал примет вид: . 2. . А интервал: . Доверительный интервал для оценки среднеквадратического отклонения нормально распределенного признака Пусть имеется выборка х1, …, хn из значений нормально распределенного признака Х. Требуется построить доверительный интервал для с надежностью . В качестве оценки используем S – исправленное выборочное среднеквадратическое отклонение. Пусть . Рассмотрим неравенство в скобках . . Обозначим q = : / : S. . Пусть для определенности q < 1, тогда / ; ; . Случайная величина имеет распределение с (n-1) степенью свободы. Таким образом, . По таблицам величины определим параметр q и построим доверительный интервал: , если q < 1; , если q > 1. В теории ошибок принято точность измерений (точность прибора) характеризовать при помощи среднеквадратического отклонения случайных ошибок измерений. Для оценки используют исправленное среднеквадратическое отклонение S. Так как результаты измерений взаимно независимы и имеют одинаковое распределение, то доверительный интервал для применим для оценки измерений.

ВЫСШАЯ МАТЕМАТИКА

#Лекция

Статистическое распределение выборки.

Тебе могут подойти лекции

Математическая статистика; типичные задачи

Элементы математической статистики

Основные понятия математической статистики

Элементы математической статистики. Вариационные ряды и их характеристики

Математическая статистика

Математическая статистика

Методы проверки статистических гипотез в педагогических исследованиях.

Математическая статистика

Математическая статистика; описательная (дескриптивная) статистика

Генеральная совокупность и выборка. Эмпирическая функция распределения, гистограмма и полигон частот)

Статистическое распределение выборки.

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ