Введение в математическую статистику

⌛ 2021 год
👀 884 просмотра
📌 805 загрузок
🏢️ НИУ ВШЭ

Выбери формат для чтения

Конспект лекции по дисциплине «Введение в математическую статистику», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Введение в математическую статистику», Word формат

Национальный Исследовательский Университет Высшая Школа Экономики. (Департамент Математики) Грибкова Надежда Викторовна Теория Вероятностей и Математическая Статистика (лекция 11) Санкт-Петербург, 2021 1 / 30 4 Глава 4. Введение в математическую статистику Термин "статистика"происходит от латинского слова "статус" (status) — состояние. Первоначально, в XVIII в., когда статистика начала оформляться в научную дисциплину, термин статистика связывался с системой описания фактов, характеризующих состояние государства. Изменения происходят в XIX в. Большой вклад внесли К.Ф.Гаусс, П.Лаплас, Пуассон. В начале XX в сложилась английская школа статистики (К.Пирсон, Р.Фишер). Термин «статистика» ввел в науку немецкий ученый Г.Ахенваль в 1746 году, предложив заменить название курса «Государствоведение», преподававшегося в университетах Германии, на «Статистику», тем самым положив начало развитию статистики как науки и учебной дисциплины. 2 / 30 4 Согласно Ахенвалю, слово “statistica” происходит от итальянского “statista”, означавшего государственный муж, человек, принимающий участие в государственных делах Конечно, статистический учет велся и в древние времена: проводились переписи населения в Древнем Китае, осуществлялось сравнение военного потенциала государств, велся учет имущества граждан в Древнем Риме и т. п. Однако, как отдельная наука, статистика начала формироваться именно в XVIII в., собственно, вместе с развитием теории вероятностей. Энциклопедическое определение Математическая статистика — это наука, занимающаяся разработкой методов регистрации, описания и анализа данных наблюдений и/или экспериментов с целью построения вероятностных моделей массовых случайных явлений и принятия решений в условиях неопределенности. 3 / 30 4 §4.1. Цели и задачи математ. статистики Основные задачи, решаемые математической статистикой 1. Идентификация вероятностных законов (распределений случайных величин), лежащих в основе наблюдений и/или экспериментов. 2. Оценка всевозможных числовых характеристик и параметров этих базовых распределений. 3. Статистическая проверка гипотез, т.е. различных предположений о законах распределения и параметрах этих законов, лежащих в основе данных наблюдений. 4. Изучение характера и степени зависимости между различными сторонами наблюдаемых случайных явлений и процессов. 5. Построение моделей взаимосвязи между случайными величинами и процессами и анализ адекватности этих моделей. 4 / 30 4 Примеры статистических задач Социология и политические науки ♦ изучение общественного мнения ♦ анализ и прогнозирование рейтингов политиков ♦ обнаружение нарушений (фальсификаций, вбросов) в процедуре выборов Доказательная медицина ♦ эпидемиология, анализ заболеваемости ♦ доказательства эффективности лекарств: например, создаются две группы пациентов: контрольная, где лекарство не применялось (напр., давалось плацебо), и экспериментальная, которой давалось лекарство. Статистические методы позволяют установить значимость эффекта действия лекарства ♦ статистический анализ выживаемости 5 / 30 4 Менеджмент и маркетинг ♦ выявление сегментов рынка продукции ♦ классификация (разбиение на группы) персонала ♦ изучение влияния рекламной кампании Экономика ♦ идентификация экономических законов. Например, существует закон Кобба-Дугласа: P = C · K α · Lβ , где P– объем продукции; K – инвестированный капитал; L– трудозатраты. C , α, β – неизвестные параметры, которые могут быть уточнены статистическими методами. ♦ определение латентных (скрытых) факторов, влияющих на экономические показатели (факторный анализ) ♦ выявление трендов и прогнозирование (регрессионный анализ и временные ряды). 6 / 30 4 Генетика ♦ анализ ДНК (сравнение индивидуумов) ♦ выявление групп генов, ответственных за определенные заболевания ♦ классификация генотипов Рекомендации для сельского хозяйства ♦ например, фермер, выращивающий томаты, хочет выбрать лучшее удобрение из трех доступных типов, отличающихся по содержанию фосфора: A,B,C. Он сажает томаты на трех контрольных делянках, на каждой вносит разные виды удобрений, затем определяет вес урожая на квадратный метр. Он получил три выборки: I (применялось удобрение A): X1 , X2 , . . . , Xn1 II (применялось удобрение B): Y1 , Y2 , . . . , Yn2 III (применялось удобрение C): Z1 , Z2 , . . . , Zn3 . Затем он может проверить гипотезу о том, влияет ли тип удобрения на урожайность: H0 : EX = EY = EZ против альтернативы, что отсутствует влияние типа удобрения на урожайность. 7 / 30 4 §4.2. Основная модель статистики. Выборка В базовой модели математической статистики (МС) предполагается, что исследователь провел n опытов, в каждом из которых производились измерения. Предполагается, что опыты проводились независимо друг от друга, причем каждый раз в одних и тех же условиях. При этом предполагается, что в каждом эксперименте измеряется значение некоторой случайной величины ξ(ω) (числовой характеристики эксперимента), определенной на вероятностном пространстве (Ω, A, P). Наблюдаемая случайная величина может быть и векторной (когда одновременно измеряются несколько характеристик), т.е., возможно, что ξ(ω) = (ξ1 (ω), ξ2 (ω), . . . , ξm (ω)) 8 / 30 4 В дальнейшем мы будем рассматривать в основном скалярные наблюдения. То есть, ξ — скалярная случайная величина с функцией распределения F (x) = P ξ < x , −∞ < x < ∞. Эта функция называется исходной функцией распределения (или генеральной, или теоретической), и все ее характеристики такие, как Eξ, D(ξ), значения различных параметров, также называются теоретическими (или генеральными). Эта функция неизвестна (по крайней мере частично), и первая задача математической статистики — извлечь из результатов наблюдений над ξ как можно больше достоверной информации о функции F (x) и о ее параметрах. 9 / 30 4 Множество возможных значений X наблюдаемой случайной величины вместе с ее законом распределения называется генеральной совокупностью случайной величины ξ (или просто совокупностью). Результат X1 одного измерения наблюдаемой случайной величины ξ интерпретируется, как выбор одной единицы генеральной совокупности. А весь полученный набор наблюдений X1 , X2 , . . . , Xn (1) называется выборкой из генеральной совокупности. Основываясь на одном наблюдении X1 , мы мало что можем сказать о распределении F (x) наблюдаемой случайной величины ξ, но если мы имеем много наблюдений (выборка репрезентативна), то мы можем извлечь гораздо больше информации о неизвестном распределении с.в. ξ и его параметрах. 10 / 30 4 Случайная выборка После того, как n экспериментов произведены и измерения сделаны, выборка (1) — это набор чисел. Однако до опыта результаты наблюдений неизвестны и представляют собой (теоретически) случайные величины Xi , i = 1, 2, . . . , n с тем же законом распределения, что и у ξ. Это приводит нас к следующей математической концепции. Определение 4.1 Случайной выборкой объема n из распределения с.в. ξ (или из генеральной совокупности ξ ) называется n независимых с.в. X1 , X2 , . . . , Xn с тем же законом распределения, что и у наблюдаемой с.в. ξ: FXi (x) = P(Xi < x) = P(ξ < x) = F (x), 11 / 30 4 §4.3 Понятие статистики Итак, когда мы произвели n экспериментов (событие ω произошло), в которых были сделаны наблюдения, мы получили просто числа Xi (ω), i = 1, 2, . . . , n, и это реализация выборки. Но до того, как эксперимент произведен (в нашем воображении), эти Xi — n независимых случайных величин с тем же законом распределения, что и у ξ. В практической части математическая статистика работает с числами, в теоретической части – со случайными величинами. Определение 4.2 Любая функция наблюдений X1 , X2 , . . . , Xn Tn = τ (X1 , X2 , . . . , Xn ), являющаяся случайной величиной, называется статистикой. 12 / 30 4 Примеры статистик Все выводы в математической статистике делаются на основании значений, принимаемых различными функциями наблюдений (то есть статистиками). Например, следующие функции являются статистиками: n T1 = 1X X1 + X2 + · · · + Xn Xi = X = n n — выборочное среднее, i=1 n T2 = 1X Xi − X n — среднее абсолютное отклонение, i=1 T3 = max X1 , X2 , . . . , Xn , T4 = min X1 , X2 , . . . , Xn 13 / 30 4 §4.4 Порядковые статистики Пусть X1 , X2 , . . . , Xn — выборка из распределения скалярной с.в. ξ. Определение 4.3 Выборочные значения X1 , X2 , . . . , Xn , упорядоченные по величине X(1) ≤ X(2) ≤ · · · ≤ X(n) (2) образуют вариационный ряд. Случайная величина X(i) называется i-й порядковой статистикой. Определение 4.4 Случайная величина (статистика) Wn = X(n) − X(1) называется размахом выборки. 14 / 30 4 Напоминание: квантили в теории вероятностей Пусть ξ — случайная величина с распределением F (x) = P ξ < x . Пусть p ∈ (0, 1). Вспомним, что число xp такое, что F (xp ) = P ξ < xp = p называется квантилью уровня p (или p 100% квантилью). Если F −1 (обратная функция) существует в точке p, то мы имеем xp = F −1 (p). Квантиль x0.5 уровня 0.5 (когда p = 0.5) называется медианой распределения F (x0.5 ) = P ξ < x0.5 = P ξ ≥ x0.5 = 0.5. Медиана – это точка, делящая вероятностную массу пополам. 15 / 30 4 Выборочные квантили Теперь мы определим статистические варианты квантили и медианы. Определение 4.5 Для p ∈ (0, 1) следующая статистика Xp = X([np]+1) называется выборочной (эмпирической) квантилью уровня p (или p 100% квантилью). Определение 4.6 Величина X0.5 , определенная как  X n ([ ]+1) , X0.5 = 1 2  X n +X n 2 ( ) ( +1) , 2 если n нечетное, если n четное 2 называется выборочной (эмпирической) медианой. 16 / 30 4 Пример 4.1 Рассмотрим выборку 0, 3.5, −1, 1.5, −3, 5. Вариационный ряд: −3, −1, 0, 1.5, 3.5, 5 Выборочный размах W6 = X(6) − X(1) = 5 − (−3) = 8, 25%, 50% и 75% квантили (первый квартиль, медиана, третий квартиль) соответственно: X0.25 = X([6/4]+1) = X(2) = −1; 1 1 X0.5 = X(3) + X(4) = (0 + 1.5) = 0.75; 2 2 X0.75 = X([18/4]+1) = X(5) = 3.5. 17 / 30 4 §4.4 Оценки и статистики Пусть X1 , X2 , . . . , Xn — выборка из распределения случайной величины ξ с неизвестной функцией распределения F (x), и пусть θ — некоторая числовая характеристика (или параметр) распределения. Например, θ = Eξ, или θ = D(ξ), или θ = E(ξ 2 ), или θ = x(0.25) (квартиль), и т.д. θ — неизвестная характеристика, и мы хотим оценить ее значение на основе наблюдений X1 , X2 , . . . , Xn . Поскольку в нашем распоряжении есть только наблюдения, мы можем оценить θ только с помощью некоторой функции наблюдений, т.е. статистики: θ̂n = τ (X1 , X2 , . . . , Xn ) « ˆ » — это обозначение для оценки в математической статистике. 18 / 30 4 Основные требования к оценкам Прежде всего, необходимо, чтобы оценка была бы в каком-то смысле близка к истинному значению θ. Но что означает «близость», когда наша оценка, будучи функцией наблюдений, является случайной величиной? Определение 4.7 (Состоятельность) Оценка θ̂n называется состоятельной, если при n → ∞, P θ̂n −→ θ, (3) то есть, для любого ε > 0 P |θ̂n − θ| ≥ ε −→ 0 при n → ∞. 19 / 30 4 Следующее свойство, определяющее качество оценки, — это несмещенность. Определение 4.8 (Несмещенность) Оценка θ̂n называется несмещенной, если для всех n ∈ N, Eθ̂n = θ. (4) Величина bn (θ) = Eθ̂n − θ называется смещением. У несмещенной оценки bn (θ) ≡ 0. Оценка называется асимптотически несмещенной, если bn (θ) −→ 0, при n → ∞. 20 / 30 4 §4.5 Выборочные среднее и дисперсия Оценками основных числовых характеристик распределения µ = Eξ (математического ожидания) и σ 2 = D(ξ) = E(ξ − µ)2 (дисперсии) являются выборочное среднее и выборочная дисперсия: n X = 1X Xi n — выборочное (эмпирическое) среднее. i=1 n Sn2 = 1X (Xi − X )2 n — выборочная (эмпирическая) дисперсия. i=1 Будут ли эти оценки "хорошими" с точки зрения состоятельности и несмещенности? 21 / 30 4 Предположим, что µ = Eξ существует. Тогда по закону больших чисел (по теореме Хинчина) имеем n X = 1X P Xi −→ EX1 = Eξ n i=1 при n → ∞. Следовательно, X – это состоятельная оценка µ = Eξ. Кроме того, n E X =E 1X Xi n i=1 n ! = 1 1X E(Xi ) = n Eξ = Eξ. | {z } n n i=1 = Eξ Следовательно, X — это несмещенная оценка для математического ожидания µ = Eξ. 22 / 30 4 Рассмотрим выборочную дисперсию Sn2 . Вначале напишем Sn2 = n n i=1 i=1 2 1X 1X 2 (Xi − X )2 = Xi − X , n n и, применяя закон больших чисел, получаем n Sn2 = 2 P 1X 2 Xi − X −→n→∞ E(X12 ) − (E(X1 ))2 = D(X1 ) = D(ξ) n i=1 Следовательно, Sn2 является состоятельной оценкой σ 2 = D(ξ). 23 / 30 4 Теперь исследуем оценку Sn2 на несмещенность, представив ее вначале в удобной для этого форме Sn2 = n n 2 1X 1X (Xi − X )2 = (Xi − µ) − (X − µ) n n i=1 = = = n 1X n 1X (Xi − µ) + (X − µ)2 n i=1 (Xi − µ)2 − 2(X − µ)2 + (X − µ)2 i=1 n 1X n n (Xi − µ)2 − 2(X − µ) · i=1 n 1X n i=1 (Xi − µ)2 − (X − µ)2 . i=1 24 / 30 4 Имеем n E(Sn2 ) = E 1X (Xi − µ)2 n ! − E(X − µ)2 i=1 = n 1X n i=1 1 E(Xi − µ)2 −E(X − µ )2 = n D(ξ) − D X |{z} | {z } n = D(ξ) =E(X ) =D(ξ) − D X , где n D X =D 1X Xi n i=1 ! n X 1 = 2D Xi n ! = i=1 = n 1 X D(Xi ) n2 i=1 1 D(ξ) n D(ξ) = n2 n 25 / 30 4 В результате вычислений находим, что E(Sn2 ) = D(ξ) − D(ξ) n−1 = D(ξ) < D(ξ). n n Таким образом, выборочная дисперсия является смещенной оценкой дисперсии D(ξ), но асимптотически несмещенной, поскольку n−1 n →1 при n → ∞. Однако для малых значений n (≈ 100, что часто бывает на практике) смещение (следовательно, ошибка) оценки довольно большое. Однако оценку легко исправить путем введения корректирующего множителя, получив при этом несмещенную оценку: n σ̂n2 2 1 X n Sn2 = Xi − X = n−1 n−1 i=1 26 / 30 4 Резюмируем: состоятельными и несмещенными оценками для математического ожидания и дисперсии являются n X = 1X Xi , n i=1 и n σ̂n2 2 1 X = Xi − X n−1 i=1 соответственно. 27 / 30 4 §4.6 Оценки ковариации и коэфф. корреляции Пусть наблюдаются значения случайного вектора (ξ, η): (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) — случайная выборка. Хотим оценить характеристики зависимости. Вспомним, что cov (ξ, η) = E (ξ − Eξ)(η − Eη) . n 1X Xi − X Yi − Y – выборочная ковариация, n i=1 P P X = n1 ni=1 Xi , Y = n1 ni=1 Yi cd ov n = где 28 / 30 4 Оценка коэффициента корреляции Вспомним определение коэффициента корреляции: cov (ξ, η) ρ(ξ, η) = p D(ξ)D(η) Его статистическая оценка: cd ov n ρ̂n = p = Sn2 (X ) Sn2 (Y ) 1 Pn i=1 n q P n 1 i=1 (Xi n Yi − Y P − X )2 n1 ni=1 (Yi − Y )2 Xi − X В числителе и знаменателе есть множитель 1/n, после сокращения получаем окончательную формулу оценки: Pn i=1 Xi − X Yi − Y ρ̂n = qP Pn n 2 2 i=1 (Xi − X ) i=1 (Yi − Y ) 29 / 30 4 §4.8 Оценки парам. асимметрии и эксцесса Aξ = Eξ03 = E (ξ − Eξ)3 — генеральный параметр асимметрии, σξ3 его статистическая оценка: 1 Pn 3 i=1 (Xi − X ) n Ân = , Sn3 Eξ = Eξ04 − 3 = где Sn3 = (Sn2 )3/2 E (ξ − Eξ)4 − 3 — генеральный параметр эксцесса, σξ4 его статистическая оценка: 1 Pn 4 i=1 (Xi − X ) n Ên = − 3, Sn4 где Sn4 = (Sn2 )2 30 / 30

ЭКОНОМЕТРИКА

#Лекция

Введение в математическую статистику

Тебе могут подойти лекции

Эконометрика

Математическая статистика. Применение в профессиональной деятельности

Эконометрическое моделирование. Предпосылки метода наименьших квадратов

Введение в теорию вероятностей. Метод Монте-Карло. Сравнение оценок

Парная линейная регрессия

Системный подход к решению задач управления. Математическая статистика. Системный анализ

Математические методы в исследовании экономики. Этапы построения математических моделей. Управление запасами

Прикладная математика. Сложные системы и их стохастические модели

Эконометрика

Прикладная теория вероятностей

Введение в математическую статистику

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ