Закон больших чисел как основа математической статистики. Выборка, выборочное распределение и выборочные характеристики
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 1
Введение. Закон больших чисел как основа математической статистики. Выборка, выборочное распределение и выборочные характеристики.
Гистограмма, метод условных вариант
Цифры обманчивы, особенно когда я сам ими занимаюсь; по этому поводу справедливо высказывание, приписываемое Дизраэли:
«Существует три вида лжи:
ложь, наглая ложь и статистика».
Марк Твен. Главы моей автобиографии. 1907 год.
Согласно одному из существующих определений статистика – это отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, анализа массовых статистических (количественных или качественных) данных, и выработки рекомендаций на основе анализа. На любом из отмеченных этапов возможны непреднамеренные ошибки, а также сознательные подлоги, преувеличения, преуменьшения и искажения, продиктованные конъектурными интересами. Именно эти возможности отражены в цитате выдающегося американского писателя.
Математическая статистика может рассматриваться как часть статистики вообще, и как ее необходимый элемент, если речь идет об обработке информации о большой массовой совокупности объектов той или иной природы, полученной с помощью случайного отбора сравнительно небольшого числа объектов. По этой причине задача получения представительных экспериментальных данных и даже задача принятия наилучшего в некотором смысле решения иногда рассматриваются как части математической статистики. Представляется, однако, что собственно математическая статистика имеет дело со случайной, в общем случае многомерной, величиной . И не важно, чем обеспечивается эта случайность: природой случайной величины или случайным отбором. А основная формальная задача математической статистики заключается в том, чтобы по полученным экспериментальным данным как можно более точно восстановить закон распределения вероятностей этой величины.
При таком понимании математическая статистика, в отличие от статистики вообще, становится настоящей математической наукой, основанной на теории вероятностей, и освобождается от большей части обвинений в преднамеренной недостоверности. Но число экспериментов конечно, экспериментальных данных всегда не хватает. Поэтому в математической статистике разрабатывались методы получения наиболее важной информации о законе распределения случайной величины по не очень большому количеству опытных данных. Наибольшее значение и распространение в математической статистике получили три раздела: теория оценивания параметров распределения; теория статистических гипотез; теория зависимости случайных величин, на которых в дальнейшем мы остановимся.
Учебное пособие «Основы математической статистики» является продолжением учебного пособия «Основные понятия математической статистики». Вместе оба пособия содержат все необходимые темы курса теории вероятностей и математической статистики или соответствующих разделов общего курса математики. Особое внимание авторы уделяют логическим обоснованиям математической статистики. С этой целью из пособия по теории вероятностей в это пособие перенесен закон больших чисел, а многие пункты пособия снабжены дополнениями и комментариями. В дополнения выносятся доказательства некоторых предложений и примеры, которые, по мнению авторов, перегружают основной текст, и при первом знакомстве с материалом пособия могут быть опущены. А в комментариях обсуждаются вопросы методологического характера и сообщаются некоторые сведения исторического типа. Все пункты пособия насыщены примерами, которые иллюстрируют и дополняют теоретический материал.
1. Понятие о законе больших чисел.
Теорема Чебышева, теорема Бернулли и теорема Хинчина
Закон больших чисел (ЗБЧ) – это группа теорем теории вероятностей, в которых утверждается, что при выполнении некоторых условий усредненные суммы последовательностей случайных независимых или слабо зависимых величин при достаточно большом числе слагаемых ведут себя практически так же как постоянные величины. Поэтому закон больших чисел доставляет теоретическое объяснение устойчивости многих наблюдаемых явлений материального мира, зависящих от множества случайностей. Примером может служить понятие давления газа на стенки сосуда, которое, в соответствии с молекулярной статистической теорией, является усредненным результатом ударов молекул газа о стенки сосуда.
Теорема Чебышева является одной из основных теорем группы ЗБЧ. Для того чтобы сформулировать эту теорему, необходимо придать смысл понятию сходимости последовательностей случайных величин. Речь идет не об обычных числовых величинах, а о величинах случайных, поэтому такая сходимость должна быть связана с вероятностью. Существует несколько определений сходимости случайных величин, в данном случае удобным оказывается понятие сходимости по вероятности.
Говорят, что последовательность случайных величин при сходится по вероятности к случайной величине : , если для любого числа >0 верно равенство , или, что эквивалентно, равенство .
Если вспомнить определение обычного предела числовой последовательности и добавить к этому определению понятие практически достоверного события, то расшифровать определение сходимости по вероятности можно следующим образом. Для любых как угодно малых положительных чисел и существует такой номер , что для всех справедливы неравенства . Другими словами, при достаточно больших значениях случайные величины будут практически достоверно отличаться от случайной величины не более, чем на как угодно маленькое число .
Теорема Чебышева. Пусть – последовательность независимых случайных величин, имеющих конечные математические ожидания и дисперсии . Пусть, кроме того, дисперсии всех членов бесконечной последовательности не превосходят одной и той же константы : . Тогда последовательность разностей средних значений случайных величин и их математических ожиданий сходится по вероятности к нулю: , ,
.
Слабый вариант теоремы Чебышева. Пусть – последовательность независимых, одинаково распределенных случайных величин, имеющих конечное математическое ожидание и дисперсию . Средние арифметические частичных сумм этих величин при сходятся по вероятности к их математическому ожиданию:
.
В теореме Бернулли речь идет о сходимости относительных частот случайных событий к их вероятностям. Мы полагаем, что именно эта теорема устанавливает связь между теорией вероятностей и математической статистикой. Яков Бернулли доказал свою теорему в самом начале восемнадцатого столетия аналитически в отмеченных выше терминах и (см. Комментарии). Однако теорема Бернулли может быть доказана как следствие слабого варианта теоремы Чебышева. При этом как раз и выясняется связь теоремы Бернулли с законом больших чисел.
Теорема Бернулли. Последовательность относительных частот случайного события сходится при по вероятности к вероятности этого события: .
Доказательство. Относительная частота события вычисляется по формуле . В этой формуле – число экспериментов (независимых испытаний), а – число тех экспериментов, в которых произошло событие . Случайная величина является биномиальной случайной величиной с параметрами и . Пусть – случайная величина, которая принимает значение 1, если в -м эксперименте произошло событие , и значение 0, если событие в -м эксперименте не произошло. Пусть – вероятность события, противоположного событию . Таблица распределения вероятностей любой случайной величины имеет вид:
1
Эксперименты независимы, случайные величины тоже независимы, их общее математическое ожидание , а общая дисперсия равна . Справедливо равенство , поэтому . Условия теоремы Чебышева выполнены, следовательно: .
Слабый вариант теоремы Чебышева полезен для обоснования некоторых понятий математической статистики. Однако следующая теорема существенно усиливает слабую теорему Чебышева.
Теорема Хинчина. Пусть – последовательность независимых, одинаково распределенных случайных величин, имеющих конечное математическое ожидание. Тогда средние арифметические частичных сумм этих величин при сходятся по вероятности к их общему математическому ожиданию: .
Замечание. Напомним, что существование конечного математического ожидания случайной величины равносильно существованию конечного математического ожидания случайной величины . Для дискретных и непрерывных (абсолютно непрерывных) случайных величин это означает, что соответствующие ряды и интегралы сходятся абсолютно.
Комментарии. Первой и главной теоремой группы ЗБЧ следует считать теорему выдающегося швейцарского математика Якоба Бернулли, совершенно строго доказанную автором в четвертой части его знаменитой книги «Искусство правдоподобия». Книга была опубликована в 1713 году, уже после смерти автора. Много позже, в 1837 году, была издана работа знаменитого французского математика и физика Пуассона «Исследование о вероятности приговоров в уголовных и гражданских делах». В этой книге теорема Бернулли была значительно усилена. Пуассон доказал, что даже если в независимых испытаниях вероятности события могут изменяться, относительная частота все равно будет при увеличении числа испытаний как угодно мало отличаться от среднего арифметического вероятностей с любой степенью достоверности. Это свое утверждение Пуассон и назвал законом больших чисел. Наконец, в 1846 году обобщением теоремы Пуассона занялся выдающийся русский математик Пафнутий Львович Чебышев. Свой последний вариант закона больших чисел Чебышев опубликовал в 1887 году. Исследования в этом направлении продолжил его ученик Андрей Андреевич Марков. Марков исследовал поведение средних арифметических значений зависимых случайных величин и получил для этого случая ряд замечательных теорем. Именно в результате этих исследований возникла теория цепей Маркова. Выдающийся советский математик Александр Яковлевич Хинчин (1894 – 1959) известен своими работами по теории функций и теории вероятностей. В теории вероятностей ему принадлежат доказательства нескольких предельных теорем, в частности, теорем группы закона больших чисел.
2. Выборка, выборочное распределение и выборочные характеристики
Пусть – случайная -мерная величина. Проведем серию n экспериментов, в результате которых получим значения этой случайной величины. Эти значения называются выборочными значениями случайной величины или вариантами, а их совокупность называется выборкой объема . Термин «выборка» исторически появился при применении методов математической статистики к исследованию больших совокупностей объектов с помощью выборочного метода, то есть случайного отбора некоторого количества объектов. Множество всех объектов называлось «генеральная совокупность», и этот термин тоже используется в учебной литературе по математической статистике.
Обозначим через , , разные значения, которые встречаются в выборке. Символом обозначим количество повторений значения , так что . Выборочная случайная величина – это дискретная случайная величина , возможными значениями которой являются выборочные значения , а вероятности совпадают с относительными частотами случайных событий : . Выборочное распределение – это распределение случайной величины , а выборочные характеристики – это характеристики случайной величины . В частности, выборочные моменты (начальные и центральные) – это моменты выборочной дискретной случайной величины , а выборочная функция распределения вероятностей – это обычная функция распределения вероятностей дискретной случайной величины .
Для того чтобы прояснить связь выборочного распределения с теоретическим распределением, напомним, что такое закон распределения вероятностей случайной величины . С достаточно строгой точки зрения закон распределения вероятностей – это правило, по которому определяются вероятности попадания в l-мерные параллелепипеды. Пусть – такое множество в и – число выборочных значений, попавших в это множество. Относительная частота события совпадает с вероятностью события : . По теореме Бернулли последовательность частот случайного события при увеличении числа экспериментов сходится по вероятности к теоретической вероятности этого события: . Поэтому при достаточно большом объеме выборки вероятности можно с большой степенью точности заменить частотами, а теоретическое распределение заменить выборочным распределением. Другими словами, можно считать, что справедливо приближенное равенство: .
Для обоснования связи между выборочным и теоретическим распределением можно использовать и фундаментальное понятие функции распределения. Значение функции распределения вероятностей в точке равно вероятности попадания случайной величины в бесконечный прямоугольный параллелепипед с вершиной в точке : . Пусть – число выборочных точек, попавших в параллелепипед . Выборочная функция распределения определяется равенством , значение выборочной функции распределения в точке равно относительной частоте события , . Относительные частоты случайных событий сходятся по вероятности к вероятностям этих событий. Следовательно, последовательности эмпирических функций распределения при увеличении объема выборок сходятся по вероятности к теоретической функции распределения в любой точке : .
В одномерном случае удобно располагать числовые выборочные значения случайной величины в порядке возрастания (не убывания). В результате получается вариационный (статистический) ряд:
.
ПРИМЕР 1. Проведено 6 экспериментов и получена выборка: . Записать выборку в виде вариационного ряда. Представить выборочное распределение в виде таблицы распределения вероятностей. Построить график выборочной функции распределения и записать ее аналитически. Вычислить выборочное математическое ожидание (выборочное среднее) , выборочную дисперсию , выборочное среднее квадратическое отклонение . Найти выборочную моду .
РЕШЕНИЕ. Вариационный ряд: . Ниже представлены таблица распределения вероятностей выборочной случайной величины и график выборочной функции распределения (рисунок 1).
2
3
4
Рисунок 1. График выборочной функции распределения
Аналитическая запись выборочной функции:
,
,
,
.
Наивероятнейшее значение выборочной случайной величины , то есть выборочная мода, очевидно, равно 3, .
Следующее предложение показывает, что при вычислении выборочных числовых характеристик можно считать, что случайная величина каждое выборочное значение принимает с вероятностью .
Теорема о выборочных характеристиках. Если теоретическая числовая характеристика является математическим ожиданием функции , в частности, если это какой-либо момент, то выборочные значения такой характеристики можно вычислять по формуле:
.
Доказательство. Исходная формула для выборочной функции случайных величин имеет вид: . Эта формула может быть преобразована следующим образом:
.
Отметим, что для непрерывной случайной величины утверждение можно понимать буквально, потому что непрерывная случайная величина каждое конкретное значение может принимать только с нулевой вероятностью. Поэтому и вероятность того, что в выборке встретятся одинаковые значения, тоже равна нулю. Одинаковые значения иногда встречаются, но это явление можно объяснить низкой точностью выбранного десятичного представления чисел и погрешностями эксперимента.
В частных случаях формулы для простейших выборочных числовых характеристик обычно записываются следующим образом.
Выборочное математическое ожидание: .
Выборочная дисперсия и выборочное среднее квадратическое отклонение: , или , где ; .
Выборочные корреляционный момент и коэффициент корреляции:
, или ;
.
В последнем случае – двумерная случайная величина, а выборка «из двумерной генеральной совокупности» – это множество упорядоченных пар: , которые можно рассматривать как точки на координатной плоскости.
К приведенному списку простейших выборочных характеристик надо добавить выборочную моду и выборочную медиану. Выборочная мода самым естественным образом уже была определена в примере 1: – это наиболее вероятное значение выборочной случайной величины , то есть то выборочное значение, которое чаще других встречается в выборке. Напомним, что теоретическая медиана «делит распределение пополам»: . Поэтому выборочная медиана определяется как число, делящее пополам вариационный ряд . Точнее, если – нечетное число, то – середина вариационного ряда. Если же – четное число, то
ПРИМЕР 2. – одномерная случайная величина. Получена выборка: . Найти значения выборочного математического ожидания, выборочной дисперсии и выборочного среднего квадратического отклонения. Записать выборку в форме вариационного ряда, найти выборочную моду и выборочную медиану.
РЕШЕНИЕ. Объем выборки . Выборочное среднее:
.
Выборочная дисперсия и выборочное среднее квадратическое отклонение:
,
.
Вариационный ряд: . Чаще других выборочных значений, 3 раза, встречается значение 1. Следовательно, . Здесь – четное число, поэтому .
Замечания. Для вычисления выборочных моментов с выборкой ничего делать не надо. Для того чтобы найти выборочную моду и медиану, надо расположить выборку из одномерной совокупности в форме вариационного ряда. А для записи и изображения выборочной функции распределения необходимо найти закон распределения вероятностей выборочной случайной величины (таблицу распределения).
ПРИМЕР 3. – двумерная случайная величина. Получена выборка: . Найти значение выборочного корреляционного момента и выборочного коэффициента корреляции.
РЕШЕНИЕ. Объем выборки . Выборочные значения компоненты : . Выборочные значения компоненты : . Простейшие выборочные числовые характеристики компонент и :
.
.
Выборочный корреляционный момент и коэффициент корреляции:
,
.
3. Группировка выборочных данных. Гистограмма и полигон частот
Для получения наглядного представления о законе распределения вероятностей одномерной случайной величины, сравнения случайных величин, выдвижения разумных гипотез о теоретическом законе распределения выборочные данные изображают. В общем случае для изображения используется график выборочной функции распределения. Но часто хорошее наглядное представление о законе распределения можно получить, построив гистограмму частот или полигон (многоугольник) частот.
Гистограмма частот обычно строится для непрерывной случайной величины при большом объеме выборки, и непосредственно связана с группировкой выборочных данных. Для группировки выборочных данных выбираются крайние значения и , в качестве которых проще всего взять наименьшее и наибольшее выборочное значение, а затем разбить отрезок на числовых промежутков. Гистограмма частот представляет собой ступенчатую фигуру, составленную из прямоугольников, построенных на числовых промежутках группировки так, что площадь отдельного прямоугольника равна числу выборочных значений в -ом промежутке. В результате получится, что площадь гистограммы частот равна объему всей выборки. Обычно считается, что длины всех интервалов одинаковы и равны величине . При этом высота -го прямоугольника должна быть равна числу , где – число выборочных значений в -м интервале. Типичная гистограмма частот изображена на рисунке 2.
Рисунок 2. Гистограмма частот
Гистограмма относительных частот является теоретическим аналогом плотности распределения непрерывной одномерной случайной величины. Это ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат интервалы длины , а высота -го прямоугольника равна отношению , которое иногда называют плотностью относительной частоты. Сумма площадей прямоугольников всех относительных частот – это число . С теоретической точки зрения гистограммы частот и относительных частот существенно отличаются, но с «изобразительной» точки зрения эти гистограммы отличаются только выбором масштаба вертикальной оси!
Использованная при построении гистограмм группировка выборочных данных имеет и другое прикладное значение. С помощью группировки выборочная случайная величина заменяется приближенной выборочной величиной : значениями считаются середины промежутков группировки, а соответствующие вероятности совпадают с относительными частотами попадания случайной величины на -ый числовой промежуток. Используя приближение , можно приближенно вычислять выборочные числовые характеристики. В настоящее время, в век всеобщей компьютеризации, такая примитивная техника имеет историческое значение. Но она сохраняется в специальной прикладной литературе, и по этой причине о такой замене надо иметь представление.
ПРИМЕР 1. Проведено 50 экспериментов, в результате получена выборка объемом . Выборочные данные сосредоточены на отрезке , распределение выборочных значений по пяти числовым промежуткам представлено в таблице:
Числовой промежуток
Количество выборочных значений в промежутке,
6
10
14
12
8
Построить гистограмму частот. Составить таблицу распределения вероятностей приближенной выборочной случайной величины . Используя это распределение, вычислить приближенно значения выборочного математического ожидания и дисперсии .
РЕШЕНИЕ. В данном случае , , высота прямоугольника над -м числовым промежутком . Гистограмма частот изображена на рисунке 3.
Рисунок 3. Гистограмма частот, построенная по данным примера 1
Таблица распределения вероятностей величины имеет вид:
;
,
.
Полигон (многоугольник) вероятностей строится для дискретной случайной величины с конечным множеством значений . Для построения полигона вероятностей точки с координатами последовательно соединяются отрезками. По аналогии с полигоном вероятностей при построении полигона частот соседние точки с координатами соединяются отрезками. При построении полигона относительных частот вместо частот используются относительные частоты . Ясно, что полигон относительных частот – это полигон вероятностей выборочной случайной величины . Наконец, используя группировку выборочных данных и приближенную замену , можно строить приближенный полигон частот или относительных частот. Такой многоугольник частот, построенный по данным примера 1, изображен на рисунке 4.
Рисунок 4. Приближенный полигон частот по данным примера 1.
4. Метод условных вариант
Метод условных вариант является статистическим аналогом метода условных случайных величин. Дело в том, что в практических задачах значения дискретной случайной величины могут быть очень большими по величине. В то же время разница между различными значениями может быть на много порядков меньше. Именно в этом практически важном случае при «ручных» вычислениях, а при нахождении значений выборочных моментов высокого порядка и при вычислениях на компьютере, удобно использовать метод условных величин. Суть этого метода заключается в том, что вместо исходной случайной величины рассматривается условная случайная величина . В качестве «ложного нуля» выбирается такое число, при котором значения удобно с вычислительной точки зрения разделятся на отрицательные и положительные числа. Обычно в качестве принимается наиболее вероятное значение . А число надо постараться выбрать так, чтобы значения условной случайной величины оказались не слишком большими целыми или десятичными числами с минимальным числом знаков после запятой.
Используя свойства математического ожидания и дисперсии, нетрудно получить формулы, связывающие значения простейших числовых характеристик случайных величин и . Выразив через , получим равенство: . Поэтому справедливы равенства:
, .
Потому что дисперсия константы равна нулю, . А постоянная величина не зависит ни от какой другой случайной величины, тем более величины и не коррелированы, поэтому . Наконец, верно равенство: . В итоге получились равенства:
; ; .
Аналогичные равенства можно получить для моментов третьего и четвертого порядка. Так что метод условных величин можно применять и для вычисления коэффициентов асимметрии и эксцесса.
ПРИМЕР 1. Закон распределения вероятностей дискретной случайной величины задан таблицей:
Применяя метод условных случайных величин, найти значения математического ожидания, дисперсии и среднего квадратического отклонения.
РЕШЕНИЕ. Положим , в качестве возьмем минимальное расстояние между значениями случайной величины, . В данном случае это очень хороший выбор, потому что все остальные расстояния между значениями кратны 0,2. А это значит, что значения условной величины будут целыми. Действительно:
;
;
;
.
Таблица распределения вероятностей условной величины имеет вид:
Математическое ожидание и дисперсия такой случайной величины легко вычисляются:
;
,
.
И так же легко находятся характеристики случайной величины :
; .
Вместо абстрактной дискретной случайной величины можно рассмотреть выборочную случайную величину и выборочную случайную величину . Конечно, полученные формулы будут справедливы и в этом частном случае:
, , .
ПРИМЕР 2. – одномерная (числовая) случайная величина. Получена выборка: 2531,3; 2531,1; 2529,5; 2531,5; 2531,1; 2531,3; 2531,3; 2531,9. Записать выборку в виде вариационного ряда. Составить таблицу распределения вероятностей выборочной случайной величины . Ввести условную случайную величину и, применяя метод условных вариант, вычислить выборочное математическое ожидание и выборочную дисперсию случайной величины .
РЕШЕНИЕ. Объем выборки . Вариационный ряд:
2531,1=2531,12531,3=2531,3=2531,32531,5=2531,52531,9.
Таблица выборочного распределения:
Таблица распределения вероятностей выборочной случайной величины:
Положим , , . Выборочные значения условной случайной величины будут целыми, и таблица распределения условной выборочной случайной величины примет простой вид:
Найдем математическое ожидание, дисперсию и среднее квадратическое отклонение условной выборочной величины:
=(-1)+0 +1+3=;
=+ ++=;
.
Вычислим значения выборочного математического ожидания, выборочной дисперсии и выборочного среднего квадратического отклонения:
;
, .
Отметим, что вместо того чтобы сначала находить таблицу распределения выборочной случайной величины, а потом таблицу распределения условной выборочной величины, можно поступить по-другому. Непосредственно по вариационному ряду выборки найти значения и . После этого составить вариационный ряд из условных вариант . А затем уже составить таблицу распределения условной выборочной случайной величины.
Список литературы
1. Боровков А.А. Теория вероятностей. – М., 1972. – 288 с.
2. Вентцель Е. С. Теория вероятностей. – М., 1999. – 576 с.
3. Вентцель Е.С., Овчаров Л.А. Задачи и упражнения по теории вероятностей. – М., 2003. – 448с.
4. Гмурман В.Е. Теория вероятностей и математическая статистика.
– М., 2014. – 479 с.
5. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. – М.,2011. – 404 с.
6. Коваленко И.Н., Филиппова А.А. Теория вероятностей и математическая статистика. – М., 1973. – 368 с.
7. Крамер Г. Математические методы статистики. – М., 1976. – 648 с.
8. Майстров Л.Е. Теория вероятностей. Исторический очерк.
– М., 1967. – 320 с.
9. Нефедов В.Н., Осипова В.А. Курс дискретной математики.
– М., 1992. – 164 с.
10. Письменный Д.Т. Конспект лекций по теории вероятностей, математической статистике и случайным процессам. – М., 2010. – 288 с.
11. Прохоров Ю. В., Розанов Ю.А. Теория вероятностей.
– М., 1973. – 496 с.
12. Румшиский Л.З. Элементы теории вероятностей. – М., 1976. – 240 с.