Элементы математической статистики

👀 728 просмотров
📌 680 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Элементы математической статистики», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Элементы математической статистики», Word формат

Элементы математической статистики Глава 1. Выборочный метод 1.1. Задачи математической статистики Задача математической статистики состоит в том, чтобы после проведения выборочного обследования и получения некоторой совокупности реализаций случайной величины, вычислить с возможно большей точностью вероятностные характеристики этой случайной величины, то есть закон распределения или его важнейшие числовые характеристики. Мы ограничимся определением неизвестных параметров случайной величины, распределенной нормально, а также сравнением двух выборок. Метод, предлагаемый математической статистикой, состоит в том, что оцениваемые характеристики рассчитываются для выборки и объявляются оценками характеристик всей совокупности. Такая оценка дает значение параметра с некоторой погрешностью, так как сама является случайной величиной, зависящей от использованной при вычислении выборки. Для описания того, насколько можно доверять построенным по выборке оценкам или сделанным выводам, в математической статистике вводится специальное понятие “уровень доверия“ к результатам обследования. Уровень доверия – это вероятность того, что выводы и оценки, сделанные на основе данных выборки, верны. Например, если уровень доверия для оценки 0,95 то для 100 выборок примерно 5 дадут оценки, на основе которых будут сделаны ошибочные выводы. Математическая статистика предлагает нам методики, при использовании которых величина вероятности ошибок минимальна. Методы нахождения (построения) по выборке доверительных оценок для параметров всей совокупности применяется в самых разнообразных задачах. Для их освоения нам потребуется ввести ряд новых понятий и определений. 1.2. Выборка Пусть требуется изучить некоторую совокупность однородных объектов. Назовем множество всех изучаемых объектов генеральной совокупностью. Выборочной совокупностью, или кратко выборкой, называются объекты, отобранные из генеральной совокупности для исследования, а их число n называется объемом выборки. Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке, необходимо, чтобы объем выборки был достаточно велик и, кроме того, объекты выборки правильно представляли генеральную совокупность, т.е. требуется, чтобы выборка была репрезентативной (представительной). При этом объекты выборки должны быть отобраны из генеральной совокупности случайным образом. В дальнейшем мы будем предполагать, что это требование репрезентативности выполнено. 1.3. Статистическое распределение выборки. Пусть из генеральной совокупности извлечена выборка объемом n. Случайный выбор элемента рассматривается как независимое наблюдение над величиной ξ, имеющей некоторое распределение вероятностей. То есть, значения y1, y2… yn, которые приняла случайная величина ξ в n наблюдениях, называются ее реализациями. Если эти числа записать не в порядке получения, а в порядке возрастания, то получим упорядоченную выборку x1, x2,…xn, называемую вариационным рядом. Расстояние хn-x1 между крайними членами ряда называется размахом вариационного ряда. Если изучается дискретная случайная величина, то при достаточно большом объеме выборки n в выборке будут повторяющиеся значения. Относительной (эмпирической) частотой значения xi, называется частота mi/n, где mi- число повторения значения хi в выборке объема n. Значения xi называются вариантами, обозначим mi/n=wi. Построим по выборке таблицу из двух строк: в верхней строке указаны в порядке возрастания наблюдаемые значения, а в нижней – соответствующие им относительные частоты. Эта таблица дает статистическое распределение выборки. Для выборки, где нет повторяющихся значений, эта таблица будет иметь вид: Значения xi Частоты mi/n X1 1/n X2 1/n ……….. ……….. Xn 1/n Для выборки с повторяющимися значениями таблица выглядит следующим образом: Значения xi Частоты mi/n X1 m1/n X2 m2/n ……….. ……….. Xк mk/n При большом числе наблюдений над непрерывной случайной величиной обычно прибегают к группировке данных: область по оси x, куда попали значения x1, x2, …xn, разбивают на 5-15 интервалов l1, l2,…,ln (причем длины интервалов необязательно одинаковы). В качестве “принимаемого“ значения при этом будут выступать середины отрезков. Пусть mi – число наблюдений, попавших в интервал lj. Тогда справедливы соотношения: k k ~ ~ mi = n ; p = ; m pi = 1. ∑ ∑ i i n i =1 i =1 Пример 1. Имея конкретную выборку: 2, 6, 12, 6, 6, 2, 6, 12, 12, 6, 6, 6, 12, 12, 6, 12, 2, 6, 12, 6 (n=20), записать вариационный ряд в виде таблицы статистического распределения. Решение. Вариационный ряд: 2, 2, 2, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 12, 12, 12, 12, 12, 12, 12. Статистическое распределение выборки: Варианты mi Частоты mi/n 2 3 0.15 6 10 0.5 12 7 0.35 Просуммируем относительные частоты mi/n=wi: Контроль: 0.15+0,5+0,35=1 1.4. Эмпирическая функция распределения. Для наглядного представления статистического распределения пользуются графическим изображением вариационных рядов (кумулятой). При построении кумуляты в точке, соответствующей принимаемому значению, для дискретного ряда и в правом конце интервала для интервального ряда строится перпендикуляр, высота которого пропорциональна накопленной частоте, затем верхние концы перпендикуляров соединяются между собой с помощью прямолинейных отрезков 1.5. Полигон и гистограмма. Для построения полигона в случае дискретного распределения на оси абсцисс откладывают отдельные значения признака. Из “принимаемых“ значений xi перпендикуляры, длины которых пропорциональны значениям mi, восстанавливаются перпендикулярно оси ОХ, затем концы соседних перпендикуляров соединяют с отрезками прямых. Так получается полигон. Гистограмма строится только для интервального вариационного ряда (группированной выборки) следующим образом: на каждом из интервалов значений как на основании строится прямоугольник с высотой, пропорциональной mi. Фигура, состоящая из всех полученных прямоугольников, и есть гистограмма. Если середины верхних сторон прямоугольников соединить отрезками прямых, а концы этой ломаной еще соединить с серединами соседних интервалов, частоты которых равны 0, то получим полигон. Покажем на конкретном примере, как строятся полигон и гистограмма. Таблица распределения продавцов по выборке. Выработка продавцов Число продавцов 80-100 100-120 120-140 140-160 160-180 Итого 5 10 20 10 5 50 В процентах к Кумулятивная итогу (накопленная) численность 10 15 (5+10) 20 35 (15+20) 40 45 (35+10) 20 50 (45+5) 10 100 Накопленная частота 0.1 0.3 0.7 0.9 1 На оси Y могут откладываться не количества, а проценты, или проценты, деленные на константу, например, частоты. Вид графика от этого не изменится. В данном примере длины интервалов одинаковые. В этом случае при построении гистограммы можно изображать прямоугольники высоты mi. Если длины интервалов разные, то при построении гистограммы это надо учитывать. Например, все интервалы имеют длину 10, кроме крайнего, который имеет длину 50 (весь хвост объединен в один интервал). Следовательно, высота прямоугольника над этим интервалом длины 50 должна браться в 5 раз меньше, чем его m. Если строить прямоугольники высоты mi/dini, где di – длина интервала li,, то гистограмма будет отображать эмпирическую плотность. Если строить прямоугольники с такими высотами, то суммарная площадь таких прямоугольников будет равна 1 . Таким образом, в случае, когда длины всех интервалов одинаковые, при построении гистограммы по оси Y можно откладывать просто значения mi. Такая гистограмма самая удобная в том смысле, что позволяет сравнивать два распределения, имеющих разные объемы, и не зависит от способа группировки данных. 1.6. Мода и медиана. Для дискретного вариационного ряда легко находится xm, в котором m имеет наибольшее значение – это значение, эмпирическая вероятность которого максимальна. Это значения называется модой. Для интервального ряда легко применяется интервал, у которого m максимально. Мода находится внутри его. Для вычисления ее значения пользуются формулой линейной интерполяции. “Накопленные частоты“ – это и есть значения эмпирической функции распределения, а кумулята – ее сглаженное графическое отображение. . Медиана – это такая точка, что половина принимаемых значений лежит слева от нее, а половина справа (это середина распределения). Для дискретного вариационного ряда медиана d ищется по формуле:  X n + X n +1 2  2 , если n четно; D= 2  X n +1 ,  2 если n нечетно. Для группированной выборки медиана - это точка, в которой площадь гистограммы делится пополам. Если медиана лежит практически в центре области принимаемых значений, то это указывает на то, что у распределения нет сильного перекоса вправо или влево, например оно симметрично относительно медианы. Сдвиг медианы влево или вправо от центра области принимаемых значений означает больший “вероятностный“ удельный вес левой или соответственно правой половины распределения. Указав в качестве принимаемых значений середины интервалов группировки, мы строим вероятностную таблицу выборки: xi mi mi/n Плотность вероятности 90 110 130 150 170 n 5 10 20 10 5 50 0.1 0.2 0,4 0,2 0,1 0,005 0,01 0,02 0,01 0,005 Накопленная частота функция распределения) 0,1 0,3=(0,1+0,2) 0,7=(0,3+0,4) 0,9=(0,7+0,2) 1=(0,9+0,1) (эмпирическая Итак, в самом общем случае по выборке построена таблица эмпирического распределения выборки: Варианты xi ~ Частоты p x1 m1/n x2 m2/n ….. ….. Xк mk/n Теперь задача состоит в том, чтобы по данной выборке из генеральной совокупности сделать выводы о виде распределения случайной величины и получить оценки значений его числовых параметров. Можно провести аналогию между статистическим распределением выборки и законом распределения дискретной случайной величины, но теперь вместо возможных значений случайной величины фигурируют варианты, а вместо соответствующих вероятностей – относительные частоты. Таким образом, в силу этой аналогии, по известному эмпирическому распределению по аналогичным формулам, что и для дискретного распределения, можно найти выборочные аналоги математического ожидания и дисперсии. При этом следует вычислить сначала эмпирическую вероятность события (ξ

ВЫСШАЯ МАТЕМАТИКА

#Лекция

Элементы математической статистики

Тебе могут подойти лекции