Понятие и задачи математической статистики.

⌛ 2011 год
👀 470 просмотров
📌 436 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Понятие и задачи математической статистики.», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Понятие и задачи математической статистики.», Word формат

~1~ Понятие и задачи мат. Статистики. Определение: Математической статистикой называется математическая наука, изучающая закономерности массовых, случайных явлений на основе анализа методами теории вероятности, результатов наблюдений их экспериментов. Задачи мат. статистики: 1) Сбор и группировка данных. 2) Анализ данных 2.1 оценка неизвестной вероятности, 2.2 оценка неизвестных параметров заданного закона распределения, 2.3 оценка гипотезы о неизвестном законе распределения, 2.4 определение связи между случайными величинами. Виды экспериментов 1. пассивный, заключающийся в обработке уже имеющихся данных, влиять на которые невозможно (например: контроль размеров изделия) 2. активный, заключающийся в планировании эксперимента с целью получить такие данные, которые можно достаточно легко обрабатывать (например: создание новых материалов с заданными свойствами) Генеральная и выборочная совокупности. Определение: Генеральной называется совокупность всех исследуемых объектов. Определение: Выборочной совокупностью (выборкой) называется часть генеральной совокупности, по элементам которой можно судить о характеристиках генеральной совокупности. Определение: Количество элементов входящих в совокупность называется объемом. Обозначения: N - объем генеральной совокупности, n - объем выборки, причем n не должна быть меньше 100. Виды выборок. 1. Повторная – элементы которой после испытаний возвращаются в генеральную совокупность (например: измерение размеров детали). 2. Безповторная – элементы которой не возвращаются в генеральную совокупность (например: определение прочности материала под прессом). 3. Репрезентативная (представительная) – элементы которой выбираются случайным образом и имеют одинаковую вероятность попадания в выборку (для этого используются или генератор случайных чисел ЭВМ, или карточки с инвентарными номерами). С ~2~ Способы организации выборки. 1. Простой случайный отбор – при котором из всей генеральной совокупности случайным образом выбираются элементы выборки. 2. Частичный типовой отбор – когда генеральная совокупность разбивается на типовые части, и из каждой части случайным образом выбирается объект. 3. Частичный механический отбор – из генеральной совокупности выбирается каждый k - тый объект. 4. Частичный серийный отбор – генеральная совокупность разбивается на части, и все объекты случайно выбранной части подвергаются сплошному исследованию. Распределение выборки. Вариационный ряд. Эмпирическая функция распределения. Обозначения: X(x1,х2,…,хn) – выборка, хi – элементы выборки (варианты), каждая варианта может встречаться в результате испытаний с частотой ni (для проверки m n i 1 i  n - объѐм выборки), относительная частота: Wi= ni / n Определение: Распределением выборки называется соответствие между вариантами и частотами или относительными частотами. Определение: Вариационным рядом называется выборка, элементы которой расположены в порядке возрастания значений, соответствующих этим элементам. Определение: Эмпирической функцией распределения называется функция F(х), которая определяет относительные частоту появления события Ххm: m F * ( xm )  Wi i 1 С ~3~ Полигон и гистограмма. Определение: Дискретной случайной величиной называется величина, которая принимает отдельные, независимые друг от друга значения. Определение: Полигоном называется ломанная линия, соединяющая точки с координатами (xi,ni) или (xi,Wi). Замечание: полигон строится для дискретной случайной величины. Пример: Х(1, 2, 3, 4) ni(2, 3, 4, 1) С ~4~ Определение: Гистограммой называется ступенчатая фигура, образованная прямоугольниками с основанием h и высотой hi/h или wi/h. Определение: Непрерывной называется случайная величина, которая принимает бесчисленное множество значений из заданного интервала. Замечание: Гистограмма строится для непрерывной случайной величины на основе вариационного ряда. Порядок построения гистограммы. 1. Выбирается границы интервала (а,b), на котором расположены все варианты данной выборки: а minхi bmaxxi 2. Выбирается количество участков m, на которое разбивается (a,b). 3. Вычисляется длинна каждого участка: h = (b - a) / m 4. На каждом участке подсчитывается количество вариант. лежащих на этом участке. Это количество будет определять частоту появления вариант на этом участке ni . 5. Строится гистограмма. С ~5~ Пример. С ~6~ С ~7~ Точечная оценка. Определение: Точечной оценкой теоретического параметра  называется величина *, которая выражается одним числом. Свойства точечных оценок. 1. Несмещенность. Точечной оценка * является несмещенной оценкой теоретического параметра , если эти параметры связаны следующим отношением: М(*)= 2. Эффективность. * является эффективной оценкой , если она имеет минимальную дисперсию: D()=0 3. Состоятельность. * является состоятельной оценкой , если Lim D( * ) n  Характеристики выборки и виды точечных оценок. 1. Выборочная средняя: X В  1 m  ni xi n i 1 Замечание: Если частоты не заданы, то это значит, что все частоты равны единице. Теорема: Выборочная средняя является несмещенной и состоятельной оценкой математического ожидания генеральной совокупности. Доказательство: 1 n  1  n  1 n M X В  M   xi   M   xi    M  xi   n i 1  n  i 1  n i 1   Каждый элемент выборки имеет одинаковый закон распределения с генеральными совокупностями. М(х1) = М(х2) =… = М    M XВ  1 n 1 M  nM  M  n i 1 n Определение: Отклонением варианты от его среднего значения называется разность между ними. Теорема: Сумма произведений отклонений на соответствующие частоты равна нулю. Доказательство: n x  x   n x  n x m i 1 m i i в i 1 m i i i 1 i В n m 1 m ni xi  xВ  ni  nxВ  xВ n  0  n i 1 i 1 Вывод: отклонение не может являться точечной оценкой. С ~8~ 2. Выборочная дисперсия: DВ  2 1 m ni  xi  xВ   n i 1 3. Выборочное средне квадратическое отклонение:   DB   4. Выборочное среднее квадратов: x 2 В  1 m  ni xi2 n i 1 Вычисление дисперсии DВ   m 1  ni xi  xВ n i 1  2  1 m 2 m 1 m ni xi2   ni xi xВ   ni xВ2  n i 1 n i 1 n i 1 С учѐтом 1 и 4 оценок: 2 1 m xв DВ   x   2 x в  ni xi  В n i 1 n 2 m n i 1 i    x2 В   x   2 xВ2  xВ2  x 2 5. Исправленное выборочное среднее: S 2  В 2 В n DB n 1 Замечание: Исправленное выборочное среднее является несмещенной оценкой дисперсии генеральной совокупности. 6. Исправленное выборочное средне квадратическое отклонение: S  S 2 Замечание: Исправленное выборочное средне квадратическое отклонение является несмещенной оценкой средне квадратического отклонение генеральной совокупности. Пример: Х(1,3,5,7,9,11); ni(4,1,5,3,2,5) С ~9~ Интервальные оценки. Определение: Интервальной называется оценка, которая выражается двумя числами (концами интервала). Определение: Доверительной вероятностью или надежностью называется число ω, которая показывает с какой вероятностью выполняется следующее неравенство:  - *  , где  - теоретический параметр, а * - эмпирический параметр: ω = P( - *  ) = 0,950,999 Выразим:  - *        *    *      *   Определение: Доверительным интервалом называется интервал   , которой с заданной степенью надежности ω покрывает теоретический параметр . Интервальная оценка для нормального распределения. Интервальная оценка для математического ожидания.  M  xВ   , xВ    1 случай: Среднеквадратическое отклонение известно Замечание: т.к. каждый элемент выборки имеет одно и тоже распределение, то из теории вероятности:  В   n , где n – объем выборки. Для формулы надежности   P     *    теоретический параметр   ,  эмпирический параметр *  Хв. С учѐтом этого получим:   P M  xВ   Для нормального распределения вероятность того, что отклонение не превысит заданной точности вычисляется через функцию Лапласа:       В    P M  xВ   2  Обозначим t      t В . По таблице приложения 2 по известной функции В Лапласа F(t)= ω /2 можно найти аргумент t этой функции. Тогда интервальная оценка математического ожидания: t t   ; xВ  M  x В  t В , x В  t В или M   x В   n n    С ~ 10 ~ 2 случай: Среднеквадратическое отклонение неизвестно Для этого случая было составлено дополнительное распределение со случайной величиной: T M  xВ , которое носит название «распределение Стьюдента», S n где S – исправленное, среднеквадратичное отклонение. Для этой случайной величины была вычислена надежность:   P  T t  , где tv – протабулирован в приложении 3 в зависимости от n и ω. Тогда T t  M  xВ St St M  xВ  t    M  x В   t  t  S S n n n n tS t S   M   xВ   ; xВ    n n  Интервальная оценка для среднеквадратического отклонения. Для формулы надежности   P     *    теоретический параметр   , эмпирический параметр *  S. С учѐтом этого получим:    S   ; S    или           S 1   ; S 1    . S S       Обозначим: q  . Тогда окончательно:    S 1  q  ; S 1  q   . S Параметр q протабулирован в приложении 4 в зависимости от n и ω. Замечание: По своей сути среднеквадратического отклонение величина неотрицательная, поэтому при получении отрицательного значения еѐ нижней границе, она задаѐтся равной нулю. С ~ 11 ~ Пример: С ~ 12 ~ Выравнивание эмпирических распределений. Определение: Эмпирическим распределением называется распределение наблюдаемых ni. Определение: Теоретическим или выравнивающим распределением ' называется распределение частот ni , вычисленных в предположении, что данная случайная величина распределена по одному из известных типовых распределений. ' Теоретическая частота вычисляется по формуле: ni  nPi , где Pi - вероятность, вычисленная для соответствующего распределения. Определение теоретических частот для Пуассоновского распределения. Для Pn  k   этого  nP  k! распределения вероятность вычисляется по формуле: k e np . По свойствам математического ожидания M = nP. Заменим теоретический параметр М на точную оценку x B . Тогда формула теоретической частоты для Пуассоновского распределения будет иметь вид: x  n n ' i B k e xB k! Замечание: т.к. частота может выражаться только данными ' числами, то ni округляется до целого после вычислений. Замечание: т.к. сумма частот должна быть равна объему выборки, то для достижения этого некоторые теоретические частоты подправляются на единицу. С ~ 13 ~ Пример: С ~ 14 ~ Определение теоретических частот для нормального распределения. Для нормального распределения известна функция плотности распределения f  x  вероятностей: 1  2  x  M  e 2 2 2 2 . Обозначим: x  1   x  e 2 , 2 2 xM 1 1  u2 u   u   e  f  x     u  . Теоретический параметр М заменим   2 x  xB 1 на точную оценку xВ , а  на в  u  Разобьем отрезок ; f  x   u  . B B а,в на m частей и в середине каждой части хi; xi+1 найдем значение xi*. Длина каждого участка h  ba . Для каждой части будут известны: m xi  x B ; f  x*   1   u  . ui  i i B B Для нормального распределения можно вычислить вероятность попадания случайной величины на каждый участок: x x x i1 i1 Pi  P xi  x  x   f xi* dx  f xi*  dx  f xi* x xi1 i1 i xi xi 1  f xi* x  xi   ui h i1 B Окончательно получаем формулу вычисления теоретической частоты: nh ni  nPi   ui B                С ~ 15 ~ Пример: С ~ 16 ~ Статистическая проверка гипотез. Основные понятия. Определение: Статистической гипотезой называется предположение о виде неизвестного закона распределения или о значениях параметров известного закона распределения. Виды статистических гипотез. 1. Нулевая или основная – гипотеза, которая выдвигается (Н0). 2 .Альтернативная – противоположная (Н0) гипотеза (Н1). 3. Простая – состоит из одного предположения (о виде какого-то распределения). 4. Сложная – состоит из двух и более предположений (о значениях характеристик нормального распределения). Определение: Статистическим критерием называется случайная величина К, при одних значениях которой гипотеза Н0 принимается, а при других отвергается. Определение: Множество значений величины К, при которой гипотеза Н0 принимается называется областью принятия решения . Определение: Множество значений, при котором гипотеза Н0 отвергается называется критической областью. Определение: Точка, отделяющая область принятия решения от критической области называется критической точкой. Виды критических областей С ~ 17 ~ Критерий согласия Пирсона для нормального распределения Определение: Критерием согласия называется статистический критерий, который определяет степень соответствия эмпирических данных предполагаемому закону распределения. Для нормального распределения этот критерий согласия является правосторонним:     n i  ni  m  и вычисляется:  2    2  i1 ni Если  2   кр2 , то гипотеза о нормальном распределении принимается, в противном случае отвергается. Критическое значение критерия кр определяется в зависимости от уровня значимости    и степени свободы: К = m -1 - R , где : m - число участков, на которые разбиваются отрезок  a, b . R - число характеристик предполагаемого закон распределения. Для нормального распределения таких характеристик две: математическое ожидание и среднеквадратичное отклонение: R = 2  K = m - 3 С ~ 18 ~ Пример: ni ni ni  ni  ni  ni   n  ni  2 2 i ni С ~ 19 ~ Функциональные статистические корреляционные зависимости. Понятие регрессии. Определение: Функциональной называется зависимость между двумя случайными величинами x и y ,при которых каждому значению х соответствует одно значение y. Определение: Статистической называется зависимость, при которой изменение величины x приводит к изменению закона распределения случайной величины y. Определение: Корреляционной называется зависимость, при которой изменение случайной величины x приводит к изменению среднего значения случайной величины y. Понятие регрессии. Регрессией случайной величины X на случайную величину Y называется форма корреляционной зависимости между этими случайными величинами. y  g ( x) - регрессия X на Y; x  q( y) - регрессия Y на X. Линейная регрессия и её основное свойство. Линейная регрессия в терминах теории вероятностей имеет вид: y  g ( x)  my  r y  x  mx  x где mx  М ( X ); my  M (Y ) – математические ожидания, x, y - средне-квадратичное отклонение для соответствующих случайных величин X,Y, r - коэффициент корреляции r = M((x - mx, y - my)). Замечание: в дальнейшем черточки на переменными, обозначающие средние значение, для простоты записи опускаем. Тогда: Регрессия X на Y имеет вид: y  my  r y  x  mx  (1) x Регрессия Y на X вычисляется аналогично x  mx  r g ( х) q( y ) С x  y  my  (2) y ~ 20 ~ Решаем уравнения (1,2) для нахождения координат т.А пересечения линий регрессии: y  my  r  y    mx  r x  x  my   mx  x  y   y  my  r 2 y  r 2 m y  y(1  r 2 )  my (1  r 2 )  y  my . Поставляем найденной значение в (2)  x  mx  A(mx; my) Вывод: для точки А можно составить функцию между математическими ожиданиями двух случайных величин. Определим при каком случае уравнения (1) и (2) совпадают. Для этого зададим: r =  1 y  my  y   x  mx  (3) x  mx  r x  y  my  (4) y x Выразим y  my  y из (4)  x  y  my   x  mx  y  y  m y y x   x  m x y  x  mx   (3) x Вывод: Основное свойство регрессии: Если коэффициент корреляции r = 1, то между двумя случайными величинами существует функциональная зависимость. С  ~ 21 ~ Выборочное уравнение линейной регрессии. Дано: две выборки одинакового объема n для случайных величин X и Y X x1 x 2 … x n X y1 y 2 … y n Уравнение линейной регрессии имеет вид: g(x) = a0 + a1x, где а0, а1 неизвестные коэффициенты. Для нахождения a0,а1 используется метод наименьших квадратов, согласно которому определяется сумма квадратов отклонений искомой функции g(x) и n n значение yi (I = 1,2,3): S    g ( xi )  yi   S (a0 , a1 )    a0  a1xi  yi  2 i 1 2 i 1 Отклонения функции g(x) от экспериментальных данных должны быть минимальными  необходимо найти: minS(a0,a1) Для этого необходимо приравнять к нулю частные производные от функции S по а0 и а1:  n n n n n n S  2  a0  a1 xi  yi   0    a0     a1 xi     yi   0  na0  a1  xi   yi a0 i 1 i 1 i 1 i 1 i 1 i 1  n n n n S  2  a0  a1 xi  yi  xi  0    a0 xi    a1 xi xi    yi xi  0 a1 i 1 i 1 i 1 i 1 n n n i 1 i 1 i 1  a0  xi  a1  xi2   xi yi (1) (2) Решаем систему уравнений (1) и (2) методом Крамара: n n D x i 1 n  xi i 1 n i  xi2 n  n   n x    xi  ; Da0  i 1  i 1  n n y 2 i 1 2 i x i n n n n 2 i i 1 i 1 i 1 i 1 n n n i 1 i 1 i 1 n   yi  xi2   xi  xi yi ; n  xi yi i 1 i i 1 x i 1 i 1 n y n n  n xi yi   xi  yi n  xi x y i 1 a0  i i 1 Da1  i 1 n n n i 1 i 1 i 1 i i n n  yi  xi2   xi  xi yi i 1 2   n x    xi  i 1  i 1  n n 2 i , a1  n n n xi yi   xi  yi i 1 i 1 i 1   n x    xi  i 1  i 1  n n 2 i С 2 ~ 22 ~ Подставляя найденные коэффициенты a0 и а1 в функцию g(x)=a0+a1x, получим выборочное уравнение линейной регрессии. Для определения точности представления зависимости между случайными величинами виде линейной функции необходимо вычислить относительную погрешность i  g ( xi )  yi 100% . yi Между двумя случайными величинами существует функциональная зависимость, если все погрешности i=0 , если  i  0, то линейная корреляционная зависимость, если  i > 5% - нелинейная корреляционная зависимость. Пример: С ~ 23 ~ Корреляционная таблица и выборочный коэффициент корреляции. Условные обозначения: nxi - частоты появления случайной величины xi nyi - частоты появления случайной величины yi nxiyi - частоты совместного появления xi,yi Корреляционная таблица. (таблица вариант со своими частотами) Рассмотрим систему уравнений (1) и (2), полученную для выборочного n n i 1 i 1 n n n i 1 i 1 i 1 a0  xi  a1  xi2   xi yi na0  a1  xi   yi (1) уравнения регрессии: (2) При «отсутствии» частот (когда все они равны единице) вычислим выборочные средние для каждой из случайных величин: xВ  1 n  xi , n i 1 yВ  x  1 n  yi , n i 1 2 В  1 n 2  xi , n i 1 n S xy   xi y j i 1 Заменим на них соответствующие суммы в уравнениях (1), (2): n n  yi  n y В ,  xi  nx В , i 1 i 1   n  xi2  n x2 i 1 n В , x y i i 1 j  S xy В результате получим уравнения (3), (4), которые решаем также методом Крамара: a0  a1 x В  y В (3), a0 nx В  a1n x 2  S xy (4)   D a1  1     x    nD xВ   nx В n x  n  x2  2 n  Bx  2 В В Bx  n  Bx  ; Da1  2 В S xy  n x В y В 2 В . 1 n xВ yВ S xy  S xy  n x В y В Умножаем обе части полученной формулы на S  n x В y В  Bx S xy  n x В y В  Bx  a1  xy  Bx a1  2  By  By n Bx By n  Bx   By С  Bx :  By ~ 24 ~ Обозначим полученную корреляции: rB  правую часть как выборочный коэффициент   S XY  nx B y B , тогда: Bx a1  rB  a1  rB By .  By  Bx n BX  BY Подставляем найденный коэффициент в (3): a0  rB  By  By x В  y В  a0  y В  rB xВ  Bx  Bx Подставляем найденные коэффициенты в уравнение линейной регрессии: g ( x)  a0  a1 x  g ( x)  y В  rB  By  By x В  rB x  Bx  Bx Окончательно имеем выборочное уравнение линейной регрессии (проверка): g  x   y B  rB  By x  xB .  Bx   Сравниваем это уравнения с уравнением линейной регрессии в терминах теории вероятности: y  my  r y  x  mx  . Структура этих уравнений одинаковая, x значит, между двумя случайными величинами существует функциональная зависимость, если rB  1 , в противном случае корреляционная зависимость. При наличии частот: 1 m x В   nxi xi , n i 1 yВ  x  1 k  ny y j , n j 1 j 2 В 1 m   nxi xi2 , n i 1 DBx   x 2    x B  ; DBy   y2    yB  ; Bx  DBx ; By  DBy . 2 B 2 B С m k S xy   nxi y j xi y j i 1 j 1 ~ 25 ~ Понятие o корреляционном отношении и его свойства.  где  yx  Dyx , g ( xi ) - Dyx  1 вычисляется g  x   y B  rB  By x  xB  Bx  m n i 1 из   nxi g ( xi )  y В  yx  Вy , 2 , выборочного уравнения линейной регрессии: подстановкой в него каждого значения случайной величины xi Свойства корреляционного отношения 1. 0 2. Между двумя случайными величинами существует функциональная зависимость, если , 3. между случайными величинами не существует никакой зависимости, если 0, 4. между случайными величинами существует линейная зависимость, если rв. С ~ 26 ~ Пример: X Y g(x) ∆% i 1 2 3 4 5 1 0.8 20 1 2 2.3 15 xi 1 2 3 4 10 2 4 3.8 5 (xi)2 1 4 9 16 30 3 5 5.3 6 yi 1 2 4 5 7 19 С 4 7 6.8 3 xi yi 2 8 15 28 53 ~ 27 ~ С