Понятие и задачи математической статистики.
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
~1~
Понятие и задачи мат. Статистики.
Определение: Математической статистикой называется математическая
наука, изучающая закономерности массовых, случайных явлений на основе
анализа методами теории вероятности, результатов наблюдений их
экспериментов.
Задачи мат. статистики:
1) Сбор и группировка данных.
2) Анализ данных
2.1 оценка неизвестной вероятности,
2.2 оценка неизвестных параметров заданного закона распределения,
2.3 оценка гипотезы о неизвестном законе распределения,
2.4 определение связи между случайными величинами.
Виды экспериментов
1. пассивный, заключающийся в обработке уже имеющихся данных,
влиять на которые невозможно (например: контроль размеров изделия)
2. активный, заключающийся в планировании эксперимента с целью получить
такие данные, которые можно достаточно легко обрабатывать (например:
создание новых материалов с заданными свойствами)
Генеральная и выборочная совокупности.
Определение: Генеральной называется совокупность всех исследуемых
объектов.
Определение: Выборочной совокупностью (выборкой) называется часть
генеральной совокупности, по элементам которой можно судить о
характеристиках генеральной совокупности.
Определение: Количество элементов входящих в совокупность называется
объемом.
Обозначения: N - объем генеральной совокупности, n - объем выборки,
причем n не должна быть меньше 100.
Виды выборок.
1.
Повторная – элементы которой после испытаний возвращаются в
генеральную совокупность (например: измерение размеров детали).
2. Безповторная – элементы которой
не возвращаются в генеральную
совокупность (например: определение прочности материала под прессом).
3. Репрезентативная (представительная) – элементы которой выбираются
случайным образом и имеют одинаковую вероятность попадания в выборку
(для этого используются или генератор случайных чисел ЭВМ, или карточки с
инвентарными номерами).
С
~2~
Способы организации выборки.
1. Простой случайный отбор – при котором из всей генеральной совокупности
случайным образом выбираются элементы выборки.
2. Частичный типовой отбор – когда генеральная совокупность разбивается на
типовые части, и из каждой части случайным образом выбирается объект.
3. Частичный механический отбор – из генеральной совокупности выбирается
каждый k - тый объект.
4. Частичный серийный отбор – генеральная совокупность разбивается на
части, и все объекты случайно выбранной части подвергаются сплошному
исследованию.
Распределение выборки. Вариационный ряд.
Эмпирическая функция распределения.
Обозначения: X(x1,х2,…,хn) – выборка, хi – элементы выборки (варианты),
каждая варианта может встречаться в результате испытаний с частотой ni (для
проверки
m
n
i 1
i
n - объѐм выборки), относительная частота: Wi= ni / n
Определение: Распределением выборки называется соответствие между
вариантами и частотами или относительными частотами.
Определение: Вариационным рядом называется выборка, элементы которой
расположены в порядке возрастания значений, соответствующих этим
элементам.
Определение: Эмпирической функцией распределения называется функция
F(х), которая определяет относительные частоту появления события Ххm:
m
F * ( xm ) Wi
i 1
С
~3~
Полигон и гистограмма.
Определение: Дискретной случайной величиной называется величина, которая
принимает отдельные, независимые друг от друга значения.
Определение: Полигоном называется ломанная линия, соединяющая точки с
координатами (xi,ni) или (xi,Wi).
Замечание: полигон строится для дискретной случайной величины.
Пример: Х(1, 2, 3, 4) ni(2, 3, 4, 1)
С
~4~
Определение: Гистограммой называется ступенчатая фигура, образованная
прямоугольниками с основанием h и высотой hi/h или wi/h.
Определение: Непрерывной называется случайная величина, которая
принимает бесчисленное множество значений из заданного интервала.
Замечание: Гистограмма строится для непрерывной случайной величины на
основе вариационного ряда.
Порядок построения гистограммы.
1. Выбирается границы интервала (а,b), на котором расположены все варианты
данной выборки: а minхi bmaxxi
2. Выбирается количество участков m, на которое разбивается (a,b).
3. Вычисляется длинна каждого участка: h = (b - a) / m
4. На каждом участке подсчитывается количество вариант. лежащих на этом
участке. Это количество будет определять частоту появления вариант на
этом участке ni .
5. Строится гистограмма.
С
~5~
Пример.
С
~6~
С
~7~
Точечная оценка.
Определение: Точечной оценкой теоретического параметра называется
величина *, которая выражается одним числом.
Свойства точечных оценок.
1. Несмещенность.
Точечной оценка * является несмещенной оценкой
теоретического параметра , если эти параметры связаны следующим
отношением: М(*)=
2. Эффективность.
* является эффективной оценкой , если она имеет
минимальную дисперсию: D()=0
3. Состоятельность.
* является состоятельной оценкой , если Lim D( * )
n
Характеристики выборки и виды точечных оценок.
1. Выборочная средняя: X В
1 m
ni xi
n i 1
Замечание: Если частоты не заданы, то это значит, что все частоты равны
единице.
Теорема: Выборочная средняя является несмещенной и состоятельной оценкой
математического ожидания генеральной совокупности.
Доказательство:
1 n 1 n 1 n
M X В M xi M xi M xi
n i 1 n i 1 n i 1
Каждый элемент выборки имеет одинаковый закон распределения с
генеральными совокупностями. М(х1) = М(х2) =… = М
M XВ
1 n
1
M nM M
n i 1
n
Определение: Отклонением варианты от его среднего значения называется
разность между ними.
Теорема: Сумма произведений отклонений на соответствующие частоты равна
нулю.
Доказательство:
n x x n x n x
m
i 1
m
i
i
в
i 1
m
i i
i 1
i
В
n
m
1 m
ni xi xВ ni nxВ xВ n 0
n i 1
i 1
Вывод: отклонение не может являться точечной оценкой.
С
~8~
2. Выборочная дисперсия: DВ
2
1 m
ni xi xВ
n i 1
3. Выборочное средне квадратическое отклонение: DB
4. Выборочное среднее квадратов: x 2
В
1 m
ni xi2
n i 1
Вычисление дисперсии
DВ
m
1
ni xi xВ
n i 1
2
1 m
2 m
1 m
ni xi2 ni xi xВ ni xВ2
n i 1
n i 1
n i 1
С учѐтом 1 и 4 оценок:
2
1 m
xв
DВ x 2 x в ni xi
В
n i 1
n
2
m
n
i 1
i
x2
В
x
2 xВ2 xВ2 x 2
5. Исправленное выборочное среднее: S 2
В
2
В
n
DB
n 1
Замечание: Исправленное выборочное среднее является несмещенной оценкой
дисперсии генеральной совокупности.
6. Исправленное выборочное средне квадратическое отклонение: S S 2
Замечание: Исправленное выборочное средне квадратическое отклонение
является несмещенной оценкой средне квадратического отклонение
генеральной совокупности.
Пример: Х(1,3,5,7,9,11); ni(4,1,5,3,2,5)
С
~9~
Интервальные оценки.
Определение: Интервальной называется оценка, которая выражается двумя
числами (концами интервала).
Определение: Доверительной вероятностью или надежностью называется
число ω, которая показывает с какой вероятностью выполняется следующее
неравенство: - * , где - теоретический параметр, а * - эмпирический
параметр: ω = P( - * ) = 0,950,999
Выразим: - * * * *
Определение: Доверительным интервалом называется интервал ,
которой с заданной степенью надежности
ω покрывает теоретический
параметр .
Интервальная оценка для нормального распределения.
Интервальная оценка для математического ожидания.
M xВ , xВ
1 случай: Среднеквадратическое отклонение известно
Замечание: т.к. каждый элемент выборки имеет одно и тоже распределение, то
из теории вероятности: В
n
, где n – объем выборки.
Для формулы надежности P * теоретический параметр ,
эмпирический параметр * Хв. С учѐтом этого получим: P M xВ
Для нормального распределения вероятность того, что отклонение не
превысит заданной точности вычисляется через функцию Лапласа:
В
P M xВ 2
Обозначим t
t В . По таблице приложения 2 по известной функции
В
Лапласа F(t)= ω /2 можно найти аргумент t этой функции. Тогда интервальная
оценка математического ожидания:
t
t
; xВ
M x В t В , x В t В или M x В
n
n
С
~ 10 ~
2 случай: Среднеквадратическое отклонение неизвестно
Для этого случая было составлено дополнительное распределение со случайной
величиной:
T
M xВ
, которое носит название «распределение Стьюдента»,
S
n
где S – исправленное, среднеквадратичное отклонение.
Для этой случайной величины была вычислена надежность: P T t , где
tv – протабулирован в приложении 3 в зависимости от n и ω.
Тогда
T t
M xВ
St
St
M xВ
t M x В
t t
S
S
n
n
n
n
tS
t S
M xВ ; xВ
n
n
Интервальная оценка для среднеквадратического отклонения.
Для формулы надежности P * теоретический параметр ,
эмпирический параметр * S. С учѐтом этого получим: S ; S или
S 1 ; S 1 .
S
S
Обозначим: q . Тогда окончательно: S 1 q ; S 1 q .
S
Параметр q протабулирован в приложении 4 в зависимости от n и ω.
Замечание: По своей сути среднеквадратического отклонение величина
неотрицательная, поэтому при получении отрицательного значения еѐ нижней
границе, она задаѐтся равной нулю.
С
~ 11 ~
Пример:
С
~ 12 ~
Выравнивание эмпирических распределений.
Определение: Эмпирическим распределением называется распределение
наблюдаемых ni.
Определение: Теоретическим или выравнивающим распределением
'
называется распределение частот ni , вычисленных в предположении, что
данная случайная величина распределена по одному из известных типовых
распределений.
'
Теоретическая частота вычисляется по формуле: ni nPi , где Pi - вероятность,
вычисленная для соответствующего распределения.
Определение теоретических частот для Пуассоновского распределения.
Для
Pn k
этого
nP
k!
распределения
вероятность
вычисляется
по
формуле:
k
e np . По свойствам математического ожидания M = nP. Заменим
теоретический параметр М на точную оценку x B .
Тогда формула теоретической частоты для Пуассоновского распределения
будет иметь вид:
x
n n
'
i
B
k
e xB
k!
Замечание:
т.к.
частота
может
выражаться
только
данными
'
числами, то ni округляется до целого после вычислений.
Замечание: т.к. сумма частот должна быть равна объему выборки, то для
достижения этого некоторые теоретические частоты подправляются на
единицу.
С
~ 13 ~
Пример:
С
~ 14 ~
Определение теоретических частот для нормального распределения.
Для нормального распределения известна функция плотности распределения
f x
вероятностей:
1
2
x M
e
2 2
2
2
.
Обозначим:
x
1
x
e 2 ,
2
2
xM
1
1 u2
u
u
e f x u . Теоретический параметр М заменим
2
x xB
1
на точную оценку xВ , а на в u
Разобьем отрезок
; f x
u .
B
B
а,в на m частей и в середине каждой части хi; xi+1 найдем значение xi*. Длина
каждого участка h
ba
. Для каждой части будут известны:
m
xi x
B ; f x* 1 u .
ui
i
i
B
B
Для нормального распределения можно вычислить вероятность попадания
случайной величины на каждый участок:
x
x
x
i1
i1
Pi P xi x x
f xi* dx f xi* dx f xi* x xi1
i1
i
xi
xi
1
f xi* x xi
ui h
i1
B
Окончательно получаем формулу вычисления теоретической частоты:
nh
ni nPi
ui
B
С
~ 15 ~
Пример:
С
~ 16 ~
Статистическая проверка гипотез. Основные понятия.
Определение: Статистической гипотезой называется предположение о виде
неизвестного закона распределения или о значениях параметров известного
закона распределения.
Виды статистических гипотез.
1. Нулевая или основная – гипотеза, которая выдвигается (Н0).
2 .Альтернативная – противоположная (Н0) гипотеза (Н1).
3. Простая – состоит из одного предположения (о виде какого-то
распределения).
4. Сложная – состоит из двух и более предположений (о значениях
характеристик нормального распределения).
Определение: Статистическим критерием называется случайная величина К,
при одних значениях которой гипотеза Н0 принимается, а при других
отвергается.
Определение: Множество значений величины К, при которой гипотеза Н0
принимается называется областью принятия решения .
Определение: Множество значений, при котором гипотеза Н0 отвергается
называется критической областью.
Определение: Точка, отделяющая область принятия решения от критической
области называется критической точкой.
Виды критических областей
С
~ 17 ~
Критерий согласия Пирсона для нормального распределения
Определение:
Критерием согласия называется статистический критерий,
который
определяет
степень
соответствия
эмпирических
данных
предполагаемому закону распределения. Для нормального распределения этот
критерий согласия является правосторонним:
n i ni
m
и вычисляется: 2
2
i1
ni
Если 2 кр2 , то гипотеза о нормальном распределении принимается, в
противном случае отвергается.
Критическое значение критерия кр определяется в зависимости от уровня
значимости и степени свободы: К = m -1 - R , где : m - число участков,
на которые разбиваются отрезок a, b .
R - число характеристик предполагаемого закон распределения. Для
нормального распределения таких характеристик две: математическое
ожидание и среднеквадратичное отклонение: R = 2 K = m - 3
С
~ 18 ~
Пример:
ni
ni
ni ni
ni ni n ni
2
2
i
ni
С
~ 19 ~
Функциональные статистические корреляционные зависимости.
Понятие регрессии.
Определение:
Функциональной называется зависимость между двумя
случайными величинами x и y ,при которых каждому значению х соответствует
одно значение y.
Определение:
Статистической называется зависимость, при которой
изменение величины x приводит к изменению закона распределения случайной
величины y.
Определение:
Корреляционной называется зависимость, при которой
изменение случайной величины x приводит к изменению среднего значения
случайной величины y.
Понятие регрессии.
Регрессией случайной величины X на случайную величину Y называется
форма корреляционной зависимости между этими случайными величинами.
y g ( x) - регрессия X на Y; x q( y) - регрессия Y на X.
Линейная регрессия и её основное свойство.
Линейная регрессия в терминах теории вероятностей имеет вид:
y g ( x) my r
y
x mx
x
где mx М ( X ); my M (Y ) – математические ожидания, x, y - средне-квадратичное
отклонение для соответствующих случайных величин X,Y,
r - коэффициент корреляции r = M((x - mx, y - my)).
Замечание: в дальнейшем черточки на переменными, обозначающие средние
значение, для простоты записи опускаем. Тогда:
Регрессия X на Y имеет вид: y my r
y
x mx (1)
x
Регрессия Y на X вычисляется аналогично x mx r
g ( х)
q( y )
С
x
y my (2)
y
~ 20 ~
Решаем уравнения (1,2) для нахождения координат т.А пересечения линий
регрессии:
y my r
y
mx r x x my mx
x
y
y my r 2 y r 2 m y
y(1 r 2 ) my (1 r 2 )
y my . Поставляем найденной значение в (2) x mx A(mx; my)
Вывод: для точки А можно составить функцию между математическими
ожиданиями двух случайных величин.
Определим при каком случае уравнения (1) и (2) совпадают. Для этого
зададим: r = 1
y my
y
x mx (3) x mx r x y my (4)
y
x
Выразим
y my
y
из (4)
x
y my x mx
y
y m
y
y
x
x
m
x
y
x mx (3)
x
Вывод:
Основное свойство регрессии:
Если коэффициент корреляции r = 1, то между двумя случайными
величинами существует функциональная зависимость.
С
~ 21 ~
Выборочное уравнение линейной регрессии.
Дано: две выборки одинакового объема n для случайных величин X и Y
X x1 x 2 … x n
X y1 y 2 … y n
Уравнение линейной регрессии имеет вид: g(x) = a0 + a1x,
где а0, а1 неизвестные коэффициенты.
Для нахождения a0,а1 используется метод наименьших квадратов, согласно
которому определяется сумма квадратов отклонений искомой функции g(x) и
n
n
значение yi (I = 1,2,3): S g ( xi ) yi S (a0 , a1 ) a0 a1xi yi
2
i 1
2
i 1
Отклонения функции g(x) от экспериментальных данных должны быть
минимальными необходимо найти: minS(a0,a1)
Для этого необходимо приравнять к нулю частные производные от
функции S по а0 и а1:
n
n
n
n
n
n
S
2 a0 a1 xi yi 0 a0 a1 xi yi 0 na0 a1 xi yi
a0
i 1
i 1
i 1
i 1
i 1
i 1
n
n
n
n
S
2 a0 a1 xi yi xi 0 a0 xi a1 xi xi yi xi 0
a1
i 1
i 1
i 1
i 1
n
n
n
i 1
i 1
i 1
a0 xi a1 xi2 xi yi
(1)
(2)
Решаем систему уравнений (1) и (2) методом Крамара:
n
n
D
x
i 1
n
xi
i 1
n
i
xi2
n
n
n x xi ; Da0
i 1
i 1
n
n
y
2
i 1
2
i
x
i
n
n
n
n
2
i
i 1
i 1
i 1
i 1
n
n
n
i 1
i 1
i 1
n
yi xi2 xi xi yi ;
n
xi yi
i 1
i
i 1
x
i 1
i 1
n
y
n
n
n xi yi xi yi
n
xi
x y
i 1
a0
i
i 1
Da1
i 1
n
n
n
i 1
i 1
i 1
i
i
n
n
yi xi2 xi xi yi
i 1
2
n x xi
i 1
i 1
n
n
2
i
,
a1
n
n
n xi yi xi yi
i 1
i 1
i 1
n x xi
i 1
i 1
n
n
2
i
С
2
~ 22 ~
Подставляя найденные коэффициенты a0 и а1 в функцию g(x)=a0+a1x,
получим выборочное уравнение линейной регрессии.
Для определения точности представления зависимости между случайными
величинами виде линейной функции необходимо вычислить относительную
погрешность i
g ( xi ) yi
100% .
yi
Между двумя случайными величинами существует функциональная
зависимость, если все погрешности i=0 , если i 0, то линейная
корреляционная зависимость, если i > 5% - нелинейная корреляционная
зависимость.
Пример:
С
~ 23 ~
Корреляционная таблица и выборочный коэффициент корреляции.
Условные обозначения:
nxi - частоты появления случайной величины xi
nyi - частоты появления случайной величины yi
nxiyi - частоты совместного появления xi,yi
Корреляционная таблица.
(таблица вариант со своими частотами)
Рассмотрим систему уравнений (1) и (2), полученную для выборочного
n
n
i 1
i 1
n
n
n
i 1
i 1
i 1
a0 xi a1 xi2 xi yi
na0 a1 xi yi (1)
уравнения регрессии:
(2)
При «отсутствии» частот (когда все они равны единице) вычислим
выборочные средние для каждой из случайных величин:
xВ
1 n
xi ,
n i 1
yВ
x
1 n
yi ,
n i 1
2
В
1 n 2
xi ,
n i 1
n
S xy xi y j
i 1
Заменим на них соответствующие суммы в уравнениях (1), (2):
n
n
yi n y В ,
xi nx В ,
i 1
i 1
n
xi2 n x2
i 1
n
В
,
x y
i
i 1
j
S xy
В результате получим уравнения (3), (4), которые решаем также методом
Крамара:
a0 a1 x В y В (3), a0 nx В a1n x 2 S xy (4)
D
a1
1
x nD
xВ
nx В n x
n x2
2
n Bx
2
В
В
Bx
n Bx ; Da1
2
В
S xy n x В y В
2
В
.
1
n xВ
yВ
S xy
S xy n x В y В
Умножаем обе части полученной формулы на
S n x В y В Bx
S xy n x В y В
Bx
a1 xy
Bx a1
2
By
By
n Bx By
n Bx By
С
Bx
:
By
~ 24 ~
Обозначим
полученную
корреляции: rB
правую
часть
как
выборочный
коэффициент
S XY nx B y B
, тогда: Bx a1 rB a1 rB By .
By
Bx
n BX BY
Подставляем найденный коэффициент в (3): a0 rB
By
By
x В y В a0 y В rB
xВ
Bx
Bx
Подставляем найденные коэффициенты в уравнение линейной регрессии:
g ( x) a0 a1 x g ( x) y В rB
By
By
x В rB
x
Bx
Bx
Окончательно имеем выборочное уравнение линейной регрессии (проверка):
g x y B rB
By
x xB .
Bx
Сравниваем это уравнения с уравнением линейной регрессии в терминах
теории вероятности: y my r
y
x mx . Структура этих уравнений одинаковая,
x
значит, между двумя случайными величинами существует функциональная
зависимость, если rB 1 , в противном случае корреляционная зависимость.
При наличии частот:
1 m
x В nxi xi ,
n i 1
yВ
x
1 k
ny y j ,
n j 1 j
2
В
1 m
nxi xi2 ,
n i 1
DBx x 2 x B ; DBy y2 yB ; Bx DBx ; By DBy .
2
B
2
B
С
m
k
S xy nxi y j xi y j
i 1 j 1
~ 25 ~
Понятие o корреляционном отношении и его свойства.
где yx Dyx ,
g ( xi ) -
Dyx 1
вычисляется
g x y B rB
By
x xB
Bx
m
n
i 1
из
nxi g ( xi ) y В
yx
Вy ,
2
,
выборочного
уравнения
линейной
регрессии:
подстановкой в него каждого значения случайной
величины xi
Свойства корреляционного отношения
1. 0
2. Между двумя случайными величинами существует функциональная
зависимость, если ,
3. между случайными величинами не существует никакой зависимости,
если 0,
4. между случайными величинами существует линейная зависимость, если
rв.
С
~ 26 ~
Пример:
X
Y
g(x)
∆%
i
1
2
3
4
5
1
0.8
20
1
2
2.3
15
xi
1
2
3
4
10
2
4
3.8
5
(xi)2
1
4
9
16
30
3
5
5.3
6
yi
1
2
4
5
7
19
С
4
7
6.8
3
xi yi
2
8
15
28
53
~ 27 ~
С