Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
7.12. Равномерное, показательное и нормальное распределения непрерывной случайной величины.
1. Равномерное распределение.q
Определение. Непрерывная случайная величина X имеет равномерное распределение на отрезке [a, b], если на этом отрезке плотность распределения вероятности случайной величины постоянна, а вне его равна нулю (рис. 7.10),
т.е. f(x) =
Из определения плотности вероятности равномерного распределения нетрудно найти интегральную функцию распределения F(X) на интервале [a;b]:
F(x) = = * x = .
Таким образом (рис 7.11) F(x) =
Найдем вероятность попадания равномерно распределенной случайной величины X в интервал (x1;x2), расположенный внутри отрезка [a;b].
P(x1 < X< x2) = dx = x = .
Математическое ожидание:
M(X) = dx +
Дисперсия
D(X) = 2 = 2 = * 3
2 = .
Среднее квадратическое отклонение (X) = . Со случайной величиной, имеющий равномерное распределение, мы часто встречаемся в измерительной практике. Например, при взвешивании ошибка округления до ближайшего целого деления является случайной величиной X, которая может принимать с постоянной плотностью вероятности любое значение между двумя соседними целыми делениями.
Пример. Автобус некоторого маршрута движется равномерно с интервалом 5 минут. Найти вероятность того, что равномерно распределенная случайная величина X – время ожидания автобуса составит менее трех минут.
Решение. Случайная величина X равномерно распределена на интервале [0;5], поэтому плотность вероятности на этом интервале имеет вид f(x) = = . Для того, чтобы время ожидания не превысило трех минут, пассажир должен появиться на остановке в интервале от двух до пяти минут после ухода предыдущего автобуса, т.е. случайная величина X должна попасть в интервал (2;5). Поэтому искомая вероятность P(2 < 5) =
2. Показательное (экспоненциальное) распределение.
Определение. Непрерывная случайная величина X распределена по показательному закону, если ее плотность вероятности имеет вид:
f(x) = где λ > 0 – параметр показательного распределения.
Найдем интегральную функцию распределения F(x).
F(x) = ;
Таким образом (рис. 7.13),
F(x) =
Найдем числовые характеристики M(X), D(X), (X) случайной величины X, распределенной по показательному закону:
M(X) = =
= x
+ .
Аналогично, дважды интегрируя по частям, можно найти D(X);
D(X) = (X) = Найдем вероятность попадания показательно распределенной случайной величины в интервал (x1;x2), расположенный внутри полуинтервала (0;+
P(x1 < X < x2) =
Случайные величины, имеющие показательное распределение, часто встречаются в практических приложениях теории вероятностей, особенно в теории массового обслуживания. Так, к показательному закону приводит задача о распределении промежутка времени между двумя последовательными событиями в простейшем потоке с интенсивностью . Показательный закон используется для описания распределения времени безотказной работы прибора или системы, если интенсивность отказов можно считать постоянной, длительности ремонта или другого вида обслуживания и т.д. Наконец, для практического применения показательного распределения важна предельная теорема. Согласно этой теореме, при объединении достаточно большого числа потоков с любыми законами распределения промежутков времени между появлениями событий, промежуток времени между событиями в объединенном потоке будет в пределе при неограниченном увеличение числа составляющих потоков и равномерной их малости подчиняться показательному закону распределения с параметром где t – общее время наблюдения за всеми потоками; n = общее число появлений событий за время t.
Показательное распределение широко используется в теории надежности, изучающей условия безотказной работы некоторой системы, если отказы в ее работе образуют простейший поток.
Пример. Случайная величины X – время работы электролампочки имеет показательное распределение. Определить вероятность того, что время работы лампочки будет не меньше 600 часов, если среднее время работы 400 часов.
Решение. По условию задачи математическое ожидание случайной величины X – равно 400 ч, следовательно, = (так как M(X) = . Искомая вероятность P(X < 600), где F(x) = .
Окончательно, P(X ) = 1 – (1 –
3. Нормальное распределение.
Среди всех непрерывных законов распределения вероятностей особую роль играет нормальное распределение. Теоретическим основанием к его применению служит центральная предельная теорема Ляпунова. Согласно этой теореме, распределение суммы в попарно независимых и произвольно распределенных случайных величин при некоторых дополнительных условиях и неограниченном возрастании n стремится к нормальному закону распределения.
Определение. Нормальное распределение (распределение Гаусса) – это распределение непрерывной случайной величины X, характеризуемое плотностью вероятности f(x) = , где a = M(X) – математическое ожидание; – среднее квадратическое отклонение случайной величины X. График вероятности имеет вид, представленный на рис. 7.14.
Прежде всего, выделим стандартное нормальное распределение с параметрами a = 0, = 1, т.е. с плотностью вероятности (x) = С этой функцией, а также с функцией Ф(x) = и их свойствами мы уже встречались при рассмотрении локальной и интегральной теорем Лапласа. График (x) имеет вид, представленный на рис. 7.15.
Отметим, что
Влияние параметров a и на вид кривой плотности вероятности приведено на рис. 7.16. Как видно из графика, параметр a определяет положение центра нормальной плотности, – разброс относительно центра (при уменьшении растет , а площадь должна оставаться равной 1, т.е. кривая будет стягиваться к своей оси симметрии x = a, что соответствует смыслу , как меры рассеяния).
Определим вероятность попадания нормально распределенной случайной величины X в интервал ( = и, используя замену = t, где Ф(x) уже известная нам функция Лапласа. Окончательно P( = Ф(().
4. Правило трех сигм.
Отметим важный случай последней формулы предыдущего подраздела, позволяющий оценить вероятность того, что случайная величина X, распределенная по нормальному закону, отклонится от своего математического ожидания на величины, меньшую заданного положительного числа , т.е. попадет в симметричный относительно математического ожидания интервал (a – ; a +
P(|X – a|<) = P(– < X – a < = P(a – < X < a + ) = Ф = Ф – Ф
P(|X – a| < ) = 2Ф .
Используя данную формулу, можно получить известное правило трех сигм, которое утверждает, что нормально распределенная случайная величина практически не принимает значений вне интервала (a – 3, a + 3.
Определение. Если случайная величина распределена нормально, то абсолютное значение ее отклонения от математического ожидания не превосходит утроенного среднего квадратического отклонения. Действительно,
P(|X – a| < 3) = 2Ф = 2Ф(3) = 0,9972.
В частности:
P(|X – a| < ) = 2Ф = 2Ф(1) = 0,6826,
P(|X – a| < ) = 2Ф = 2Ф(2) = 0,9544.
Примеры:
1. Случайная величина X распределена нормально: M(X) = 6, Найти вероятность того, что в результате испытания X примет значение из интервала (4;8).
Решение.
P(4 < X < 8) = Ф = 0,6826.
2. Случайная величина X распределена нормально. Среднее квадритическое (X = 0,4. Найти вероятность того, что отклонение случайной величины от ее математического ожидания по абсолютному значению будет меньше 0,3.
Решение.
P(|X – a| < 0,3) = 2Ф.
Задачи для самостоятельного решения
1–3. Задано математическое ожидание a и среднее квадритическое отклонение нормально распределенной случайной величины X. Требуется: а) найти вероятность того, что X примет значение, принадлежащее интервалу ( б) найти вероятность того, что абсолютное значение отклонения X – a окажется меньше ; в) найти симметричный относительно a интервал, в который попадет величина X с вероятностью p; г) дать графические пояснения ответов на кривой нормального распределения; д) найти интервалы, в которых практически окажутся все значения величины X (правило трех сигм)
ЗАДАЧА
a
1
7
3
6
10
1
0,5223
2
12
4
12
16
2
0,5821
3
9
3
9
18
6
0,8904
7.13. МОМЕНТЫ СЛУЧАЙНОЙ ВЕЛИЧИНЫ. ЗАКОН БОЛЬШИХ ЧИСЕЛ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ. НЕРАВЕНСТВО ЧЕБЫШЕВА.
1. Моменты случайной величины.
Обобщением основных числовых характеристик случайных величин является понятие моментов случайной величины (понятие "момент" заимствовано из механики, где оно применяется для описания распределения масс). В теории вероятностей различают моменты двух видов: начальные и центральные.
Определение. Начальным моментом k-го порядка случайной величины X называют математическое ожидание k-й степени случайной величины Xk, т.е. k = M(Xk). Для дискретной случайной величины момент выражается суммой k = , а для непрерывной – интегралом k = . Из начальных моментов случайной величины особое значение имеет момент первого порядка. Это уже рассматривавшееся математическое ожидание M(X). Начальные моменты высших порядков используются главным образом для вычисления центральных моментов.
Определение. Центральным моментом k-го порядка случайной величины X называют математическое ожидание k-й степени отклонения (X – M))k, т.е. k = M[(X – M (X))k].
Для дискретной случайной величины центральный момент выражается суммой k , а для непрерывной – интегралом k = k f(x)dx.
Среди центральных моментов случайной величины особое значение имеет центральный момент второго порядка, который является не чем иным, как дисперсией D(X). Кроме него в теории вероятностей часто используются центральные моменты третьего и четвертого порядков.
Третий центральный момент служит характеристикой асимметрии («скошенности») распределения. При этом обычно рассматривают отношение 3 к среднему квадратическому отклонению в третьей степени, которое называют коэффициентом асимметрии распределения случайной величины X: ax = . Кривые распределения, имеющие различную асимметрию, показаны на рис. 7.17.
Четвертый центральный момент 4 служит для характеристик островершинности или плосковершинности распределения. Эти свойства распределения случайной величины X описываются с помощью эксцесса – величины, определяемой формулой cx = . Кривая нормального распределения, для которой cx = 0, т.е. = 3, принимается за эталон. Кривые более островершинные – имеют положительный эксцесс, более плосковершинные – отрицательный (рис. 7.18).
Иногда на практике применяются так называемые абсолютные моменты.
Абсолютный начальный момент определяется формулой k = M[|Xk|], а абсолютный центральный момент – формулой vk = M[|X – M(X)|k].
2. Закон больших чисел и предельные теоремы.
Теория вероятностей изучает закономерности, свойственные массовым случайным явлениям. Если явление носит единичный характер, теория вероятностей способна обычно предсказать лишь результаты в очень широких пределах. Закономерности проявляются именно при большом числе случайных явлений, происходящих в однородных условиях. При этом характеристики случайных событий и случайных величин, наблюдаемых при испытании, становятся устойчивыми. Например, устойчива частота появления события при большом числе испытаний, то же относится и к средним значениям случайных величин.
Определение. Группа теорем, устанавливающих соответствие между теоретическими и экспериментальными характеристиками случайных величин и случайных событий при большом числе испытаний над ними, носит название – предельные теоремы теории вероятностей. К ним относятся: закон больших чисел (группа теорем, включающая, в частности, неравенство и теорему Чебышева, теорему Бернулли) и центральная предельная теорема Ляпунова.
Неравенство Чебышева. Пусть случайная величина X имеет математическое ожидание M(X) и дисперсию D(X). Неравенство Чебышева утверждает: вероятность того, что отклонение случайной величины от ее математического ожидания будет по абсолютному значению не меньше любого положительного числа , ограничена сверху величиной , т.е. P(|X – M(X)|.
Геометрический смысл этого события заключается в том, что значение случайной величины X попадает в область, заштрихованную на рис. 7.19.
Следует помнить, что неравенство Чебышева справедливо как для дискретных, так и для непрерывных случайных величин, и полезно на практике лишь тогда, когда > , в противном случае оно дает тривиальную оценку. Так, например, если выбрать , то P(|X – M(X) , но и без того очевидно, что вероятность не может быть больше четырех; если же выбрать = 10(X), то P(|X – M(X)| 10 = 0,01, а это уже достаточно хорошая оценка вероятности.
Неравенство Чебышева можно представить и в другом виде: P(|X – M(X))| < ) 1 – .
Неравенство Маркова. Для положительных случайных величин, имеющих математическое ожидание, справедливо неравенство Маркова (. Неравенство Маркова в первоначальной форме или в форме P(X < ) применяют для оценки вероятности положительных случайных величин с неизвестным законом распределения.
Теорема Чебышева. Пусть имеется бесконечная последовательность X1, X2, ..., Xn, ..., Xn ... случайных величин с одним и тем же математическим ожиданием a (M(X1) = M(X2) = ... M(Xn) = ... = a) и дисперсиями, ограниченными одной и той же постоянной C (D(X1) < C,D(X2) < C, ..., D(Xn) < C ...). Тогда каково бы ни было положительное число , вероятность события < стремится к единице при n , т.е. = 1.
Теорема Бернулли. Пусть производится n независимых опытов, в каждом из которых с вероятностью p может наступить некоторое событие A. Рассмотрим случайную величину Yn – число наступлений события A в n опытах. Тогда каково бы ни было положительное число , вероятность события стремится к единице при n , т.е. ().
Центральная предельная теорема Ляпунова показывает, что при достаточно большом числе n независимых случайных величин X1, X2, ..., Xn, подчиненных каким угодно законам распределения (при соблюдении некоторых ограничений), их сумма будет иметь закон распределения, как угодно близкий к нормальному закону. Сформулируем простейшую форму центральной предельной теоремы Ляпунова, когда случайные величины X1, X2, ..., Xn взаимно независимы и одинаково распределены.
Теорема. Если случайные величины X1, X2, ..., Xn взаимно независимы и имеют один и тот же закон распределения с математическим ожиданием a и дисперсией , причем существует третий абсолютный центральный момент v3, то при неограниченном увеличении n закон распределения суммы эти случайных величин Yn = неограниченно приближается к нормальному.
В практических задачах часто применяют центральную предельную теорему для определения вероятности того, что сумма нескольких случайных величин окажется в заданных пределах.
Пример. Складываются 24 независимые случайные величины, распределенные по равномерному закону на интервале (0;1). Написать приближенное выражение для плотности суммы этих случайных величин. Найти вероятность того, что эта сумма будет заключена в пределах от 6 до 8.
Решение. Пусть Y = , где Xi – случайные величины, равномерно распределенные на интервале (0;1). Условия теоремы Ляпунова соблюдены, поэтому случайная величина Y имеет приближенно плотность нормального распределения f(y) =
Поскольку все X1 распределены равномерно на интервале (0;1), их математические ожидания и дисперсии равны между собой:
M (X1) = = = , D(X1) = = =
Следовательно, по свойствам математического ожидания и дисперсии суммы случайных величин
M(Y) = ( = = 12.
= D(Y) = D( = = 2.
Подставляя найденные значения M(Y) и D(Y) = в формулу для плотности нормального распределения случайной величины Y, получим f(y) = Тогда вероятность того, что случайная величина будет заключена в пределах от 6 до 8, определяется по формуле для вычисления вероятности попадания нормально распределенной случайной величины в заданный интервал () = (6;8):
P (, где ф(x) =dt – функция Лапласа.
Подставляя числовые данные, получим:
P (6 = Ф(–2,83) – Ф(– 4,24) = – Ф(2,83) + Ф(4,24) = – 0,49977 + 0,4999 = 0,0022.
7.14. ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СТАТИСТИЧЕСКИЕ СОВОКУПНОСТИ.
В математической статистике рассматриваются две основные задачи.
Первая задача состоит в том, чтобы указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате поставленных экспериментов.
Вторая задача состоит в разработке методов анализа статистических данных в зависимости от целей исследования. К ним относятся:
1) оценка неизвестной вероятности события; оценка параметров распределения, вид которого не известенl оценка зависимости случайной величины от одной или нескольких случайных величин;
2) проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого не известен.
Решению этих задач посвящены подразделы 6.14. – 7.14.
Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента) и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.
Итак, основная задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.
В основе задач, решаемых методами математической статистики, лежит необходимость изучения совокупности однородных объектов, относительно некоторого качественного или количественного признака.
Например, при изучении партии однородных товаров, хранящиеся на складе, качественным признаком могут служить сортовые, а количественным – массовые характеристики, изменяющиеся в процессе хранения.
1. Генеральная и выборочная статистическая совокупности.
Определение. Совокупность всех объектов, подчиненных данному признаку, называется генеральной совокупностью. Число таких объектов называется объемом генеральной совокупности.
На практике, как правило, обследование всех объектов генеральной совокупности не производится в силу излишней трудоемкости такого процесса. Обычно из всей совокупности отбирают ограниченное число объектов, которые и изучают. Такую случайно отобранную совокупность называют выборочной совокупностью, или выборкой. Для того, чтобы по данным выборки достаточно уверенно характеризовать всю генеральную совокупность, необходимо, чтобы отобранные элементы правильно ее представляли.
Определение. Выборка, достаточно хорошо описывающая всю генеральную совокупность, называется репрезентативной (представительной).
Для получения репрезентативной выборки необходимо, чтобы все отобранные элементы имели одинаковую вероятность попасть в выборку. В случае большого объема N генеральной совокупности хорошие результаты в этом смысле дает использование таблицы "случайных чисел".
Для того, чтобы отобрать, например, 20 объектов из пронумерованной генеральной совокупности, можно открыть любую страницу таблицы "случайных чисел" и выписать подряд 20 случайных чисел. В выборку включают те объекты, номера которых совпали с выписанными случайными числами (случайные числа, превышающие N, при выписывании пропускаются).
Определение. Элементы x1,x2, ..., xn попавшие в выборку, называются вариантами, а их количество n – объемом выборки. Отобранные элементы располагают обычно в порядке их возрастания: x(1) x(n). Такая последовательность вариантов называется вариационным рядом. Разность между максимальным и минимальным элементами выборки z = x(n) – x(n) называется размахом выборки.
Среди n элементов выборки могут встречаться повторяющиеся. Если, например, элемент x1 встречается n1 раз, x2 – n2, раз, ... , xk – n2 раз, то числа n1, n2, ..., nk называется частотами вариант x1,x2, ..., xk. Очевидно, что сумма всех частот равна объему выборки, т.е. n1 + n2 + ... + nk = n или .
Определение. Расположенная в порядке возрастания вариант последовательность пар чисел, составленная из вариант и их частот (x1,n1), (x2,n2), ..., (xk, nk), называется статистическим рядом, или статистическим распределением. При этом пользуются табличной записью:
Xi
X1
X2
...
Xk
ni
n1
n2
...
nk
Иногда вместо частоты варианты ni требуется использование относительных частот i = . Очевидно, что сумма частот всех элементов выборки равна единице + .... + .... + = = 1.
Примеры.
1. Записать вариационный ряд и статистическое распределение элементов выборки 5, 0, 3, 7, 0, 10, 5, 0, 2, 10, 2, 7, 2, 0, 4, 7, 7, 4 – из числа рабочих дней в году, пропущенных по болезни работниками магазина. Определить размах выборки.
Решение. Объем выборки n = 20. Упорядочив элементы выборки по величине, получим вариационный ряд 0, 0, 0, 0, 0, 2, 2, 2, 3, 4, 4, 5, 5, 5, 7, 7, 7, 7, 10, 10. Размах выборки z = 10 – 0 = 10.
X1
2
3
4
5
7
10
ni
5
3
1
2
3
4
2
При большом объеме выборки для упрощения вычислений ее элементы объединяют в группы (разряды), представляя выборку в виде группированного статистического ряда (распределения). Для этого интервал, содержащий все элементы, разбивают на k непересекающихся интервалов. Вычисления значительно упрощаются, если эти интервалы имеют одинаковую длину h = . После того как интервалы выбраны, определяются частоты – количество элементов выборки, попавших в i-й интервал, а сами элементы, попавшие в этот интервал, считаются равными его середине (элемент, совпадающий с верхней границей интервала, относится к последующему интервалу).
Число интервалов k группировки берется в зависимости от объема выборки. При этом следует помнить, что группировка выборки вносит погрешности в дальнейшие вычисления. Эти погрешности растут с уменьшением числа интервалов. В процессе составления группированного статистического распределения подсчитываются также накопленные частоты (накопленная частота i-го интервала равна сумме частот самого i-го и всех предыдущих интервалов, т.е., например, = + + ), относительные частоты и накопленные относительные частоты = .
2. Дано время недельной загрузки электрических духовных шкафов 50 обследованных предприятий общественного питания в часах:
38 60 41 51 33 42 45 21 53 60
60 52 47 46 49 49 14 57 54 59
77 47 28 48 58 32 42 58 61 30
61 35 47 72 41 45 44 56 30 40
67 65 39 48 43 60 54 42 59 50
Найти размах выборки, число и длину интервалов, а также составить таблицу частот (записать группированное статистическое распределение). Первый интервал 14-23.
Решение. Будем проводить группировку по интервалам равной длины h = 23 – 14 = 9. Размах выборки z = 77 – 14 = 63. Тогда необходимое число интервалов k = = 7. Результаты группировки сведены в таблицу:
Номер интервала i
Граница интервала
Середина интервала
Частота
Относительная частота
Накопленная относительная частота
1
14-23
18,5
2
0,04
0,04
2
23-32
27,5
3
0,06
0,10
3
32-41
36,5
6
0,12
0,22
4
41-50
45,5
17
0,34
0,56
5
50-59
54,5
10
0,20
0,76
6
59-68
63,5
10
0,20
0,96
7
68-77
72,5
2
0,04
1,00
2. Графическое представление статистической совокупности. Полигон и гистограмма частот.
В целях наглядности строят различные графики статистического распределения. Они позволяют лучше представить характер распределения элементов выборки, а иногда и сделать предположения о законе распределения генеральной совокупности. Такими графиками являются полигон частот и гистограммы.
Определение. Полигоном частот называется ломаная линия, вершинами которой являются точки (x1, n2), (x2, n2), ...., (xk, nk), определяемые элементами статистического ряда. Для его построения по оси абсцисс откладываются варианты xi, а по оси ординат – соответствующие им частоты . Построенные точки ( ni) соединяются отрезками прямых, и получается полигон частот (для группированной выборки полигон частот строится по точкам (; ).
Для группированной выборки обычно строится гистограмма частот.
Определение. Гистограммой частот называется ступенчатая фигура, составленная из прямоугольников, построенных на интервалах так, что площадь каждого прямоугольника численно равна частоте варианты , расположенной в середине i-го интервала. Отсюда следует, что площадь гистограммы частот равна объему выборки n. При равных длинах интервалов разбиения h высоты прямоугольников равны Hi = .
Иногда вместо полигона и гистограммы частот строятся полигон и гистограмма относительных частот. Здесь по оси ординат откладывается не частота , а относительная частота = (высота прямоугольников гистограммы относительных частот будет равна соответственно , а площадь всей гистограммы относительных частот равна единице).
Пример. Построить полигон и гистограмму частот и относительных частот по группированной выборке примера 2 (см. п. 7.14.1).
Решение. По результатам группировки (см. таблицу из примера 2) строим полигон частот (рис. 7.20), гистограмму частот (рис. 7.21), полигон относительных частот (рис. 7.22) и гистограмму относительных частот (рис. 7.23).
3. Эмпирическая функция распределения.
Если известно распределение частот какого-нибудь количественного признака X, нетрудно заметить, что и частота ni и относительная частота = зависят от xi. Из этих соображений вводится так называемая эмпирическая функция распределения F*(x), которая каждому значению x X ставит в соответствие сумму относительных частот вариант выборки, меньших x: F*(x) = (иногда эта функция записывается, как F*(x) = , где под nx понимается суммарная частота всех вариант выборки, меньших x, т.е. если, например, x > x3, то nx = n1 + n2 + n3). Эмпирическая функция распределения (функция распределения выборки) F*(x) позволяет составить представление об интегральной функции распределения F(x) всей генеральной совокупности признака X (F(x) в этом случае называется обычно теоретической функцией распределения).
Эмпирическая функция распределения F*(x) обладает всеми свойствами интегральной функции распределения:
1) значения эмпирической функции распределения принадлежат отрезку [0;1], т.е. для любого x F*(x) ;
2) F*(x) – неубывающая функция;
3) если x1 – наименьшая варианта, то для x x1, F*(x) = 0, а если xk – наибольшая варианта, то для x > xk F*(x) = 1.
Пример. Построить графики эмпирических функций распределения по исходной и группированной выборке примера 2 (см. п. 7.14.1).
Решение. Запишем исходные данные в виде статистического распределения:
xi
14
21
28
30
32
33
35
38
39
40
41
42
43
44
45
46
47
ni
1
1
1
2
1
1
1
1
1
1
2
3
1
1
2
1
3
xi
48
49
50
51
52
53
54
56
57
58
59
60
61
65
67
72
77
ni
2
2
1
1
1
1
2
1
1
2
2
3
2
1
1
1
1
Так как x1 = 14, а x50 = 77, то F*(x) = 0, при и F*(x) при x > 77. На полуинтервале (14;77] эмпирическую функцию распределения строим с использованием статистического распределения (рис. 7.24): при 14 < x 21 F*(x) = = 0,02; при 21 < x 28 F*(x) = при 72 < x 77, F*(x) = = 0,98.
Аналогично строится график F*(x) (рис. 7.25) по группированным данным (см. табл. примера 2, п. 7.14.1). В этом случае F*(x) имеет скачки в серединах интервалов, а их величина определяется значениями накопленных относительных частот из последней графы таблицы.
7.15. ВЫБОРОЧНЫЙ МЕТОД. ВЫЧИСЛЕНИЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК.
1. Основная задача выборочного метода.
Выборочный метод состоит в определении сводных характеристик (показателей) какой-либо статистической совокупности путем обследования не всех, а лишь части ее членов, взятых на выборку. Например, для определения среднего срока службы большой партии электрических лампочек отбирается сравнительно небольшая их часть и испытывается. Тогда средний срок службы испытанных лампочек принимается за приближенное значение среднего срока службы лампочек во всей партии. Выборочный метод широко применяется при определении урожайности: качества продукции; регистрации цен на рынках; при переписи населения. К выборочному методу обращаются в тех случаях, когда сплошное обследование нельзя осуществить, например, из-за того, что генеральная совокупность имеет бесконечное число членов (объектов).
2. Вычисление числовых характеристик (, DB, , , , , , V, as, s)
Для вычисления сводных характеристик выборки применяется метод произведений, который дает удобный способ вычисления условных моментов различных порядков вариационного ряда с равноотстоящими вариантами. Зная условные моменты, нетрудно найти интересующие нас начальные и центральные эмпирические моменты. В частности, методом произведений удобно вычислять среднюю , выборочную дисперсию DB и выборочное среднее квадратическое отклонение . Целесообразно пользоваться расчетной таблицей, в столбцы которой заносят следующие данные:
• в первый – выборочные (первоначальные) варианты Xi, располагая их в возрастающем порядке;
• во второй – частоты вариант ni; все частоты складываются и их сумму (объем выборки n) помещают в нижнюю клетку столбца;
• в третий – условные варианты , где C – ложный нуль (новое начало отсчета); за С принимается варианта, которой соответствует максимальная частота; h – шаг варьирования (разность между двумя соседними вариантами в вариационном ряду), т.е. h = xi–1. Практически третий столбец заполняется так: в клетке строки, содержащей выбранный ложный нуль, пишут 0; в клетках под нулем пишется последовательно –1, –2, –3, ..., а под нулем – 1, 2, 3, ...;
• в четвертый – произведения частот на условные варианты ni Сложив все полученные произведения, их сумму , помещают в нижнюю клетку столбца;
• в пятый – произведения частот на квадраты условных вариант ni и сумма этих произведений помещается в нижнюю клетку столбца;
• в шестой – произведения ni()2 и их сумма + 1помещается в нижнюю клетку столбца.
Замечание. Шестой столбец служит для контроля вычислений, т.е если сумма + 1 окажется равной сумме + 2 то вычисления произведены правильно.
После заполнения расчетной таблицы и проверки правильности вычислений определяются условные моменты , и по формулам: = , . Выборочная средняя , выборочная дисперсия DB и выборочное среднее квадратическое отклонение определяются по формулам: = h + C, DB = [2]h2, = . Изложенная методика расчета выборочных характеристик относится к случаю равноотстоящих вариант.
На практике, как правило, данные наблюдений не являются равноотстоящими числами. В этом случае с помощью соответствующей обработки наблюдаемых значений признака можно свести вычисления к случаю равноотстоящих вариант. Для этого интервал, в котором заключены все наблюдаемые значения признака (первоначальные варианты), разделяют на несколько равных частичных интервалов (практически в каждый частичный интервал должно попасть не менее 8–10 первоначальных вариантов). Затем находят середины частичных интервалов, которые и образуют последовательность равноотстоящих вариант, попавших в соответствующий частичный интервал. Замена первоначальных вариант серединами частичных интервалов сопровождается ошибками (первоначальные варианты левой половины частичного интервала будут увеличены, а варианты правой половины уменьшены), однако эти ошибки будут в основном погашаться, поскольку они имеют разные знаки.
Пример. Варианты выборочной совокупности расположены в возрастающем порядке, т.е. в виде вариационного ряда:
xi
90
94
98
102
106
110
114
118
ni
10
12
19
27
17
7
5
3
Вычислить: 1) выборочную среднюю XB; 2) выборочную дисперсию DB; 3) выборочное среднее квадратическое отклонение ; 4) коэффициент вариации V; 5) асимметрию as; 6) эксцесс
Решение. Варианты образуют арифметическую прогрессию с разностью h = 4 (шаг вариации – разность между двумя соседними вариантами в вариационном ряду), h = xi – xi–1 = 118 – 114 = 114 – 110 = ... = 94–90 = 4. Условные варианты , где C = 102 (варианта, имеющая максимальную частоту nmax = 27). Для расчета сводных характеристик выборки составим расчетную таблицу в условных вариантах:
№
xi
ni
ni
ni
ni
ni
ni
ni (
1
90
10
–3
–30
90
40
–270
810
160
2
94
12
–2
–24
48
12
–94
192
12
3
98
19
–1
–19
19
–19
19
4
102
27
27
27
5
106
17
1
17
17
68
17
17
272
6
110
7
2
14
28
63
56
112
567
7
114
5
3
15
45
80
135
405
1280
8
118
3
4
12
48
75
192
768
1875
100
–15
295
365
15
2323
4193
+ 2
+ 4 + 4;
4193 = 2323 + 4 * 15 + 6 * 295 – 60 + 100.
Таким образом, таблица проверена дважды, следовательно, ее результатом можно пользоваться для расчета сводных характеристик выборки. Вычисляем условные эмпирические моменты по формулам:
= = = –0,15;
= = = 0,15;
= = 2,95;
= = 23,23;
Вычисляем искомые величины (, DB, , V, as, s)
= h + С = – 0,15 * 4 + 102 = 101,4;
DB = [] = [2,96 – (–015] * 16 = 46,84.
= = = 6,843;
V = . 100% =
as = = 0,2937;
s = = – 3 = – 0,32
7.16. Доверительная вероятность, доверительные интервалы.
Средняя выборочная, выборочные дисперсия и среднее квадратическое отклонение являются оценками параметров генеральной совокупности, выражающимися одним числом. Такие оценки называются точечными. Они зависят от объема выборки и могут сильно отличаться от истинной величины оцениваемого параметра, т.е. приводят в некоторых случаях к грубым ошибкам. Это вызывает необходимость оценивать точность и надежность, полученных по выборке точечных оценок, что производится с помощью интервальных оценок.
Оценкой математического ожидания a (или, что-то тоже самое, генеральной средней , где N – объем генеральной совокупности) какого-либо количественного признака X генеральной совокупности служит выборочная средняя . Очевидно, что тем точнее, чем меньше величина отклонения n, тем точнее будет оценивать a, тем меньше . В таком случае число можно считать точностью оценки. В силу случайности вариант, попадающихся в выборку, говорить о выполнении неравенства < можно лишь с некоторой вероятностью , которая называется надежностью или доверительной вероятностью оценки, т.е. P( < = или P(. Эту запись следует понимать так: вероятность того, что интервал ( заключает в себе (покрывает) неизвестное математическое ожидание a, равна , а сам интервал ( называется доверительным интервалом. Представляет интерес прежде всего доверительный интервал для оценки математического ожидания количественного признака X генеральной совокупности распределенного по нормальному закону. При этом важны два случая.
Случай 1. Если заранее известно среднее квадратическое отклонение , то границы доверительного интервала для оценки математического ожидания имеют вид: – объем выборки, – известное среднее квадратическое отклонение генеральной совокупности; t – величина, определяемая по таблице для функции Лапласа Ф(t) = из соотношения 2Ф(t) = с заранее выбранной доверительной вероятностью (надежностью) .
Пример. Выборочное обследование бюджета 36 семей выявило средний доход в месяц на одну семью в 1860 руб. Найти доверительный интервал для оценки математического ожидания a – среднемесячного дохода всех 10 тысяч исследуемых семей, если известно, что он распределен по нормальному закону со средним квадратическим отклонением = 250 руб. Доверительную вероятность принять равной 0,9.
Решение. Найдем значение аргумента t функции Лапласа из соотношения 2Ф(t) = 0,9 Ф(t) = 0,45. По таблице значений функций Лапласа находим t = 1,645. Тогда точность оценки равна = =
Нижняя граница доверительного интервала 1860 – 68,5 = 1791,5, а его верхняя граница 1860 + 68,5 = 1928,5. Таким образом, значения неизвестного параметра a, согласующиеся с данными выборки, удовлетворяют неравенству 1791,5 < a < 1928,5. Следует понимать, что доверительная невероятность связана здесь не с величиной параметра a, а лишь с границами интервала, которые изменяются при изменении выборки. Надежность = 0,9 указывает на то, что если произведено достаточно большое число выборок, то 90% из них определяет такие же интервалы, в которых параметр a действительно заключен, и лишь в 10% случаев он может выйти за границы доверительного интервала.
Случай 2. Если среднее квадратическое отклонение исследуемого признака заранее неизвестно, то используется его выборочная оценка – эмпирическое (выборочное) среднее квадратическое отклонение, определяемое по данным выборки. В этом случае доверительный интервал для a имеет вид: , где – выборочное среднее; n – объем выборки; – выборочное среднее квадратическое отклонение. Величина t, определяется по таблице распределения Стьюдента для заданных объемов и доверительной вероятности: = t(;n).
Пример. По данным выборочного обследования, 16 предприятий общественного питания средняя норма выработки на одного работника кухни составила 10,6 блюд в час при выработанном среднем квадратическом отклонении = 1,4 блюд/ч. Найти доверительный интервал для среднечасовой выработки нормально распределенной генеральной совокупности всех работников кухни треста столовых с доверительной вероятностью = 0,95.
Решение. Найдем величину По таблице распределения Стьюдента для n = 16 и находим доверительные границы.
Нижняя граница:
Верхняя граница:
Итак, с надежностью 0,95 неизвестный параметр a среднечасовой выработки заключен в интервале 9,86 < a < 11,34.
В некоторых учебниках, наряду с доверительной вероятностью, используется понятие уровня значимости, обозначаемое обычно через. Связь между этими величинами задается соотношением , т.е, например, 6%-му уровню значимости ( соответствует 95%-ая доверительная вероятность (
Помимо перечисленных числовых характеристик выборки в экономической и иной литературе, использующей математическую статистику, часто встречаются и другие характеристики.
Определение. Модой (обозначается M0) называется варианта выборки, имеющая наибольшую частоту.
Пример. По данным статистического распределения выборки найти моду M0.
xi
1
3
5
7
9
ni
1
5
6
5
3
Решение. Поскольку наибольшая частота выборки n3 = 6 принадлежит элементу x3 = 5, то величина моды равна M0 = 5.
Определение. Медианой (обозначается me) называется варианта выборки, делящая вариационный ряд на две части, равные по числу вариант. При этом если объем выборки – число нечетное, т.е. n = 2k – 1, то медианой будет являться средний элемент вариационного ряда me = k + 1, если же n – четное, т.е. n = 2k, то медианой будет являться величина, равная полусумме двух вариант выборки, расположенных в середине вариационного ряда, т.е. me = .
Пример. По данным вариационных рядов а), б), в) определить медиану.
а) 2 3 6 7 9; б) 2 3 5 7; в) 2 2 3 5 7 7 8 9 9 11.
Решение.
а) объем выборки n = 5 – нечетное число, следовательно, медианой будет средний элемент, т.е. me = 6;
б) объем выборки n = 4 – четное число, следовательно, медианой будет полусумма двух средних значений: me = = = 7.
в) аналогично пункту б) me = = = 7.
Наряду со средним квадратическим отклонением в качестве характеристики рассеяния вариант выборки около среднего выборочного иногда используется среднее абсолютное отклонение , определяемое формулой:
= xi – | = (n1|x1 – | + n2|x2 = + .... + nk|xk – |).
Пример. По данным статистического распределения выборки найти выборочное среднее квадратическое отклонение и среднее абсолютное
xi
2
3
5
8
ni
1
5
3
1
Решение. Объем выборки n = 10, выборочная средняя
= = = 4;
= = = 3,1;
= =
= xi – | = (1 * |2 – 4| + 5 *| 3 – 4| + 3 * |5 – 4| + 1 * |8 – 4|) = = 1,4.
Замечание. Полезно помнить, что для любой выборки величины и всегда связаны соотношением
В экономическом анализе важной характеристикой выборки является коэффициент вариации V, определяемый как выраженное в процентах отношение выборочного среднего квадратического отклонения к выборочной средней . Коэффициент вариации служит для сравнения величин рассеяния двух вариационных рядов: тот из рядов, у которого коэффициент вариации больше, имеет большее рассеяние.
Пример. В 1980 г. средний товарооборот общественного питания на душу населения равнялся 93,2 руб. при величине среднего квадратического отклонения = 10,6 руб. В 1986 году показатель вырос до 102,1 руб., но и показатель рассеяния увеличился до 11,5 руб. Оценить изменение степени обеспеченности населения республик услугами общественного питания.
Решение. Требуемую оценку можно сделать с помощью коэффициента вариации V. Так, в 1980 г. V = = 11,37%. В 1986 г. V2 = . Тот факт, что V2 < V1, можно расценить как свидетельство выравнивания уровня обеспеченности услугами отрасли населения в 1986 по сравнению с 1980 г.
7.17. Статистическая проверка гипотез о вероятностях, средних, дисперсиях. Критерий согласия Пирсона.
При исследовании какого-либо признака X генеральной совокупности за основу принимается предположение о том, что он распределен по определенному закону. Другими словами, исследователь выдвигает гипотезу о предполагаемом законе распределения, которая, вообще говоря, нуждается в проверке. Такая проверка производится на основе критериев, которые называются критериями согласия.
Рассмотрим критерий, которой наиболее часто встречается в практике решения экономических задач средствами математической статистики, – критерий согласия Пирсона в его применении к проверке гипотезы о нормальном распределении генеральной совокупности.
В основе критерия лежит сравнение эмпирических (полученных опытом, наблюдением) частот ni и теоретических (вычисленных в предположении нормального распределения генеральной совокупности). Критерий Пирсона отвечает на вопрос: случайно ли расхождение этих частот (незначимо) или же неслучайно (значимо). При этом следует понимать, что критерий Пирсона не подтверждает однозначно правильность или неправильность гипотезы о нормальном распределении, а только устанавливает ее согласие или несогласие с данными наблюдения при выбранном уровне значимости.
В качестве критерия проверки выбирается случайная величина .
Вычисленное по данным наблюдений с помощью этой формулы значение величины x2 (хи-квадрат) обозначают (хи-квадрат наблюдаемое), которое сравнивают затем с критическим значением , определяемым по соответствующей таблице значений.
Табличное значение определяется по выбранному уровню значимости и числу степеней свободы k, вычисляемому по формуле k = s – 1 – r, где s – число групп (интервалов группировки) выборки; r – число параметров предполагаемого закона распределения, которые сами находятся по данным выборки.
В случае предположения нормального закона распределения f(x) = такими параметрами являются математическое ожидание a и среднее квадратическое отклонение (а вернее – их выборочные оценки). Таким образом, число параметров распределения r в этом случае равно 2 (r = 2), а число степеней свободы равно k = s – 1 – 2 = s – 3. Если в результате вычислений выполняется неравенство < , то гипотеза о нормальном распределении генеральной совокупности принимается с вероятностью = 1 – . Если же > , гипотезу отвергают с той же вероятностью.
По результатам обработки выборочных данных выдвигается гипотеза о нормальном распределении генеральной совокупности по следующим признакам:
а) по виду гистограммы частостей, сравнивая ее с графиком дифференциальной функции (функции плотности вероятности) нормального (теоретического) распределения f(x) = имеющего вид, представленный на рис. 7.26;
б) по виду графика эмпирической функции, сравнивая ее с графиком интегральной функции (функции распределения) F(x) теоретического распределения, который имеет вид, представленный на рис. 7.27;
а) по величине асимметрии a2 и эксцесса 3:
• при as = 0, 3 = 0 – идеальное нормальное распределение;
• при |as| < 0,1, | 3 | < 1 – нормальное распределение;
• при |as| < 0,5, | 3 | < 0,5 – распределение, близкое к нормальному;
• при |as| < 1, | 3 | < 1 – распределение нормального типа.
По опытным данным строится кривая нормального распределения. В качестве параметров принимается математическое ожидание a = и выборочное среднее квадратическое отклонение . Опытные данные записывают в виде таблицы 1.
Для построения кривой нормального распределения составляется расчетная таблица 2, в столбцы которой записывают следующие данные:
• в первый – значения xi признака X;
• во второй – опытные частоты ;
• в третий – отклонения значений признака от выборочной средней xi –
• в четвертый – отношения ui = ;
• в пятый – найденные по таблице значения функции (ui), где (ui) =
• в шестой – ординаты yi = (ui);
• в cедьмой – теоретические частоты признака, полученные округлением значения yi до целого числа.
Строим график функции = f(x), т.е. теоретическую кривую нормального распределения, и сравниваем ее с полигоном частот.
Для того, чтобы уверенно считать, что данные наблюдений свидетельствуют о нормальном распределении признака, воспользуемся критерием согласия Пирсона x2 с заданным условием значимости . Составим расчетную таблицу 3 для вычисления наблюдаемого значения критерия = , в столбьцы которой заносим следующие данные:
• в первый – значения признака Xi;
• во второй – опытные частоты n1 появления признака;
• в третий – теоретические частоты появления признака;
• в четвертый – разности между теоретическими и опытными частотами (;
• в пятый – квадраты отклонений опытных частот от теоретических
• в шестой – отношения квадратов отклонений опытных частот от теоретических к теоретическим частотам ;
• в седьмой – квадраты опытных частот
• в восьмой – отношение квадратов опытных частот к теоретической частоте .
По таблице 3 определяют = , а контроль вычислений производится по формуле:
= = =
Если условие < выполняется, то на основании критерия Пирсона гипотеза о нормальном распределении генеральной совокупности принимается, в противном случае отвергается.
Числовые характеристики генеральной совокупности определяются по уровню надежности = 1 – , где – уровень значимости. Такими характеристиками являются доверительные интервалы, покрывающие параметр a (математическое ожидание) с надежностью по выборочной средней :
, где – точность оценки; n – объем выборки, ty = t( определяется по таблице значений. Полученные результаты обработки выборочных данных позволяют дать заключение о генеральной совокупности, из которой была извлечена выборка.
Пример. В опыте было получено 100 вариант, составляющих выборочную совокупность, которые приведены в табл. 7.1. (вид табл. 1). Произвести статистическую обработку результатов опыта.
Значения признака, полученные из опыта
99
93
104
100
105
100
108
112
89
97
112
102
104
108
105
104
98
116
120
100
112
102
116
108
96
102
100
91
96
92
96
102
100
99
107
97
96
108
107
101
101
116
99
90
104
94
100
107
96
103
92
104
97
98
110
103
110
105
104
113
108
97
104
98
102
106
107
110
101
110
94
105
88
96
97
94
120
119
104
103
104
96
91
103
102
100
106
90
91
95
106
113
95
105
102
102
104
102
89
103
Решение. Произведем математическую обработку результатов опыта.
1) Составим вариационный ряд с равноотстоящими центрами интервалов. Для этого из 100 вариант определим наибольшую = 120 и наименьшую = 88. Вычислим размах варьирования данной вариации: Z = – = 120 – 88 = 32. Разобьем вариацию на 8 интервалов с шагом h = = . Находим центр первого интервала по формуле: x1 = xmin + Последующие центры xi интервалов определяются как члены арифметической прогрессии с разностью h = 4. В результате получим следующий вариационный ряд:
xi
90
94
98
102
106
110
114
118
ni
10
13
18
27
17
7
5
3
2) Построим графики выборочной совокупности вариационного ряда: а) полигон частот – ломаная, отрезки которой соединяют точки ((i = 1, 2, 3, ..., 8). По оси абсцисс откладываются варианты xi, а по оси ординат – соответствующие им частоты ni (рис. 7.28).
б) Полигон частостей – ломаная, отрезки которой соединяют точки (, где . По оси абсцисс откладываются варианты Xi, по оси ординат – относительные частоты
xi
90
94
98
102
106
110
114
118
ni
0,1
0,13
0,18
0,27
0,17
0,07
0,05
0,03
в) Гистограмма частот представляет собой ступенчатую фигуру, состоящую из прямоугольников с основаниями длиной h = 4, и высотами Hi =
Интервалы xi - xi ‒ 1
88-92
92-96
96-100
100-104
104-108
108-112
112-116
116-120
Hi =
2,5
3,25
4,5
6,75
4,25
1,75
1,25
0,75
г) Гистограмма частостей представляет собой ступенчатую фигуру состоящую из прямоугольников с основаниями длиной h = 4 и высотами Hi = (рис. 7.31):
Интервалыxi - xi ‒ 1
88-92
92-96
96-100
100-104
104-108
108-112
112-116
116-120
Hi =
0,025
0,0325
0,045
0,0675
0,0425
0,0175
0,0125
0,0075
д) Эмпирическая функция распределения F*(x) = определяет для каждого значения x относительную частоту события X < x. Она принимает значения 0 F*(x) , причем F*(x) при X – наименьшая варианта) и F*(x) = 1 при X > ( – наибольшая варианта).
Наименьшая варианта равна xi = 90, следовательно, F*(x) = 0, при x 90;
значения 90 < x 94 наблюдались 10 раз, F*(x) = ;
значения 94 < x наблюдались 10 + 13 = 23 раза, F*(x) =
значения 98 < x наблюдались 23 + 18 = 41 раз, F*(x) =
значения 102 < x наблюдались 41 + 27 = 68 раз, F*(x) =
значения 106 < x наблюдались 68 + 17 = 85 раз, F*(x) =
значения 110 < x наблюдались 85 + 2 = 92 раз, F*(x) =
значения 114 < x наблюдались 92 + 5 = 97 раз, F*(x) =
при x > 118 F*(x) = .
Таким образом, имеем: F*(x) =
Строим график эмпирической функции распределения F*(x) (рис. 7.32).
3) Найдем числовые характеристики выборочной совокупности , DB, , , , V с помощью метода произведений Варианты xi и соответствующие им частоты ni выборочной совокупности расположим в виде вариационного ряда:
xi
90
94
98
102
106
110
114
118
ni
10
13
18
27
17
7
5
3
Варианты образуют арифметическую прогрессию с разностью h = xi – xi – 1 = 118 – 114 = ... = 94 – 90 = 4 (шаг выборки). Условные варианты определяются по формулам:
=
где С – ложный нуль (новое начало отсчета). За С принимается варианта, которой соответствует наибольшая частота. В этом задаче nmax = 27. Следовательно, С = 102. Для расчета сводных характеристик выборки составим расчетную табл. 7.2. (вид табл. 1) в условных вариантах.
Контроль:
1)
366 = 298 + 2 * (–16) + 100 – верно.
2)
4193 = 2323 + 4 * 15 + 6 * 295 – 60 + 100 – верно.
Таким образом, таблица проверена дважды, следовательно, ее результатом можно пользоваться для расчета сводных характеристик выборки. Вычисляем условные эмпирические моменты по формулам:
№
xi
ni
ni
ni
ni
ni
ni
ni (
1
90
10
-3
-30
90
40
-270
810
160
2
94
13
-2
-26
52
13
-104
208
13
3
98
18
-1
-18
18
-18
18
4
102
27
27
27
5
106
17
1
17
17
68
17
17
272
6
110
7
2
14
28
63
56
112
567
7
114
5
3
15
45
80
135
405
1280
8
118
3
4
12
48
75
192
768
1875
__
100
__
-16
298
366
8
2338
4194
= = = –0,16;
= = = 0,08;
= = 2,98;
= = 23,38;
Находим выборочную среднюю , выборочную дисперсию DB, выборочное среднее квадратическое отклонение , коэффициент вариации V, асимметрию as и эксцесс , по следующим формулам:
= h + С = – 0,16 * 4 + 102 = 101,36;
DB = [] = [2,98 – (–016] * 16 = 47,27;
= = = 6,88;
V = . 100% =
as = = 0,299;
s = = – 3 = – 0,27
4) Выдвинем гипотезу о нормальном распределении генеральной совокупности по результатам обработки выборочных данных:
а) по виду гистограммы частостей (см. рис. 7.31), сравнивая ее с дифференциальной функцией теоретического распределения f(x) = , график которой имеет вид (см. рис. 7.26), делаем вывод о ее сходстве с графиком функции f(x) (нормального распределения);
б) такой же вывод делаем по виду графика эмпирической функции F*(x) (см. рис. 7.32), сравнивая ее с графиком интегральной функции f(x) теоретического (нормального) распределения (см. рис. 7.27);
в) по величине асимметрии as = 0,299 и эксцесса – 0,27. Так как |as| = 0,229 < 0,5; || = 0,27 < 0,5, распределение генеральной совокупности является близким к нормальному.
5) Построим кривую нормального распределения по опытным данным, приняв в качестве параметров математическое ожидание a = = 101,36 и выборочное среднее квадратическое отклонение = 6,88. Для построения кривой нормального распределения составим табл. 7.3. (по виду расчетной таблицы 2).
Варианта xi
Опытные частоты ni
xi –
=
Выравнивающие частоты =
Теоретические частоты
90
10
-11,36
-1,65
0,1023
5,95
6
94
13
-7,36
-1,07
0,2251
13,09
13
98
18
-3,36
-0,49
0,3538
20,57
21
102
27
0,64
0,09
0,3973
23,50
24
106
17
4,64
0,67
0,3187
18,53
19
110
7
8,64
1,26
0,1804
10,49
11
114
5
12,64
1,84
0,0734
4,27
5
118
3
16,64
2,42
0,0213
1,24
1
По специальной таблице находим значения функции и заполняем пятый столбец. Ординаты yi теоретической кривой (выравнивающие частоты находим по формуле = , и заносим их в шестой столбец). Округляя значение , получим теоретические частоты и заносим их седьмой столбец. Построим кривую нормального распределения по выравнивающим частотам (по оси абсцисс откладываются опытные варианты xi, по оси ординат – теоретические частоты ), рис. 7.33.
Сравнение графика кривой нормального распределения по опытным данным (см. рис. 7.33) с полигоном частот (см. рис. 7.28) наглядно показывает, что построенная теоретическая кривая удовлетворительно отражает данные опыта.
б) Для того, чтобы уверенно считать, что данные опыта свидетельствуют о нормальном распределении признака, применим критерий согласия Пирсона с заданным уровнем значимости = 0,05. Для этого составим табл. 7,4 (по виду расчетной табл. 3).
Из табл. 7.4. находим наблюдаемое значение критерия: =
Контроль: = = = 109,137 – 100 = 9,137.
xi
ni
ni
90
10
6
4
-16
2,667
100
16,667
94
13
13
169
13,0
98
18
21
-3
9
0,429
324
15,429
102
27
24
3
9
0,375
729
30,375
106
17
19
-2
4
0,211
289
15,211
110
7
11
16
1,455
49
4,455
114
5
5
25
5,0
90
3
1
2
4
4,0
9
9,0
100
100
__
__
= 9,137
__
109,137
Полученные данные совпадают, следовательно, вычисления произведены правильно.
Теперь найдем по числу степеней свободы k = s – 3 (s = 8 – число интервалов) и уровню значимости 0,05. По таблице критических точек распределения 2 для k = 5 и находим 2(5;0,05) = 11,1.
7) Так как < , на основании критерия Пирсона гипотеза о нормальном распределении генеральной совокупности принимается. Найдем числовые характеристики доверительного интервала генеральной совокупности по трем уровням надежности: .
Оценим математическое ожидание a по выборочной средней = 101,36 с помощью доверительного интервала, покрывающего параметр a c надежностью где = – точность оценки n = = 100 – объем выборки; = 6,88 – выборочное среднее квадратическое отклонение; = (n) определяется по специальным таблицам:
Вычисляем точности оценок: при = 0,95,
Таким образом, математическое ожидание a генеральной совокупности находится в пределах:
• при
• при т.е. 99,55 < a < 103,17;
• при т.е. 99,03 < a < 103,69.
Обработав выборочную совокупность, приходим к следующему выводу о генеральной совокупности, из которой извлечена выборка:
• размах вариации xmin = 88; xmax = 120; as = 0,299;
• генеральная совокупность распределена по нормальному закону;
• значение неизвестного математического ожидания генеральной совокупности удовлетворяет неравенству 100 < a < 102,72 с доверительной вероятностью (надежностью) .
Надежность указывает, что если произведено достаточно большое число выборок, то 95% из них определяет такие доверительные интервалы, в которых параметр a действительно заключен; лишь в 5% случаев он может выйти за границы доверительного интервала.
Задачи для самостоятельного решения.
1-3. В опыте было получено 150 вариант, составляющих выборочную совокупность. Проведите статистическую обработку результатов опыта.
А. Составьте вариационный ряд с равноотстоящими центрами интервалов, разбив всю вариацию на 7-9 интервалов, выбрав 100 значений признака, соответствующих вашей задаче.
Б. Постройте следующие графики выборочной совокупности (составленного вами вариационного ряда): а) полигон частот; б) полигон частостей; в) гистограмму частот; г) гистограмму частостей; д) эмпирическую функцию распределения.
В. Методов произведений найдите числовые характеристики выборочной совокупности, заполнив предварительно таблицу (по виду расчетной таблицы 1) и проверив ее дважды(, DB, , as, s, V, где – выборочная средняя; DB – выборочная дисперсия; – выборочное среднее квадратическое отклонение; as – асимметрия; s – эксцесс; V – коэффициент вариации).
Г. По результатам обработки выборочных данных выдвиньте гипотезу о нормальном распределении генеральной совокупности по следующим признакам: а) по виду гистограммы частостей, сравнивая ее с дифференциальной функцией теоретического распределения; б) по виду графика эмпирической функции, сравнив его с графиком интегральной функции теоретического распределения; в) по величине асимметрии и эксцесса.
Д. Постройте кривую нормального распределения по опытным данным, приняв в качестве параметров математическое ожидание a = и среднее квадратическое отклонение . Заполните таблицу (по виду расчетной табл. 2).
Е. Применив критерий согласия Пирсона с заданным уровнем значимости , окончательно примите или отвергните выдвинутую гипотезу о нормальном распределении генеральной совокупности. Заполнить таблицы (по виду табл. 2 и 3).
Ж. Сделайте заключение о генеральной совокупности по результатам обработки выборочных данных. Найдите числовые характеристики генеральной совокупности по следующим уровням надежности: 1)
Номера значений признака
Значения признака, полученные из опыта
1‒10
88
104
91
98
77
88
86
79
86
72
11‒20
82
68
71
87
89
89
81
81
70
79
21‒30
84
91
87
83
90
69
100
96
79
94
31‒40
93
86
81
83
84
92
93
85
84
88
41‒50
63
87
87
81
95
90
69
95
96
84
51‒60
82
79
88
83
90
92
80
81
85
81
61‒70
84
96
86
94
85
92
79
75
94
66
71‒80
88
79
89
75
92
79
78
95
84
91
81‒90
91
74
73
73
85
85
76
83
76
86
91‒100
71
85
92
84
90
82
90
73
89
87
101‒110
72
96
86
95
91
76
94
95
84
96
7.18. ЗАДАЧИ ТЕОРИИ КОРРЕЛЯЦИИ.
1. Общие положения.
Определение. Функциональной зависимостью называется такая связь между переменными величинами, при которой зависимая величина – функция – полностью определяется значениями влияющих независимых величин – аргументов. Вид зависимости между аргументами и функцией обычно задается в виде формулы, которая позволяет однозначно вычислить значение функции при подстановке аргумента в формулу.
Наиболее часто в экономике используются функции: линейная y = a + bx, гиперболическая функция y = a + , показательная y = abx, степенная (обычно парабола) y = a + bx + cx2 и некоторые другие.
Однако при исследовании экономических явлений, как правило, значения влияющих количественных показателей не определяют полностью значения результативного показателя. Для таких сложных случаев нефункциональной связи показателей в математике существуют методы получения более сложных зависимостей – корреляционных, для которых функциональная зависимость является только предельным случаем.
Определение. Корреляционная зависимость – это такая связь между величинами, когда определенным значениям влияющих величин – факторов – соответствует множество значений зависимой величины, распределенных по известному закону распределения. Например, чем больше товарооборот x потребительского общества, тем больше должна быть сумма издержек обращения y(x), однако, если фактические данные о товарообороте и издержках, полученные от разных потребительских обществ, нанести в виде точек на координатную плоскость xОy, то они могут иметь вид прямолинейно вытянутого облака, или, как говорят, корреляционного поля данных (рис. 7.34).
Рост товарооборота не влечет за собой строго определенного и однозначного изменения издержек, а выявляет лишь общую тенденцию их изменения. Вместе с тем линия средних значений издержек как функциональная зависимость приближенно (в среднем) описывает корреляционную связь. Таким образом, под корреляционной зависимостью y от x понимается зависимость условной средней от x, т.е. . Это равенство называется уравнением регрессии y на x, функция f(x) – регрессией y на x, а ее график – линией регрессии y на x. (В нашем примере зависимость f(x) имеет вид линейной функции y = a + bx. В этом случае регрессия называется линейной, а ее график – прямой регрессией.)
Замечание. Вместе с регрессией y на x всегда может быть построена и регрессия x на y с уравнением и графиком, отличающимся от графика y = f(x).
При определении корреляционной зависимости решаются две основные задачи.
Первая задача теории корреляции – установить форму корреляционной зависимости, т.е. вид функции регрессии: линейная или нелинейная (квадратичная, показательная и т.д.).
Вторая задача теории корреляции – оценить тесноту (силу) корреляционной связи по величине рассеяния значений y вокруг условного среднего (чем меньше рассеяние, тем сильнее корреляционная зависимость).
2. Отыскание параметров выборочного уравнения прямой линии регрессии методов наименьших квадратов. Нелинейная корреляционная зависимость.
При решении экономических задач встречаются линейные корреляционные зависимости. В этом случае функция регрессии имеет вид линейной функции а ее графиком является прямая линия (прямая регрессии). Рассмотрим простейший случай, когда различные значения фактора X и соответствующие им значения Y наблюдаются по одному разу. В этом случае отпадает необходимость использования условной средней и уравнение можно записать в виде y = a + bx. Коэффициенты a и b называют параметрами прямой регрессии. После того, как вид зависимости определен (у нас она линейная), возникает вопрос о выборе наилучших параметров уравнения, т.е. таких значений a и b, при которых выбранный вид зависимости возможно точнее описывал бы истинную зависимость y от x. Чаще всего для определения a и b используют метод наименьших квадратов отклонений. При этом методе a и b вычисляются таким способом, чтобы сумма квадратов отклонений эмпирических значений yi от соответствующих теоретических значений (i), рассчитанных по выбранной функции регрессии (рис. 7.35), была бы наименьшей.
Определение параметров a и b в этом случае сводится к решению хорошо известной задачи нахождения минимума функции двух переменных.
При большом числе наблюдений одно и то же значение x может встретиться nx раз, одно и то же значение y – ny раз, одна и та же пара чисел (x, y) – nxy раз. Поэтому данные наблюдений группируют, т.е. подсчитывают частоты nx, ny, nxy и записывают в виде таблицы, которая называется корреляционной таблицей.
Поясним устройство корреляционной таблицы на примере (табл. 7.5).
Y
X
1
2
3
4
5
ny
28
__
__
__
37
5
40
38
__
__
13
6
3
19
48
__
13
10
__
__
23
58
17
1
__
__
__
18
nx
17
14
23
43
3
100
В головке табл. 7.5. указаны наблюдаемые значения (1; 2; 3; 4,5) признака X, в боковике – наблюдаемые значения (28;38;48;58) признака Y. На пересечении строк и столбцов находятся частоты nxy наблюдаемых пар значений признаков. Например, частота 37 указывает, что пара чисел (4;28) наблюдалась 37 раз. Прочерк в клетке означает, что соответственная пара чисел, например (1;28), не наблюдалась. В последнем столбце записаны суммы частот строк. Например, сумма частот первой строки равна ny = 37 + 3 = 40. Это число указывает на то, что значение признака Y, равное 28 (в сочетании с различными значениями признака X), наблюдалось 40 раз. В последней строке записаны суммы частот столбцов. Например, число 14 показывает, что значение признака X, равное 2 (в сочетании с различными значениями признака Y), наблюдалось 14 раз. В клетке, расположенной в нижнем правом углу таблицы, помещена сумма всех частот (общее число всех наблюдений n). Очевидно, что = 17 + 14 + 23 + 43 + 3 = 100,
Оценка силы линейной корреляционной зависимости может быть произведена с помощью коэффициента линейной корреляции, определяемого по формуле: ry/x = , где
D(y) = – = , где
Коэффициент корреляции обладает следующими свойствами:
1) абсолютное значение коэффициента корреляции не превосходит единицы, т.е. |ry/x| 1, или – 1 ry/x
2) если коэффициент корреляции равен нулю, а линии регрессии прямые, то x и y не связаны между собой линейной корреляционной зависимостью;
3) если |ry/x| = 1, то наблюдаемые значения x и y связаны линейной функциональной зависимостью.
Примеры.
1. Вычислить коэффициент корреляции по данным, приведенным в корреляционной табл. 7.5.
Решение. Вычислим , а также по вышеприведенным формулам:
а) = = 3, 01; (2 = (3,01)2 = 0,06;
D(x) = – (2 = 10,43 – 9,06 = 1,37;
б)
D(y) = 2 = 1723,4 ‒ 1592,01 = 131,39;
в)
Искомый коэффициент корреляции равен:
r =
Так как | r | = 0,94 = 1, то между величинами X и Y имеется тесная линейная корреляционная связь. Уравнение прямой линии регрессии Y на X имеет вид: y – где – средние значения соответственно признаков X и Y; p – коэффициент регрессии, который определяется по формуле
p = r.
Первая задача теории корреляции устанавливает форму корреляционной связи, т.е. вид функции регрессии (линейная, квадратичная). Вторая задача оценивает тесноту корреляционной связи (силу корреляции), для чего служит корреляционное отношение где среднее квадратическое отклонение; – общее среднее квадратическое отклонение. Величины и определяются по формулам:
где – общая средняя; – групповая средняя признака Y при фиксированном значении x.
Корреляционное отношение обладает следующими свойствами:
1) удовлетворяет двойному неравенству 0 1;
2) = 0, то признак Y с признаком X корреляционной зависимостью не связан;
3) если = 1, то признак Y связан с признаком X функциональной зависимостью;
4) не меньше абсолютного значения коэффициента корреляции r, т.е. |r|;
5) если = |r|, то точки (x1;y1), (x2;y2), ...., (xn;yn) лежат на прямой линии регрессии, т.е. имеет место точная линейная корреляционная зависимость.
2. По данным приведенным в корреляционной табл. 7.5:
1) найти уравнение регрессии y – ;
2) вычислить групповые средние для контроля вычислить значение (по уравнению регрессии в тех же точках);
3) вычислить корреляционное отношение , результаты записать в виде таблицы:
x
x1
x2
x3
x4
x5
y
y1
4) построить график линейной регрессии и нанести на график экспериментальные точки (x1;y1), (x2;y2), (x3;y3), (x4;y4); (x4;y5), обозначая их «звездочками».
Решение. 1) Вычисляем коэффициент регрессии p по формуле: p = где величины , коэффициент корреляции r найдены в примере 1: Тогда получим: p = Искомое уравнение регрессии имеет вид: y – 39,9 = – 9,2(x – 3,01). Откуда y = – 9,2x + 67,59.
2) Вычисляем групповые средние признака Y при фиксированном x по формулам
Для контроля находим значения по уравнению регрессии в тех же точках:
x1 = 1:
x2 = 2:
x3 = 3: ;
x4 = 4:
x5 = 5:
Результаты записываем в виде таблицы:
x
1
2
3
4
5
58
48,7
42,7
29,4
28
58,39
49,19
39,99
30,79
21,59
3) Вычисляем корреляционное отношение 𝔶, где где – общая средняя, определенная ранее = 39,9.
=
=
𝔶 =
Полученное значение корреляционного отношения 𝔶 = 0,95 = 1 указывает на тесную корреляционную связь между признаками X и Y.
4) Строим график линейной регрессии y = –9,2x + 67,59 и наносим на нем экспериментальные точки (помечены звездочками) (рис. 7.36).
Если график регрессии y = f(x) изображается кривой линией, то корреляцию называют криволинейной. Например, функция регрессии Y на X может иметь вид: y = Ax2 + Bx + С (параболическая корреляция второго порядка). Для определения вида функции регрессии строят точки (x; и по их расположению делают заключение о примерном виде функции регрессии. Теория криволинейной корреляции также служит корреляционное отношение 𝔶 – если оно велико (𝔶 > 0,7), а коэффициент корреляции r мал (|r| < 0,5), то функция регрессии является квадратичной, т.е. y = y = Ax2 + Bx + С. Неизвестные параметры А, В, С уравнения квадратичной регрессии определяются по методу наименьших квадратов из системы трех линейных уравнений:
3. По данным, приведенным в корреляционной табл. 7.6, вычислить:
1) коэффициент корреляции;
2) групповые средние
3) корреляционное отношение;
4) параметры А, В, С квадратичной регрессии y = Ax2 + Bx + C;
5) значение , а также построить график регрессии y = Ax2 + Bx + C и нанести на нем экспериментальные точки.
Y
X
1
2
3
4
ny
28
17
2
__
__
17
36
43
__
13
2
13
__
28
58
__
__
30
6
__
36
nx
17
15
32
19
17
100
Решение.
1) Вычислим величины
D(x) =
D(y) =
Искомый коэффициент корреляции равен:
r =
2) Определяем групповые средние
3) Для вычисления корреляционного отношения 𝔶 определяем сначала и :
Искомое корреляционное отношение равно:
𝔶 =
4) значение 𝔶 = 0,9445 > 0,7 указывает на тесную корреляционную зависимость, а значение r = 0,073 < 0,5 – на то, что функция регрессии является квадратичной и имеет вид y = Ax2 + Bx + C, где A, B, C – неизвестные параметры регрессии, которые определяются из системы уравнений:
Для вычисления коэффициентов этой системы составим расчетную таблицу (7.7).
x
nx
nxx
nxx2
nxx3
nxx4
nx
nx
nx x2
17
28
476
1
15
41
15
15
15
15
615
615
615
2
32
57,06
64
128
256
512
1825,92
3651,84
7303,68
3
19
47,74
57
171
513
1539
907,06
2721,18
8163,54
4
17
28
68
272
1088
4352
416
1904
7616
100
__
204
586
1872
6418
4299,98
8892,02
23698,22
Подставляя числа (суммы) нижней строки в систему уравнений, получим:
Решая эту систему, находим А = – 6,4; B = 26,21; C = 26,3. Искомое уравнение квадратичной регрессии имеет вид: y = – 6,3x2 + 26,61x + 26,3.
5) Для контроля вычислим значения
x1 = 0:
x2 = 1:
x3 = 2:
x4 = 3:
x5 = 4:
Результаты запишем в виде таблицы:
xi
1
2
3
4
28
41
57,06
47,74
28
26,3
46,11
53,12
44,63
28,7
6) Построим график регрессии y = 6,4x2 + 26,61x + 26,3 и отметим на нем экспериментальные точки (помечены звездочками) (рис. 7.37).