Генеральная совокупность и выборка. Эмпирическая функция распределения, гистограмма и полигон частот)
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Генеральная совокупность и выборка. Эмпирическая функция распределения, гистограмма и полигон частот)
Математическая статистика – это раздел математики, посвященный математическим методам систематизации, обработки и исследования статистических данных для научных и практических выводов.
Совокупность объектов, или, точнее совокупность всех возможных значений какого-то признака объектов, называется генеральной совокупностью. Она может состоять из конечного или бесконечного множества значений, называемых элементами генеральной совокупности.
Основной задачей математической статистики является исследование генеральной совокупности статистически, то есть выяснение вероятности свойств совокупности: распределения, числовых характеристик и т.д. Однако полное исследование генеральной совокупности обычно практически невозможно или неэкономно.
Обычно из генеральной совокупности делают выборку, то есть исследуют только некоторые ее объекты. Число этих объектов (наблюдений значений случайной величины) называется объемом выборки. С помощью выборки оценивают генеральную совокупность по вероятностным свойствам. Основные требования к выборке: она должна давать достоверные оценки генеральной совокупности, то есть быть репрезентативной (представительной).
Представительную выборку можно получить, если выбирать объекты для исследований случайно. Случайно выбранный объект после проверки нужного признака можно возвращать (выборка с возвращением) или не возвращать (выборка без возвращения) обратно в генеральную совокупность. В первом случае получаем более независимую и представительную выборку.
Таким образом, каждая выборка, полученная в результате наблюдений, содержит значения некоторого количественного признака , называемые элементами выборки. Поскольку объекты, составляющие выборку, выбираются из генеральной совокупности случайным образом, то различные выборки будут иметь в общем случае разные значения признака . Поэтому назовем случайной выборкой объема случайный вектор , где случайные величины , независимы и одинаково распределены с . Иными словами, случайная выборка является математической моделью независимых измерений, проводимых в одинаковых условиях.
При проведении статистических исследований имеется лишь один набор значений , соответствующий некоторому значению случайного вектора на элементарном исходе последовательности испытаний (наблюдений), и по набору значений требуется найти, хотя бы приближенно, или закон распределения случайной величины , или числовые характеристики этой случайной величины.
Выбор объекта из генеральной совокупности и измерение значения признака называется статистическим наблюдением. Результаты наблюдений записывают в виде таблицы, в первой строке которой записывается номер эксперимента, а во второй – соответствующее наблюдение , называемое вариантой случайной величины . Ниже приведена таблица выпуска приборов за одну смену, где – номер смены, а варианта – число выпущенных приборов:
Таблица
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
5
3
5
5
6
4
7
4
5
6
6
4
5
3
6
5
4
6
5
5
Таблицы такого вида называется статистическими рядами несгруппированных данных. Статистический ряд, расположенный по возрастанию вариант, называется вариационным.
Пусть – частота наблюдения , – общее число наблюдений, то есть объем выборки (в нашем случае ). Величина называется относительной частотой наблюдения . Таблица сгруппированных данных по частоте и относительной частоте наблюдений, построенная по данным таблицы 6.1.1, имеет следующий вид:
Таблица
3
4
5
6
7
2
4
8
5
1
2/20
4/20
8/20
5/20
1/20
Такие таблицы называются статистическими рядами сгруппированных данных.
Каждая генеральная совокупность имеет функцию распределения , которая обычно неизвестна. По выборке можно найти эмпирическую функцию распределения.
Пусть имеется статистический ряд сгруппированных данных случайной величины .
Эмпирической функцией распределения или функцией распределения выборки называется функция , определяющая для каждого относительную частоту события , то есть
,
где – частота наблюдения варианты , меньшей ; – объем выборки.
Таким образом, если теоретическая функция распределения есть вероятность события , то эмпирическая функция распределения является относительной частотой этого же события.
По определению эмпирическая функция обладает свойствами функции распределения: ее значения принадлежат отрезку ; является неубывающей функцией; если – наименьшая варианта, а – наибольшая варианта, то при и при .
Так как для любого является случайной величиной, то и – случайная величина. Покажем, что, тем не менее, при больших объемах выборки эмпирическая функция распределения близка к теоретической функции распределения .
Теорема (Гливенко). Для любого и любого
.
Построим эмпирическую функцию распределения по данным таблицы 6.1.2. Из свойств функции получаем
Статистические ряды сгруппированных данных представляют графиками и диаграммами, наиболее распространенными из которых являются гистограмма и полигон частот.
Для построения гистограммы интервал, в котором заключены все сгруппированные данные, разбивается на непересекающихся интервалов группировки одинаковой длины , затем подсчитывается сумма частот вариант, попавших в -й интервал.
Гистограммой частот называют ступенчатую фигуру, состоящую из примыкающих друг к другу прямоугольников с основаниями, равными длине интервала группировки, а высоты их таковы, что площадь каждого -го прямоугольника равна сумме частот вариант, попавших в -й интервал.
Если по вертикальной оси откладывать относительную частоту , то получим так называемую гистограмму относительных частот.
На гистограмме относительных частот площадь -го прямоугольника равна относительной частоте вариант, попавших в -й интервал, а площадь всей фигуры равна единице.
Если эмпирическая функция распределения дает представление о теоретической функции распределения, то при удачном выборе длины интервала гистограмма относительных частот напоминает график плотности вероятности случайной величины .
Полигоном частот называется ломаная, соединяющая отрезками точки , …, координатной плоскости, на оси которой откладываются варианты , а на оси ординат – их частоты .
Полигоном относительных частот называется ломаная, соединяющая отрезками точки , …, .
Числовые характеристики выборки. Статистики и точечные оценки.
По результатам выборочных наблюдений вычисляются статистические числовые характеристики: выборочное среднее, выборочная дисперсия, выборочное среднее квадратическое отклонение, выборочный коэффициент корреляции и т. д. Эти характеристики определяют соответствующие параметры генеральной совокупности. Выборочные характеристики, являясь случайными величинами, зависящими от выборки, оценивают параметры случайной величины из генеральной совокупности.
Пусть – выборка из генеральной совокупности случайной величины .
Средним значением выборки или выборочным средним называется число , равное
,
если все варианты выборки объема различны, и
,
если варианты имеют соответствующие частоты , причем .
Число – называется отклонением величины от выборочного среднего .
Если все варианты выборки объема различны, то выборочной дисперсией называется число , равное
,
а если варианты имеют соответствующие частоты , причем , то
.
Следовательно, выборочная дисперсия равна среднему арифметическому квадратов наблюдаемых отклонений.
Выборочную дисперсия можно записать также в виде
.
Если варианты выборки имеют соответствующие частоты , , и , то выборочная дисперсия приводится к виду
.
Часто в математической статистике применяется модифицированная дисперсия , равная
или
.
Модифицированная дисперсия связана с выборочной дисперсией соотношением
.
Корень квадратный из выборочной дисперсии называется выборочным средним квадратическим отклонением .
Простейшей мерой рассеяния случайной величины является размах выборки – разность между наибольшим и наименьшим значениями выборки: .
Характеристики вида
; ,
называются соответственно -м центральным и начальным выборочными моментами соответственно. Заметим, что , .
Если в генеральной совокупности рассматриваются одновременно два признака и , например, рост и масса человека в данной группе людей, то для характеристики их взаимосвязи вводится понятие выборочной ковариации :
.
Здесь , – отдельные значения в соответствующих выборках. После несложных преобразований получим
,
где – выборочное среднее произведения случайных величин и .
Ковариация может быть положительной, отрицательной или равной нулю. Если большим (малым) значениям соответствуют большие (малые) значения , то . Говорят, что в этом случае между признаками и существует положительная корреляция. В противном случае говорят, что между признаками и существует отрицательная корреляция. При между признаками и корреляция отсутствует.
Отметим некоторые свойства выборочного среднего и выборочной дисперсии в виде теорем.
Теорема. Сумма отклонений отдельных вариант выборки от их выборочного среднего равна нулю: .
Теорема. Пусть – случайная выборка случайной величины , причем , , . Тогда для случайной величины имеем
, .
Следствие. Если – случайная выборка случайной величины , нормально распределенной по закону , то случайная величина имеет нормальное распределение .
Такие распределения, как биноминальное, показательное, нормальное, являются семействами распределений, зависящими от одного или нескольких параметров. Например, показательное распределение с плотностью вероятностей , , зависит от одного параметра , нормальное распределение – от двух параметров и . Из условий исследуемой задачи, как правило, ясно, о каком семействе распределений идет речь. Однако остаются неизвестными конкретные значения параметров этого распределения, входящих в выражения функции распределения вероятностей. Поэтому возникает задача нахождения этих параметров.
Пусть закон распределения генеральной совокупности определен с точностью до значений входящих в его распределение параметров , часть из которых может быть известна. Одной из задач математической статистики является нахождение оценок неизвестных параметров по выборке наблюдений из генеральной совокупности. Оценка неизвестных параметров заключается в построении функции от случайной выборки, такой, что значение этой функции приближенно равно оценивающему неизвестному параметру . Функцию называют статистикой, а значение этой функции – точечной оценкой параметра . Например, выборочное среднее и медиана могут служить оценкой среднего значения всей генеральной совокупности, выборочная дисперсия – дисперсии этой совокупности.
Существует два вида оценок – точечные и интервальные. Точечная оценка параметра определяется одним числом . При малом числе наблюдений эти оценки могут приводить к грубым ошибкам. Чтобы избежать их, используют интервальные оценки, которые определяются двумя числами и – границами интервала, в котором с заданной вероятностью заключена оцениваемая величина .
Для данного неизвестного параметра может существовать несколько статистик, вполне подходящих для того, чтобы служить оценками. Например, выборочное среднее , мода и медиана могут показаться вполне пригодными для оценивания среднего значения всей генеральной совокупности. Выбор «наилучших» оценок определяется их несмещенностью, эффективностью и состоятельностью.
Оценка параметра называется несмещенной (без систематических ошибок), если математическое ожидание оценки совпадает с истинным значением :
.
Если это равенство не имеет места, то оценка называется смещенной (с систематическими ошибками). Это смещение может быть связано с ошибками измерения, счета или неслучайным характером выборки. Систематические ошибки приводят к завышению или занижению оценки.
Выборочное среднее является несмещенной оценкой математического ожидания .
Пусть , . Выберем в качестве оценки дисперсии выборочную дисперсию , где , – варианты выборки случайной величины . Найдем математическое ожидание этой оценки. Преобразуем, вначале, случайную величину к удобному виду
.
Итак,
.
В силу независимости случайных величин имеем
,
то есть
,
и, следовательно, выборочная дисперсия является смещенной оценкой дисперсии .
Однако несмещенной оценкой дисперсии является . Таким образом, модифицированная выборочная дисперсия является несмещенной оценкой дисперсии .
Для некоторых задач математической статистики может существовать несколько несмещенных оценок. Обычно предпочтение отдают той, которая обладает наименьшим рассеянием (дисперсией).
Несмещенная оценка параметра , обладающая минимальной дисперсией среди всех несмещенных оценок для , называемая эффективной.
Пусть – минимальная дисперсия, а – дисперсия любой другой несмещенной оценки параметра . Тогда по определению эффективность оценки равна . Ясно, что .
Часто оценка становится эффективной с увеличением объема выборки. Предельная эффективность оценки при называется асимптотической эффективностью. Если асимптотическая эффективность равна единице, оценка называется асимптотически эффективной.
Выборочное среднее – эффективная оценка, а оценка является асимптотически эффективной.
Замечание. Если оценка смещенная, то малость ее дисперсии еще не говорит о малости ее погрешности. Взяв, например, в качестве оценки параметра некоторое число , получим оценку даже с нулевой дисперсией. Однако в этом случае ошибка (погрешность) может быть сколь угодно большой.
Оценка называется состоятельной или асимптотически состоятельной, если с увеличением объема выборки оценка сходится по вероятности к точному значению параметра , то есть для любого
.
Состоятельность оценки параметра означает, что с ростом объема выборки качество оценки улучшается.
Точечные оценки , и есть состоятельные оценки.
Критерии значимости. Критерий согласия Пирсона.
Пусть случайная величина имеет нормальное распределение и из генеральной совокупности извлечена выборка , то есть известна одна из реализаций случайной выборки . Рассмотрим для этого случая различные критерии значимости.
1. Критерии значимости для основной гипотезы при известном значении дисперсии . Для проверки гипотезы . при заданном уровне значимости можно выбрать одну из следующих альтернативных гипотез: , , . При истинной гипотезе статистика
имеет стандартное (нормированное) нормальное распределение .
Тогда в соответствии с правилами принятия основной гипотезы , изложенными в п. 6.8, области , и , где , , , – квантили распределения , являются критическими для соответствующих альтернативных гипотез , или . Отсюда если для данной выборки оказалось, что
,
,
или
,
то принимается гипотеза для соответствующих альтернативных гипотез , или . В противном случае основная гипотеза отвергается с уровнем значимости как не согласующаяся с опытом, но принимается соответствующая альтернативная гипотеза .
2. Критерии значимости для основной гипотезы при неизвестном значении дисперсии . В этом случае в качестве статистики используют случайную величину
,
где , которая, если верна гипотеза , имеет - распределение Стьюдента с числом степеней свободы , где – объем выборки.
Если альтернативная гипотеза имеет вид , то используем левостороннюю критическую область, которая удовлетворяет следующему условию:
.
Если альтернативная гипотеза имеет вид , то используем правостороннюю критическую область
.
И, наконец, при альтернативной гипотезе используем двустороннюю критическую область
.
В этих неравенствах – выборочное значение статистики ; , , , – квантили распределения Стьюдента; – уровень значимости.
3. Критерии значимости для основной гипотезы при известном значении математического ожидания. Выберем статистику
,
где, по прежнему, – объем случайной выборки ; . Случайная величина имеет - распределение с степенями свободы. Отсюда, если альтернативная гипотеза имеет вид , то применяем левостороннюю критическую область
.
Если альтернативная гипотеза имеет вид , то используем правостороннюю критическую область
.
В случае же альтернативной гипотезы применяем двустороннюю критическую область
.
Здесь – выборочное значение статистики ; , , , – квантили - распределения; – уровень значимости.
4. Критерии значимости для основной гипотезы при неизвестном значении математического ожидания. Воспользуемся статистикой , где – объем случайной выборки ; . Если гипотеза верна, то случайная величина имеет - распределение с степенями свободы.
Если альтернативная гипотеза имеет вид , находим левостороннюю критическую область
.
При альтернативной гипотезе находим правостороннюю критическую область
.
При альтернативной гипотезе находим двустороннюю критическую область
.
Рассмотрим теперь задачу проверки гипотезы о равенстве двух математических ожиданий. Эта задача имеет важное практическое значение, поскольку выборочное среднее одной выборки может отличаться от выборочного среднего другой выборки из одной и той же генеральной совокупности.
Пусть и – две случайные выборки из генеральных совокупностей и соответственно, имеющие нормальный закон распределения. Пусть дисперсии случайных величин и известны и равны соответственно и . Проверим нулевую гипотезу о равенстве математических ожиданий случайных величин и , то есть гипотезу . В этом случае альтернативная гипотеза означает, что .
Наилучшие оценки математических ожиданий и равны выборочным средним и , причем случайные величины и имеют нормальные распределения и соответственно. Так как ничего не известно о математических ожиданиях и , то для проверки гипотезы можно использовать статистики и . Из независимости выборок следует независимость и выборочных средних и . Кроме того, случайная величина имеет нормальное распределение вероятностей, причем . Если гипотеза верна, то . Отсюда следует, что случайная величина
имеет нормальное распределение .
Пусть – уровень значимости. Тогда область
определяет двустороннюю критическую область для гипотезы в случае выбора альтернативной гипотезы . Учитывая, что , неравенство, определяющее область принятия гипотезы для двустороннего критерия, можно записать в виде
.
Критерий согласия, как было отмечено в п. 6.8, – это критерий, с помощью которого проверяют гипотезу о том, что генеральная совокупность имеет распределение предполагаемого типа. Имеется несколько критериев согласия: хи-квадрат, Колмогорова – Смирнова, и др.
Критерий (Пирсона) является универсальным. Он применим для проверки любого вида распределения. Критерий позволяет выполнить проверку гипотезы о соответствии опытного закона распределения предполагаемому не только в случаях, когда последний известен полностью, но и тогда, когда параметры предполагаемого закона распределения определяются на основании опытных данных.
Пусть – выборка объема наблюдений случайной величины . Проверим гипотезу , утверждающую, что имеет функцию распределения .
Проверка гипотезы при помощи критерия осуществляется по следующей схеме.
1) По выборке наблюдений находят точечные оценки неизвестных параметров предполагаемого закона распределения случайной величины .
2) Область возможных значений случайной величины разбивается на непересекающихся интервалов , в случае, когда – непрерывная случайная величина, или групп, состоящих из отдельных значений, для дискретной случайной величины .
3) Исходя из предполагаемого закона распределения случайной величины , находят теоретическую вероятность того, что значение принадлежит интервалу , то есть, , при этом , , где – число элементов выборки, принадлежащих интервалу (эмпирическая частота попадания в -й интервал).
4) Вычисляют выборочное значение статистики критерия по формуле
.
Близость относительных частот к вероятности свидетельствует в пользу основной гипотезы , заметные различия отвергают гипотезу .
5) Определяют число степеней свободы распределения по формуле
,
где – число параметров предполагаемого закона распределения.
6) Зная число и задавая уровень значимости , определяют критическое значение :
,
где – квантиль распределения Пирсона (- распределения).
7) Гипотеза согласуется с результатами наблюдений на уровне значимости , если
.
Если же , то гипотеза о виде функции распределения отклоняется с уровнем значимости .
Замечание. В практических задачах интервалы , выбираются таким образом, чтобы число элементов выборки, попавших в эти интервала, было не маленьким (, ). Если в некоторых интервалах это условие не выполняется, то их следует объединить с соседними.