Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
1. Введение.
Статистика изучает случайные явления, которые, по своей сути, не поддаются однозначному описанию и прогнозированию. Например, нельзя абсолютно точно предсказать, сколько человек родится или умрет в стране за данный промежуток времени. Нельзя с точностью до копейки (цента, сантима) определить доход некоторой семьи за определенный промежуток времени (можно найти на дороге монетку в 10 копеек, выиграть в лотерею, получить неожиданное наследство, и, наоборот, можно потерять часть денег из-за болезни, или неверно принятого решения, или биржевого кризиса). Невозможно с точностью до минуты определить, какое время проработает купленный телевизор (компьютер, автомобиль) до первой поломки.
Жизнь человека, общества, цивилизации складывается из случайных явлений. Чтобы общество было устойчивым, а жизнь предсказуемой, важно не давать случаю слишком большой воли (любая попытка совсем исключить из жизни случай обречена на провал).
Современные задачи планирования, управления, прогнозирования невозможно решать, не располагая достоверными статистическими данными и не используя статистические методы обработки этих данных. Стремление объяснить настоящее и заглянуть в будущее всегда было свойственно человечеству, а для решения этих задач применялись различные методы. Статистика при описании случайных явлений использует язык науки – математику. Это значит, что реальные ситуации заменяются вероятностными схемами и анализируются методами теории вероятностей. Выразительная сила математики как языка очень велика.
Серьезные математические методы стали использоваться для анализа статистических наблюдений сравнительно недавно. Человечество осознало необходимость сбора статистических данных о различных сторонах жизни общества значительно раньше появления сопутствующего развитого математического аппарата. Но и сравнительно несложные методы сбора и анализа данных оказались важным инструментом, помогающим принимать разумные решения.
Любые статистические данные всегда неполны, и неточны, и другими быть не могут. Задача статистики заключается в том, чтобы дать обоснованные выводы о свойствах изучаемого явления, анализируя неполные и неточные данные. Статистика доказала, умение справляться с подобными проблемами.
Основная задача статистики – получить обоснованные выводы о свойствах генеральной совокупности, анализируя извлеченную из нее выборку x1, х2, ..., хn.
2. Таблица частот и интервальная таблица частот.
Небольшие выборки удобно представлять в виде таблицы из двух строк. В первой строке записывают элементы выборки (они называются вариантами xi ), расположенные в порядке возрастания. Во второй строке записываются частоты вариант ni. Частотой варианты называется число, равное количеству повторений варианты в выборке. Такая таблица называется таблицей частот.
Относительной частотой варианты хi называется число νi, равное отношению ni /n. Если сумма частот равна n, то сумма относительных частот равна n/n = 1.
Таблица относительных частот напоминает таблицу вероятностей дискретной случайной величины. Только вместо значений случайной величины пишут варианты выборки, а роль вероятностей исполняют относительные частоты.
Накопленной частотой nxнак называется число вариант выборки, меньших данного числа х.
Относительной накопленной частотой νxнак называется отношение nxнак/n.
Если выборка извлечена из непрерывно распределенной генеральной совокупности, причем ее объем n достаточно велик, то в выборке представлено много значений, и такую выборку неразумно представлять в виде таблицы частот. Кроме того, при работе с непрерывно распределенными случайными величинами рассматривают не отдельные значения этих величин, а некоторые интервалы этих значений. Поэтому достаточно большую выборку, извлеченную из непрерывно распределенной генеральной совокупности, группируют по интервалам следующим образом. Весь диапазон значений вариант разбивают на разумное число интервалов одинаковой, как правило, ширины h. Чтобы не было недоразумений при подсчете числа вариант выборки, попавших в каждый интервал, левый конец каждого интервала считают закрытым, а правый – открытым, так что интервалы имеют вид [хi-1; хi).
Частотой i-го интервала ni называется число, равное количеству вариант выборки, попавших в этот интервал,
Относительной частотой i-го интервала νi называется отношение ni /n. Кроме того, вычисляют накопленные и относительные накопленные частоты для правых границ интервалов.
3. Графическое представление выборки. Полигон, гистограмма, кривая накопленных частот
Рисунки и графики – удобный и наглядный способ представления выборки. Выборку, извлеченную из дискретной генеральной совокупности, можно представить в виде полигона частот. На плоскости в прямоугольной системе координат строят точки с координатами (хi, νi) и соединяют эти точки отрезками прямых. Полученная ломаная линия называется полигоном частот. Полигон можно, построить и для сгруппированной выборки. Но такую выборку нагляднее всего представить в виде гистограммы. Гистограмма – это фигура, состоящая из прямоугольников. Основания прямоугольников – это интервалы, на которые разбита сгруппированная выборка. Высота i-го прямоугольника hi определяется формулой
hi = νi /h, i = 1, 2, 3,…, k.
Таким образом, высоты прямоугольников пропорциональны частотам интервалов, а сумма высот равна
Поэтому площадь гистограммы равна (1/h)*h = 1.
Кривая накопленных частот (кумулятивная кривая) строится так: точки с координатами (хi, νixнак) соединяют отрезками прямых. Кроме того, накопленные частоты для любого числа х < х1 равны 0, накопленные частоты для любого числа х > хk равны 1.
4. Числовые характеристики выборки. Выборочное среднее, мода, медиана, квартили.
Выборочное среднее – это среднее арифметическое вариант выборки.
Если выборка сгруппирована, то часто даже неизвестно, какие именно варианты попали в i-й интервал. Тогда частоту интервала ni умножают на средину интервала.
Модой x называется варианта хi с наибольшей частотой (относительной частотой) читают “х с крышечкой”.
Если выборка сгруппирована, то сначала определяют модальный интервал, т.е. интервал с наибольшей частотой (относительной частотой). В качестве моды можно взять середину модального интервала.
В статистике медианой (обозначают ~x, читают “х с волной”) называют такое число ~x, когда 50% вариант выборки меньше этого значения, а 50% больше его.
Медиана делит выборку на две части: половина вариант меньше медианы, половина – больше медианы. Можно найти три числа: Q1, Q2, Q3, которые аналогичным образом делят выборку на 4 равные части. Эти числа называются квартилями. Число Q2 совпадает с медианой ~x , число Q1 называется нижней квартилью, число Q3 называется верхней квартилью.
5. Размах, выборочная дисперсия, выборочное среднее квадратическое отклонение (стандартное отклонение), коэффициент вариации
Размах R – простейшая мера разброса значений данной выборки. Если xmax – максимальная, хmix – минимальная варианты, то R = xmax - хmix. Этой величиной пользуются при работе с малыми выборками.
Более эффективные меры разброса должны учитывать все элементы выборки. Одна из самых распространенных мер называется выборочной дисперсией S2. Она вычисляется точно так же, как дисперсия дискретной случайной величины. Следовательно, выборочная дисперсия оценивает средний разброс значений выборки относительно выборочного среднего.
Если выборка сгруппирована, частота i-го интервала ni умножается на середину интервала – число (хi + хi-1)/2. Соответственно корень квадратный из выборочной дисперсии называется выборочным средним квадратическим отклонением и обозначается S. Другое часто встречающееся название для S – стандартное отклонение.
Коэффициент вариации V служит для сравнения стандартных отклонений нескольких выборок и вычисляется по формуле V=S/ . Если коэффициенты вариации оказались величинами одного порядка, то средние рассеяния данных относительно среднего в этих выборках можно считать примерно равными.
6. Кривая Лоренца и показатель концентрации.
С помощью кривой Лоренца представляют распределение некоторых ресурсов (капитала, земли, рабочей силы и т.п.) среди владельцев ресурсов. Если значительная часть ресурсов сосредоточена у небольшой доли владельцев, говорят о высокой степени концентрации ресурсов.
Степень концентрации оценивают с помощью специальных коэффициентов. Неравномерность распределения ресурсов можно проследить и по кривой Лоренца. При построении этой кривой по горизонтальной оси откладывают накопленные доли владельцев ресурсов, а по вертикальной оси – относительные накопленные частоты объема ресурсов. Полученные точки соединяют отрезками.
Биссектриса координатного угла называется линией равномерного распределения. Чем сильнее кривая Лоренца отклоняется от линии равномерного распределения, тем выше концентрация ресурсов.
Степень концентрации можно оценить, вычисляя коэффициент Джини, равный площади фигуры, ограниченной линией равномерного распределения и кривой Лоренца. Если принять за 1 площадь квадрата на графике кривой Лоренца, то вычитая от 1 удвоенную площадь фигуры ограниченной горизонтальной осью и кривой Лоренца, определится коэффициент Джини.
7. Двумерные выборки, числовая характеристика двумерной выборки.
Выборка объема n из двумерной генеральной совокупности - это набор из n упорядоченных пар (xi, уi), i =1,2,...,n. Такие выборки называются двумерными.
В математической статистике мерой линейной связи между случайными величинами (xi и уi) служит выборочный коэффициент корреляции, определяемый по формуле
Выборочный коэффициент корреляции или выборочная ковариация обладает следующими свойствами:
1. | r | ≤ 1
2. Если | r | =1 то xi и уi линейно зависят друг от друга.
3. Если | r | = 0 то xi и уi независимы друг от друга.
Если r близок к значению 1 то xi и уi имеют почти линейную зависимость друг от друга, при значении r близком к –1 xi и уi имеют сильную отрицательную линейную зависимость.
8. Метод наименьших квадратов. Линейное уравнение.
При обработки результатов наблюдений или экспериментов часто возникает ситуация когда на графике точки (хi, уi) группируются около прямой. Естественным образом возникает задача подбора уравнения этой прямой. Можно подобрать два уравнения:
y = ax + b;
x = cy + d .
Каждое из таких уравнений называется уравнением регрессии. В случае уравнения y = ax + b говорят о регрессии y на x; в случае уравнения x = cy + d говорят о регрессии x на y.
Допустим, мы хотим подобрать коэффициенты уравнения y = ax + b так, чтобы это уравнение наилучшим образом соответствовало экспериментальным данным (xi, yi); i = 1,2,…,n. Понятие «наилучшим образом» не является строгим.
Общепринятым способом определения неизвестных коэффициентов уравнения регрессии является метод наименьших квадратов, разработанный А. Лежандром (1806) и К. Гауссом (1821). Идея метода наименьших квадратов состоит в том, что неизвестные значения коэффициентов уравнения регрессии подбирают из условия минимизации суммы квадратов отклонений di ординаты экспериментальной точки уi от теоретического значения.
Нужно определить два неизвестных коэффициента а и b уравнения y = ax + b.
a = Sxy / S 2 ; b = – a
Аналогично определяют коэффициенты c и d линейного уравнения x = cy + d.
c = Sxy / S 2 d = x – c y .
9. Парабола второго порядка.
Уравнение имеет вид y = ax2 + bx + c.
Метод наименьших квадратов дает такую систему линейных уравнений относительно неизвестных коэффициентов а, b, c:
10. Показательная функция.
Уравнение имеет вид y = bxa.
Прологарифмируем левую и правую части, для определенности вычислим натуральные логарифмы
ln(y) = a·ln(x) + ln(b).
Обозначим ln(y) через y1, ln(x) через x1, ln(b) через b1. Получаем уравнение относительно неизвестных коэффициентов а и b1:
y1 = ax1 + b1
Определив по методу наименьших квадратов числа a и b1, найдем
b = eb1.
11. Степенная функция.
Уравнение имеет вид y = bax.
Прологарифмировав левую и правую части, получим линейное уравнение относительно неизвестных параметров
y1 = a1x + b1,
где y1 = ln(y), a1 =ln(a), b1 = ln(b).
После определения параметров a1 и b1 находим числа a и b:
a = ea1, b = eb1.
12. Гиперболическая функция.
Уравнение имеет вид
y 1 .
ax b
Положив
y1
1
y , получим линейное уравнение относительно а и b:
y1 = ax + b