Математическая статистика
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Тема 6. Математическая статистика
Цель: овладеть навыками первичной статистической обработки данных.
Задание:
1. изучить материал данной лекции;
2. сделать краткий конспект, который необходимо представить к зачету;
3. подготовиться к письменному опросу по данной теме;
4. подготовиться к контрольной работе по данной теме.
Общие понятия математической статистики
СЛУЧАЙНАЯ ВЕЛИЧИНА.
Математическая статистика - раздел математики, изучающий методы сбора, систематизацию и обработку результатов наблюдений случайных явлений для выявления закономерностей.
Предмет математической статистики - изучение случайных величин, случайных событий, случайных процессов.
Предметом исследования в математической статистике является совокупность объектов, одинаковых относительно некоторых признаков.
Случайная величина - величина, которая в итоге каждого испытания принимает одно заранее неизвестное значение, зависящее от случая.
Дискретная случайная величина - случайная величина, которая принимает различные значения, записанная в виде конечной или бесконечной последовательности.
Непрерывная случайная величина - случайная величина, которая может принимать все значения из некоторого промежутка (конечного и бесконечного).
Обозначаются случайные величины латинскими заглавными буквами X, Y, Z ..., значения случайных величин - х1, х2, х3.
Соотношения между значениями х1, х2, х3, ... случайной величины и их вероятностями р1, р2, р3, ... называют законом распределения вероятностей дискретной случайной величины, его можно задать таблично или аналитически (с помощью формул).
Табличный способ закона распределения вероятностей дискретной случайной величины
Значения
х1
х2
...
хn
Вероятности
р1
р2
...
рn
Аналитический способ закона распределения вероятностей дискретной случайной величины
P(Х=хk) = ; (k=1,2,3,...,п); р1+ р2+ р3+...+ рп=1;
Если дискретная случайная величина Х принимает бесконечную последовательность значений х1, х2, х3, ... соответственно с вероятностями р1, р2, р3, ..., то ее закон распределения определен формулами:
P(Х=хk) = ; (k=1,2,3,...);
Табличный способ закона распределения дискретной случайной величины Х
X
х1
х2
х3
...
хn
...
P
р1
р2
р3
...
рn
...
В данном случае нет последнего значения, в отличии от предыдущей таблицы.
пример: Даны таблицы со значениями. Определить в каком случае задан закон распределения дискретной случайной величины.
1.
X
2
3
4
5
P
0,1
0,2
0,4
0,3
2.
X
6
7
8
9
P
0,3
0,5
0,1
0,2
решение: 1) по формуле закона распределения дискретной случайной величины получаем: 0,1+0,2+0,4+0,3=1, 1=1, что соответствует условиям закона распределения. 2) по формуле закона распределения дискретной случайной величины получаем: 0,3+0,5+0,1+0,2=1,1, т.е. 1,11, что не соответствует условиям закона распределения, значит вторая таблица не задает закон распределения СДВ.
пример: ДСВ Х имеет следующий закон распределения:
Х
0,2
0,4
0,6
0,8
1
Р
0,1
0,2
0,4
р4
0,1
Найти чему будет равна вероятность р4. Постройте многоугольник распределения.
решение: Так как должно выполняться равенство р1+ р2+ р3+...+ рп=1, в нашем случае получается: р1+ р2+ р3+р4+ р5=1, следуя из этого находим р4 = 1-( р1+ р2+ р3+р5)=1- (0,1+0,2+0,4+0,1) = 1-0,8 = 0,2.
В прямоугольной системе координат:
1) строим точки А1(0,2;0,1), А2(0,4;0,2), А3(0,6;0,4), А4(0,8;0,2), А5(1;0,1);
2) соединяем данные точки отрезками;
3) Ломаная А1А2А3А4А5 и будет многоугольником распределения данной случайной величины.
Математическое ожидание случайной величины
Математическим ожиданием дискретной случайной величины Х называется сумма произведений ее значений на их соответствующие вероятности:
М(Х) = х1р1+ х2р2+...+ хпрп ,
Математическое ожидание случайной величины называют ее средним значением, т.к. оно приближенно равно среднему арифметическому всех возможных значений дискретной случайной величины.
Свойства математического ожидания:
1. М(Х) заключено между его наименьшим и наибольшим значениями: а М(Х) b, а - наименьшее значение величины Х, b - наибольшее.
2. М(Х) постоянной величины равно этой постоянной:
М(С)=С (С=const).
3. Постоянный множитель можно вынести за знак М(Х):
М(СХ)=СМ(Х) (С=const).
4. Математическое ожидание суммы двух случайных величин равно сумме их математических ожиданий:
М(Х+Y)=М(Х)+М(Y).
Это равенство можно применить и для n случайных величин: М(Х1+ Х2+...+ Хп) = М(Х1)+М(Х2)+...+М(Хп).
5. Математическое ожидание разности двух случайных величин будет равно разности их математических ожиданий:
М(Х-Y)=М(Х)-М(Y).
6. Математическое ожидание произведения двух независимых случайных величин равно произведению их математических ожиданий :
М(Х×Y)=М(Х)×М(Y).
Это равенство можно применить и для n случайных величин: М(Х1× Х2×...× Хп) = М(Х1)×М(Х2)×...×М(Хп).
пример: Найти математическое ожидание дискретной случайной величины, согласно таблице:
Х
3
4
5
6
7
Р
0,1
0,2
0,4
0,2
0,1
решение: Найдем М(Х) согласно формуле:
М(Х) = 3×0,1+4×0,2+5×0,4+6×0,2+7×0,1=0,3+0,8+2,0+1,2+0,7=5
Следовательно, М(Х) равно 5 и, согласно свойству математического ожидания, неравенство 3<5<7 выполняется.
Дисперсия случайной величины.
Разность Х-М(Х) называется отклонением случайной величины Х от ее математического ожидания М(Х). Математическое ожидание отклонения равно 0: М(Х - М(Х))=0
Дисперсией (рассеянием) случайной величины Х называют математическое ожидание квадрата ее отклонения:
D(Х) = М((Х - М(Х))2).
Данную формулу можно записать в более удобном для расчетов виде:
D(Х) = М(Х)2 - (М(Х))2.
Свойства дисперсии случайной величины Х:
1. D(Х)0;
2. D(С)=0, если Х=С=const;
3. D(СХ)=С2 × D(Х), где С=const;
4. D(Х+Y)= D(Х)+ D(Y);
5. D(Х-Y)= D(Х)- D(Y).
Гипотеза психологического исследования.
Нулевая гипотеза Н0- это гипотеза об отсутствии различий.
Альтернативная гипотеза Н1 (гипотеза исследования, рабочая гипотеза) - это гипотеза о значимости различий.
Альтернативные гипотезы бывают направленные и ненаправленные. Направленные гипотезы указывают направление отношений между переменным. Ненаправленные гипотезы не указывают направление отношений.
Генеральная совокупность и выборка.
Генеральной совокупностью называется множество всех объектов, в отношении которых формулируется исследовательская гипотеза.
Для решения задач исследования проводится эксперимент (измерение, тестирование и др.), в результате которого получают значения некоторой случайной величины (результаты тестирования, количество баллов).
При участии в эксперименте всех объектов генеральной совокупности, обследование принято называть сплошным. Хоть генеральная совокупность и не бесконечное по численности обследование, но обычно, невозможное для сплошного исследования множество потенциальных испытуемых.
Выборкой называют ограниченную по количеству группу объектов, конкретно отбираемую из генеральной совокупности с целью изучения ее свойств. В психологии объекты - это испытуемые и респонденты. Изучение на определенной выборке свойств генеральной совокупности называют выборочным исследованием. Выборка должна быть такой, чтобы были обоснованы выводы выборочного исследования и распространение их на генеральную совокупность.
Основные критерии обоснованности выводов исследования
Репрезентативность выборки - это способность выборки представлять изучаемые явления достаточно полно (с точки зрения их изменчивости в генеральной совокупности.)
Статистическая достоверность (значимость) результатов исследования определяется при помощи методов статистического вывода, которые предъявляют определенные требования к объему выборки.
Объемом выборки называется ее численность. Существуют некоторые рекомендации по определению количества выборки:
• самый большой объем выборки будет актуален для диагностических методик (от 200 до 1500 человек);
• при сравнивании двух выборок - их общая численность должна быть не менее 50 человек;
• численность сравниваемых выборок должна быть примерно одинаковой;
• при выявлении взаимосвязи - численность выборки не меньше 30-35 человек;
• чем больше изменчивость изучаемых свойств, тем больше объем выборки (изменчивость можно уменьшить, увеличивая однородность выборки, но при этом уменьшаются возможности генерализации выводов).
Зависимые и независимые выборки.
Зависимая выборка содержит результаты одной и той же экспериментальной группы, но в разное время.
Независимая выборка содержит результаты исследования двух разных групп испытуемых.
Шкалы и их виды.
Измерением называют приписывание числовых форм объектам.
Типы измерительных шкал:
1. шкала наименований (номинативная, номинальная);
2. шкала рангов;
3. шкала интервалов;
4. шкала отношений.
Шкалы интервалов и отношений являются метрическими шкалами, а рангов и наименований - неметрическими.
Шкала наименований - это шкала, в которой количественные характеристики объектов не выражены.
пример:
Пол
Имя
женский
Евгения
мужской
Евгений
женский
Василиса
мужской
Георгий
Шкала рангов (порядковая) - позволяет отбирать объекты по какому-либо признаку.
пример:
дисциплина
оценка
алгебра
3
русский язык
4
химия
4
физика
5
При построении порядковой шкалы "вручную" необходимо соблюдать определенные правила ранжирования:
1. Меньшему значению начислять меньший ранг, или наоборот большему. Наименьшему (наибольшему) значению назначается ранг 1.
2. Если несколько значений равны, им начисляется ранг, представляющий среднее значение из тех рангов, которые они получили бы, если бы не были равны.
3. Общая сумма рангов должна быть равна расчетной, которая определяется по формуле:
N - общее количество ранжируемых значений. Если реальная и расчетная сумма рангов не равна - это свидетельствует об ошибке при начислении рангов или их суммировании. Продолжать работу не найдя ошибку нельзя.
пример:
Ученик
1
2
3
4
5
6
7
8
9
10
Экзамен, алгебра
95
90
86
82
75
75
64
60
57
50
Ранг, алгебра
1
2
3
4
5,5
5,5
7
8
9
10
Объем данной выборки = 10.
Назначим самому большому значению выборки - 1 ранг и т. д. Ученики 5 и 6 имеют одинаковые результаты, поэтому применяем правило ранжирования: (5+6)/2 = 5,5 ранг.
Шкала интервалов - это шкала, классифицирующая по принципу "больше (меньше) на определенное количество единиц". Применяя эту шкалу, можно сказать, насколько больше (меньше) выражено свойство при сравнении объектов, но нельзя судить во сколько раз больше (меньше) выражено свойство. Нулевая отметка на шкале выбирается произвольно.
пример:
время прохождения теста
фамилия
произвольная точка отчета
Иванов
на 8 с дольше Иванова
Петров
на 15 с дольше Иванова
Сидоров
на 20 с дольше Иванова
Николаев
Шкала отношений (абсолютная шкала) - это шкала, классифицирующая по принципу "больше (меньше) в определенное количество единиц". Нулевая точка устанавливается и соответствует полному отсутствию выраженности измеряемого свойства. В силу абсолютности нулевой точки, при сравнении объектов можно сказать насколько больше (меньше) выражено свойство, а также во сколько раз больше (меньше) оно выражено.
Шкала отношений используется, в основном, при психофизиологических исследованиях явлений, измеряемых в физических единицах (метры, граммы, секунды и т.д.). Для большинства психологических явлений шкала отношений не применяется: трудно представить себе полное отсутствие у испытуемого какого-либо психологического свойства - например, абсолютную глупость. Итоговая оценочная шкала большинства опросников - интервальная, где точкой отсчета - условным нулем - является ноль набранных баллов.
пример:
время прохождения теста, мин
фамилия
10
Иванов
15
Петров
17
Сидоров
20
Николаев
Таблицы исходных данных, графики распределения частот.
Метрические данные можно представить в виде ряда значений - статистической совокупностью, каждый член которой называется вариантой.
Для первичного описания исходных данных применяются таблицы, вариационные ряды и графики.
Вариационный ряд - это таблица, в которой отражена зависимость между видами исходов проводимого опыта и количествами тех или иных исходов.
Статистический ряд - это таблица, в которой отражена зависимость между вариантами исхода опыта и относительными частотами.
В вариационном и статистическом рядах варианты принято располагать в порядке возрастания.
Таблицы и графики распределения частот строятся для анализа данных с целью изучения того, как часто встречаются значения признака в множестве наблюдений.
Если указывается, сколько раз встречается каждое значение признака, то строим таблицу абсолютных частот распределения, если указываем долю наблюдений, которая приходится на то или иное значение признака - строим таблицу относительных частот распределения.
Относительная частота обозначается ƒo и находится как отношение абсолютной частоты ƒa к объему выборки N:
ƒo =
Сумма всех относительных частот равна 1, а сумма всех абсолютных частот равна числу наблюдений.
В случаях, когда признак принимает множество различных значений, о распределении признака позволяет судить таблица сгруппированных частот. В данной таблице частоты группируются по разрядам или интервалам значений признака.
К еще одной разновидности таблиц распределения относится распределение накопленных частот, показывающих накопление частоты по мере возрастания значений признака.
Иногда для лучшей иллюстрации результатов исследования используют полигон частот.
пример: Даны результаты исследования, постройте полигон относительных частот для изучения уровня тревожности (100-бальная шкала).
решение:
Вариационный ряд
Тревожность (xi), баллы
10
15
20
25
30
35
40
45
50
55
Количество испытуемых (пi), чел.
2
3
5
10
10
7
5
5
2
1
Объем выборки: п = 2+3+5+10+10+7+5+5+2+1=50
Находим относительные частоты и строим статистический ряд ƒo = :
Статистический ряд
Тревожность (xi), баллы
10
15
20
25
30
35
40
45
50
55
Относительная частота (ƒo)
0,04
0,06
0,1
0,2
0,2
0,14
0,1
0,1
0,04
0,02
Строим полигон относительных частот
Для иллюстрации результатов используют также столбчатые и круговые диаграммы. По данным задачи построим также и их.
Столбчатая диаграмма
Круговая диаграмма
Меры центральной тенденции.
Мерой центральной тенденции называют число, которое характеризует выборку по уровню выраженности измеренного признака.
Наиболее часто в статистике используют три меры центральной тенденции распределения: мода, среднее арифметическое и медиана.
Мода - это наиболее часто встречающееся значение (не стоит путать с частотой) в ряду данных. Моде (модальному интервалу) признака соответствует наибольшая вершина графика распределения частот. Если график распределения имеет одну вершину такое распределение называют унимодальным.
Если два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода будет средним этих двух значений.
Распределение может иметь не одну моду. Если все значения встречаются одинаково часто, говорят, что такое распределение не имеет моды.
Бимодальное распределение на графике распределения имеет две вершины, даже если частоты для двух вершин не строго равны. В последнем случает выделяют большую и меньшую моду. Если во всей группе несколько локальных вершин распределения частот, то выделяют наибольшую моду и локальные моды.
Медиана разбивает выборку на две равные части, так что одна половина всех значений оказывается меньше медианы, а другая - больше. Для определения медианы требуется сначала упорядочить данные по возрастанию и убыванию.
пример: определить значение медианы {8, 11, 12, 20, 20, 12, 13, 9, 15, 19, 17, 19}; {8, 11, 12, 20, 20, 12, 13, 9, 15, 19, 17, 19, 20}.
решение: упорядочим (по возрастанию) данные {8, 9, 11, 12, 12, 13, 15, 17, 19, 19, 20}, медиана будет равна 13, обозначается Ме=13.
Если количество значений в выборке четное, то медиану будем находить как среднее арифметическое между двумя центральными значениями.
упорядочим (по возрастанию) данные {8, 9, 11, 12, 12, 13, 15, 17, 19, 19, 20, 20}, медиана будет равна 14 [(13+15)/2], обозначается Ме=14.
Среднее арифметическое значение - это отношение суммы всех значений измеренного признака к числу суммированных значений.
N - численность испытуемых, - значения (i - текущий номер испытуемого, от 1 до N).
Меры изменчивости.
Меры изменчивости применяются в психологии для численного выражения величины межиндивидуальной вариации признака.
Размах - это разность максимального и минимального значений выборки:
R=xmax - xmin .
Дисперсия - мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений измеренных значений от их арифметического среднего:
Чем больше изменчивость в данных, тем больше отклонения значений от среднего, тем больше величина дисперсии. Величина дисперсии получается при усреднении всех квадратов отклонений:
Следует отличать генеральную дисперсию - меру изменчивости бесконечного числа изменений и эмпирическую (выборочную) дисперсию - для реально измеренного множества значений признака. Выборочное значение используется для оценки дисперсии в генеральной совокупности. Выше мы указали формулу генеральной дисперсии , которая, понятно, не вычисляется. Для вычислений используется формула выборочной дисперсии , отличающая знаменателем:
Стандартное отклонение - положительное значение квадратного корня из дисперсии: