Измерение взаимосвязи между двумя переменными: парная, линейная корреляция и регрессия
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Тема №2. Измерение взаимосвязи между двумя переменными: парная, линейная корреляция и регрессия.
Классификация видов взаимосвязи:
Статистическая взаимосвязь зависимость, которая проявляется не в каждом отдельном случае, а в общем, в среднем при большом числе наблюдений.
По направлению: -прямая; -обратная.
По тесноте: - слабая; - умеренная; - сильная.
По форме: -линейная; -нелинейная.
По количеству признаков: -парная; -множественная.
Изучение взаимосвязи признака начинается с построения графика диаграммы рассеивания.
Методы корреляции и регрессии
Корреляционный анализ это метод математической статистики, позволяющий исследовать тесноту и направление связи между случайными переменными.
Регрессионный анализ это метод получения формы зависимости между случайными переменными с помощью математического уравнения (функции регрессии).
Предпосылки применения методов корреляции и регрессии:
• наличие линейной связи;
• нормальность или близость к нормальному распределению связи.
Двумерная корреляционная модель
Предполагаем, что имеем двумерную генеральную совокупность случайных величин Y и X, распределенных по нормальному закону. Из этой совокупности взята репрезентативная выборка объемом n и результат i–го наблюдения имеет вид (y;x).
Ковариация это статистическая мера связи между двумя случайными величинами.
Теоретическая ковариация:
Эмпирическая ковариация:
• Привязана к единицам измерения.
Корреляция это статистическая мера связи между двумя случайными переменными.
Теоретическая корреляция (генеральный коэффициент корреляции):
Оценка параметров корреляционной модели
выборочный коэффициент корреляции;
средние арифметические Y и X;
среднее произведение величин Y и X;
средние квадратические отклонения, соответственно, для Y и X.
Свойства коэффициента корреляции
Коэффициент корреляции не имеет размерности и следовательно, его можно сопоставлять для разных статистических рядов.
Его величина может находиться в пределах от -1 до +1 включительно.
слабая;
средняя;
сильная;
очень сильная
Характеризует наличие и тесноту только линейной связи между показателями.
Проверка значимости коэффициента корреляции
После расчета коэффициента корреляции нужно проверить его значимость, т. е. проверить статистическую вероятность гипотезы. Проверяется гипотезу о равенстве генерального коэффициента корреляции нулю
Для проверки гипотезы можно использовать критерий Стьюдента:
Интервальная оценка коэффициента корреляции
Если коэффициент корреляции значим, то для него можем построить интервальную оценку. По таблице z-преобразования Фишера находят интервальную оценку для величины z(r), а затем переходят обратно к величине r.
где находят по таблице интегральной функции Лапласа
Двумерная линейная регрессионная модель
Функция регрессии Y на X:
Параметры уравнения регрессии:
коэффициенты регрессии;
остаточная дисперсия часть вариации зависимой переменной, которую нельзя объяснить воздействием объясняющей переменной X.
Метод наименьших квадратов
Для расчета оценок параметров уравнения используют метод наименьших квадратов (МНК): сумма квадратов отклонений фактических значений зависимой переменной от расчетных значений, полученных на основе уравнения регрессии, должна быть минимальной:
Оценка параметров уравнения регрессии
Оценка коэффициентов:
Оценка остаточной дисперсии: