Использование данных для обоснованного принятия решений
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Департамент организационного поведения и управления человеческими
ресурсами Высшей школы бизнеса НИУ ВШЭ
УПРАВЛЕНИЕ ЧЕЛОВЕЧЕСКИМИ
РЕСУРСАМИ НА ОСНОВЕ ДАННЫХ
Использование данных для обоснованного принятия решений
Мондрус Ольга, Ph.D.
Доцент Департамента ОП&УЧР ВШБ НИУ ВШЭ
Москва, 2020
Департамент организационного поведения и управления человеческими ресурсами
Высшая школа бизнеса НИУ ВШЭ
СТРУКТУРА 3Й СЕССИИ
Множественная
регрессия
условия
Факторный
анализ условия
Вопросы
2
Задачки
ПАРАМЕТРЫ КОЛИЧЕСТВЕННЫХ И КАЧЕСТВЕННЫХ
ИССЛЕДОВАНИЙ
Количественное
Качественное
Доверительность (социальная валидность)
Правдоподобность (credibility), что соответствует валидности (валидация
Надежность
респондента, триангуляция)
(стабильность – тест-ретест,
Переносимость (transferability), что соответствует внешней валидности
внутренняя согласованность/надежность – α-Кронбаха,
Достоверность (операционализация – функциональная надежность) , что
критерий согласия – расхождения в описании
соответствует надежности
конструкта)
Подтверждаемость (confirmability) – что соответствует объективности
Валидность
(очевидная - интуиция, совокупная – сравнение с
испытанным инструментом, прогностическая –
будущие критерии испытанного инструмента,
конструктная – исследования расширенного
конструкта, конвергентная – измерение того же
конструкта по другой технологии)
Аутентичность
Беспристрастность (все ли стороны опрошены)
Отнологическая аутентичность (могут ли участники лучше понять свой
контекст)
Познавательная (могут ли участники понять перспективны для других)
Каталитическая аутеничность (могут ли участники применить
исследование для изменения контекста)
Тактическая аутентичность (есть ли инструмент для изменений)
Релевантность
ПАРАМЕТРЫ КОЛИЧЕСТВЕННЫХ И КАЧЕСТВЕННЫХ
ИССЛЕДОВАНИЙ
Количественное
Цифры
В центре исследователь
Проверка теории
Качественное
Слова
В центре участники
Возникновение и разработка теории
Исследователь в стороне
Исследователь в контакте с участниками
Структурировано
Обобщение
Точность, надежность, генерализация
Не структурировано
Понимание контекста
Углубление расширение
Тенденции, поведение
Значение, почему?
Модель исследователя
Естественные условия
МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
Y=β 0 +β 1 *X 1 +β 2 *X 2 +… +β k *X k +ε
Отсутствие мультиколлинеарности – независимость между собой переменных-предикторов, отсутствие
высокой корреляции (для множественной регрессии). Решение: удаление высоко коррелируемых переменных
из анализа или центрирование данных (вычитание средних значений из каждого наблюдения по необходимым
переменным).
Отсутствие автокорреляции – отсутствие зависимости остатков. Выявляется с помощью теста ДурбинаУотсона (обнаруживает автокорреляцию первого порядка).
Гомоскедастичность дисперсия остатков одинакова для каждого значения. Определяется с помощью
диаграммы рассеяния (должна быть случайна, не должно наблюдаться тенденций, связей и пр.).
Значимость модели p_value
Значимость коэффициентов модели
МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
Y=β 0 +β 1 *X 1 +β 2 *X 2 +… +β k *X k +ε
«Оценки коэффициента регрессии» – оценки значимости коэффициентов регрессионной модели.
«Доверительные интервалы» – доверительные интервалы для коэффициентов регрессионной модели.
«Согласие модели» – параметры соответствия модели эмпирическим данным (коэффициенты множественной
корреляции, множественной детерминации и др.).
«Описательные статистики» – описательная статистика по эмпирическим данным (среднее арифметическое,
стандартное отклонение и объем выборки).
«Диагностики коллинеарности» – параметры для оценки мультиколлинеарности (связанность независимых
переменных).
«Дурбин Уотсон» – проверка на автокорреляцию остатков. Команда Анализ-Регрессия-Линейная регрессия –
Меню «Статистики» в SPSS
Если значение Дурбин-Уотсон не выходит за границы [1,5;2,5], поэтому можно говорить о том, что
автокорреляции нет.
𝑹𝑹𝟐𝟐 - коэффициент детерминации показывает, какая доля вариации объясняемой переменной y учтена в
модели и обусловлена влиянием на нее факторов, включенных в модель:
Проверка на гомоскедастичность: вставить *ZRESID в поле Y, а *ZPRED в поле X. Отметить «Гистограмма» и
«Нормальный вероятностный график».
РАЗНИЦА ВЫБОРОК, СРАВНЕНИЕ СРЕДНИХ,
ДИСПЕРСИОННЫЙ АНАЛИЗ
Сравнение средних значений различных выборок
выясняем, является ли различие средних значений (если оно есть) случайным или
статистически значимым
обе выборки должны подчиняться нормальному распределению.
если выборки не подчиняются нормальному закону, то вычисляются медианы и для
сравнения выборок используется непараметрический тест.
Например: сравнить различие вовлеченности в двух офисах.
Нулевая гипотеза – средние равны. Если p_value < 0.05 (порога значимости), нулевая
гипотеза отвергается. Выше порога значимости, нулевая гипотеза принимается.
T-КРИТЕРИЙ ДЛЯ НЕЗАВИСИМЫХ ВЫБОРОК
Проверка гипотезы о равенстве дисперсий «тест Ливина» (Levene’s Test for Equality of
Variances).
если p-value критерия Ливина ≤0,05, то дисперсии сравниваемых распределений
значений статистически достоверно различаются, и принимается решение о выборе
второго типа t-критерия – в строке Равенство дисперсий не предполагается;
если p-value критерия Ливина >0,05, то дисперсии сравниваемых распределений
значений статистически достоверно не различаются, и принимается решение о выборе
первого типа t-критерия – в строке Предполагается равенство дисперсий.
НЕПАРАМЕТРИЧЕСКИЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
Проверяется различие центральной тенденции для двух и более групп. Не связан с
характером распределения переменных (не важна нормальность распределения).
Сравнение двух независимых выборок (критерий Манна–Уитни) - различия между
двумя независимыми выборками по уровню выраженности порядковой переменной.
Сравнение более двух независимых выборок (критерий Краскала-Уоллиса)
использует значение рангов (порядковую статистику) измерений.
–
Критерий Колмогорова—Смирнова для одной выборки определяет отличие
распределения переменной от нормального (требовательный к объёму данных тест,
надо много, >50). Нулевая гипотеза: нет статистически значимой разницы
распределения выборки с нормальным распределением.
критерий Лилиефорса (Liliefors), критерий Шапиро-Уилка (Shapiro-Wilk) (<50)
Нулевая гипотеза: нет статистически значимой разницы распределения выборки с
нормальным распределением.
НЕПАРАМЕТРИЧЕСКИЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
Критерий Шапиро-Уилка (Shapiro-Wilk)
ФАКТОРНЫЙ АНАЛИЗ
Факторный анализ – большое число переменных, относящихся к имеющимся наблюдениям, сводят к меньшему
количеству независимых влияющих величин, называемых факторами:
•в один фактор объединяются переменные, сильно коррелирующие между собой.
•переменные из разных факторов слабо коррелируют между собой.
Факторный анализ классифицирует признаки (переменные), описывающие наблюдения.
Фактор – латентная (скрытая) переменная, конструируемая так, чтобы можно было объяснить корреляцию между
набором имеющихся переменных.
Мы сжимаем информацию.
Условия:
Все признаки должны быть интервальными либо отношений
Число наблюдений должно быть минимум в два раза больше числа переменных. Выборка должна быть однородна.
Исходные переменные должны быть распределены симметрично.
Номинальные переменные должны быть переведены в дихотомические.
ФАКТОРНЫЙ АНАЛИЗ
Метод главных компонент (Principal Components Analysis) - определяем
минимальное число факторов, вносящих наибольший вклад в дисперсию
данных (главные компоненты).
Вращения необходимо для выявления самой простой структуры, которой
соответствует большое значение нагрузки каждой переменной только по
одному фактору и малое по всем остальным факторам.
Факторная нагрузка отражает связь между переменной и фактором,
являясь подобием коэффициента корреляции. Значение нагрузки лежит в
пределах (–1; 1).
До вращения точки, соответствующие переменным, расположены на
удалении от осей факторов.
После поворота осей переменные оказываются вблизи осей, что
соответствует максимальной нагрузке каждой переменной только по
одному фактору.
ENJOY YOUR STUDYING TIME
• https://www.hse.ru/staff/mondrus
THANK YOU
13