Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Интеллектуальный анализ данных
Архипова Марина Юрьевна
archipova@yandex.ru
Семинары
Семинары двух видов
- Решение задач у доски на отработку методики каждого
метода
- Решение задач на компьютерах с использованием реальных
данных в SPSS, R, Python
Командная работа по написанию проектной работы
Компьютерные работы выполняются в
группах от 2 до 3 чел. на основе своих реальных данных,
выбранных группой.
В конце курса на основе выполненных работ защищается
проект. Каждая группа выбирает руководителя. Он
выставляет оценку каждому исполнителю в зависимости
от вклада.
СРЕЗЫ
1. Доклады по методам и данным (2 доклада)
2. Контрольная + доклад
3. Защита компьютерной работы
Участие в студенческой конференции
XIII Международная (Межвузовская) студенческая
научно-практическая конференция (2022)
«Статистические методы анализа экономики
и общества»
Требования к тезисам докладов:
•
•
•
•
•
•
Объем – 2 полностью заполненные страницы
Формат статей: параметры страницы: A4,
отступы: сверху: 6.1, снизу: 7.1 (Высота строго 16,5)
слева: 4.8, справа: 4.7 (Ширина строго 11,5)
Шрифт Times New Roman Cyr 10,
межстрочное расстояние - одинарное.
Участие в олимпиадах по статистике
Рекомендуемая литература
Мхитарян В.С., Архипова М.Ю., Миронкина Ю.Н.,
Сиротин В.П. и др.
Анализ данных:
учебник для академического
бакалавриата. Сер. 58
Бакалавр. Академический курс
(1-е изд.)
М.: Издательство Юрайт, 2020г.
Рекомендуемая литература
Флах П. Машинное обучение.
Наука и искусство построения
алгоритмов, которые извлекают
знания из данных /
перевод с англ. А.А.Слинкина
– М: ДМК Пресс, 2015. – 400 с.
Рекомендуемая литература
Рассел Дэвидсон,
Джеймс Г. Мак-Киннон
Теория и методы
эконометрики.
Перевод с англ.
Под научной редакцией
Е.И.Андреевой
– М.: Академический учебник,
2018.
RecSys
Рекомендательные системы
Recommender Systems Handbook, an edited
volume, is a multi-disciplinary effort that involves
world-wide experts from diverse fields, such as
artificial intelligence, human computer interaction,
information technology, data mining, statistics,
adaptive user interfaces, decision support
systems, marketing, and consumer behavior.
искусственный интеллект,
информационные технологии,
интеллектуальный анализ
данных,
статистика,
адаптивные пользовательские
интерфейсы,
системы поддержки принятия
https://link.springer.com/book/10.1007/978-0-387-85820-3
решений,
маркетинг и потребительское
поведение.
9
Рекомендуемая литература
David R. Anderson, Dennis J.Sweeney, Tomas A.
Williams, Jim Freeman,
Eddie Shoesmith
STATISTICS for BUSINESS
and ECONOMICS
UK, 2009
Семинары
Семинары двух видов
- Решение задач у доски на отработку методики каждого
метода
- Решение задач на компьютерах с использованием реальных
данных в R, Python (SPSS)
Командная работа
Компьютерные работы выполняются в
группах от 4 до 6 чел. на основе своих реальных данных,
выбранных группой.
В конце курса на основе выполненных работ защищается
итоговая компьютерная работа. Каждая группа
выбирает руководителя.
Он выставляет оценку каждому исполнителю в
зависимости от его вклада.
Специализированные статистические
программы
Выделяют две группы специализированных статистических
программ.
Оконно-кнопочные системы
Статистические среды.
Специализированные статистические
программы
1.Оконно-кнопочные системы (SPSS, Statistica, Stata….)
Гибкость таких систем велика, но только в пределах определенных
модулей.
Если надо скомбинировать работу нескольких модулей, то необходимо
писать макросы.
Алгоритмы вычисления в таких программах – закрыты.
SPSS - Statistical Package for the Social Science (1967) – одна из самых
распространённых программ для обработки
статистической
информации и выполнения
всех этапов статистического анализа.
Stata
1. Официальный сайт Stata:
http://www.stata.com/
2. Описание Stata на русском языке:
http://www.exponenta.ru/soft/Others/
stata/stata.asp
3. Коленников С.О. Прикладной
эконометрический анализ в
статистическом пакете Stata.- М.:
Российская экономическая школа,
2001.
4. Christopher F. Baum. An Introduction to
Modern Econometrics Using Stata.
Stata Press.Кристофер Баум.
Введение в современную
эконометрику с применением
эконометрического пакета Stata.
2.Специализированные статистические
среды (R, Python)
Эта группа программ использует интерфейс командной
строки. Пользователь вводит команды, система на них
отвечает.
Для работы с подобными системами нужны некоторые
навыки программирования.
Открытость научного сообщества
Прорывные успехи в развитии методов интеллектуального
анализа данных - открытость научного сообщества.
Практически все системы следуют концепции открытого
исходного кода (open source).
Весь код, с помощью которого работает система, размещён в
интернете и доступен для просмотра любому человеку.
Библиотеки полностью открыты и бесплатны для любого
желающего.
+ любой может вносить в эти библиотеки свои дополнения и
улучшения.
Основные библиотеки и языки программирования data scientist-ов.
Сколько всего информации в мире?
Рост объемов информации огромен.
В 2009 году общий объем информации составлял всего 0.8 зетабайтов
(1Зб = 10^12 Гб),
к 2025г. ожидается, что появится уже 163 зетабайтов информации!
- 80% информации генерируется компьютерными системами.
Компьютеры генерируют информацию как с участием человека
-записывается поведение пользователей в социальных сетях и интернет-магазинах
-активность фиксируется фитнес-трекерами,
Самостоятельно создается с помощью датчиков
- сейсмическая активность,
-
температура воздуха,
уровень радиации…
За один сегодняшний день в
мире появится больше
информации, чем за всю
историю человечества до 2003 г.
включительно.
Искусственный интеллект
Искусственный интеллект – комплекс технических решений,
позволяющий имитировать когнитивные функции человека
(самообучение и поиск решений без заранее заданного
алгоритма) и получать при выполнении конкретных задач
результаты, сопоставимые, как минимум, с результатами
интеллектуальной деятельности человека».
•
Национальная стратегия развития искусственного интеллекта на период до 2030 года.
Утверждена Указом Президента Российской Федерации от 10 октября 2019 г. № 490 :
https://www.garant.ru/products/ipo/prime/doc/72738946/#1000
Принцип работы алгоритмов ИИ подразумевает, что в
результате обработки большого объема накопленных или
собранных данных алгоритм находит быстрое решение
творческой задачи.
Примеры использования
Диагностика рака
Для определения стадии рака врачам необходимо тщательно
изучать гигапиксельные фотографии (10^5x10^5 пикселей).
Решение: интеллектуальные алгоритмы, способные
опознавать наличие раковых клеток по специальным
фотографиям.
Пример:
алгоритм компании Google, основанный на нейронной сети
Бывают ложноположительные срабатывания,
т. е. определения заболевания в случае, когда его на самом
деле нет.
Чтобы исключить такие случаи, требуется исследование
специалистов.
Тем не менее, программа в разы сокращает объём рутинной
работы медиков.
Примеры использования
Перевод книг в электронный вид
• задача перевода всех бумажных книг в электронный вид с целью
сохранения знания и дальнейшего упрощения их распространения.
Техники распознавания текста - нет необходимости полностью
перепечатывать книги.
В худшем случае - необходимо проверить качество перевода текста и
опечатки.
Примеры использования
Мобильные приложения
• персонализированный помощникприложение (например, Сбера) - не только
подсказывает о полезных финансовых
операциях, но даёт полезные
персонализированные лайфхаки;
• решение задачи выдачи клиенту банка
кредита на основе прогнозирующих моделей,
предсказывающих уход клиента в дефолт.
Другие примеры
Воссоздание
- узнаваемого стиля великих мастеров при создании творческих объектов:
- музыки,
- стихотворений...
Недостатки
• нейронная сеть создает решения только на большом объеме
данных. Не для всех творческих задач в настоящее время
накоплены (доступны) информационные ресурсы в достаточном
объеме
• постановка творческой задачи для алгоритмов искусственного
интеллекта находится в компетенции человека
(т.е нейронная сеть сама себе не ставит задачи, а отвечает на
заданные вопросы)
• алгоритмы ИИ не способны к первому шагу, который заключается
в выработке идеи.
Необходимые ресурсы для решения задачи ИАД
статья Andrew Ng на английском:
https://hbr.org/2016/11/what-artificial-intelligencecan-and-cant-do-right-now
Есть два основных дефицитных ресурса для успешного применения ИИ:
Данные;
Талантливые специалисты по работе с данными.
Исследование консалтинговой компании McKinsey - проанализированы более 2000
разных активностей в более чем 800 профессиях.
Какие области и профессии имеют наибольший потенциал для автоматизации задач с
помощью ИИ, машинного обучения и робототехники?
Наибольший потенциал для
автоматизации имеют
производство и работа в
предсказуемых условиях,
(исполнение рутинных
инструкций и сценариев):
• продавцы,
• водители такси,
• грузчики.
Наименьший потенциал для
автоматизации имеют
профессии, наиболее тесно
связанные с людьми.
Топ 15 цифровых технологий, включенных в рейтинг
исследовательской повестки
Связь между разными дисциплинами,
связанными с ИАД
За один сегодняшний день в
мире появится больше
информации, чем за всю
историю человечества до 2003 г.
включительно.
3 ключевые навыка, необходимые для работы с анализом данных:
знание предметной области (ключевой навык),
статистика,
программирование.
data scientist должен
• правильно разобраться в специфике решаемой задачи,
• подобрать и реализовать нужный алгоритм,
• использовать не только искусственный интеллект,
но и свой, естественный)
Навыки data science специалистов
! В отличие от единорогов, такие специалисты
иногда встречаются
Кто они - специалисты по data science?
Data science вбирает в себя большое количество дисциплин и
не имеет общепринятого четкого определения.
Шуточное определение:
“Data scientist - это такой человек, который умеет
программировать лучше, чем статистик, и знает
статистику лучше, чем программист”
Откуда берутся данные?
«Без труда не выловишь и рыбку из пруда»
Если хочешь анализировать данные, надо их сначала получить.
Способов получения данных много, а самые главные –
?
Откуда берутся данные?
«Без труда не выловишь и рыбку из пруда»
Если хочешь анализировать данные, надо их сначала получить.
Способов получения данных много, а самые главные –
• наблюдения
• эксперимент
Откуда берутся данные?
Наблюдением называют такой способ получения
данных, при котором воздействие наблюдателя на
наблюдаемый объект сведено к минимуму.
Иначе мы получим данные, отражающие не свойства объекта, а его реакцию
на наше воздействие
Важно!
Не следует без необходимости применять экстраполяцию:
если мы увидели, что А ест Б, нельзя писать
«А всегда ест Б»
и даже
«А обычно ест Б».
Можно лишь писать -
«в наших наблюдениях А ел Б, это позволяет с некоторой
вероятностью предположить, что он может есть Б».
Важно!
Эксперимент тоже включает наблюдение, но сначала на
наблюдаемый объект оказывается заранее рассчитанное
воздействие.
Важно!!!
• точный учет воздействия
• наличие контроля.
Откуда берутся данные?
Эксперимент тоже включает наблюдение, но!
на наблюдаемый объект оказывается заранее рассчитанное воздействие.
Важно!!!
• точный учет воздействия
• Контроль воздействия.
Пример: исследуем действие нового лекарства.
2 группы - основная и контрольная
Откуда берутся данные?
Эксперимент тоже включает наблюдение, но!
на наблюдаемый объект оказывается заранее рассчитанное воздействие.
Важно!!!
• точный учет воздействия
• Контроль воздействия.
Пример: исследуем действие нового лекарства.
2 группы - основная и контрольная
- психологическое состояние (и пациента и врача)
- Второстепенные факторы (сокращение светового дня осенью и зимой,
- отношения в семье, на работе…)
- …..
Выборка- множество результатов, отобранных из
генеральной совокупности
www.medium.com
Главное требование к выборке - репрезентативность
Сказка о переписи как попытке обследовать
все объекты
(генеральную совокупность)
Задумал царь Еремей перепись провести
Спор о важности переписи
(необходимости Big Data)
Не царское это дело!
Нет, царское!!!
Перепись –дело затратное
перья
пергаменты
Произвести перепись в полном объеме – дело
практически невозможное
«Нельзя объять необъятное»
Козьма Прутков
Проблемы переписи
«Отдай мне то, чего ты в
своем царстве не знаешь!
Я в своем царстве все
знаю!!!
Возвращение с переписи
Наследник престола – Андрей Еремеевич
Вот оно то, чего я в своем
царстве не знаю!!!
«Нужно было использовать выборочный метод обследования!»
Откуда берутся данные?
Как организовать выборку?
Предположим, нам поручено случайным образом отобрать сто
деревьев в лесу, чтобы измерить степень накопления тяжелых
металлов в листьях. Как мы будем выбирать деревья?
Варианты:
1. Пройдемся и сорвем понравившиеся листья
2. На карте леса случайным образом выберем точку и возьмем
ближайшее дерево
3. …..
Откуда берутся данные?
Как организовать выборку?
Предположим, нам поручено случайным образом отобрать сто
деревьев в лесу, чтобы впоследствии померить степень накопления
тяжелых металлов в листьях. Как мы будем выбирать деревья?
Ответ
Надо перенумеровать все деревья, а затем выбрать сто
номеров по жребию.
Откуда берутся данные?
Как организовать выборку?
Частичная рандомизация
- случайно выбрать направление,
- протянуть в этом направлении бечевку через весь лес,
- посчитать, скольких деревьев касается бечевка,
- выбрать каждое энное (пятое, пятнадцатое...) дерево, так чтобы
всего в выборке оказалось 100 деревьев.
Поверхностные выводы. Продумываем!
Пример: Агрономы определяли, насколько сильно вредят кукурузе
гусеницы кукурузного мотылька.
Результат: разница в урожае между пораженными и непораженными
растениями почти вдвое.
?
Пораженные растения, различающиеся по степени поражения, не
различаются по урожайности.
Откуда берутся данные?
Ошибка - среди здоровых растений отбирали самые здоровые, а среди
больных старались подобрать самые хилые.
ошибка репрезентативности.
Анализ связи «поражение - урожай» («регрессионный анализ») привел к
выяснению истинной причины.
А кукурузный мотылек, оказывается, почти и не вредит кукурузе...
Предостережение от формального
использования математических методов в
статистике
Ш.В.Шарлье «математическая статистика не
представляет собой какого-то автомата, в
который достаточно заложить статистический
материал, чтобы в результате нескольких
манипуляций, как на счетной машине, получить
готовый результат».
Предостережение
Обследование должно быть разносторонним
Статистический анализ?
Термин "анализ" происходит от греческого слова, которое в переводе
означает "разделяю", "расчленяю".
• Такое расчленение позволяет заглянуть внутрь исследуемого
предмета, явления, процесса, понять его сущность,
определить роль каждого элемента.
• Например, чтобы понять сущность себестоимости продукции,
необходимо знать не только из каких элементов она состоит, но и от
чего зависит ее величина по каждой статье затрат.
Чем детальнее будет рассмотрен прирост себестоимости по элементам
и факторам, тем больше мы будем знать об этом экономическом явлении
и более эффективно управлять процессом формирования себестоимости
продукции.
Статистический анализ?
Синтез - выявляет связи и зависимости между отдельными
частями изучаемого предмета, соединяет их в единое целое.
Анализ и синтез в единстве обеспечивают научное изучение
явлений во всесторонней диалектической связи.
Холизм утверждает идею о необходимости целостного
изучения любого объекта как системы, каждый элемент
которой находится во взаимосвязи и взаимозависимости друг
с другом.
Холистический подход (holism) от др.греч. ὅλος - «целый,
цельный», целостный (holistic).
Виды статистических данных
Статистические данные
Виды статистических данных
Статистические данные
Многомерные
Одномерные
i
i
….
1
1
….
.
.
.
.
….
.
.
.
.
….
.
.
.
.
….
.
.
.
.
….
N
N
….
Формы представления исходных данных
Статистические данные
Пространственные
Временные
i
1
.
.
.
.
.
.
.
.
N
t
1
…
…
T
Пространственновременные
Формы представления исходных данных
Матрица наблюдений «объект – свойство»
a) Пространственная выборка (статистическая таблица)
(cross-section data) - является наиболее общим типом
представления исходных данных. Соответствует ситуации, когда
исходные данные регистрируются только «в пространстве», но
не во времени (n-число объектов (i=1,2,…,n) ,
р
р - число переменных (j=1,2,…,р).
x1(1) x1( 2 ) x1( к )
Допустимо предположение о
взаимной независимости
(1) ( 2 )
( кр)
X xi xi xi
наблюдений.
матрица типа «объект – свойство»
(1) ( 2 )
р)
(
к
x x x
n
n n
Анализ финансовой деятельности предприятий
р=5, n=120
Число статей,
подготовленных
Число
статей, подготовленных
совместно
с зарубежными
совместно
с
организациями
зарубежными
организациями
Общее
количество
научных
Общее
количество
научных
публикацийвв
публикаций
изданиях,
изданиях, в
индексируемых
реферативной базе
индексируемых
данных РИНЦ
в реферативной
базе данных
РИНЦ
00
26
26
00
36
36
00
00
11
00
20
20
384
384
153
153
290
290
506
506
87
87
88
60
60
населения на 1 км2
Финансовая
результативность
Финансовая результативность
Среднесписочная Численность
Численность
научной
организации
научной организации
(средства,
Среднесписочная
аспирантов
и
численность
полученные из всех источников),
численность
работников аспирантов и
(средства,тыс.
полученные
докторантов
руб.
работников
докторантов
из всех источников),
тыс. руб.
99104,4
99104,4
214118,4
214118,4
37102
37102
193252,12
193252,12
245620,9
245620,9
27678,5
27678,5
29692,35
29692,35
30472,3
30472,3
60
60
326
326
40
40
145
145
353
353
54
54
38
38
58
58
11
31
31
00
15
15
40
40
22
22
44
77
Пример 2
В работе [Айвазян С.А.] приведены значения восьми показателей
для 266 крупных американских компаний (n = 266).
Матрица X, представляющая эти данные, имеет размерность 266x8.
В качестве анализируемых показателей рассмотрены:
• x(1) – капитальные вложения за год (млн. долл.);
•
•
•
•
•
•
•
x(2) – годовой фонд оплаты труда (млн. долл.);
x(3) – расходы на нематериальные активы за год (млн. долл.);
x(4) – годовые расходы на рекламу и маркетинг (млн. долл.);
x(5) – годовые расходы на исследования и развитие (млн. долл.);
x(6)– численность работников ( тыс. чел.);
y(1) – объем продаж за год ( млн. долл.);
y(2) – себестоимость проданного товара ( млн. долл.).
Анализ инновационного развития регионов России
р=17, n=85
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Число организаций, выполнявших научные исследования и разработки (X1);
Численность персонала, занятого научными исследованиями и разработками (человек) (X2);
Внутренние затраты на научные исследования и разработки (миллионов рублей) (X3);
Используемые передовые производственные технологии (X4);
Инновационная активность организаций (удельный вес организаций, осуществлявших технологические,
организационные, маркетинговые инновации, в общем числе обследованных организаций, в процентах) (X5);
Экспорт, в процентах от РФ (X6);
Импорт, в процентах от РФ (X7);
Число соглашений по экспорту технологий (X8);
Число соглашений по импорту технологий (X9);
Удельный вес организаций, участвовавших в совместных проектах по выполнению исследований и разработок,
проценты (X10);
ВРП на душу населения, рубли (X11);
Вклад региона в ВВП России, ВРП/ВВП РФ (Х12);
Коэффициент изобретательской активности (число отечественных патентных заявок на изобретения, поданных в
России в расчете на 10 тыс. человек населения) (Х13);
Доля внутренних затрат на исследования и разработки, в процентах к валовому региональному продукту (ВРП) (Х14);
Дамми-переменная, отвечающая за наличие границы с иностранным государством (d);
Объем инновационных товаров, работ, услуг, млн рублей (х15);
Объем инновационных товаров, работ, услуг (в процентах от общего объема отгруженных товаров, выполненных
работ, услуг) (х16).
б) временная выборка
Если зафиксировать
• номер переменной j и
• номер статистически обследуемого объекта i,
то расположенную в хронологическом порядке
последовательность значений называют одномерным
временным рядом.
( j)
x
В этом случае t - значение
j -го показателя в
t - момент времени.
Пример Индексы цен на
первичном рынке жилья
(на конец года, в процентах
к концу предыдущего года)
в) панельные данные (пространственно-временная выборка
или динамическая таблица «объект-свойство)
x1(1) (t )...x1( j ) (t ) x1( kр ) (t )
.....................................
(1)
( j)
( kр )
X t xi (t )...xi (t ) xi (t )
.....................................
(1)
р
x (t )...x ( j ) (t ) x ( k ) (t )
n
n
n
xi( j ) (t )- значение j–го показателя у i–го объекта в t –ый момент
времени (t=1,2,…,N); i=1,2,…,n; j=1,2,…,к
Имеем последовательность из N – матриц типа
«объект-свойство».
Статистика
Статистика
Дискретные и непрерывные
(Discrete or continuous)
Дискретные (категориальные) переменные – состоят из
различных, хорошо различимых категорий.
Например, пол (1- мужской; 2- женский).
Вопрос: Ваш пол?
Ответ - четкий
Дискретные и непрерывные
(Discrete or continuous)
Непрерывные (количественные)
Пример: возраст респондента
Вопрос: Сколько Вам лет?
Ответ четкий?
Классификация данных
1. Дискретные и непрерывные (Discrete or continuous)
2. Количественные и качественные
3. По измерительным свойствам (level of measurement)
Порядок (важность) измерения (magnitude)
Равный интервал (equal interval)
Истинный ноль (True absolute zero)
4. Роль в исследовании
- Зависимые (эндогенные)
- Независимые (экзогенные)
Тип данных в свою очередь определяет выбор метода анализа.
Рассмотрим типы данных и шкалы, в которых они измеряются
Статистика
Категориальные
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
в соответствии с одобренными статистической комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
Система органов государственной статистики выстроена в
соответствии с административно-территориальным
делением страны.
ЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬ
ЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬ
ЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬЬ
БББББББББББББББББББББББББ
Шкалы измерений
Номинальные
Представляет собой простое перечисление различающихся
между собой явлений или объектов.
Объекты могут быть пронумерованы, причем цифры,
присваиваемые различным градациям, служат лишь для
отличий их друг от друга.
(градации не имеют смысла)
Номинальные
Пример
Семейное положение:
• состоит в зарегистрированном браке,
• состоит в гражданском браке,
• никогда не состоял в браке,
• разведен,
• вдовец и т.д.
Примеры
Источники финансирования внутренних затрат на ИиР:
Собственные средства предприятий
Средства бюджетов всех уровней
Бюджетные ассигнования на содержание ВУЗА
Средства внебюджетных фондов
Средства организаций государственного сектора
Средства организаций предпринимательского сектора
Средства организаций сектора высшего образования
Средства частных некоммерческих организаций
Средства иностранных источников
Шкалы измерений
- Порядковые
Если категории признака можно упорядочить друг
относительно друга, то в этом случае используется
порядковая шкала.
Места, занимаемые величинами в шкале порядка, называются
рангами,
а сама шкала – ранговой (неметрической).
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
в соответствии с одобренными статистической комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
Система органов государственной статистики выстроена в
соответствии с административно-территориальным
делением страны.
https://zoom.us/j/99169310908
Идентификатор
991 6931 09
08
Шкалы измерений
Шкалы количественных признаков
(метрическая шкала).
Количественным является признак, значение которого
имеют числовое выражение и отражают размеры,
масштабы некоторого объекта или явления (градации
отсутствуют).
Количество предприятий, прибыль предприятия,
доход, численность работников, вес предмета….
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
в соответствии с одобренными статистической комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
Начало отсчета – договорное,
нет единиц
измерения
Система органов государственной
статистики
выстроена
в
Рсоответствии с административно-территориальным
делением страны.
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
в соответствии с одобренными статистической комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
Начало отсчета – договорное,
нет единиц
измерения
Система органов государственной
статистики
выстроена
в
соответствии с административно-территориальным
делением страны.
Шкала Цельсия
В быту используется шкала Цельсия, в которой за
0° принимают точку замерзания воды, а за 100° точку кипения
воды при атмосферном давлении.
Шкала Фаренгейта
В Англии и, в США используется шкала
Фаренгейта. В этой шкале на 100 градусов разделён интервал от
температуры самой холодной зимы в городе, где жил Фаренгейт,
до температуры человеческого тела.
Ноль градусов Цельсия - это 32 градуса Фаренгейта, а градус
Фаренгейта равен 5/9 градуса Цельсия.
Шкала Цельсия
В быту используется шкала Цельсия, в которой за 0
принимают точку замерзания воды, а за 100° точку кипения воды при
атмосферном давлении.
Шкала Фаренгейта
В Англии и, в США используется шкала Фаренгейта. В
этой шкале на 100 градусов разделен интервал от температуры самой
холодной зимы в городе, где жил Фаренгейт, до температуры
человеческого тела. Ноль градусов Цельсия - это 32 градуса Фаренгейта,
а градус Фаренгейта равен 5/9 градуса Цельсия.
Шкала Кельвина
В термодинамике используется шкала Кельвина, в
которой температура отсчитывается от абсолютного нуля (состояние,
соответствующее минимальной теоретически возможной внутренней
энергии тела), а один кельвин равен 1/273,16 расстояния от абсолютного
нуля до тройной точки воды (состояния, при котором лёд, вода и водяной
пар находятся в равновесии).
Шкала Реомюра
Предложена в 1730 году Р. А. Реомюром, который описал
изобретённый им спиртовой термометр.
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
отсчета – договорное,
единица измерения
естественная
в соответствииНачало
с одобренными
статистической
комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
ЮЮЮЮЮЮЮЮЮЮЮЮюююююююююююююююююююююююююю
юююююююююююююююююююююююююююююююююююююююююю
юююююююююююююююююююююююююююююююююююююююююю
юююююююююююююююююююююююююююююююююююююююююю
Система органов государственной статистики выстроена
юююююююююююююююююююююююююююююююююююююююююю
соответствии с административно-территориальным
юююююююююююююююююююююююююююююююююююююююююю
делением страны.
в
По григорианскому/юлианскому календарю
сегодня 2022год,
7529— по Византийскому (Православной
церкви) календарю;
До марта 2021 года по славянскому календарю — год
Прядущего Мизгиря (7528 г)
с 20-го марта 2021 года стоит подготовиться к
Кричащему Петуху. Лето 7529-е может стать жарким…
Реформа календаря в России - Петр Первый для
удобства общения с зарубежными соседями.
Но григорианский календарь не совпал с юлианским,
поэтому возникла разница на 10 дней.
в итоге мы имеем не самый совершенный
календарь. В нынешнем календаре 365 дней (плюс
один високосный с 366-ю днями), 12 месяцев, 30/31
дней в месяце, 24 часа в сутках.
По григорианскому/юлианскому календарю, сегодня 2022год,
а вот что говорят о порядковом номере этого года другие
календари:
• 7528— по Византийскому (Православной
церкви) календарю;
• 4651 — по китайскому календарю;
• 1736 — по эре Диоклетиана;
• 2332 — по эллинской эре Селевкидов;
• 1941 — по индийскому календарю Сака;
• 2679 — по японскому календарю;
• 2769 — по эре Набунасара;
• 2773 — от основания Рима;
• 1440-1441 — по исламскому.
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
в соответствии с одобренными статистической комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
Система органов государственной статистики выстроена в
соответствии с административно-территориальным
делением страны.
Универсальная мера длины
• Не было общепризнанного критерия измерения длины (как
измерить участок? Как отпилить бревно для строительства дома?...)
• После Великой французской революции ученые решили
упорядочить систему мер и весов.
Ввели десятичную систему исчисления. Основная единица
измерения – метр (от греч. «метрон» – мера)
- метр – одна десятимиллионная расстояния от экватора до
северного полюса (предпосылка: Земля – абсолютно правильный
шар)
- метр – расстояние между двумя штрихами, нанесенными на
бруске платиново-иридиевого сплава (брусок со временем
уменьшается в размерах)
- метр – расстояние, которое преодолевает фотон света в
вакууме за одну трехсоттысячную долю секунды.
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
в соответствии с одобренными статистической комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
Показывает во сколько раз свойства одного объекта превосходит свойства другого объекта.
Система органов государственной статистики выстроена в
соответствии с административно-территориальным
делением страны.
Шкалы измерений
• в номинальную возможен.
• Обратный переход без привлечения доп. информации
невозможен
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
в соответствии с одобренными статистической комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
Система органов государственной статистики выстроена в
соответствии с административно-территориальным
делением страны.
Сущность статистики и ее математические основы
Современная статистика России базируется и формируется
в соответствии с одобренными статистической комиссией
ООН «Основными принципами официальной статистики».
Главным учетно-статистическим центром в стране
является Федеральная служба государственной статистики
(Росстат).
Система органов государственной статистики выстроена в
соответствии с административно-территориальным
делением страны.
Шкалы измерений
• Переход из количественной шкалы в порядковую, а из нее
в номинальную возможен.
• Обратный переход без привлечения дополнительной
информации невозможен.
Уровень данных (level of measurement)
Измерительные свойства (Measurement properties)
Упорядоченность наблюдений по степени проявления
изучаемого свойства (magnitude)
Равный интервал (equal interval)
Истинный ноль (True absolute zero)
Уровень данных (level of measurement)
Magnitude
Объекты, упорядоченные по степени проявления изучаемого свойства
Вопрос: Сколько Вам лет?
Градация
Расшифровка
1
До 25 лет
2
от 25 до 40
3
от 40 и выше
Те, люди, которые попали в градацию 1 моложе тех, кто попал в 2;
люди, которые попали в градацию 2 моложе тех, кто попал в 3.
Уровень данных (level of measurement)
equal interval
Равные интервалы измерения между наблюдениями
Означает, что разность между наблюдениями одинакова
независимо от того, где эта разность рассчитывается.
Уровень данных (level of measurement)
True absolute zero
Означает, что существует точка (абсолютный ноль), у
которой отсутствует изучаемое свойство объекта.
Пример:
- Отсутствие наличных денег
- Вес: ноль килограмм,
- ….
Виды статистических данных
Рассмотренные три измерительных свойства
позволяют классифицировать данные на четыре
типа
Номинальные
Порядковые
Количественные (шкала интервалов, разностей)
Количественные (шкала отношений, абсолютная)
Уровень данных (level of measurement)
Номинальные
Какие измерительные свойства?
Порядок (важность) измерения (magnitude)
Равный интервал (equal interval)
True absolute zero (истинный ноль)
Уровень данных (level of measurement)
Номинальные
Какие измерительные свойства?
Порядок (важность) измерения (magnitude)
Равный интервал (equal interval)
True absolute zero (истинный ноль)
Отсутствуют!
Уровень данных (level of measurement)
порядковые
Какие измерительные свойства?
Порядок (важность) измерения (magnitude)
Равный интервал (equal interval)
True absolute zero (истинный ноль)
Уровень данных (level of measurement)
порядковые
Какие измерительные свойства?
Порядок (важность) измерения (magnitude)
Равный интервал (equal interval)
True absolute zero (истинный ноль)
Уровень данных
(level of measurement)
Количественные (шкала интервалов, разностей)
Какие измерительные свойства?
Порядок (важность) измерения (magnitude)
Равный интервал (equal interval)
True absolute zero (истинный ноль)
Уровень данных
(level of measurement)
Интервальные количественные
Какие измерительные свойства?
Порядок (важность) измерения (magnitude)
Равный интервал (equal interval)
True absolute zero (истинный ноль)
Уровень данных (level of measurement)
Количественные (шкала отношений, абсолютная)
Какие измерительные свойства?
Порядок (важность) измерения (magnitude)
Равный интервал (equal interval)
True absolute zero (истинный ноль)
Количественные (шкала отношений, абсолютная)
обладают всеми тремя свойствами:
magnitude
equal interval
True absolute zero
Резюме:
Номинальные данные
Не обладают тремя перечисленными свойствами
Порядковые данные
Magnitude
Количественные (шкала интервалов, шкала разностей)
magnitude
equal interval
Количественные (шкала отношений, абсолютная)
magnitude
equal interval
True absolute zero
В зависимости от типа данных используют следующие
группы методов:
• параметрические
• непараметрические.
Чтобы использовать параметрические методы, должны
одновременно выполняться три условия:
1) распределение данных близко к нормальному;
2) выборка – достаточно большая (обычно не менее 50
наблюдений);
3) данные - количественные.
Если хотя бы одно из этих условий не выполняется,
данные считаются непараметрическими и
обрабатываются непараметрическими методами.
Основные этапы прикладного анализа.
План итоговой работы
1. Постановка задачи исследования (что хотим узнать?)
Определение цели
задач исследования
Формулировка рабочих гипотез исследования.
- можно придумать самим,
- можно найти в литературе.
Социальное неравенство влияет на уровень экономического развития страны;
«Доллар - это товар, поэтому должен действовать закон спроса. Чем выше цена,
тем меньше спрос»;
Мужчины и женщины одинаково восприимчивы к инновационным практикам
2. Обзор литературы по тематике исследования
-
Необходимо рассмотреть 3-5 источника.
что уже сделано по данной тематике,
насколько далеко продвинулась теория в России, странах мира,
какие методы используются при исследованиях,
какие показатели и т.д.
Англоязычные статьи можно брать, например,
http://library.hse.ru/info/JSTORinfo.htm
Рекомендуемые журналы
Журнал «Вопросы статистики» научно-информационное издание (ФСГС)
http://www.infostat.ru/ru/catalog.html?page=i
nfo&id=113
Журнал «Вопросы экономики»
-теоретический и научно-практический
журнал
общеэкономического содержания
Главный редактор: Л. И. АБАЛКИН
http://www.vopreco.ru/
Рекомендуемая литература:
• Журнал «Прикладная эконометрика»
http://www.marketds.ru/?sect=journal&id=econometrics&item=board
Рекомендуемая литература:
Журнал «Форсайт»
https://www.hse.ru/mag/foresight/subscribe.html
Форсайт» – научный журнал, выпускаемый Институтом статистических исследований
и экономики знаний Национального исследовательского университета «Высшая
школа экономики.
Основные темы:
• Результаты Форсайт-исследований, выполненных в России и за
рубежом;
• Долгосрочные приоритеты социального, экономического и
научно-технологического развития;
• Тенденции и индикаторы развития науки, технологий и инноваций;
• Научно-техническая и инновационная политика;
• Стратегические программы инновационного развития на
национальном, региональном, отраслевом и корпоративном уровнях;
……….
«Форсайт» (Scopus и Web of Science Core Collection)
Рекомендуемая литература:
Журнал «Экономика региона»
Главный редактор - д.э.н., проф. А. А. Куклин
Заместитель главного редактора: - д.э.н.,
проф. Е.Л. Андреева
Учредители: Федеральное государственное
бюджетное учреждение науки Институт
экономики Уральского отделения Российской
академии наук Федеральное государственное
автономное образовательное учреждение
высшего образования «Уральский федеральный
университет имени первого Президента России
Б.Н.Ельцина»
Рекомендуемая литература:
• «Квантиль» - международный электронный научный
http://quantile.ru/
эконометрический журнал, распространяемый бесплатно в сети. Гл.
редактор: профессор РЭШ С.А. Анатольев.
• Журнал «Экономика и математические методы»
научный журнал ЦЭМИ РАН,
с 1965, гл. редактор Макаров Валерий Леонидович
http://www.cemi.rssi.ru/emm/home.htm
Рекомендуемые журналы
An International Journal for all Quantitative Aspects of the
Science of Science, Communication in Science and Science
Policy
ISSN: 0138-9130 (Print) 1588-2861 (Online)
Description
Scientometrics is concerned with the quantitative features and
characteristics of science and scientific research. Emphasis is
placed on investigations in which the development and mechanism
of science are studied by statistical mathematical methods.
The journal publishes original studies, short communications,
preliminary reports, review papers, letters to the editor and book
reviews on scientometrics.
http://link.springer.com/journal
Рекомендуемые журналы
Research Evaluation is an interdisciplinary peer-reviewed,
international journal. Its subject matter is the evaluation of
activities concerned with scientific research, technological
development and innovation. This covers a very broad range
of potential topics. The evaluation subjects can range from
individuals, through research funding or performing
organisations, up to inter-country comparisons of research
and innovation performance, from single research projects to
complex policy interventions.
Research Evaluation has readers in universities,
governments, research councils, funding agencies,
consultancies, etc., around the world. It is indexed in the
Social Science Citation Index (Web of Science), SCOPUS
and many other databases.
https://academic.oup.com
Рекомендуемые журналы
• Вопросы экономики» (Scopus и Web of Science Core
Collection)
• «Журнал новой экономической ассоциации» (Scopus и Web
of Science Core Collection)
• «Проблемы прогнозирования» (Scopus)
• «Управленец» (Web of Science Core Collection)
• «Экономика региона» (Scopus и Web of Science Core
Collection)
• «Экономическая политика» (Scopus и Web of Science Core
Collection)
• «Экономические и социальные перемены» (Web of Science
Core Collection)
• Education and Information Technologies (Scopus, Q 1)
• The Social Sciences (Scopus, Q 2)
Рекомендуемые журналы
• Социологические исследования / «Социс» (Scopus, Q 2)
• Australian Journal of Telecommunications and the Digital
Economy (Scopus, Q 2)
• Проблемы прогнозирования (Scopus, Q 3)
• Journal of Public Budgeting, Accounting and Financial
Management (Scopus, Q 3)
• Humanities and Social Sciences Reviews (Scopus)
• International Journal of Supply Chain Management (Scopus)
• The European Proceedings of Social and Behavioural
Sciences (WoS)
Издания, индексируемые в базах РИНЦ, из списка ВАК:
Экономические науки (ВАК, IF-0,697, статья)
Журнал экономической теории (ВАК, IF-0,456, статья)
Финансовая экономика (ВАК, IF-0,459, статья)
Основные этапы прикладного анализа
3. Выбор показателей, с помощью которых характеризуется
объект исследования.
Примеры
Система показателей. Примеры
Система показателей
• Привести описание важности каждого
показателя для исследования
Система показателей
Основные этапы прикладного статистического анализа
3. Выбор показателей
В зависимости от цели исследования выбирают
р-показателей (р >8).
Например, возраст респондента, затраты на проведение ИиР,
число предприятий, объем отгруженной продукции и т.д.
N - число объектов в генеральной совокупности;
n - число объектов в выборке.
Основные этапы прикладного статистического анализа
4. Сбор и подготовка исходной информации
Основные этапы прикладного статистического анализа
4. Подготовка данных
Первичная статистическая обработка данных.
• Шкала измерения
Отображение признаков в номинальной,
порядковой или количественной шкале;
• Проверка однородности выборки;
• Анализ выбросов,
• Экспериментальный анализ
закона распределения исследуемой
совокупности
! принцип GIGO (мусор на входе, мусор на выходе).
На мусорных данных будут сделаны неадекватные выводы
One-Variable Data Analysis
(exploratory data analysis)
Одномерная случайная величина Х
X : x1 , x2 ,..., xn
Направления изучения?
Какой тип переменной?
One-Variable Data Analysis
(exploratory data analysis)
Одномерная случайная величина Х
X : x1 , x2 ,..., xn
Направления изучения?
One-Variable Data Analysis
Основные идеи при исследовании формы распределения
(Share of distribution)
1. Графическое представление исходных данных:
o точечное распределение (Dotplot);
o листовая диаграмма (Stemplot);
o гистограмма (Histogram).
One-Variable Data Analysis
Основные идеи при исследовании формы распределения (Share
of distribution)
1. Графическое представление исходных данных:
o точечное распределение (Dotplot);
o листовая диаграмма (Stemplot);
o гистограмма (Histogram).
2. Характеристики случайной величины
Характеристики положения СВ (mean, median, mode);
Характеристики разброса СВ (размах вариации и коэффициент вариации;
дисперсия, стандартное отклонение) ;
Ранговые характеристики СВ (квартили, квинтили, децили,
перцентили).
One-Variable Data Analysis
Основные идеи при исследовании формы распределения (Share
of distribution)
3. Проверка гипотез о нормальности распределения
(Normal Distribution);
One-Variable Data Analysis
Основные идеи при исследовании формы распределения (Share
of distribution)
Подчиняются ли анализируемые количественные переменные
нормальному закону распределения вероятностей?
Многие статистические методы и модели предполагают
положительный ответ на этот вопрос (Zuur et al., 2010, 2018)
проверка исследуемых переменных на нормальность распределения
является важной составной частью разведочного анализа данных.
One-Variable Data Analysis
В каких случаях выполнение условия о НЗР является критическим для
применения конкретного статистического метода.
Линейный корреляционный анализ
Линейная регрессия (Linear Regression) – требуется близость к НЗР
зависимой переменной у.
Линейная регрессия «хотя и предполагает нормальность распределения зависимой
переменной, является достаточно робастным методом при незначительных
отклонениях от этого условия» (Fitzmaurice et al., 2004).
Кластерный анализ (иерархические методы классификации и
метод к-средних) требует чтобы данные были распределены
нормально
One-Variable Data Analysis
Дискриминантный анализ (Discriminant Analysis)
«Для успешного применения дискриминантного анализа
нормальность распределения признаков в каждой группе
классифицируемых объектов - условие обязательное» (Huberty,
1994).
One-Variable Data Analysis
Основные идеи при исследовании формы распределения (Share
of distribution)
4. Диагностика выбросов
o Ящичковая диаграмма Boxplot;
o Правило 3σ
o Правило 68-95-99,7 (The 68-95-99,7 Rule)
o Правило Чебышёва (The 75-89-94 Rule)
o …….
5. Восстановление пропусков
Основные этапы многомерного статистического анализа
5. Выбор модели (метода) для анализа
Существует большой набор статистических, эвристических, нейросетевых
моделей и других моделей МСА и ИАД.
Во всем этом необходимо ориентироваться.
data scientist действует на
основе своего опыта и
интуиции
5.1. Обоснование выбора метода модели
Основные этапы многомерного статистического анализа
5.2. Диагностика модели
Полученные количественные оценки удовлетворяют разумным
требованиям?
Если качество модели устраивает, то
ее можно использовать.
Результат - набор выявленных знаний,
скрытых закономерностей.
Data scientist оценивает адекватность
этих знаний.
Если не устраивает, то необходимо
вернуться к выбору модели, подбору
ее параметров и обучению.
Основные этапы многомерного статистического анализа
Если выводы не соответствуют здравому смыслу или
построенная модель не проходит диагностику
что-то не учли.
Что делать дальше?
Можно
• учесть новые переменные, получить дополнительные
данные;
• сменить используемый метод;
• проверить правильность выдвинутой гипотезы;
• ……
Основные этапы многомерного
статистического анализа
5.3. Проинтерпретировать
модель
- выявить закономерности и их
объяснить
- быть уверенным, что модель
решает поставленные задачи;
- Что все нюансы (проблемы)
решены и рассмотрены
6. Итоговые выводы по работе
7. Список литературы