Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Раздел 1. Введение в науку о данных
Лекция 1. Числовые и нечисловые данные,
типы измерительных шкал, допустимые операции
с данными в номинальной шкале
ПРЕДИСЛОВИЕ
1. Господство данных
Мы живем в мире, страдающем от переизбытка данных. Веб-сайты
отслеживают любое нажатие любого пользователя. Смартфоны накапливают
сведения о вашем местоположении и скорости в ежедневном
и ежесекундном режиме. «Оцифрованные» селферы носят шагомеры на
стероидах, которые не переставая записывают их сердечные ритмы,
особенности движения, схемы питания и сна. Умные авто собирают
сведения о манерах вождения своих владельцев, умные дома — об образе
жизни своих обитателей, а умные маркетологи — о наших покупательских
привычках.
Сам Интернет представляет собой огромный граф знаний, который,
среди всего прочего, содержит обширную гипертекстовую энциклопедию,
специализированные базы данных о фильмах, музыке, спортивных
результатах, игровых автоматах, мемах и коктейлях… и слишком много
статистических отчетов (причем некоторые почти соответствуют
действительности!) от слишком большого числа государственных
исполнительных органов, и все это для того, чтобы вы объяли необъятное.
В этих данных кроятся ответы на бесчисленные вопросы, задавать которые
тоже целое искусство.
2. Что такое наука о данных?
Наука о данных (data science) — это действительно передовая
и быстроразвивающаяся отрасль знаний. Сегодня обозреватели рыночных
тенденций предвещают, что через 10 лет нам потребуются на миллиарды
и миллиарды больше аналитиков данных, чем мы имеем на текущий
момент.
Наука о данных (Data Science) связана с эффективным и
максимально достоверным поиском закономерностей в данных,
извлечением знаний из данных в обобщённой форме, а также их
оформление в виде, пригодном для обработки заинтересованными
сторонами
(людьми,
программными
системами,
управляющими
устройствами) в целях принятия обоснованных решений.
В самом широком смысле слова наука о данных — это практическая
дисциплина, которая занимается изучением методов обобщаемого
извлечения знаний из данных. Она состоит из различных составляющих
и основывается на методах и теориях из многих областей знаний, включая
обработку сигналов, математику, вероятностные модели, машинное
1
Раздел 1. Введение в науку о данных
и статистическое обучение, программирование, технологии
данных,
распознавание образов, теорию обучения, визуальный анализ,
моделирование неопределенности, организацию хранилищ данных, а также
высокоэффективные вычисления с целью извлечения смысла из данных и
создания продуктов обработки данных.
Таким образом, наука о данных находится на пересечении:
▪
знаний математики и статистики;
▪
навыков алгоритмизации и программирования;
▪
профессионального опыта в предметной области.
По поводу того, какой язык программирования лучше всего подходит
для обучения науке о данных, развернулась здоровая полемика. Многие
настаивают на языке статистического программирования R. Некоторые
предлагают Java или Scala. Кто-то считает, что Python — идеальный вариант.
Наш небольшой курс «Введение в данные» не ставит перед собой
задачи обучению языкам программирования. Обработку данных для
анализа мы будем производить с помощью программы Excel, которая на
сегодня тоже очень хорошо помогает решать задачи, связанные с анализом
данных, но без разработки собственных программ, а используя встроенные
программы.
Основной задачей нашего курса будет знакомство с методами
анализа данных, а также приобретение практических навыков
исследователя/аналитика данных.
Аналитик данных — это тот, кто извлекает ценные наблюдения из
запутанных данных. Конкуренция аналитиков данных – это соревнование их
гипотез. Побеждает тот, у кого хватает воображения и кругозора, чтобы
построить одновременно правдоподобную и оригинальную гипотезу.
Поэтому многие задания в нашем курсе будут носить творческий характер,
где вы сможете проявить себя как начинающий аналитик данных.
ВОПРОСЫ ЛЕКЦИИ
1.
Числовые и нечисловые данные, типы измерительных
шкал
2. Допустимые
операции
с
данными
в
шкале
наименований
1.
Числовые и нечисловые данные, Типы измерительных шкал
Нечисловые данные – это исходные статистические данные
(результаты наблюдений) в виде объектов нечисловой природы.
Например, при изучении вопроса, кто чаще берет кредит: мужчины
или женщины, изучаемым свойством в процессе проведения эксперимента
или сбора данных будет «пол». Тогда при регистрации пола у взявших кредит
мы будем писать «мужской» или «женский», т.е относить взявших кредит к
одному их указанных классов. И эти классы для изучаемого свойства «пол»
нецелесообразно описывать числами.
2
Раздел 1. Введение в науку о данных
Числа, например, 1 - мужской пол, а 2 - женский, целесообразно
приписывать только в случае обработки данных этого эксперимента в
некоторых пакетах программ.
Процесс приписывания объектам исследования (в нашем примере
лицам, взявшим кредит) чисел в соответствии с выбранной шкалой
измерения, называется измерением.
К объектам нечисловой природы относятся также и данные,
полученные в результате приписывания классам (градациям) изучаемого
свойства чисел в процессе ранжировки.
Например, проводится анкетирование с целью изучения отношения к
курению молодежи в возрасте от 18 до 25 лет. В анкете представлены
ответы: «отрицательно», «скорее отрицательно, чем положительно», «скорее
положительно, чем отрицательно», «положительно».
Если в результате обработки данных мы припишем этим
характеристикам (классам) числа, то целесообразно их приписывать в
порядке ранжирования: 1, 2, 3, 4, т.е. классу «отрицательно» – 1, классу
«скорее отрицательно» – 2 и т.д.
Таким образом, в том и другом примере мы получили свою шкалу
измерения. В случае с полом шкала 1 и 2, в случае с отношением к
курению – шкала 1,2,3,4.
В зависимости от того, какими свойствами обладают числа шкалы
измерения, выделяют разные типы измерительных шкал:
Типы шкал
Неметрические
Наименований
Метрические
Интервальные
Порядковые
(ранговые)
Шкалы отношений
Современная классификация шкал была предложена в 1946
году Стэнли Смитом Стивенсом. В ее основу положен признак метрической
детерминированности, согласно которому шкалы делятся на метрические
(интервальные и шкалы отношений) и неметрические (номинативные,
шкалы порядка).
Дадим определения различным измерительным шкалам.
Определение. Если процесс приписывания чисел осуществляется с
соблюдением лишь одного правила: разные классы изучаемого свойства
3
Раздел 1. Введение в науку о данных
должны быть обозначены разными числами, то говорят, что получена
номинальная шкала (шкала наименований).
В этом случае числа играют роль лишь особых имен - названий
классов.
Примером с изучаемым свойством «пол» как раз относится к этой
шкале. Числа 1 и 2 здесь играют просто роль имен, или, другими словами,
служат в роли кода для вариантов «мужской» или «женский». Но они не
являются теми числами, с которыми мы привыкли иметь место. Мы здесь
даже не можем сказать, что 1 < 2.
Пример. Статистические данные при изучении распределения типа
темперамента, представленные в номинальной шкале:
Названия типа
темперамента
Значение шкалы
Количество испытуемых, обладающих
данным типом темперамента
Холерик
1
5
Сангвиник
2
6
Флегматик
3
4
Меланхолик
4
5
Можно ли приписать другие числовые значения степеням
выраженности изучаемого свойства (типам темперамента)?
Определение. Если процесс приписывания осуществлялся путем
ранжирования классов и приписывания им последовательно чисел так,
чтобы сохранялось отношение «больше-меньше» между степенями
выраженности свойства у объектов, попадающих в разные классы, то
говорят, что получена порядковая (ранговая) шкала.
Пример. Статистические данные, полученные при изучении уровня
развития мотивов учения, представленные в порядковой шкале:
Уровень развития
мотивов учения
Характеристика уровня
Значения
шкалы
Количество
подростков
Низкий уровень
Доминирование внешних
мотивов учения у подростков
1
10
Норма
Согласованность внешних и
внутренних мотивов учения у
подростков
2
20
Высокий уровень
Доминирование внутренних
мотивов учения у подростков
3
15
4
Раздел 1. Введение в науку о данных
Можно ли заменить числа, представленные в третьем столбце
таблицы, другими числами? В случае положительного ответа,
приведите свой пример числовых значений.
Определение. Если процесс приписывания чисел осуществлялся путем
задания единицы измерения (эталонного класса) и произвольного выбора
нулевого класса; ранжирования остальных классов по удаленности от
нулевого класса в выбранной единице измерения с последующим
приписыванием чисел классам так, чтобы сохранялось отношение «на ..
единиц больше – на … единиц меньше», то говорят, что построена
интервальная шкала.
Следует отметить, что нулевая точка интервальной шкалы
произвольная и не указывает на отсутствие изучаемого свойства. В
интервальной шкале равные разности чисел соответствуют равным
разностям значений измеряемого свойства объектов.
Задание 1. Из ниже представленной таблицы 1 можно сделать
вывод, что В в сравнении с А настолько же интеллектуальнее,
насколько С в сравнении с В (а именно, на 40 единиц IQ). Однако
основываясь только на том, что значение IQ у ученика А в два
раза меньше, чем у С, исходя из определения IQ, нельзя сделать
вывод, что С вдвое умнее А. Согласны ли вы с выводами,
сделанными в данном примере? Обоснуйте свою позицию.
Таблица 1
Учащийся
A
B
C
D
E
F
Уровень IQ
80
120
160
110
90
150
Примерами величин, которые по физической природе либо не имеют
абсолютного нуля, либо допускают свободу выбора в установлении начала
отсчета, и поэтому измеряются в интервальных шкалах, являются,
например: календарь, время суток, температурные шкалы Цельсия,
Фаренгейта.
Пример. Пусть изучают время прихода студента на первую пару.
Допустим, один студент пришел в 8.00, другой в 8.30. Здесь имеет
смысл говорить о том, что второй пришел на 30 минут позже первого (имеет
смысл говорить о разности этих чисел). Но не имеет никакого! смысла
говорить о частном этих чисел (во сколько раз один пришел позже другого).
Следовательно, здесь идет речь об интервальной шкале.
Определение. Если процесс приписывания чисел осуществлялся
путем задания единицы измерения (эталонного класса), выделения класса,
в котором полностью отсутствует изучаемое свойство (абсолютный нуль) и
5
Раздел 1. Введение в науку о данных
ранжирования остальных классов по удаленности от нулевого класса в
выбранной единице измерения так, чтобы сохранялись отношения «на ...
единиц больше – на … единиц меньше» и «в … раз больше - в … раз
меньше», то говорят, что построена шкала отношений.
Пример. Пусть изучают время (длительность в мин.) выполнения
некоторой операции у студентов 1-го курса, например, решения
головоломки.
Проверяем, к какой шкале относится данное свойство.
Если один студент решил головоломку за 2 минуты, а другой за 4
минуты, то здесь имеет смысл как утверждение «Первый решил на 2 минуты
быстрее», так и утверждение «Первый решил в два раза быстрее». Здесь
имеет смысл операция и «4 – 2» и операция «4/2». Следовательно речь идет
о шкале отношений.
Измерить по шкале отношений можно следующие изучаемые
свойства (величины):
▪ вес, длина, высота, площадь плотность, объем и т.п.;
▪ температурная шкала Кельвина;
▪ возраст респондентов, численность населения, количество
сотрудников, и т.п.
Задание 2. Определите, в какой шкале представлено каждое из
приведенных ниже измерений: номинативной, порядковой,
интервальной или отношений.
1.
Количество вопросов в анкете, как мера трудоемкости опроса.
2.
Время, потраченное на пробег 100-метровой дистанции.
3.
Академический статус (ассистент, старший преподаватель,
доцент, профессор) как мера продвижения по службе.
4.
Количество агрессивных реакций за рабочий день.
Свойства, сохраняемые числами разных типов шкал, представлены
в таблице 2.
Таблица 2
Отношение
«=» / «≠»
Отношение
«>» / «<»
Операции
«на сколько
больше» / «на
сколько
меньше»
Наименований
+
–
–
–
Порядковая
(ранговая)
+
+
–
–
Интервальная
+
+
+
–
Отношений
+
+
+
+
Тип шкалы
Операции
«во сколько раз
больше» / «во
сколько раз
меньше»
6
Раздел 1. Введение в науку о данных
Задание 3. Приведите и свои примеры для изученных шкал
измерений.
Примечание:
В литературе можно встретить и следующую классификацию этих
четырех шкал:
1)
качественная (шкала наименований), количественные (шкала
порядковая, интервальная шкала, шкала отношений);
2)
качественные (шкала наименований, порядковая шкала),
количественная (интервальная шкала, шкала отношений).
Мы в своем курсе будем придерживаться классификации первого типа, т.е. к
качественной шкале относить только шкалу наименований.
2.
Допустимые операции с данными в номинальной шкале
Данные требуют дальнейшего обобщения для их анализа и
интерпретации.
Поскольку в шкале наименований (номинальной шкале) значения
изучаемой величины имеют нечисловую природу, то с ними мы не можем
производить никаких арифметических действий.
Например, в примере с изучением вопроса, кто чаще берет кредит:
мужчины или женщины, даже если варианты пола и были пронумерованы
как 1 и 2, мы не можем сказать, что 1+1=2 или 2*1=2.
Следовательно, эти значения не могут участвовать в каких-либо
вычислениях.
А как же нам тогда анализировать данные?
В шкале наименований обобщение данных можно производить только
с оценки частоты встречаемости каждого значения шкалы среди
результатов измерения.
Напомним, что частота может быть представлена в двух видах:
абсолютной и/или относительной.
▪ Абсолютная частота – число, показывающее сколько раз
встречалось данное значение изучаемого свойства среди всех имеющихся
результатов измерения (регистрации).
▪ Относительная частота – число, показывающее, величину доли
появления данного значения изучаемого свойства среди всех результатов
измерения (регистрации).
Относительная частота νi появления i-ого значения шкалы
вычисляется по формуле: i =
ni
, где n – количество всех измерений, ni –
n
абсолютная частота i-го значения.
Относительная частота может быть представлена в виде процентного
отношения i =
ni
100% (т.е. в процентах).
n
По частоте определяется такая характеристика данных как Мода.
Мода – наиболее часто встречающееся «значение» изучаемой
величины.
7
Раздел 1. Введение в науку о данных
Слово «значение» здесь взято в кавычки, чтобы еще раз подчеркнуть,
что значения в номинальной шкале могут быть не обязательно числовой
природы.
Пример. В таблице приведены
▪ доли сайтов на некоторых языках из списка входящих в 10
миллионов самых популярных веб-ресурсов (языки упорядочены по
доле сайтов), а также
▪ количество владеющих этими языками и
▪ количество носителей языка.
Язык
Английский
Русский
Немецкий
Испанский
Французский
Японский
Португальский
Итальянский
Персидский
Польский
Китайский
Датский
Турецкий
Чешский
Доля сайтов
в топ-10
Носители языка,
млн
Все владеющие
языком, млн
0.539
0.061
0.06
0.049
0.04
0.034
0.029
0.024
0.02
0.018
0.017
0.012
0.012
0.01
378.2
153.9
76
442.3
76.7
128.2
222.7
64.8
60
39.6
908.7
22
78.5
10.4
1121
264.3
132
512.9
284.9
128.3
236.5
67.8
110
40.3
1107
28
78.9
10.6
Какие выводы мы можем получить на основе этих данных?
Рассмотрим китайский язык, носителей которого больше всего по
данным таблицы.
Китайский язык
Доля говорящих на языке: 14.7% (получено как процентное
отношение количества говорящих на языке к общему количеству людей,
населяющих планету (7539 млн. чел.).
Доля сайтов с языком: 1.7% (представленное значение доли
переведено в процентное отношение операцией умножения на 100%).
Индекс проникновения в интернет 0.15 вычислен по формуле:
index =
1000 ∙ кол-во веб-сайтов
кол-во говорящих на языке
, index кит.яз. =
1000 ∙ 0,017 ∙ 10 млн
1107 млн
= 0,15
Гораздо интереснее было бы сделать выводы, сравнивая несколько
языков между собой, поэтому продолжим изучение данных таблицы
на практическом занятии 1.
8