Предобработка данных.Элементарные понятия
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ПРЕДОБРАБОТКА ДАННЫХ.
ЭЛЕМЕНТАРНЫЕ ПОНЯТИЯ
НЕКОТОРЫЕ ПОНЯТИЯ ИЗ ТВ И МС
A ={событие как логическое высказывание};
A ={противоположное событие событию А}, «не A »;
Р(А), Р(А|В) – безусловная и условная вероятности, соответственно;
ЦПТ – центральная предельная теорема; ЗБЧ – закон больших чисел;
СВ, ДСВ, НСВ - случайная величина, дискретная и непрерывная СВ, соответственно;
f ξ ( x ) , f ( x ) - плотность распределения одномерной СВ ξ ;
f ξ ( x1 , x2 ) , f ( x1 , x2 ) - плотность распределения двумерной СВ ξ = ( ξ1 , ξ 2 ) ;
ξ N ( m, σ 2 ) СВ ξ имеет нормальное распределение с параметрами m, σ 2 ;
Φ ( x)
x
2
x
t
−
−
1
1
2
e
,
e
dt
x
=
Φ
(
)
∫
m ,σ2
2π ∫0
σ 2π −∞
( t − m )2
2 σ2
dt ,=
Φ 0,1 ( x )
x
2
t
−
1
e 2 dt - функции Лапласа, ФР
∫
2π −∞
нормальной СВ ξ N ( m, σ2 ) , ФР стандартной нормальной СВ ξ N ( 0,1) ;
M ξ = M ( ξ ) = mξ , Dξ = D ( ξ ) = σξ2 - математическое ожидание и дисперсия случСВ ξ ;
ФР – функция распределения F ( x=) P {ξ < x} произвольной случайной величины ξ ;
СКО - среднеквадратическое отклонение σξ =σ ( ξ ) = D ( ξ ) ;
θ̂ - статистическая оценка параметра θ ;
xB , d B , σ B = d B - статистические оценки математического ожидания, дисперсии и СКО
ρξη = ρ(ξ, η) - коэффициент корреляции случайных величин ξ, η ;
ММП
-
метод
наибольшего
(максимального)
правдоподобия.
2
ЛР. ОБСУЖДЕНИЕ
Лабораторная работа 1. Логические методы в системном анализе сложных объектов.
Коллектив алгоритмов.
Лабораторная работа 2. Модели анализа и прогнозирования нестационарных
стохастических временных рядов, порождаемых сложными динамическими
объектами. Метод модовой декомпозиции
Лабораторная работа 3. Нелинейная непараметрическая ядерная регрессия для
оценивания состояний динамического объекта
Лабораторная работа 4. Приложения методов МС в системном анализе сложных
объектов
ЛР-1. ОБСУЖДЕНИЕ
ПРЕДОБРАБОТКА СТАТИСТИЧЕСКИХ ДАННЫХ. Самая простая задача.
1. Выполнить работы по описательному статистическому анализу. Для
выборочных данных (по вариантам в приложении 1) решить задачи:
а) найти выборочные значения среднего арифметического, моды, медианы;
б) найти размах выборки, выборочную дисперсию, выборочное среднее
квадратическое отклонение; проверить выполнение правила «3сигма»;
в) оценить симметричность распределения с помощью первого коэффициента
Пирсона;
г) найти верхнюю и нижнюю выборочные квартили, пояснить их смысл;
д) построить сгруппированный статистический ряд и гистограмму;
е) найти модальный и медианный интервалы, сравнить середины этих
интервалов со значениями моды и медианы, рассчитанными по выборке;
объяснить практический смысл моды и медианы.
2. Выдвинуть гипотезу о виде распределения наблюдаемой случайной
величины и ее проверки. Проверить выдвинутую гипотезу. Сделать выводы.
НАЧАЛЬНЫЕ И ЦЕНТРАЛЬНЫЕ МОМЕНТЫ РАСПРЕДЕЛЕНИЯ. ЗАЧЕМ?
Начальный момент k-го Центральный момент kЛегко проверяемые
порядка СВ X
го порядка СВ X
соотношения: связь моментов
Примеры:
.................................................................
СВОЙСТВА СИММЕТРИЧНЫХ РАСПРЕДЕЛЕНИЙ
Все центральные моменты
Распределение СВ симметрично относительно
нечетного порядка равны нулю
математического ожидания
(для каждого положительного значения
отклонения X–M[X] найдется (в силу
симметричности распределения) равное ему по
абсолютной величине отрицательное значение,
причем их вероятности будут одинаковыми)
Начальный момент 4-го порядка≠0
Характеристика степени «крутости» вершины
распределения в окрестности среднего
Пример 1. ДСВ X задана следующим законом распределения:
X
P
1
0,1
3
0,4
5
0,2
7
0,2
9
0,1
5
АСИММЕТРИЯ И ЭКСЦЕСС РАСПРЕДЕЛЕНИЯ
Если для изучаемого распределения асимметрия и эксцесс имеют небольшие
значения, то можно предположить близость этого распределения к
нормальному.
Асимметрия распределения = отношение центрального момента третьего
порядка к кубу СКО:
Коэффициент
асимметрии
характеризует
степень
несимметричности
распределения по отношению к математическому ожиданию.
Асимметрия положительна, если «длинная часть» кривой распределения
расположена справа от математического ожидания; асимметрия отрицательна,
если «длинная часть» кривой расположена слева от математического ожидания.
Коэффициент
асимметрии Пирсона
Коэффициент
асимметрии
6
МЕДИАНА. КВАНТИЛИ И КВАРТИЛИ СЛУЧАЙНОЙ ВЕЛИЧИНЫ.
ИНТЕРПРЕТАЦИЯ
Р(Х≤Ме)≥0,5 Р(Х≥Ме)≥0,5
Для дискретной СВ:
МЕДИАНА НСВ, имеющей строго монотонную функцию распределения
F(x) определяется как единственный корень уравнения F(x)=0,5 ⇒
Ме – это такое число, что х принимает с р=0,5 как значения больше Ме,
так и меньше Ме.
Геометрически х=Ме делит площадь под кривой плотности вероятностей
пополам. Если функция плотности вероятностей симметрична и
унимодальна, то Ме=Мо=М(х).
Квантиль уровня q (q-квантиль) – такое значение ДСВ, при которой её
функция распределения F(xq)≤q и выполняются следующие условия Р(Х≤
xq)≥q Р(Х≥ xq)≥1-q.
Квантиль 0,5 – медиана,
квантиль 0,25 – нижний квартиль,
квантиль 0,75 – верхний квартиль.
q-квантиль – такое значение непрерывной СВ, при которых F(x)=q.
Если вероятность задана в процентах, то квантиль называется
7
процентилем или перцентилем
МЕДИАНА. КВАНТИЛИ И КВАРТИЛИ СЛУЧАЙНОЙ ВЕЛИЧИНЫ.
ИНТЕРПРЕТАЦИЯ
«90-й процентиль здоровых семян имеет вес 3*10^(-3) гр.»∼
90 % здоровых семян имеют вес, меньший 3*10^(-3) гр; 10 % здоровых семян
имеют вес, больший меньший 3*10^(-3) гр..
Проценти́ль
Дециль
Квинтиль
Квартиль
Медиана
F(x)=α
8
ПРИМЕР. Excel <Сервис-Анализ данных-Ранг и персентиль>
Код студента Физика Математика Всего
172-24-4999
418
518
936
…………………………………………………….
<ПроцентРанг>
возвращает
процентный
ранг (процент входных
значений, которые меньше
указанного значения) для
заданного элемента из
множества данных
<Персентиль> используется для определения
элемента входного диапазона, процентный
ранг которого равен заданной персентили.
Персентиль задается числом 0 эквивалентна
<Персентиль>, но она может возвращать
только:
наименьшее значение
ЗАДАНИЕ
25-ю персентиль
1
1) Вычислить процентные ранги значений
медиану (50-ю персентиль) 2
из массива Всего баллов.
75-ю персентиль
3
2) Решить задачу быстрого поиска кода
наибольшее значение
4
студента, суммарный балл которого
является N-м элементом во входном
диапазоне (421-м, 600-м,…).
Функция ИНДЕКС для получения кодов из исходной
таблицы при решении задачи сопоставления кода
студента и его ранга
9
ПРИМЕРЫ-ЗАДАЧИ. ПОИСК КВАРТИЛЕЙ
Квартили — это числа, которые делят набор данных на четыре равные части
(четверти). Верхний (третий) квартиль включает 25% наибольших чисел в наборе
(75-й процентиль). Это медиана правой половины вариационного ряда (Вар.р.).
Шаг 1. Упорядочить числа в наборе данных по возрастанию (построить
Вар.р.). [3, 3, 4, 5, 7 , 8, 10, 11, 12, 21].
Шаг 2. Определить объем выборки. n=10
Шаг 3. Использовать формулу для номера позиции верхнего квартиля:
N(Q3)=(3\4)(n+1)= (3\4)(10+1)=8,25
Верхний квартиль определяется числом, которое расположено на
позиции 8,25 в наборе данных.
Шаг 4. Взять ср.арифметич. чисел, расположенных между числами на 8-й и
9-й позициях. Верхний (третий) квартиль равен X(Q3)=(11+12)/2=11,5.
КВАРТИЛЬ(AX:AY;Q)
ПРИМЕРЫ-ЗАДАЧИ. ПОИСК КВАНТИЛЕЙ-ДЕЦИЛЕЙ
Пусть имеется выборка дискретной случайной величины ξ:
3
0 1 5 1 2 4 5 3 4
2
4 2 0 2 3 1 3 2 1
4
3 0 2 1 0 4 2 3 2
Найти квантили уровня 0,2 и 0,3 ( x0,2 и x0,3 )
Решение.
Шаг 1. Находим функцию распределения ДСВ:
Относительная
частота
4
0,133333
5
0,166667
8
0,266667
6
0,2
5
0,166667
2
0,066667
Вариант Частота
1
2
3
4
5
F(x)
0,133333
0,3
0,566667
0,766667
0,933333
1
Шаг 2. Строим график функции распределения, проводим линии уровня p = 0,2 и p = 0,3,
Шаг 3. получаем квантили: x0,2 = 1, x0,3 = 1,5 или децили d2=1, d3=1,5.
ТЕМЫ ПРАКТИЧЕСКИХ РАБОТ-СООБЩЕНИЙ
1. Методы фильтрации для прогнозирования экономико-технических
показателей
2. Коллектив алгоритмов: как принимается итоговое решение.
3. Принцип полного скользящего контроля в машинном обучении.
4. FRIS-функция в распознавании образов (классификации).
5. Энтропия и виды энтропийных критериев, их применение в СА.
6. Понятие «онтологии» применительно к задачам проектирования.
7. Алгоритмы поиска заданного образца (фрагмента временного ряда) в
ряде данных.
8. Методы-алгоритмы прогнозирования землетрясений.
9. Бифуркации в прикладных задачах. Моделирование катастроф.
10. Сети СМО (СеМО), примеры использования. Время пребывания в
СеМО как показатель эффективности.
11. Композиция алгоритмов (в машинном обучении).
12.Прогнозирование временных рядов.
13.Методы фильтрации сигналов (временных рядов).
14. Обсуждается….