Справочник от Автор24
Поделись лекцией за скидку на Автор24

Предобработка данных.Элементарные понятия

  • 👀 236 просмотров
  • 📌 181 загрузка
Выбери формат для чтения
Статья: Предобработка данных.Элементарные понятия
Найди решение своей задачи среди 1 000 000 ответов
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Предобработка данных.Элементарные понятия» pdf
ПРЕДОБРАБОТКА ДАННЫХ. ЭЛЕМЕНТАРНЫЕ ПОНЯТИЯ НЕКОТОРЫЕ ПОНЯТИЯ ИЗ ТВ И МС A ={событие как логическое высказывание}; A ={противоположное событие событию А}, «не A »; Р(А), Р(А|В) – безусловная и условная вероятности, соответственно; ЦПТ – центральная предельная теорема; ЗБЧ – закон больших чисел; СВ, ДСВ, НСВ - случайная величина, дискретная и непрерывная СВ, соответственно; f ξ ( x ) , f ( x ) - плотность распределения одномерной СВ ξ ; f ξ ( x1 , x2 ) , f ( x1 , x2 ) - плотность распределения двумерной СВ ξ = ( ξ1 , ξ 2 ) ; ξ  N ( m, σ 2 ) СВ ξ имеет нормальное распределение с параметрами m, σ 2 ; Φ ( x) x 2 x t − − 1 1 2 e , e dt x = Φ ( ) ∫ m ,σ2 2π ∫0 σ 2π −∞ ( t − m )2 2 σ2 dt ,= Φ 0,1 ( x ) x 2 t − 1 e 2 dt - функции Лапласа, ФР ∫ 2π −∞ нормальной СВ ξ  N ( m, σ2 ) , ФР стандартной нормальной СВ ξ  N ( 0,1) ; M ξ = M ( ξ ) = mξ , Dξ = D ( ξ ) = σξ2 - математическое ожидание и дисперсия случСВ ξ ; ФР – функция распределения F ( x=) P {ξ < x} произвольной случайной величины ξ ; СКО - среднеквадратическое отклонение σξ =σ ( ξ ) = D ( ξ ) ; θ̂ - статистическая оценка параметра θ ; xB , d B , σ B = d B - статистические оценки математического ожидания, дисперсии и СКО ρξη = ρ(ξ, η) - коэффициент корреляции случайных величин ξ, η ; ММП - метод наибольшего (максимального) правдоподобия. 2 ЛР. ОБСУЖДЕНИЕ Лабораторная работа 1. Логические методы в системном анализе сложных объектов. Коллектив алгоритмов. Лабораторная работа 2. Модели анализа и прогнозирования нестационарных стохастических временных рядов, порождаемых сложными динамическими объектами. Метод модовой декомпозиции Лабораторная работа 3. Нелинейная непараметрическая ядерная регрессия для оценивания состояний динамического объекта Лабораторная работа 4. Приложения методов МС в системном анализе сложных объектов ЛР-1. ОБСУЖДЕНИЕ ПРЕДОБРАБОТКА СТАТИСТИЧЕСКИХ ДАННЫХ. Самая простая задача. 1. Выполнить работы по описательному статистическому анализу. Для выборочных данных (по вариантам в приложении 1) решить задачи: а) найти выборочные значения среднего арифметического, моды, медианы; б) найти размах выборки, выборочную дисперсию, выборочное среднее квадратическое отклонение; проверить выполнение правила «3сигма»; в) оценить симметричность распределения с помощью первого коэффициента Пирсона; г) найти верхнюю и нижнюю выборочные квартили, пояснить их смысл; д) построить сгруппированный статистический ряд и гистограмму; е) найти модальный и медианный интервалы, сравнить середины этих интервалов со значениями моды и медианы, рассчитанными по выборке; объяснить практический смысл моды и медианы. 2. Выдвинуть гипотезу о виде распределения наблюдаемой случайной величины и ее проверки. Проверить выдвинутую гипотезу. Сделать выводы. НАЧАЛЬНЫЕ И ЦЕНТРАЛЬНЫЕ МОМЕНТЫ РАСПРЕДЕЛЕНИЯ. ЗАЧЕМ? Начальный момент k-го Центральный момент kЛегко проверяемые порядка СВ X го порядка СВ X соотношения: связь моментов Примеры: ................................................................. СВОЙСТВА СИММЕТРИЧНЫХ РАСПРЕДЕЛЕНИЙ Все центральные моменты Распределение СВ симметрично относительно нечетного порядка равны нулю математического ожидания (для каждого положительного значения отклонения X–M[X] найдется (в силу симметричности распределения) равное ему по абсолютной величине отрицательное значение, причем их вероятности будут одинаковыми) Начальный момент 4-го порядка≠0 Характеристика степени «крутости» вершины распределения в окрестности среднего Пример 1. ДСВ X задана следующим законом распределения: X P 1 0,1 3 0,4 5 0,2 7 0,2 9 0,1 5 АСИММЕТРИЯ И ЭКСЦЕСС РАСПРЕДЕЛЕНИЯ Если для изучаемого распределения асимметрия и эксцесс имеют небольшие значения, то можно предположить близость этого распределения к нормальному. Асимметрия распределения = отношение центрального момента третьего порядка к кубу СКО: Коэффициент асимметрии характеризует степень несимметричности распределения по отношению к математическому ожиданию. Асимметрия положительна, если «длинная часть» кривой распределения расположена справа от математического ожидания; асимметрия отрицательна, если «длинная часть» кривой расположена слева от математического ожидания. Коэффициент асимметрии Пирсона Коэффициент асимметрии 6 МЕДИАНА. КВАНТИЛИ И КВАРТИЛИ СЛУЧАЙНОЙ ВЕЛИЧИНЫ. ИНТЕРПРЕТАЦИЯ Р(Х≤Ме)≥0,5 Р(Х≥Ме)≥0,5 Для дискретной СВ: МЕДИАНА НСВ, имеющей строго монотонную функцию распределения F(x) определяется как единственный корень уравнения F(x)=0,5 ⇒ Ме – это такое число, что х принимает с р=0,5 как значения больше Ме, так и меньше Ме. Геометрически х=Ме делит площадь под кривой плотности вероятностей пополам. Если функция плотности вероятностей симметрична и унимодальна, то Ме=Мо=М(х). Квантиль уровня q (q-квантиль) – такое значение ДСВ, при которой её функция распределения F(xq)≤q и выполняются следующие условия Р(Х≤ xq)≥q Р(Х≥ xq)≥1-q. Квантиль 0,5 – медиана, квантиль 0,25 – нижний квартиль, квантиль 0,75 – верхний квартиль. q-квантиль – такое значение непрерывной СВ, при которых F(x)=q. Если вероятность задана в процентах, то квантиль называется 7 процентилем или перцентилем МЕДИАНА. КВАНТИЛИ И КВАРТИЛИ СЛУЧАЙНОЙ ВЕЛИЧИНЫ. ИНТЕРПРЕТАЦИЯ «90-й процентиль здоровых семян имеет вес 3*10^(-3) гр.»∼ 90 % здоровых семян имеют вес, меньший 3*10^(-3) гр; 10 % здоровых семян имеют вес, больший меньший 3*10^(-3) гр.. Проценти́ль Дециль Квинтиль Квартиль Медиана F(x)=α 8 ПРИМЕР. Excel <Сервис-Анализ данных-Ранг и персентиль> Код студента Физика Математика Всего 172-24-4999 418 518 936 ……………………………………………………. <ПроцентРанг> возвращает процентный ранг (процент входных значений, которые меньше указанного значения) для заданного элемента из множества данных <Персентиль> используется для определения элемента входного диапазона, процентный ранг которого равен заданной персентили. Персентиль задается числом 0 эквивалентна <Персентиль>, но она может возвращать только: наименьшее значение ЗАДАНИЕ 25-ю персентиль 1 1) Вычислить процентные ранги значений медиану (50-ю персентиль) 2 из массива Всего баллов. 75-ю персентиль 3 2) Решить задачу быстрого поиска кода наибольшее значение 4 студента, суммарный балл которого является N-м элементом во входном диапазоне (421-м, 600-м,…). Функция ИНДЕКС для получения кодов из исходной таблицы при решении задачи сопоставления кода студента и его ранга 9 ПРИМЕРЫ-ЗАДАЧИ. ПОИСК КВАРТИЛЕЙ Квартили — это числа, которые делят набор данных на четыре равные части (четверти). Верхний (третий) квартиль включает 25% наибольших чисел в наборе (75-й процентиль). Это медиана правой половины вариационного ряда (Вар.р.). Шаг 1. Упорядочить числа в наборе данных по возрастанию (построить Вар.р.). [3, 3, 4, 5, 7 , 8, 10, 11, 12, 21]. Шаг 2. Определить объем выборки. n=10 Шаг 3. Использовать формулу для номера позиции верхнего квартиля: N(Q3)=(3\4)(n+1)= (3\4)(10+1)=8,25 Верхний квартиль определяется числом, которое расположено на позиции 8,25 в наборе данных. Шаг 4. Взять ср.арифметич. чисел, расположенных между числами на 8-й и 9-й позициях. Верхний (третий) квартиль равен X(Q3)=(11+12)/2=11,5. КВАРТИЛЬ(AX:AY;Q) ПРИМЕРЫ-ЗАДАЧИ. ПОИСК КВАНТИЛЕЙ-ДЕЦИЛЕЙ Пусть имеется выборка дискретной случайной величины ξ: 3 0 1 5 1 2 4 5 3 4 2 4 2 0 2 3 1 3 2 1 4 3 0 2 1 0 4 2 3 2 Найти квантили уровня 0,2 и 0,3 ( x0,2 и x0,3 ) Решение. Шаг 1. Находим функцию распределения ДСВ: Относительная частота 4 0,133333 5 0,166667 8 0,266667 6 0,2 5 0,166667 2 0,066667 Вариант Частота 1 2 3 4 5 F(x) 0,133333 0,3 0,566667 0,766667 0,933333 1 Шаг 2. Строим график функции распределения, проводим линии уровня p = 0,2 и p = 0,3, Шаг 3. получаем квантили: x0,2 = 1, x0,3 = 1,5 или децили d2=1, d3=1,5. ТЕМЫ ПРАКТИЧЕСКИХ РАБОТ-СООБЩЕНИЙ 1. Методы фильтрации для прогнозирования экономико-технических показателей 2. Коллектив алгоритмов: как принимается итоговое решение. 3. Принцип полного скользящего контроля в машинном обучении. 4. FRIS-функция в распознавании образов (классификации). 5. Энтропия и виды энтропийных критериев, их применение в СА. 6. Понятие «онтологии» применительно к задачам проектирования. 7. Алгоритмы поиска заданного образца (фрагмента временного ряда) в ряде данных. 8. Методы-алгоритмы прогнозирования землетрясений. 9. Бифуркации в прикладных задачах. Моделирование катастроф. 10. Сети СМО (СеМО), примеры использования. Время пребывания в СеМО как показатель эффективности. 11. Композиция алгоритмов (в машинном обучении). 12.Прогнозирование временных рядов. 13.Методы фильтрации сигналов (временных рядов). 14. Обсуждается….
«Предобработка данных.Элементарные понятия» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

Тебе могут подойти лекции

Смотреть все 938 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot