Справочник от Автор24
Поделись лекцией за скидку на Автор24

Предобработка данных

  • 👀 166 просмотров
  • 📌 145 загрузок
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Предобработка данных» pdf
Предобработка данных «ML&BigData» CRISP-DM Методология ведения проектов Data Mining 1. Понимание бизнеса 1. 2. 3. 4. Определить бизнес цели Оценить ситуацию Определить цели анализа данных Составить план проекта 2. Понимание данных 1. 2. 3. 4. Собрать исходные данные Описать данные Исследовать данные Проверить качество данных 3. Подготовка данных 1. 2. 3. 4. 5. Отобрать данные Очистить данные Сделать производные данные Объединить данные Привести данные в нужный формат CRISP-DM Методология ведения проектов Data Mining 4. Моделирование 1. 2. 3. 4. Выбрать методику моделирования Сделать тесты для модели Построить модель Оценить модель 5. Оценка 1. 2. 3. Оценить результаты Сделать ревью процесса Определить следующие шаги 6. Развертывание 1. 2. 3. 4. Запланировать развертывание Запланировать поддержку и мониторинг развернутого решения Сделать финальный отчет Сделать ревью проекта CRISP-DM Методология ведения проектов Data Mining 1. Понимание бизнеса 1. 2. 3. 4. Определить бизнес цели Оценить ситуацию Определить цели анализа данных Составить план проекта 2. Понимание данных 1. 2. 3. 4. Собрать исходные данные Описать данные Исследовать данные ПРОВЕРИТЬ КАЧЕСТВО ДАННЫХ 3. Подготовка данных 1. 2. 3. 4. 5. Отобрать данные ОЧИСТИТЬ ДАННЫЕ Сделать производные данные Объединить данные Привести данные в нужный формат ПРЕДОБРАБОТКА ДАННЫХ «Мусор на входе - мусор на выходе» Типичные проблемы с качеством данных: • Неполнота: данные не содержат атрибутов, или в них пропущены значения. • Шум: данные содержат ошибочные записи или выбросы. • Несогласованность: данные содержат конфликтующие между собой записи или расхождения. Качественные данные — это необходимое условие для создания качественных моделей прогнозирования. СТАНДАРТНЫЕ МЕТОДЫ МОНИТОРИНГА РАБОТОСПОСОБНОСТИ ДАННЫХ Чтобы проверить качество данных, нужно оценить: • Количество записей. • Количество атрибутов (или компонентов); • Типы данных атрибута (номинальные, порядковые, непрерывные и дискретные). • Количество пропущенных значений. • Правильность формата данных. • Несогласованные записи данных. Проверьте допустимость диапазона значений. Например, если данные содержат средний балл ученика, проверьте, находится ли этот средний балл в обозначенном диапазоне (например, 0~4). ПРАВИЛЬНОСТЬ ФОРМАТА ДАННЫХ • Если данные имеют формат TSV или CSV, проверьте правильность разделения столбцов и строк соответствующими разделителями. • Если данные имеют формат HTML или XML, убедитесь, что формат данных соответствует надлежащим стандартам. • Для извлечения структурированной информации из частично структурированных или неструктурированных данных также может потребоваться синтаксический анализ. ГЛАВНЫЕ ЗАДАЧИ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ • Очистка данных — восполнение пропущенных значений, обнаружение и удаление искаженных данных и выбросов. • Преобразование данных — нормализация данных для снижения измерений и искажений. • Уплотнение данных — создание выборки данных или атрибутов для упрощения обработки данных. • Дискретизация данных — преобразование непрерывных атрибутов в категориальные, чтобы проще было использовать некоторые методы машинного обучения. • Очистка текста: удаление внедренных символов, которые могут нарушать выравнивание данных, например внедренных символов табуляции в файле с разделителем-табуляцией, внедренных новых линий, которые могут разбивать записи, и пр. КАК ОБРАБАТЫВАТЬ ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ • Удаление: удаление записей с пропущенными значениями. • Фиктивная подстановка — замена пропущенных значений фиктивными, например подстановка значения unknown (неизвестно) вместо категориальных или значения 0 вместо чисел. • Подстановка среднего значения: пропущенные числовые данные можно заменить средним значением. • Подстановка часто используемого элемента: пропущенные категориальные значения можно заменить наиболее часто используемым элементом. • Подстановка по регрессии: использование регрессионного метода для замены пропущенных значений регрессионными. КАК НОРМАЛИЗОВАТЬ ДАННЫЕ Нормализация данных позволяет масштабировать числовые значения в указанном диапазоне • Нормализация по методу минимакса: линейное преобразование данных в диапазоне, например, от 0 до 1, где минимальное и максимальное масштабируемые значения соответствуют 0 и 1 соответственно. • Нормализация по Z-показателю: масштабирование данных на основе среднего значения и стандартного отклонения: деление разницы между данными и средним значением на стандартное отклонение. • Десятичное масштабирование: масштабирование данных путем удаления десятичного разделителя значения атрибута. КАК ДИСКРЕТИЗИРОВАТЬ ДАННЫЕ Преобразование непрерывных атрибутов в категориальные • Группирование равной ширины: разделение диапазона всех возможных значений атрибута в группы (N) одинакового размера с последующим присвоением значений, относящихся к ячейке с соответствующим номером. • Группирование равной высоты: разделение всех возможных значений атрибута в группы (N), содержащие одинаковое количество экземпляров, с последующим присвоением значений, относящихся к ячейке с соответствующим номером. КАК СОКРАТИТЬ ОБЪЕМ ДАННЫХ • Выборка записей: создание выборки записей данных и выбор репрезентативного подмножества из общего набора данных. • Выборка атрибутов: выбор в данных набора важнейших атрибутов. • Агрегирование: разделение данных на группы и хранение числовых значений для каждой группы. Например, для уменьшения размера данных вы можете агрегировать числа, обозначающие ежедневный доход сети ресторанов за последние 20 лет, так, чтобы указывался ежемесячный доход.
«Предобработка данных» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач

Тебе могут подойти лекции

Смотреть все 588 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot