Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
с
Учебное пособие для студентов заочного отделения
по предмету
«Информационные аналитические системы»
Составители:
Аксенов Ю.В., к.т.н., доцент
Сибиряев А.С. к.п.н., доцент
Содержание:
1. Программа курса
2. Учебный материал
3. Контрольное задание
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УПРАВЛЕНИЯ»
ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ
ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ СИСТЕМЫ
для подготовки бакалавров по направлению
«Государственное и муниципальное управление» - 081100
МОСКВА – 2014
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УПРАВЛЕНИЯ»
Институт государственного управления и права
Кафедра государственного и муниципального управления
Утверждаю
проректор ГУУ
проф. П. В. Метёлкин
«___»____________2014г
ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ
ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ СИСТЕМЫ
для подготовки бакалавров по направлению
«Государственное и муниципальное управление» - 081100
МОСКВА – 2014
УДК 004.9:351(073)
П78
Программа учебной дисциплины «Информационно-аналитические системы»: для подготовки бакалавров по направлению «Государственное и муниципальное управление» 081100 [текст] / Государственный университет управления, Институт государственного управления и права, кафедра государственного и муниципального управления; [сост.: Ю.В. Аксенов]. –М.: ГУУ, 2014.
С о с т а в и т е л ь
кандидат технических наук, доцент
Ю.В. Аксенов
О т в е т с т в е н н ы й р е д а к т о р
заведующий кафедрой государственного и муниципального управления,
доктор экономических наук, профессор
В.Б. Зотов
О б с у ж д е н а
на заседании кафедры государственного и
муниципального управления
протокол от 27.11.2013 г. № 4
О б с у ж д е н а и о д о б р е н а
на заседании методического совета
Института государственного управления и права
протокол от 28.11.2013 № 9
Ó Ю.В. Аксенов, 2014
Ó ФГБОУ ВПО «Государственный университет управления», 2014
1. ЦЕЛИ И ЗАДАЧИ ОСВОЕНИЯ ДИСЦИПЛИНЫ
Программа дисциплины «Информационно-аналитические системы» составлена в соответствии с требованиями Федерального государственного образовательного стандарта высшего профессионального образования (ФГОС ВПО) по направлению подготовки «Государственное и муниципальное управление» 081100 квалификации «бакалавр».
Цели дисциплины - обеспечить формирование у бакалавров теоретических знаний в области информационных технологий по направлению информационно - аналитических систем; развитие практических навыков эффективного использования теоретических знаний и современных инструментов для выработки оптимальных эффективных решений в управленческой деятельности с учетом многочисленных факторов внешней среды и внутренних ресурсов.
Задачами дисциплины являются обеспечение государственных и муниципальных служащих необходимым уровнем владения современными информационно-аналитическими системами для решения задач профессиональной деятельности в области государственного и муниципального управления.
2. МЕСТО ДИСЦИПЛИНЫ В СТРУКТУРЕ ООП
Дисциплина “Информационно-аналитические системы” входит в вариативную часть математического и естественнонаучного цикла учебного плана в соответствии с основной образовательной программой высшего профессионального образования.
Дисциплина базируется на знаниях, полученных студентами при изучении дисциплин: «Математика», «Статистика», «Информационные технологии в управлении».
3. ТРЕБОВАНИЯ К РЕЗУЛЬТАТАМ ОСВОЕНИЯ ДИСЦИПЛИНЫ
Процесс изучения дисциплины направлен на формирование следующих общекультурных (ОК) и профессиональных (ПК) компетенций, согласно ФГОС ВПО:
Код компетенции
Наименование компетенции
ОК-4
- знание законов развития природы, общества, мышления и умение применять эти знания в профессиональной деятельности;
- умение анализировать и оценивать социально-значимые явления, события, процессы;
- владение основными методами количественного анализа и моделирования, теоретического и экспериментального исследования.
ОК-7
- обладание способностью представлять результаты своей работы для других специалистов;
- отстаивать свои позиции в профессиональной среде;
- находить компромиссные и альтернативные решения.
ОК-8
владением основными способами и средствами информационного взаимодействия, получения, хранения, переработки, интерпретации информации, наличием навыков работы с информационно-коммуникационными технологиями; способностью к восприятию и методическому обобщению информации, постановке цели и выбору путей ее достижения.
ПК-17
умением обобщать и систематизировать информацию для создания баз данных, владением средствами программного обеспечения анализа и моделирования систем управления.
ПК-23
способностью адаптировать основные математические модели к конкретным задачам управления.
ПК-26
способностью применять информационно-коммуникационные технологии в профессиональной деятельности с видением их взаимосвязей и перспектив использования.
ПК-34
обладание способностью выявлять информацию, необходимую для принятия решений, при получении "обратной связи" в профессиональной деятельности.
ПК-46
способностью осуществлять технологическое обеспечение служебной деятельности специалистов (по категориям и группам должностей государственной гражданской службы и муниципальной службы).
ПК-49
владение методами самоорганизации рабочего времени, рационального применения ресурсов.
ПК-50
обладание способностью оценивать свое место в технологии выполнения коллективных задач.
ПК-51
умение эффективно взаимодействовать с другими исполнителями.
Обучающийся должен решать следующие профессиональные задачи в соответствии с видами профессиональной деятельности:
- участие в создании и актуализации информационных баз данных для принятия управленческих решений;
- информационно-методическая поддержка и сопровождение управленческих решений;
- сбор и классификационно-методическая обработка информации об имеющихся политических, социально-экономических, организационно-управленческих процессах и тенденциях;
- участие в информатизации деятельности соответствующих органов и организаций;
- технологическое обеспечение служебной деятельности специалистов (по категориям и группам должностей федеральной государственной гражданской и государственной гражданской и муниципальной службы).
В результате изучения дисциплины студент должен:
Знать:
- основные математические методы и модели для решения информационно-аналитических задач;
- основные понятия и современные принципы работы с деловой информацией, а также иметь представление о корпоративных информационно-аналитических системах;
- хранилища данных, многомерное представление данных в зоне их хранения;
- средства и технологии сбора данных из различных источников;
- структуру, программные и технические средства информационно-аналитических систем и их принципы работы.
Уметь:
- создавать базы данных необходимой конфигурации из различных источников данных;
- решать типовые задачи анализа данных для использования этих результатов при принятии управленческих решений;
- обрабатывать эмпирические и экспериментальные данные;
- использовать математический язык и математическую символику при построении организационно- управленческих моделей;
Владеть:
- современными технологиями сбора, обработки, вывода и распространения информации для проведения анализа и оформлению результатов анализа;
- навыками использования приемов и методов анализа данных;
- одной из программ, предназначенных для анализа данных.
4. ОБЪЕМ ДИСЦИПЛИНЫ И ВИДЫ УЧЕБНОЙ РАБОТЫ
Общая трудоемкость дисциплины для студентов очной, очно-заочной, заочной форм обучения составляет 3 зачетных единицы.
5. СОДЕРЖАНИЕ ТЕМ ДИСЦИПЛИНЫ
Тема 1. Информационно-аналитические технологии, общие понятия. Роль и назначение дисциплины.
Определение, назначение и области применения информационно-аналитических технологий. Место ИАС в современных информационных технологиях. Роль ИАС в информационном обеспечении процесса принятия управленческого решения. Требования к информационно-аналитическим системам. Место ИАС в системе принятия решений. ИАС – как консолидирующая часть в структуре IT-технологии в единую интегрированную информационную систему управления организацией. Направления развития информационно-аналитических технологий.
Тема 2. Информационное поле ИАС
Понятие информационного поля. Внутренние и внешние информационные ресурсы. Объект информации. Понятие информационного поля (пространства). Структура информации. Элементы структуры информационного пространства. Атрибут - свойство (характеристика) объектов, предметов или явлений. Понятие показателя. Показатели - оценка состояния объекта. Классификация и кодирование данных. Логико-дедуктивные и эмпирико-индуктивные систем показателей. Многомерное представление данных. Пространственная интерпретация данных о работе организации. Пул данных.
Тема 3. Содержание и методы анализа данных
Классификация методов анализа. Понятие модели объекта в системах анализа данных. Деление моделей по виду моделирования. Место эксперта в процессе анализа. Концептуальная классификация анализа данных - системы анализа OLTP, OLАP, Data Mining. Задачи и содержание систем анализа. Понятия знания в информационных системах. Классификация видов знаний. Содержание методов анализа данных. Методы анализа в экономической предметной области. Примеры методов экономического анализа. Интерактивная аналитика и аналитика в режиме реального времени.
Тема 4. Структура информационно - аналитических систем
Процессы, протекающие в ИАС при анализе данных. Функциональный состав современных интегрированных систем анализа данных: транзакционные источники информации (транзакционные базы данных), средства (технологии) сбора и загрузки данных из различных источников данных (ETL-инструменты), базы данных для анализа, витрины данных, системы анализа, устройства представления и передачи результатов анализа. Стадии ETL-процессов: извлечение, сбор и загрузки данных из транзакционных источников информации, повышение качества данных, очистка данных, согласование данных в семантике, преобразование форматов и структуры.
Хранилища данных: назначение и определение. Многомерное представление данных в зоне хранения. Модели хранилищ данных: централизованные, распределённые. Реляционная и объектно-реляционная модель БД. Витрин данных. Отличие витрин данных от хранилища данных и транзакционных баз данных. Метаданные в базе данных, понятие, назначение. Классификации метаданных.
Системы для обработки больших данных (Big Data). Web-портал в структуре информационно-аналитической системы - современная тенденция развития архитектуры ИАС.
Тема 5. Программные средства ИАС.
Инструменты для работы с хранилищем и витринами данных. Системы управления базами данных Особенности работы с хранилищами данных. Инструменты для извлечения, преобразования, загрузки и хранения данных (ETL системы). Возможности автоматического построения моделей. Инструменты анализа, анализа и тестирования результатов. Произвольные запросы и регламентированные формы отчетов. Многомерный анализ данных. Инструменты описания метаданных и управления метаданными. Визуализация информации. Технология анализа данных в режиме on-line. Аналитика реального времени для обработки больших данных (Big Data). Обработка структурированной и не структурированной информации.
Программные средства ИАС зарубежных и российских фирм. Краткая характеристика отдельных программных продуктов. Фирмы – лидеры в производстве программных средств BI платформ. Облачные технологии для работы с большими данными (Big Data).
6. РАСПРЕДЕЛЕНИЕ ЧАСОВ ПО ТЕМАМ И ВИДАМ УЧЕБНЫХ ЗАНЯТИЙ ДЛЯ БАКАЛАВРОВ ОЧНОЙ, ОЧНО-ЗАОЧНОЙ, ЗАОЧНОЙ ФОРМ ОБУЧЕНИЯ
Раздел, тема программы
Трудоемкость (час)*
Всего
в том числе по видам учебных занятий
Лекции
Практические.
занятия
Тема 1. Информационно-аналитические технологии, общие понятия. Роль и назначение дисциплины.
2/2(0,5)
2/2(0,5)
-/-(-)
Тема 2 Информационное поле информационно - аналитических систем.
4/4(1)
4/4(1)
-/-(-)
Тема 3. Технологии и методы анализа данных.
18/18(5)
6/6(1)
12/12(4)
Тема 4. Структура информационно - аналитических систем.
8/8(2)
4/4(1)
4/4(1)
Тема 5. Программные средства информационно - аналитических систем.
4/4(1,5)
2/2(0,5)
2/2(1)
Итого аудиторных часов
36/36(10)
18/18(4)
18/18(6)
Внеаудиторная самостоятельная работа бакалавров (СРС)
72/68(94)
Форма рубежного контроля знаний бакалавров очной, очно-заочной, заочной форм обучения: зачет
Подготовка к зачету
-/4(4)
Всего часов на освоение учебного материала
108/108(108)
*Примечание: в числителе указаны часы для студентов очной формы обучения; в знаменателе – для очно-заочной формы обучения; в скобках – для заочной формы обучения.
7. САМОСТОЯТЕЛЬНАЯ РАБОТА СТУДЕНТОВ
Текущий контроль сформированности компетенций проводится в виде обсуждения результатов выполнения лабораторных работ, тестирования, а также самостоятельно подготовленных студентами домашних заданий.
Виды самостоятельной работы обучающегося.
1. Подготовка рефератов по темам программы.
2. Подготовка докладов для круглого стола
3. Подготовка докладов для коллоквиумов
ТЕМА ЗАНЯТИЙ
Очная форма обучения
Очно-заочная форма обучения
Заочная форма обучения
Тема 1. Информационно-аналитические технологии – общие понятия. Роль и назначение дисциплины.
5
4
4
Тема 2 Информационное поле информационно - аналитических систем.
5
5
14
Тема 3. Технологии и методы анализа данных.
18
18
26
Тема 4. Структура информационно - аналитических систем.
18
17
24
Тема 5. Программные средства информационно - аналитических систем.
26
24
26
Объём самостоятельной работы студента.
72
68
94
8.УЧЕБНЫЕ МЕРОПРИЯТИЯ ТЕКУЩЕГО И ПРОМЕЖУТОЧНОГО КОНТРОЛЯ ЗНАНИЙ СТУДЕНТОВ
Учебная работа по дисциплине включает следующее:
- самостоятельная работа студентов;
- установочные лекции;
- лабораторные работы;
- практические занятия (круглый стол, коллоквиумы);
- консультации;
- входное тестирование;
- проведение текущего и промежуточного тестирования уровня усвоения студентами материалов по разделам дисциплины;
- промежуточная аттестация – зачет.
Тематика лабораторных и практических работ
1. Входное тестирование по предметам информатика и компьютерная подготовка.
2. Прогнозирование событий в среде MS Excel с использованием трендовых моделей, функций регрессия, тенденция, рост и скользящее среднее.
3. Оптимизация решений с использованием функций MS Excel по индивидуальным заданиям для студентов.
4. Работа в среде информационной системы. Проведение операций по закупкам оборудования и оказанию услуг, построение аналитических отчетов.
5. Создание персональной базы данных для работы в аналитической системе
6. Анализ данных в аналитической системе, построение аналитических отчетов.
7. Контрольное задание по прогнозированию событий в среде MS Excel.
Программное обеспечение для проведения лабораторных работ:
1. Программный продукт Monitor CRM, консалтинговой группой «Бизнес Навигатор».
2. Аналитическая платформа одной из отечественных фирм.
3. Офисные системы MS Office (версий 2003, 2007, 2010, 2013).
4. Операционные системамы Windows (версий XP, Windows 7,8).
9. ПРИМЕРЫ КОНТРОЛЬНЫХ ВОПРОСОВ ДЛЯ ОЦЕНКИ КАЧЕСТВА УСПЕВАЕМОСТИ, УРОВНЯ УЧЕБНЫХ ДОСТИЖЕНИЙ
1. Назначение информационно - аналитических систем.
2. Какое место анализа данных в схеме (цепочке) принятия управленческих решений.
3. С какой целью выполняется анализ данных в организации.
4. Что является информационным ресурсом для анализа данных.
5. Какие могут быть источники данных в организации.
6. Что представляют внутренние и внешние источники данных.
7. Понятие информационного поля.
8. Элементы структуры информационного поля.
9. Понятие атрибут в структуре информационного пространства.
10. Понятие показателя и системы показателей.
11. Пространственная интерпретация данных о работе предприятия.
12. Многомерные данные
13. Что представляет собой трехмерный гиперкуб информационного пространства
14. Примерами общегосударственных систем классификации и кодирования.
15. Системы показателей - логико-дедуктивные и - эмпирико-индуктивные.
16. Понятие модели анализа данных.
17. Классификация моделей по виду моделирования.
18. Место эксперта в процессе анализа.
19. Концептуальная классификация анализа данных.
20. Задачи и содержание OLTP.
21. Примеры применения OLTP-систем.
22. Задачи и содержание OLAP анализа.
23. Требования, предъявляемые к OLAP-системам.
24. FASMI –его значение в становлении анализа данных.
25. Определение метода анализ данных - Data Mining.
26. Задачи метода анализ данных - Data Mining.
27. Содержание понятия знания в информационных системах.
28. Классификация видов знаний.
29. Классификация методов экономического анализа.
30. Примеры методов анализа в экономической предметной области.
31. Процессы, протекающие в ИАС при анализе данных.
32. Средства реализации процесса анализа данных.
33. Структура технических средств ИАС.
34. Структура программных средств ИАС.
35. Транзакционные базы данных.
36. Средства (технологии) сбора и загрузки данных.
37. Концепция организации хранилища данных.
38. Схема централизованного хранения данных.
39. Схема распределенного информационного хранилища.
40. Концепция витрин данных.
41. Витрины данных совмещенные с хранением данных.
42. Схема центрального информационного хранилища и многих витрин данных.
43. Структура программного обеспечения ИАС.
44. Основные понятия о метаданных баз данных.
45. Языки для системы управления базой данных.
46. Web-портал при ИАС, назначение.
47. Два подхода к формированию комплекса программных продуктов ИАС. Достоинства и недостатки.
48. Фирмы – лидеры в производстве BI-платформ.
49. Российские фирмы, предоставляющие на рынок BI-платформы.
50. Наиболее известные программные продукты анализа данных Российских и зарубежных фирм.
10. ПРИМЕРЫ ТЕСТОВЫХ ЗАДАНИЙ ДЛЯ ТЕКУЩЕГО КОНТРОЛЯ УСПЕВАЕМОСТИ, ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ПО ИТОГАМ ОСВОЕНИЯ ДИСЦИПЛИНЫ.
1. В информационно - аналитических системах информацию, как правило, получают от:
(укажите два пункта)
1. внутренних источников.
2. внешних источников.
3. прогнозируемые данные
4. расчетно-аналитические данные
2. Перечислены уровни структурированности информации, поступающей в информационно - аналитическую систему, и примеры информационных сообщений. Укажите соответствие примеров уровням структурированности информации.
1. не структурированная а. письменное сообщение
2. слабо структурированная б. человеческая речь
3.структурированная в. формализованны все информационные объекты
и их взаимосвязи.
3. Универсальный способ изучение объекта – построение моделей.
Модель – это: (укажите пункты, которые можно включить в
определение понятия - модель)
1. Описание объекта
2. Совокупность атрибутов
3. Замещения объекта (системы) оригинала другой системой
для лучшего изучения оригинала
4. Набор атрибутов
5. Выборка записей из базы данных
4 . Концептуально анализ данных можно разделить на
направления: (укажите 3 пункта)
1. оперативный анализ данных (информации) – OLAP
2. оперативный анализ показателей – OLPK
3. оперативный анализ полей баз данных - OLPBD
4. интеллектуальный анализ информации - Data Mining
5. оперативная обработка транзакций - OLTP
5. Основными задачами интеллектуального анализа
(Data Mining) являются: (укажите 3 пункта)
1. получения сведений о средних продажах;
2. выявление взаимосвязей и взаимовлияния различных
факторов;
3. выявление взаимозависимостей, причинно-следственных
связей, ассоциаций и аналогий;
4. выявление закономерностей в исследуемых процессах;
6. Укажите какие из приведенных ниже шести задач:
1. Каковы средние показатели рентабельности предприятий в регионе?
2. Какова характерная совокупность значений показателей финансово-
хозяйственной деятельности предприятий в регионе?
3. Каковы средние размеры счетов клиентов банка – физических лиц?
4. Каков типичный портрет клиента – физического лица, отказывающегося
от услуг банка?
5. Какова средняя величина ежедневных покупок по украденной или
фальшивой кредитной карточке?
6. Существуют ли стереотипные схемы покупок для случаев
мошенничества с кредитными карточками?
Соответствуют методам анализа:
а. OLAP-методике, основанной на математической статистике.
б. Data Mining - методах интеллектуального анализа
7. Укажите очерёдность функционирования ниже перечисленных
средств, составляющих современные интегрированные информационные аналитические системы.
1. Хранилище данных
2. Инструменты анализа данных
3. Средства сбора и загрузки (проверка данных, преобразование форматов
и структуры) ETL-процессы
4. Система принятия решений
5. Базы данных отдельных источников информации (транзакционные БД)
6. Автоматизированные рабочие места
7. Витрины данных
8. Укажите соответствие пунктов
1. Хранилище данных
2. Витрина данных
а. соответствует содержанию информации по всей организации
(предприятию)
б. обслуживает содержанию информации либо отдельного подразделения или какого-то определенного направления деятельности организации.
9. Российскими фирмами разработан и представлен на рынке ряд ИАС.
Укажите пункты с названиями ИАС российских фирм.
1. Продукт DEDUCTOR лаборатории BaseGroup
2. Продукт SEPSKRY
3. Продукт Analitik OL
4. Продукт«Statistica»
11. УЧЕБНО-МЕТОДИЧЕСКОЕ И ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ
а) Основная литература
1. Паклин Н., Орешков И., Бизнес-аналитика: от данных к знаниям. Изд. Питер, 2009.
2. Барсегян А.А., Анализ данных и процессов. С-Петербург, 2009.
3. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И., Техноглогия анализа данных, С-Петербург, 2008.
4. Белов В.С., Информационно-аналитические системы. Основы проектирования и применения. Учебное пособие. М: МЭСИ, 2004.
5. Логинов В. Н., Управленческие решения модели и методы, учебное пособие, М., Алтфа-Пресс, 2011.
6. Аксенов Ю.В. Лабораторный практикум, ч1, Изд. ГОУВПВ «ГУУ», 2009.
б) Дополнительная литература
7. В. Н. Логинов, Информационные технологии управления, учебное пособие, -М., 2008. Режим доступа: http://www.book.ru/book/272334
8. Писарева О.М, Аксюк С.А., Чернякин Г.В., Инструментальные средства прогнозно-аналитических исследований в экономике, -М, ГУУ, 2012
9. Советов Б. Я., Моделирование систем : учеб. для вузов, 5-е изд., стер. - М : Высш. шк., 2007.
10. Федоров А.Г., Елманова Н.З., Введение в OLAP-технологии Microsoft. Учебно-справочное издание. М.: Диалог-МИФИ, 2002.
11. Елманова Н.З., Федоров А.Г., Введение в OLAP: Основы OLAP. 11. Хранилища данных. Компьютер Пресс №5, 2001
12. Трофимов В. В., Ильина О. П., Трофимова Е. В., Информационные системы и технологии в экономике и управлении : учебник, М. : ЮРАЙТ , 2011.
13. Советов Б.Я., Яковлев С.А.. Моделирование систем. Практикум : учебное пособие - М : Высшая школа, 2003.
14. Орлов И.В., Половников В.А., Экономико-математические методы и модели (компьютерное моделирование), -М.: Инфора-М, 2013.
в) Интернет-ресурсы
1. Платформа аналитики нового поколения Prognoz Platform. Демо-версия Prognoz Platform - http://www.prognoz.ru/platform.
2. Арустамов А. Применение OLAP технологий при извлечении данных. - www.basegroup.ru.
3. Аналитическая платформа Deductor. - www.basegroup.ru
4. Островский Е.В. Порядок разработки ETL-процессов. 2000. - http://www. Olap.ru.
5. Косов Д.В. Хранилища данных и семантические разрывы. 2000. - http://www. Olap.ru.
Учебный материал
Для анализа исходной информации появилось отдельное направление или вид информационных систем - информационно-аналитические системы (ИЛС), под которыми понимают комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ в целях обоснования принятия управленческих решений и других возможных применений.
Аналитика не заменяет традиционные регламентные отчеты. Отчеты –это стандартные формы. Аналитика – это разобраться быстро с проблемами, с причинами и оперативно принять решения
Система анализа регулярно собирает данные из всех имеющихся в организации источников и в сжатом виде представляет уполномоченному сотруднику наиболее важную информацию, соотнесенную с целевыми показателями. Одновременно система позволяет при необходимости выводить данные более низкого уровня – вплоть до первичных документов.
Система анализа нужна, чтобы в режиме реального времени отслеживать положение дел в организации и в случае необходимости оперативно реагировать на отклонения от нормы или плана.
Систему анализа можно сравнить с оборудованием для диагностики автомобиля: машина ездит и все, казалось бы, хорошо, но тестирование всех систем покажет даже потенциальные проблемы.
Система анализа не является частью какого-либо решения и не заменяет другие, уже установленные системы, но может получать данные из разных источников (информационных систем) – от ERP, CRM -системы разных вендоров до таблиц Excel и самописных решений.
Система анализа подключается к каждой из существующих в компании ИТ-систем и загружает в себя всю необходимую информацию.
Получать аналитические данные с помощью системы анализа могут как собственник и руководители, ответственные за принятие наиболее важных решений, так и менеджеры и аналитики.
Сложно ли пользоваться системой бизнес-анализа? – НЕТ
Интерфейс системы дружелюбен и интуитивно понятен, специальные ИТ-знания не требуются.
Аналитика уверенно держит марку одного из самых динамично развивающихся сегментов мирового и российского рынка ИТ, особенно, если учесть тенденцию резкого возрастание объёма данных.
Рис. 1 Место анализа в цепочке принятия управленческих решений.
Таким образом, Одной из первостепенных задач при подготовке и принятии решений лицами принимающими решения (ЛПР) является анализ информации, имеющейся в их распоряжении.
Следует заметить, что ИАС должна играть объединяющую роль,. Должна консолидировать разрозненные IT-технологии в единую интегрированную информационную систему управления предприятием (корпорацией), как ее называют ИИСУП. Она должна стоять над:
АСУ ТП – автоматизированные системы управления технологическими процессами.
САПР – системы автоматизированного проектирования.
ЭСУДО – электронные системы управления документооборотом.
ИИСУП – интегрированные системы управления предприятием.
Понятие информационного пространства.
Границы информационного пространства как отображения деятельности предприятия и его взаимодействия с внешней средой, в рамках которого принимаются решения, выходят далеко за пределы предприятия.
Информацию, как правило, получают из различных внутренних и внешних источников.
Внутренние информационные ресурсы – это различного рода информация на самом предприятии – объекте исследования.
Внешние источники – информация по отрасли, региону, из средств массовой информации, специальной литературы, всемирной информационной сети Internet и т.д.
Информация, которая должна подвергнуться анализу является результатом деятельность соответствующей организации (предприятия). Можно сказать так, что организации (предприятия) существуют в информационном пространстве.
Подготовка принятия решений и, соответственно, анализ происходят в этом пространстве как в среде, но при этом операции производятся с элементами структуры этого пространства и сопряженных с ним информационных пространств.(ю)
Аналитик и другие лица, связанные с информационными процессами, используют в своей работе понятия, определяющие сущность, структуру, элементы информационного пространства, особенно при использовании современных информационных технологий.
Информационное пространство состоит из различных квантов или массивов данных разного рода: сообщения фиксированные на носителях информации в виде кодов, буквенно-цифровых на естественном языке, устных и визуальных сообщений.(ю) Все виды сообщений предоставляются непосредственно потребителям информации или передаются по каналам связи.
Структура информации
Структурированность информации может быть разная. Она может быть:
- не структурированная (например человеческая речь – нет правил ),
- слабо структурированная ( письменное сообщение где есть какие то правила написания).
- структурированная
Единица информации
В качестве элементов структуры информационного пространства выступают единицы информации. Под единицей информации понимают «набор символов, которому придается определенный смысл»
Элементарной единицей информации нижнего уровня является атрибут (реквизит).
Если взять таблицу реляционной базы данных. Например, сведения о сотрудниках отдела.
ФИО
Год рождения
Должность
Дата зачисления в отдел
…………….
Петров
1960
Нач. отдела
10.05.1995
Ленков
1970
Ведущий инж.
03.02.1998
Поле - столбец таблицы (файлового документа). Имя поля часто называют атрибутом.
Разновидностью составной единицы информации является показатель. Это сложное понятие. Имеются его различные определения. Например, «Показатель представляет высказывание с законченным смыслом, включающее как название переменной величины, так и ее конкретное количественное значение со всеми качественными признаками, необходимыми для идентификации последнего». Показатель образуется из набора атрибутов или терминов.
При структуризации информационного пространства разрабатывается система показателей, анализируется их собственная структура. В ходе этой работы необходимо исследовать общие закономерности, выявить категории показателей - члены общей структурной формулы описания показателей.
Пространственная интерпретация даных о работе предприятия. Многомерные данные.
Признаки ( какого-либо показателя) работы предприятия безусловно связаны между собой. Поэтому данные о предприятии многомерные
Для образного восприятия сложных понятий удобна их пространственная или геометрическая интерпретация. Число измерений признаков этого пространства равно числу осей его системы координат, на которых откладывают отрезки, соответствующие атрибутам (реквизитам).
Например, Система координат многомерного информационного пространства показателя
Система координат многомерного информационного пространства показателя
Давайте вначале представим себе отчет в виде куба
.
Город
Товар
Январь
Февраль
Март
Итого
Москва
Утюг
10
22
15
47
Пылесос
2
7
5
14
Чайник
17
34
20
71
Итого
29
63
40
132
Рязань
Холодильник
2
3
5
Чайник
5
6
3
14
Телефон
12
22
7
41
Итого
19
28
13
60
Владивосток
Утюг
7
7
5
19
Телефон
10
12
15
37
Пылесос
2
3
5
На рисунке изображен 3-х мерный куб, хотя количество измерений особого значения не имеет. Просто 3 измерения легче представить. Теперь, если мы сложим значения во всех ячейка по вертикали, то получим следующий отчет.
Город
Январь
Февраль
Март
Итого
Москва
29
63
40
132
Рязань
19
28
13
60
Владивосток
19
22
20
61
Итого
67
113
73
253
Вся работа с кубом, собственно, и сводится к различным его поворотам, группировкам. Можно менять количество измерений, способы группировки, но это не важно. Принципы совершенно одинаковы.
Трехмерный гиперкуб информационного пространства показателя
«Объем продаж»
Диаграмма Ишикава
Возможные показатели работы предприятия
Системы показателей
Отдельным показателем невозможно достаточно полно отобразить и оценить состояние экономического объекта, поэтому применяются системы показателей.
Для оценки ситуации на предприятии или другом объекте при подготовке и принятии решений по управлению объектом должна быть выработана или принята система оценок (показателей), которая ложится в основу аналитической работы с имеющейся и требуемой информацией (данными).
Централизованно разработаны государственные стандарты документооборота, формы документов, системы кодирования статистической, учетной, финансовой отчетности и другой документации.
Кроме того, на предприятии разрабатывается внутренняя система показателей и соответствующих реквизитов.
В документах государственных органов проведены структуризация, формализация, классификация и кодирование на основе разработки соответствующей системы реквизитов и показателей.
Примерами общегосударственных систем классификации и кодирования служат:
ОКП (Общесистемный классификатор промышленной и сельскохозяйственной продукции),
ОКОНХ (Общесистемный классификатор отраслей народного хозяйства),
ОКПО (общесистемный классификатор предприятий и организаций)
На практике (в основном зарубежной) сложилось несколько систем показателей, основанных на экономическом характере объективно существующих между показателями связей. По видам связей различают
На практике (в основном зарубежной) сложилось несколько систем показателей, основанных на экономическом характере объективно существующих между показателями связей. По видам связей различают
две группы систем показателей
- логико-дедуктивные и
- эмпирико-индуктивные.
Логико-дедуктивная система показателей строится в виде пирамиды, в основе которой лежат частные показатели, находящиеся в смысловой, подчас сложной взаимосвязи между собой и показателями, находящимися на более высоких "этажах". На вершине пирамиды находится обобщающий показатель, как бы впитывающий в себя по определенным правилам все показатели нижних уровней.
Эмпирико-индуктивные системы составлены с помощью использования статистического отбора показателей, наиболее существенных и значимых с точки зрения подготовки принятия решений.
Из большого числа экономических показателей выбираются наиболее существенные для соответствующих целей.
В основном такие системы применяются для ранней диагностики финансового состояния предприятий.
Логико-дедуктивные системы показателей имеют широкую область применения. В качестве обобщающего показателя используется чаще всего - рентабельность инвестированного капитала
Рентабельность инвестированного капитала (Return On Investment ROI)
где:
- G 1К - прибыль с капитала, рассчитываемая только для определенной, "работающей" на предприятии части имущества;
- IK - сумма основных и оборотных средств.
Эмпирико-индуктивные системы строятся на основе анализа методами математической статистики результатов деятельности крупных выборок предприятий - около 100. Из большого числа экономических показателей выбираются наиболее существенные для соответствующих целей.
В основном такие системы применяются для ранней диагностики финансового состояния предприятий.
Анализ данных и модели
В общем смысле анализ данных – это исследования, связанные с обсчетом многомерной системы данных, имеющей множество параметров с целью получения определённых представления о характере явлений, описываемых этими данными.
Анализ данных нельзя рассматривать только как обработку данных.
Анализ данных это прежде всего средство проверки гипотез и решений задач исследователя
Универсальный способ изучение объекта – построение моделей
Модель – это описание объекта, системы для замещения объекта (системы) оригинала другой системой для лучшего изучения оригинала или его свойств.
По виду моделирования модели делят:
• на эмпирические — полученные на основе эмпирических фактов, зависимостей;
• теоретические — полученные на основе математических описаний, законов;
• смешанные, полуэмпирические — полученные на основе эмпирических зависимостей и математических описаний
В информационном подходе к анализу данных, помимо модели, присутствуют еще три важные составляющие: эксперт, гипотеза и аналитик.
Эксперт — ключевая фигура в процессе анализа. По-настоящему эффективные аналитические решения можно получить не на основе одних лишь компьютерных программ, а в результате сочетания лучшего из того, что могут человек и компьютер. Эксперт выдвигает гипотезы (предположения) и для проверки их достоверности либо просматривает некие выборки различными способами, либо строит те или иные модели.
Концептуальная классификация анализа данных (информации)
FASMI
В конце 90-х годов получил распространение свод требований к информационно-аналитическим системам в виде «теста FASMI» – аббревиатуры английских слов, определяющих требования к OLAP-системам:
FASMI - Fast Analysis Shared Multidimensional Information – русский перевод Быстрый Анализ Разделяемой Многомерной Информации.
Раскроем содержание перечисленных свойств, которыми должна обладать ИАС
1. Fast Быстрый – это свойство выражается во временных требованиях к ответам системы на запросы пользователей. Ответ должен быть получен обычно за время в пределах секунды. Более сложные запросы допускается обрабатывать в течение 5-ти секунд и лишь отдельные запросы допускаются с 20-секундной реакцией. Такие требования связаны с психофизиологичекими показателями аналитиков и ЛПР,
2. Анализ – возможности системы выполнять аналитические работы различного характера в предметной области пользователя собственными средствами, не прибегая к программированию.
3. Разделяемый (Shared)– система должна обепечивать необходимый уровень защиты при множественном доступе
4. Многомерный (Multidimensional)– определяющее требование. Средства OLAP-системы должны обеспечить работу с данными в многомерном представлении на концеп-туальном уровне с полной поддержкой иерархий.
5. Информация – должна обеспечиваться возможность получения ее из любых необходимых источников. Инструментальные средства оперируют с необходимыми объемами и структурами данных
6.
Концептуальная классификация анализа данных
Концептуально анализ можно разделить на три (два) направления:
– оперативная обработка транзакций - OLTP (On-line transaction processing).
- оперативный анализ данных (информации) – OLAP, широко распространена аббревиатура англоязычного названия - On-Line Analytical Processing .
- Интеллектуальный анализ информации Data mining (DMg)- широко распространенное в русской специальной литературе англоязычное название.
Некоторые авторы выделяют только 2 группы OLAP и Data mining
Задачи и содержание OLTP - оперативной обработки информации
Задачей OLTP - оперативная обработка транзакций
Структура ИАС для OLTP на рис.
Структура ИАС для OLTP
Типичным примером применения OLTP-систем является массовое обслуживание клиентов, например бронирование авиабилетов или оплата услуг телефонных компаний. Обе эти ситуации имеют два общих свойства: очень большое число клиентов и непрерывное поступление информации.
При бронировании авиабилетов из многочисленных пунктов продажи непрерывно стекается информация об уже проданных билетах, которую вводят со своих рабочих мест операторы-продавцы. В той же БД формируется информация о свободных местах
Задачи и содержание оперативного (OLAP) анализа
Основной задачей оперативного или OLAP-анализа является быстрое (в пределах секунд) извлечение необходимой аналитику или сотруднику (ЛПР - лиц принимающих решения) для обоснования или принятия решения информации.
Оперативный анализ – обеспечивающий быстрый, в соответствии с правилами FASMI, доступ к любой необходимой информации. Извлечение информации, как правило, сопровождается обработкой ее по несложным алгоритмам
Примерами такого рода целей OLAP-анализа могут быть. Определение суммарных издержек на производство всей совокупности изделий предприятия в течение заданного периода, начиная с большого периода времени (года).
В сбытовой сфере, к примеру, можно изучать объемы продаж, их динамику, привязку их к регионам, а также получать другие интересующие аналитика или ЛПР сведения.
Data mining –
Интеллектуальный анализ информации (DMg)- широко распространенное в русской специальной литературе англоязычное название. Поиск скрытых закономерностей в массивах данных, вывод из них правил, которым подчиняется данная предметная область, т.е. получение знаний, которые будут влиять на стратегическое и оперативное планирование, прогнозирование их последствий, принятие решений..
Области применения методов Data Mining
С помощью этих методов при отсутствии априорной информации об объектах и их поведении и значительной ее неполноте решаются следующие задачи:
– выделение в данных групп, сходных по некоторым признакам записей;
– нахождение и аппроксимация зависимостей, связывающих анализируемые параметры или события;
– поиск наиболее значимых параметров в данной проблеме (задаче);
– выявление данных, характеризующих значительные или существенные отклоне-ния от сложившихся ранее закономерностей (анализ отклонений);
– прогнозирование развития объектов, систем, процессов на основе хранящейся ретроспективной информации или с использованием принципов обучения на известных примерах и другие задачи.
Решаются, например, задачи:
-Анализ кредитного риска
- привлечение и удержание клиентов
-прогнозирования изменений клиентуры
- управление портфелем ценных бумаг
- оценка прибыльности ивестиционных проектов
Таблица примеров постановок задач для OLAP-методик и методов Data Mining
OLAP
Data Mining
Каковы средние показатели рентабельности предприятий в регионе?
Какова характерная совокупность значений показателей финансово-хозяйственной деятельности предприятий в регионе?
Каковы средние размеры счетов клиентов банка – физических лиц?
Каков типичный портрет клиента – физического лица, отказывающегося от услуг банка?
Какова средняя величина ежедневных покупок по украденной или фальшивой кре-дитной карточке?
Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?
Содержание понятия знания. Классификация видов знаний
Понятие «знания» рассматривается с различных точек зрения. В соответствии с этим имеется много определений этого понятия.
Энциклопедический словарь определяет знания как «проверенный практикой результат познания действительности, верное ее отражение в мышлении человека».
Применительно к ситуации с использованием компьютерных информационных систем (ИС) и, в частности ИАС, можно добавить «и в компьютерной ИС».
Имеется след. классификация различных видов знаний.
1. Различают фактические и стратегические знания.
- Фактические – это такие знания, которые позволяют специалисту предметной об-ласти решать конкретные задачи из бизнес-сферы или в каком-либо другом виде деятель-ности. К ним относятся факты, взаимосвязи, системы понятий, правила.
- Стратегические – позволяют определить поведение объектов в ближайшем или отдаленном будущем.
2. Знания как Факты и эвристики.
Факты – это хорошо известные и описанные обстоятельства.
Эвристики – знания, опыт, навыки специалистов в соответствующих предметных областях.
3. Декларативные и процедурные знания.
Первые являются очевидными, например: выручка – сумма, полученная в результа-те продажи товаров. Товар – изделие, предназначенное для продажи.
Процедурные – по существу алгоритмы преобразования декларативных знаний, действий над ними.
4. Интенсиональные и экстенсиональные знания.
Первые являются знаниями о связях между объектами (их атрибутами) рассматри-ваемой предметной области. Вторые – свойства объектов, их состояния, значения свойств в пространстве и динамике.
5. Глубинные и поверхностные знания.
Следует различать два различных процесса получения знаний.
- Первый – это «из-влечение» их из живого источника – эксперта, специалиста с целью их идентификации и возможной формализации, помещения в базу знаний и построения на этой основе экс-пертных систем, а также в других целях. Такой процесс относят к инженерии знаний.
-Другой – это «добыча» скрытых от пользователя знаний из данных, помещенных в различного рода компьютерные информационные системы, в том числе базы данных различного назначения, информационные хранилища. Процесс второго рода называют Data mining
Методика извлечения знаний
Data Mining — это не один метод, а совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на пять классов
1. Классификация — это установление зависимости дискретной выходной перемен
ной от входных переменных.
2. Регрессия — это установление зависимости непрерывной выходной переменной
от входных переменных.
3. Кластеризация — это группировка объектов (наблюдений, событий) на основе
данных, описывающих свойства объектов. Объекты внутри кластера должны
быть похожими друг на друга и отличаться от других, которые вошли в другие
кластеры.
4/ Ассоциация — выявление закономерностей между связанными событиями
5. Ассоциация — выявление закономерностей между связанными событиями.
Примером такой закономерности служит правило, указывающее, что из события X следует событие Y.
В литературе наряду с термином Data Mining используется термин KDD - Knowledge Discovery in Databases — извлечение знаний из баз данных
4. Методы анализа бизнес-процессов
Содержание экономического анализа
В управлении предприятием важными компонентами являются анализ и планирование его деятельности. При этом процесс анализа сочетается с прогнозированием хода различных процессов. Они могут быть контролируемыми, т.е. управляемыми субъектом, или неконтролируемыми, на которые он не в состоянии оказать достаточно заметно влияющее воздействие.
Классификация методов экономического анализа
Существует большое количество методов анализа, которые делятся на группы по различным признакам. Их можно сгруппировать:
1. По целям – это:
– оценка состояния и результатов деятельности предприятия;
– постоянный контроль рациональности ведения хозяйственной деятельности, выявление резервов для обеспечения выполнения поставленных задач;
– прогнозирование хода внутренних процессов на предприятии и внешних факторов, влияющих на его деятельность.
2. По временному фактору анализ разделяют на:
– использующий прошлую информацию, отраженную в документации и на различных но-сителях и содержащуюся в информационной системе – анализ фактов;
– на базе как прошлой, так и обращенной в будущее, то есть прогнозной информации – анализ событий и отклонений;
– анализ будущей информации – по существу оценка бюджетов и планов, их альтернатив.
3. По масштабности решаемых или обслуживаемых задач
– стратегический, сюда можно отнести оценку эффективности целей, долгосрочные про-гнозы, исторические оценки процессов и явлений и т. д
– оперативный – текущий анализ это оценка текущего состояния, выявление узких мест и отклонений; это контроль и анализ хода реализации планов
– система раннего предупреждения.
4. По предметным областям
– в маркетинге;
– производстенной или основной деятельности;
– в логистике;
– обеспечении ресурсами;
– финансовой;
– в сфере инвестиций и инноваций.
5. По методам различают анализ:
– сравнительный по подразделениям, предприятиям, регионам, временным периодам и т.д.;
– анализ отклонений;
– функционально-стоимостный;
– анализ цепочки создания стоимости и конкурентный анализ по Портеру;
– анализ полей бизнеса (Profit Impact of Market Strategies – PIMS);
– бенчмаркинг (Beanchmarking);
– интеллектуальный анализ (Data mining).
В процессе анализа используются различные математические методы, в том числе:
– математической статистики;
– многомерного статистического анализа,
– эконометрики;
– алгебры – линейная, логики, предикатов, нечеткой логики;
• численные методы анализа.
Примеры анализа в экономической предметной области
4.2.1. Проведения анализа в маркетинговой деятельности
Анализ разрыва (Gap analysis) является средством долгосрочного (стратегического) планирования. Основой метода является сравнение стратегий оптимального и возможного развития. Составляется матрица оценок стратегий по принятым показателям, по ним строятся профили стратегий. Используются экспертные оценки по балльной качественной системе.
Портфолио-анализ – подбор такого портфеля инвестиций с учетом рисков, то есть сочетания возможных потерь и доходности, который обеспечил бы наименьшие потери с максимально возможными доходами.
Анализ маржинальной прибыли (МП). Исследуется реакция величины МП на мар-кетинговые мероприятия. Объектами анализа являются продукты, регионы, заказы, груп-пы клиентов и т.д. Производится выявление причин убытков или резкого повышения при-были, их локализация и вырабатываются предложения по ликвидации «узких» мест или распространению передового опыта.
Анализ обеспечения ресурсами
АВС-анализ. Метод, позволяющий выделить наиболее значимые для предприятия группы товаров.
Анализ в области логистики
Логистика это наука и практика управления продвижением (перемещением и хранением) товара от производителя к потребителю.
Финансовый анализ
Стержнем насчитывающей несколько десятков показателей системы оценки финансового состояния предприятия являются показатели ликвидности и рентабельности, отражающие платежеспособность и прибыльность предприятия.
Методы стратегического анализа
1. Анализ стратегической позиции предприятия
Для оценки стратегической позиции предприятия используются несколько методик.
SWOT анализ – аббревиатура английских слов strengths, weaknesses, opportunities, threats сильные, слабые имеются в виду стороны предприятия, возможности, опасности.
Анализ цепочки создания стоимости и конкурентный анализ по Портеру. Им предложено представить совокупность выполняемых предприятием функций в виде цепочек процессов создания стоимости. В начале и конце цепочек деятельность предприятия интегрируется (согласуется) с деятельностью партнеров по бизнесу.
2. Анализ ситуации по слабым сигналам и оценка рисков
3. Анализ отклонений
4. Анализ полей бизнеса Это исследование воздействия рыночных стратегий на прибыль для данного пред-приятия или для отдельных полей бизнеса, или видов деятельности на базе информации о более чем 2000 предприятий, содержащейся в базах данных специализированных фирм.
5. Бенчмаркинг Одним из условий выживаемости предприятия, что особенно актуально для нынешних российских условий, является достижение мирового уровня рыночной привлека-тельности продукции или услуг. Здесь имеется в виду совокупная оценка свойств продукции, связанных с ней услуг, а также процессов на самом предприятии.
5. Программные и технические средства ИАС
В целом сложился рынок инструментальных средств создания и поддержки OLAP-систем, информационных хранилищ (Data Warehouse) (DWH), СППР (DSS), интеллектуального анализа Data mining (DMg), который получил обобщенное название - Business intelligence (BI), которому пока не подобран русскоязычный термин.
Процессы, протекающие при анализе данных, следующие
Структура технических средств ИАС
Средства реализации процесса анализа данных можно представить след. образом
Рис. Средства реализации процесса анализа данных
Источники информации для анализа делятся на внутренние и внешние.
К внутренним источникам относятся:
– бухгалтерский учет, включая аналитический и складской;
– статистический учет,
– управленческий учет;
– информация из баз данных, эксплуатирующихся на предприятии ЭИС; - - автономных автоматизированных рабочих мест (АРМ).
– деловая переписка и др. внутри предприятия;
К внешним источникам информации относятся:
– установочная информация из государственных органов и вышестоящих организаций (для зависимых предприятий) это правовые и руководящие документы, инструкции и т.д., определяющая условия функционирования;
– информация из специализированных информационных организаций и их информацион-ных хранилищ, к ним относятся различные фонды, финансовые и биржевые и т.д.;
– средства массовой и специализированной информации и прочие возможные источники информации.
На предприятии должен быть установлен порядок доступа к информации особенно аналитической по причине ее особой ценности и подчас конфиденциальности.
Таким образом, архитектура современной информационно-аналитической системы насчитывает следующие уровни:
1) первичная обработка данных и их сбор в транхзакционных БД
2) извлечение, преобразование и загрузка данных;
3) складирование данных;
4) представление данных в витринах данных;
5) анализ данных;
6) Web-портал
Процесс извлечения, преобразования и загрузки данных поддерживается так называемыми ETL-инструментами (extraction, transformation, loading), предназначенными для извлечения данных из различных транзакционных источников нижнего уровня, их преобразования и консолидации, а также загрузки в целевые аналитические базы данных - хранилища данных и витрины данных. На этапе преобразования устраняется избыточность данных, проводятся необходимые вычисления и агрегирования. Трехступенчатый процесс извлечения, преобразования и загрузки должен осуществляться на основе установленного регламента
На типичном предприятии данные обычно поступают с разных уровней. На верхнем уровне располагается СУБД типа ORACLE на втором файловые серверы разного типа, на третьем информация в виде файлов Word, Excel/
Сбор данных из различных источников сопряжен с тем, что информация в них формируется в различных форматах, имеет разнообразную структуру. В информационном хранилище и в системах анализа или в витринах данных информация должна быть приведена к определенной структуре и форматам.
Загружаемые данные должны иметь необходимое качество, в том числе достоверности, согласованности. Качество загружаемых и содержащихся в хранилище данных достигается системой организационных и программно-технических мероприятий. Имеет место и "ручная" проверка разного рода ошибок, несоответствий, например неодинаковых названий полей с одним смыслом.
Web-портал
Web-портал в структуре информационно-аналитической системы - современная тенденция развития архитектуры ИАС
Традиционный вид архитектуры ИАС в недавнем прошлом дополнился Web-порталом, постепенно приобретающим все более весомую роль в архитектуре ИАС. Возможность доступа к информации через привычный Web-браузер позволяет экономить на затратах, связанных с закупкой и поддержкой настольных аналитических приложений для большого числа клиентских мест. Реализация Web-портала позволяет снабжать аналитической информацией как пользователей внутри офиса, так и мобильных пользователей-аналитиков в любой точке мира, подключенных к порталу через Интернет.
Визуализация информации
Известно, что графическая информация в отличие от текстовой гораздо быстрее воспринимается человеком. Представление данных в интуитивно понятном для руководителя виде позволяет ориентироваться в больших объемах информации, отсеивая ненужную.
Концепция организации хранилища данных
Данные после обработки системой ELT в современных аналитических системах направляются в Хранилища данных.
Согласно определению родоначальника идеи складирования данных Б. Инмона, хранилище данных является предметно-ориентированной, интегрированной, некорректируемой, зависимой от времени коллекцией данных, предназначенной для поддержки принятия управленческих решений. В нем данные не меняются, только чтение.
В зоне хранения они обычно представлены в виде многомерной модели. В случае использования реляционной модели необходимо иметь в хранилище зону объектного представления данных для достижения уровня характеристик системы, соответствующего требованиям, предъявляемым к OLAP-системам.
Представлена структура с единым централизованным ХД
Схема централизованного хранения данных
Возможен и имеет место противоположный подход к хранению данных на основе распределения функций ИХ по местам их возникновения или группировки нескольких операционных БД вокруг локального или регионального информационного хранилища.
Схема распределенного информационного хранилища
Концепция витрин данных
Одним из вариантов организации централизованного хранения и представления информации является концепция витрин данных (Data Mart). Она предложена Forrester Research в 1991 году. При таком подходе информация, относящаяся к крупной предметной области – например информационному пространству крупной корпоративной системы, имеющей несколько достаточно самостоятельных направлений деятельности, группируется по этим направлениям в специально организованных базах данных, которые называют витринами данных. Витрины данных строятся, как правило, на основе информации из хранилища данных.
Возможны разные варианты структур ИХ и витрин данных
Схема автономных витрин данных
Схема центрального информационного хранилища и многих витрин данных
понятия о метаданных баз данных
Управление ИАС осуществляется посредством использования метаданных, то есть данных о том, что представляют собой и как хранятся данные и по существу содержат информацию о предметной области.
Реализация архитектуры ИАС
Сегодня на рынке информационных технологий представлен широкий спектр инструментальных средств, предназначенных для быстрой реализации компонентов архитектуры ИАС. Использование таких инструментов позволяет не разрабатывать аналитические приложения заново, а воспользоваться готовыми современными технологиями
Решение задачи обеспечения пользователей информацией в ИАС определяется в основном правильным подбором инструментов делового анализа.
При реализации ИАС предприятия могут быть использованы программные решения как разных фирм-производителей - смешанные решения, так и одного производителя - платформенно-базированные решения. И в первом и во втором случае имеются свои преимущества и недостатки. Поэтому выбор инструментов для архитектуры ИАС, несмотря на их многообразие, задача не из простых.
Программные продукты анализа данных
Необходимо отметить следующее обстоятельство. Целевые программные продукты ИАС весьма дороги и пока малодоступны для массового российского потребителя. Выходом из этого положения является использование редко применяемых на практике возможностей массовых программных инструментальных средств Excel, Mathcad, Stadia, Statistica и др.
Инструменты делового анализа данных относятся к так называемым BI-пакетам (ранее называли - Enterprise BI Suites, сейчас - Система бизнес-анализа business-intelligence),
Этот сегмент представлен следующими наиболее известными 14 компаниями-производителями: Actuate, AlphaBlox, Business Objects, Teradata, Brio, CA, Cognos, Crystal, Hummingbird, Hyperion, Information Builders, Microsoft, MicroStrategy, Oracle, SAS, SAP, Sagent, Viador.
Наиболее активны на Российском рынке систем BI (Bussiness Intelligence ум, интеллект) 7 западных компаний:
SAP, IBM, MicroStrategy, SAS, QlicTech, Oracle, Microsoft.
Также известны компании: Teradata Actuate, AlphaBlox, Business Objects
Следует иметь ввиду, что программные продукты часто разрабатываются отдельно каждому направлению анализа данных. Например по Oracle
Регламентированная отчетность
Oracle Reports
Произвольные запросы
Oracle Discoverer
Многомерный анализ (OLAP), инстремет разработки клиентских мест
Oracle JDeveloper с компонентом
Oracle Business Inteligence Beans
Извлечение знаний (data mining)
Oracle Data Mining Suite
Система управления многомерными витринами данных (OLAP)
Oracle OLAP
СУБД для реляционных витрин данных
Oracle Database
Проектирование и создание реляционных
витрин данных
Oracle Warehouse Builder
ETL - компонент для хранилища данных
Oracle Warehouse Builder
СУБД для хранилища данных
Oracle Database
Проектирование и создание хранилища данных
Oracle Warehouse Builder
Мировой рынок BI систеи в 2011 г -12.2 млрд долл.
Среди отечественных компаний предлагающих услуги по внедрениюBI приложений можно выделить 10-15 : Прогноз, Интертех, Микротест, Ай-Теко, Ситроникс, Техносерв Консалтинг, ФОРС
Если анализировать годовую выручку этих компаний, то доля BI невилика.
При этом компании уже тяготеют к отраслевой специализации BI, что дает конкурентные преимущества
Широко известные программные продукты анализа данных российских фирм
«Stadia-6.2», российской фирмы InCo
Пакет «Statistica» (Россия)
«Polyanalist» российской фирмы «Megaputer»
Deductor, лаб. BaseGroup (Рязань)
Необходимо заметить, что многие задачи анализа могут быть выполнены в MS Excel.
Среди массовых инструментов необходимо выделить пакет «Stadia-6.2» российской фирмы InCo, реализующий все методики статистического анализа, прогнозирование, сравнение возможных альтернатив выбора.
Пакет «Statistica» – с его помощью возможно решение всех задач статистического анализа, а также выявления закономерностей и прогнозирования нейросетевыми и другими современными методами.
Нейросетевое дополнение к пакету «Statistica» разработано российской фирмой «Статсофт». Этой фирмой в 2004 году выпущена русская усовершенствованная версия этого инструментального средства.
«Polyanalist» российской фирмы «Megaputer» относится К специализированным пакетам интеллектуального анализа относится высокоразвитый набор инструментальных средств для интеллектуального анализа крупных массивов данных (до миллионов записей) Эта фирма пользуется мировой известностью, ее продукты используются более чем в 20 странах.
Deductor лаб. BaseGroup (Рязань) Активно развивает свои продукты, ориентированные на реализацию методов Data mining
Контрольное задание № 1
Прогнозирование событий
Разработал : к.т.н., доцент Аксенов Ю.В.
Цель лабораторной работы: Освоить способы прогнозирования событий методом регрессионного анализа.
1. Задание для контрольного задания:
Провести регрессионный анализ статистических данных, представляющих взаимозависимость двух переменных, в целях определения прогнозируемых значений зависимой переменной.
2. Порядок выполнения контрольного задания:
1. Изучите разделы методического указания.
2. Составьте таблицу статистических данных по одному из известных Вам профилей работы (аналогично таблицы 1) для выполнения данной работы.
3. Постройте точечную диаграмму для заданного ряда данных и добавьте линию тренда, характеризуемую линейным и нелинейным уравнениями (на отдельных диаграммах). Интерпретируйте полученные результаты. Определите прогнозируемые значения для нескольких точек независимой переменной. Сравните прогнозируемые данные.
4. Проведите анализ связи переменных заданного ряда данных, используя инструмент анализа - функцию «Регрессия», при аппроксимации связи переменных линейным и нелинейным уравнениями. Интерпретируйте полученные результаты. Определите прогнозируемые значения для нескольких точек независимой переменной.
5. Сравните результаты прогнозирования, полученные в пунктах 3, 4 настоящего задания, и сделайте вывод о лучшем способе прогнозирования для исследуемых данных.
3. Методические указания
3.1 Введение
Руководители разного ранга ежедневно сталкиваются с задачами, решение которых требует анализа имеющейся накопленной информации, в частности, для прогнозирования событий.
Прогнозирование всегда явно или неявно основывается на наборе данных. При этом следует иметь в виду, что, если используемые данные будут необъективны, неоднозначны или будут характеризоваться другими неточностями или погрешностями, то никакие самые изощренные методы не смогут компенсировать эти недостатки, и результаты анализа будут совершенно неадекватны существующей ситуации.
На практике при анализе каких-либо явлений обнаруживаются связи между несколькими различными параметрами (факторами). Например, заработная плата служащего зависит от его образования, места работы, объема выпускаемой предприятием продукции и т.д. Однако существуют определенные связи и между двумя параметрами, выделенными из списка взаимосвязанных параметров. Например, заработная плата служащего зависит от его образования. Поэтому часто проводят анализ зависимостей двух параметров.
В математических методах анализа существуют два базовых инструмента, с помощью которых анализируются взаимосвязи параметров. С помощью корреляционного анализа оценивается степень взаимосвязи параметров, а регрессионный анализ показывает, как можно предсказать поведение параметров (переменных), т.е. имеется возможность анализировать, как изменение одного параметра влияет на изменение другого.
Мера связи двух параметров определяется коэффициентом корреляции. Для его расчета имеется соответствующая методика, а в MS Excel имеется соответствующая функция. Коэффициент корреляции принимает значения в интервале -10, то связь между переменными положительная (прямая). Иначе говоря, можно утверждать, что оба параметра (с точностью до случайных погрешностей) одновременно возрастают или убывают. При R<0 связь отрицательная (обратная) - с возрастанием одной величины другая имеет устойчивую тенденцию к убыванию.
Регрессионный анализ представляет собой следующий этап статистического анализа и позволяет предсказать значения случайной величины на основании значений одной или нескольких независимых случайных величин. Поскольку здесь фигурируют взаимосвязи величин, то логично, что эти связи хорошо описываются аналитическими уравнениями и графически их можно отобразить в виде линий. Эти уравнения в регрессионном анализе называются уравнениями регрессии, а линии – линиями регрессии. Линия регрессии переменной Y, зависящей от независимой переменной X, является статистическим построением, которое представляет линию наибольшего "соответствия" данным. Для нахождения оптимального прохождения линии на графикеГРАФИК
-1) расписание, определяющее последовательность выполнения действий, протекания событий во време... регрессионного анализа в MS Excel используется методМЕТОД
- способ исследования явлений природы и общественной жизни, а в узком смысле - прием, способ или... наименьших квадратов1.
Регрессионный анализ может исследовать связи, как между двумя факторами, так и между несколькими. В последнем случае анализ носит название – многофакторный.
Наиболее важным параметром регрессионного анализа является коэффициент регрессии (коэффициент детерминации) - R2. Для линейной зависимости он равен квадрату коэффициента корреляции. Этот коэффициент дает количественную оценку меры анализируемой связи и изменяется от 0 до 1. Коэффициент детерминации показывает, насколько точно найденная функция регрессии описывает связь между исходными значениями факторов X и Y. Чем ближе R2 к 1, тем в большей степени уравнение регрессии объясняет изучаемый фактор.
Для проведения статистического анализа разработано ряд программных продуктов, среди которых, например, широко известны программные пакеты Statistica и Stadia. Но на практике они, к сожалению, не всегда доступны рядовому пользователю, а в то же время многие из задач статистического анализа можно достаточно успешно и просто решать, используя широко известный и распространённый MS Excel.
В MS Excel могут использовать следующие формы уравнений для описания взаимодействия параметров (факторов) исследуемого процесса:
Линейный - уравнение имеет вид: Y = a + bX;
логарифмический - Y = a + Ln(X);
степенной (показательный) - Y = a * Xb;
полиноминальный - Y = a + b1 X + b2 X2 + …+ bn Xn;
экспоненциальный - Y = ebx
___________________________________________
1 Метод наименьших квадратов - статистический метод определения параметров совокупности путем минимизации суммы квадратов (иногда средней суммы квадратов) отклонений между фактическими и расчетными данными.
(Yi—Y(Xі))2=min.
Yi -действительно наблюдаемые значения,
Y(Xі) - значения, которые получаются из уравнения регрессии.
Методика исследования закономерностей взаимодействия параметров может иметь варианты. Для целей прогнозирования наиболее приемлемой и достаточно доступной (по нашему мнению) технологией проведения регрессионного анализа с помощью MS Ехсеl является следующая:
1. Формируется массив статистических данных исследуемых параметров по определенным интервалам.
2. Строится точечная диаграмма, которая отражает связь исходных данных. К точечной диаграмме добавляется линия тренда с аппроксимирующим её уравнением.
3. Проводится анализ с использованием функции «Регрессия».
4. На основании результатов, полученных в пунктах 2 и 3, принимается решение о типе зависимости, которую можно использовать для прогноза с определенной доверительной вероятностью.
5. Определяются необходимые данные прогноза.
3.2 Прогнозирование с использованием
линии тренда
Рассмотрим технологию проведения регрессионного анализа с помощью MS Ехсеl на конкретных примерах.
Для получения прогноза наиболее наглядный способ исследования связи между двумя переменными базируется на использовании линии тренда. В качестве примера проведем анализ связи стоимости и площади объектов недвижимости. Исходные данные приведены в таблице 1.
Таблица 1
Площадь, м2
Цена, у.е.
52
26
66
31
69
37
74
34
78
39
82
38
88
39
92
31
96
37
101
38
104
43
106
44
Первым шагом является построение точечной диаграммы. Здесь и в дальнейшей работе принимается во внимание, что в MS Excel зависимую переменную называют Y-переменной, а независимую переменную называют Х-переменной.
Введите данные таблицы 1 на листе MS Excel. Выделите область данных без меток (заголовков), войдите в пункт меню «Вставка», затем «Диаграмма». Выберите – «Точечная диаграмма». Далее можно уточнить диапазон исходных данных для диаграммы и в пункте меню «Ряд» можно указать распределение столбцов (строк) по осям ординат. Затем укажите название диаграммы, двух её осей, место расположения диаграммы и легенду (название). При желании имеется возможность установить подписи для каждой точки диаграммы.
Следующий шаг - добавление линии тренда к точечной диаграмме и форматирование результатов:
1. Выделите точки на диаграмме (щелкните на какой-либо точке данных) и в пункте меню «Диаграмма» (этот пункт появляется в главном меню, когда активизировано окно диаграммы) выберите «Добавить линию тренда» (такие линии часто также называют линиями среднего соотношения).
2. В появившемся окне «Линия тренда» выберите тип линии, который будет соответствовать точечной диаграмме.
Для прогнозирования данных в нашем примере можем использовать различные типы линий тренда.
Линейный тренд. После построения точечной диаграммы (рис. 1.1) можно предположить, что линия тренда может быть линейная. Исследуем этот тип.
В окне «Линия тренда» выделите «Линейная». Щелкните по вкладке «Параметры» и включите опции: «Показывать уравнение на диаграмме» и «Поместить на диаграмму величину достоверности аппроксимации (R^2)». Убедитесь, что пункт «Пересечение кривой с осью Y в точке:» не отмечен. Нажмите OK. Результат представлен на рис. 1.1.
Имеется ряд возможностей редактирования диаграммы:
- изменить шрифт текста и получить большее количество десятичных знаков в формуле (дважды щелкните по области, где расположено уравнение, и в окне «Формат подписей данных» выполните необходимые действия).
- переместить и ввести дополнительный текст в область, где расположено уравнение (выделите эту область).
- установить параметры шкал осей, их вид и шрифт цифр (щелкните по оси графика, затем щелкните правой кнопкой на маркере и воспользуйтесь пунктами контекстного меню).
Рис.1.1
Интерпретация полученных результатов
Уравнение аппроксимации Y= 0,2092х + 18,67 можно переписать в виде: Предсказанная цена = 18,67 + 0,2092* Площадь.
Величина смещения по Y или постоянного члена в уравнении равна 18,67 и измеряется в тех же единицах, что и переменная Y. Величина 0,2092 является мерой наклона линии регрессии. Она показывает среднее изменение переменной Y при единичном изменении переменной X. Одним из самых распространенных способов ответить на вопрос «Насколько хорошо приближение» является исследование значения коэффициента детерминации (R2). Здесь значение R2 равно 0,679 и показывает, что примерно 68% колебаний стоимости от жилой площади может быть выражено линейной моделью. Возможно, остальные 32% колебаний могут быть выражены через другие параметры объектов в регрессионной модели с многими параметрами.
Для определения величины прогнозируемой цены «вперед» или «назад» выполните следующее.
Активизируйте область построения диаграммы или выделите точки на диаграмме. В пункте меню «Диаграмма» (этот пункт появляется в главном меню, когда активизировано окно диаграммы) выберите «Добавить линию тренда» или тот же пункт выберите в контекстном меню, щелкнув правой кнопкой по любой точке диаграммы. В появившемся окне «Линия тренда» выделите пункт «Параметры», в окне которого укажите задание на прогнозирование цены объекта недвижимости. Прогнозируемая величина появится на диаграмме.
Далее рассмотрим нелинейный тип линии тренда.
По изложенной выше методике постройте точечную диаграмму по данным таблицы 1. Затем при добавлении линии тренда в окне «Линия тренда» выберите, допустим, тип - «Логарифмическая». При этом следует иметь в виду, что свойства алгоритма предписывают, чтобы значения независимой переменной были положительными. Если же среди значений X имеются нулевые или отрицательные значения, то при добавлении линии тренда пиктограмма «Логарифмическая» на вкладке «Линия тренда» будет недоступна. Чтобы обойти это ограничение, можно добавить какое-либо число ко всем X.
Результаты построения точечной диаграммы и добавления логарифмической линии тренда приведены на рис. 1.2.
Рис. 1.2
В данном примере значение R2 равно 0.7019, это лучше результатов линейного моделирования.
3.3 Анализ статистических данных с помощью
функции «Регрессия»
При необходимости выполнить более полный и точный расчет, включая вычисление остатков, стандартных ошибок, дисперсионный анализ и др. можно использовать функцию «Регрессия». Эта функция анализирует отношения переменных, связанных линейной зависимостью: Y=а+bX. Функция «Регрессия» входит в пакет «Анализ данных». Если же на Вашем компьютере пункт «Анализ данных» в меню «Сервис» отсутствует, то в меню «Сервис» - «Надстройки» выделите пункт «Пакет анализа» и щелкните ОК. После этого будет выполнена загрузка пакета из дистрибутива и подключение его к MS Excel.
Следуйте следующим инструкциям по использованию инструмента анализа «Регрессия»:
Расположите данные на листе MS Excel, как и ранее, по столбцам: переменная X слева, переменная Y справа. Освободите место для результатов регрессионного анализа справа от данных, по крайней мере, 16 столбцов.
Выберите функцию «Регрессия» и нажмите ОК. Появится диалоговое окно (рис. 1.3), в которое введите ссылки на интервалы значений Y и X. Если в диапазон включаются заголовки столбцов, то отметить пункт «Метки».
Опция «Константа – ноль» включается для прохождения линии регрессии через начало координат.
Рис. 1.3
3. «Выходной интервал» - область, где будут располагаться итоговые результаты и диаграммы. В этом поле достаточно ввести ссылку на левый верхний угол области шириной в 16 столбцов.
Флажок «Остатки» устанавливается, если требуется включить столбцы с предсказанными значениями Y и остатками. Остатки – это разница между статистическими данными и предсказанными.
Флажки: «График остатков» - выводятся точечные графики зависимости остатков от значений Xi; «График подбора» для вывода точечных графиков теоретических и статистических значений Yi; «График нормальной вероятности» (график вероятности нормального распределения) – зависимость Yi от автоматически формируемых интервалов персентелей1.
Ниже приведены примеры использования функции «Регрессия» для линейной и нелинейной зависимости исходных данных.
Результаты анализа для линейной зависимости представлены на рис. 1.4, где:
• Множественный R — коэффициент корреляции R;
• R-квадрат — коэффициент детерминации R2;
• Нормированный R - квадрат — нормированное значение коэффициента детерминации2;
• Стандартная ошибка - стандартная ошибка оценки 3;
• Наблюдения — это число исходных наблюдений (n).
Результаты дисперсионного4 анализа используются для проверки значимости коэффициента детерминации.
-------------------------------------
1 Это характеристика набора данных, которые выражают ранги (значения) пунктов шкалы данных в виде процентов (от 0 до 100%), а не в виде чисел от 1 до n. В нашем случае в виде персентелей представляются значения Xi.
2Нормированный R-квадрат – скорректированный (адаптированный, поправленный) коэффициент детерминации.
где n – число наблюдений, m - количество факторных признаков.
3Стандартная ошибка = , определение MS – приведено ниже.
Для регрессионного уравнения в целом она выступает как степень точности прогнозов, которые базируются на уравнении. Стандартная ошибка — это мера ошибки предсказанного значения Y для отдельного значения X.
4 Дисперсия - мера рассеивания (отклонения от среднего) - средний квадрат отклонений индивидуальных значений признака от его средней величины. Дисперсия фактических значений результативного признака от вычисленных по уравнению определяется как
2 = (Yi—Y(Xі))2/n, где: Yi -действительно наблюдаемые значения,
Y(Xі) - значения из уравнения регрессии, n-количество наблюдений.
Здесь:
• df - число степеней свободы. Для строки «Регрессия» – число переменных (количество факторных признаков – m).
• SS - сумма квадратов отклонений. Для строки «Регрессия» - сумма квадратов отклонений теоретических данных от среднего ( (Yi—Y(Xі))2 ), для строки «Остаток» - сумма квадратов отклонений эмпирических данных от теоретических, для строки «Итого» это сумма квадратов отклонений эмпирических данных от среднего.
• MS содержит значения дисперсии, которые рассчитываются по формуле MS=SS/df. Для строки Регрессия дисперсия называется факторной, для строки Остаток – остаточной.
• F – расчетное значение критерия Фишера. Вычисляется по формуле: F = MS(регрессия)/MS(остатки)
• Коэффициенты – это значения коэффициентов уравнения регрессии.
• Стандартная ошибка - стандартная ошибка коэффициентов уравнения регрессии.
• t – статистика - критерии вычисляемые как =коэффициет/стандартная ошибка.
• Нижние 95% и верхние 95% - границы доверительных интервалов для коэффициентов регрессии.
• В полученной таблице «Вывод остатка» «предсказанная цена» – данные в соответствии с уравнением регрессии, «остатки» – разница между статистическими и теоретическими данными.
Рис. 1.4
Интерпретация полученных результатов
Смещение и коэффициент наклона аппроксимирующей прямой представлены в столбце «Коэффициенты» (рис. 1.4). Коэффициент Y- 18,66979 является постоянным членом уравнения линейной регрессии, а коэффициент 0,2092 (переменная Х1) является мерой наклона линии регрессии. Для осуществления прогноза стоимости объекта жилой площади используется формула:
Предсказанная цена = 18,6697 + 0,2092* Площадь.
Обычно для ответа на вопрос «Насколько хорошо приближение» используются следующие четыре характеристики: стандартная ошибка, R2, t-статистика и дисперсионный анализ.
Нормированный R-квадрат, приведенный в ячейке Е6, используется для сравнения выбранной модели с другими, имеющими дополнительные независимые переменные.
Значения t-статистики в ячейках G17:G18 являются частью проверок гипотез о коэффициентах регрессии (значения t-статистики =Коэффициент/стандартная ошибка). Нулевая гипотеза – это когда взаимозависимость исследуемых переменных отсутствует, то есть мера наклона линии регрессии равна нулю. В нашем примере мера наклона выборки (0,2092) со стандартной ошибкой коэффициента (оценка ошибки выборки = 0,0398) находится от нуля на расстоянии 5,2437 стандартных ошибок.
Р-значение (0,000159), приведенное в ячейке H18 является вероятностью получения данных результатов при выполнении нулевой гипотезы. Таким образом, нулевая гипотеза отвергается.
Графики функции регрессии
Инструмент анализа строит диаграммы:
• график остатков
• график подбора.
График подбора подобен графику с добавленной линией тренда, за исключением того, что предсказанные значения на этом графике отображаются маркерами без соединяющей их линии.
График остатков применяется для определения, является ли приемлемой форма аппроксимирующей кривой. Если график остатков имеет случайный рисунок, то линейное приближение может быть удовлетворительным. Если же график остатков имеет определенную структуру, то может потребоваться дополнительное моделирование.
Использование функции «Регрессия» для нелинейной зависимости
Методика проведения анализа взаимодействия параметров, связанных нелинейным уравнением, аналогична методики для линейных связей. Однако, механизм проведения анализа для нелинейных зависимостей, несколько отличается. В этом случае требуется интерпретация исходных данных для их соответствия характеру уравнения Регрессии.
Для примера рассмотрим один из указанных ранее четырех способов описания нелинейной зависимости двух переменных - логарифмический.
В логарифмической модели уравнение линии регрессии имеет вид: Y = a + Ln(X). Следовательно, исходными данными для функции «Регрессия» в данном случае будут Y и Ln(X). Поэтому в таблице исходных данных создаем дополнительный столбец Ln(X), т.е. Ln(площадь). Для быстрого заполнения ячеек В2 - В16 в ячейку В2 введите формулу «=Ln(А2)», а в остальные ячейки столбца «В» эту формулу скопируйте, выделив В2 и дважды щелкнув по маркеру заполнения в правом нижнем углу ячейки.
Далее активизируйте функцию «Регрессия». В диалоговом окне «Регрессия» (Рис. 1.5) введите ссылки на входной интервал Y (цена) и входной интервал Х (Ln(площадь)).
На рис. 1.5 приведены результаты после удаления части таблицы вывода итогов, относящейся к анализу дисперсии.
Рис. 1.5
По сравнению с линейной моделью данная логарифмическая модель имеет меньшую стандартную ошибку и большее R2, что говорит о её лучшем соответствии для описания зависимостей переменных.
Для осуществления прогноза стоимости объекта жилой площади можно воспользоваться формулой: = -44.31 + 18.289 * Ln(X)
Аналогично проводится регрессивный анализ степенного, экспоненциального и полиномиального моделирования.
4. Вопросы для самопроверки
1. Назовите два базовых инструмента MS Excel, которые используются для анализа взаимосвязи параметров ряда статистических данных.
2. Что можно сказать о связи параметров ряда данных, если коэффициент корреляции близок к -1 или 1.
3. Что называют дисперсией.
4. В каких пределах изменяется коэффициент регрессии и что характеризуют величины этого коэффициента близкие к крайним точкам.
5. Суть метода наименьших квадратов при построении линии тренда.
6. Какой вид уравнения использует функция «Регрессия» для описания взаимодействия параметров (факторов) исследуемого процесса.
7. Если взаимодействие параметров ряда статистических данных характеризуется нелинейным уравнением, то какие преобразования необходимо выполнить с этим уравнением для анализа процесса с помощью функции «Регрессия».
8. Что необходимо выполнить для получения прогнозируемых величин с помощью линии тренда.
9. Какие данные среди результатов работы функции «Регрессия» называют «смещением» и какие - мерой наклона линии регрессии.
10. Как рассчитывается прогноз по данным, полученным с помощью функции «Регрессия».
11. Назовите функции MS Excel, которые выполняют только отдельные частные этапы регрессионного анализа.
Разработал : к.т.н., доцент Аксенов Ю.В.
Для зачета контрольной задачи наряду с Вашим текстом предоставляется файл расчетов (файл в Excel на каком либо носителе или по эл. почте преподавателя).