Data Mining (Интеллектуальный Анализ Данных)

Data Mining (Интеллектуальный Анализ Данных)

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Эта новая технология возникла на пересечении статистики, баз данных и искусственного интеллекта и привела  к новому витку в развитии средств и методов обработки данных.

Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных. Дело в том, что человеческий разум сам по себе не приспособлен для  восприятия больших массивов разнородной информации. Человек к тому же не способен улавливать более двух-трех взаимосвязей даже в небольших выборках. Но и традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной сложной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining).

Современные технологии Data Mining (discovery-driven data mining) перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (online analytical processing, OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер.

Другими словами, цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных.

Методы Data Mining позволяют выделить пять стандартных типов закономерностей,:

·         ассоциация

·         последовательность

·         классификация

·         кластеризация

·         прогнозирование

        Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Типичным примером ее проявления является анализ структуры покупок. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

        Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель  60% новоселов обзаводятся холодильником, но не наоборот т.е. покупка холодильника не влечет за собой покупки дома..

        С  помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

        Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

        Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД. Если удается построить математическую модель и найти шаблоны, адекватно отражающие динамику изменения данных, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

                В системах поддерживающих Data Mining применяются следующие методы:

статистические, нейронные сети, рассуждения на основе аналогичных случаев (CBRcase based reasoning), деревья решений (decision trees), генетические алгоритмы, эволюционное программирование, алгоритмы выявления ассоциаций.

Интеллектуальный Анализ Данных (ИАД) определяют также как метод поддержки решений, основанный на анализе зависимостей между данными (самой простой формой ИАД может быть обычный анализ отчетов, построенных по запросам к базе данных).

В более развитых технологиях рассматривают два подхода:

1) пользователь сам выдвигает гипотезы относительно зависимостей между данными;

2)  зависимости между данными ищутся автоматически.

Процессы ИАД подразделяются на три большие группы:

-          поиск зависимостей,

-          прогнозирование 

-          анализ аномалий.

Поиск зависимостей состоит в просмотре базы данных с целью автоматического выявления зависимостей (проблема состоит в отборе действительно важных зависимостей из числа существующих).

Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения, система же анализирует содержимое БД и находит правдоподобные значения.

Анализ аномалий - это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых значений.

В системах ИАД применяется чрезвычайно широкий спектр математических,                                                                                                  логических                                                                                  и статистических методов: от анализа деревьев решений до нейронных сетей. Многие методы ИАД возникли из задач экспертного анализа . Синонимом ИАД можно считать процесс «извлечения знаний из баз данных».

 

Сайт создан в системе uCoz
Яндекс.Метрика