Технология разработки Хранилища Данных.
Выделяют следующие этапы разработки:
1. Анализ процессов и событий, существенных для организации (например, процесс получения информационного продукта и события, влияющие на этот процесс).
2. Анализ данных, используемых организацией (информация об используемых внешних данных и их источниках; о периодичности и форме поступления информации; о внутренних информационных системах организации, их функциях и форматах данных, а также алгоритмах обработки данных, используемых при наступлении события).
Исходные
данные
Преобразование Хранилища
данных
Рис.2. Структура системы корпоративных знаний
3. Разработка логической модели системы (ХД):
· определение данных и знаний, необходимых в процессе принятия решения и концептуальное проектирование моделей данных и знаний;
· распределение пользователей системы (географическое, организационное, функциональное);
· доступ к данным: объем данных, необходимый для анализа, уровень агрегированности данных, источники данных (внешние или внутренние), описание информации, совместно используемой разными подразделениями;
· аналитические характеристики системы: измерения данных, основные отчеты, последовательность преобразования аналитической информации, степень предопределенности анализа, существующие или разрабатываемые средства анализа.
4. Выбор аппаратной и программной платформ для реализации системы и разработка программно-технологической архитектуры Хранилища Данных.
При этом следует учесть, что СППР должна обеспечивать пользователю, при необходимости, возможность детализации данных. Руководитель или эксперт, получив интегрированное представление данных или выводы, сделанные на его основе, может затребовать более детальные сведения, уточняющие источник данных или причины выводов (это означает, что надо обеспечить связь СППР не только с Хранилищем Данных, но, и , при необходимости, с соответствующей операционной БД).
При выборе сетевого решения простейшей является архитектура «клиент-сервер». Традиционно Хранилище размещается на сервере (или на серверах), а аналитическая обработка и пользовательский интерфейс поддерживаются клиентом. Если двухуровневая архитектура начинает работать неэффективно из-за перегрузки клиента, вводят трехуровневую архитектуру «клиент-агент-сервер». В такой архитектуре между клиентом и сервером (который называют корпоративным) помещается еще один сервер (сервер приложений), который выполняет роль посредника между корпоративным сервером и клиентом, снижая нагрузку на последний .
5. Заполнение Хранилища Данных.
Выделяют три взаимосвязанные задачи: Сбор Данных (Data Acquisition), Очистка Данных (Data Cleansing) и Агрегирование Данных (Data Concolidation).
Под Сбором Данных понимают процесс организации передачи данных из внешних источников в Хранилище Данных, а также процесс пополнения Хранилища Данных (в отличие от традиционных баз данных, он осуществляется путем «массовой загрузки», или передачи очередного среза («моментального снимка») из операционной базы данных (поэлементные изменения не предусматриваются).
Под Очисткой Данных понимается процесс модификации по ходу заполнения Хранилища: исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов (например. управляющих) и унификация типов данных, проверка на целостность.
Под Агрегированием Данных понимается выборка данных из операционной БД и других источников в соответствии с метаданными. Эта задача не может быть полностью решена автоматически.
Концепция
хранилищ данных связана с построением стратегических СППР, и зачастую хранилища
данных являются центральным элементом таких СППР.