WWW.PDF.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Разные материалы
 

Pages:   || 2 |

«РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДИКИ ПРОЕКТИРОВАНИЯ БАЗЫ МЕТАДАННЫХ ХРАНИЛИЩА ГЕОДАННЫХ ...»

-- [ Страница 1 ] --

Федеральное государственное бюджетное образовательное учреждение высшего

профессионального образования

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ГЕОДЕЗИИ И КАРТОГРАФИИ

(МИИГАиК)

На правах рукописи

Зайцев Владислав Вячеславович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДИКИ ПРОЕКТИРОВАНИЯ

БАЗЫ МЕТАДАННЫХ ХРАНИЛИЩА ГЕОДАННЫХ

Специальность 25.00.35 – «Геоинформатика»

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук

Научный руководитель д-р техн. наук, проф. А.А. Майоров Москва 2015  

ОГЛАВЛЕНИЕ

Введение 3

1. Обзор исследований проводимых в области хранилищ геоданных и стандартизации метаданных в геоинформатике 10

1.1. Обзор исследований проводимых в области хранилищ геоданных 10

1.2. Стандартизация метаданных в геоинформатике 32

2. Состав базы метаданных хранилища геоданных 39

3. Разработка и исследование методики проектирования базы метаданных хранилища геоданных 81 Заключение 107 Список сокращений и условных обозначений 111 Список литературы 114 Список иллюстрированного материала 130   Введение Актуальность темы исследования. Развитие геоинформационных технологий способствует накоплению организациями больших объемов данных, представленных в различных форматах. Накопленные за многие годы и собираемые поныне данные, в том числе и пространственные данные, могут стать объектом исследования с целью нахождения новых знаний.

В последнее время в ходе создания и применения инфраструктуры пространственных данных (далее – ИПД) возрос практический интерес к хранилищам данных и оперативной аналитической обработке данных.

В геоинформационных системах (далее – ГИС) данные технологии пока не используются, поскольку ГИС применяют реляционные базы данных, а хранилища данных в основном используют многомерное представление данных1.

Традиционные

–  –  –

                                                             Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я.. Прикладная геоинформатика / М.: МАКС Пресс, 2005. – 360 с.

Распоряжение Правительства РФ от 21 августа 2006 г. N 1157-р.

  Метаданные – данные, которые позволяют описывать содержание, объем, положение в пространстве, качество и другие характеристики пространственных данных и пространственных объектов1.

В свою очередь метаданные в среде хранилища данных применяются не только для каталогизации, учета, статистической обработки и анализа данных2, а так же для описания вычислительной среды, информационной безопасности, возможности планирования и восстановления данных. Поэтому под метаданными в среде хранилища данных следует понимать совокупность спецификаций, отражающих информационную модель, описание структуры данных хранилища и источников, а также описание процессов обработки данных, циркулирующих в среде.

Существующие методики проектирования баз пространственных метаданных основываются на стандартах ГОСТ Р 51353-99 «Геоинформационное картографирование. Метаданные электронных карт» и ГОСТ Р 52573-2006 «Географическая информация. Метаданные» и позволяют создать базу метаданных, содержащую описания только характеристик пространственных данных и пространственных объектов.

В свою очередь методика создания баз метаданных хранилищ данных, основанная на спецификации «Общая метамодель хранилища» не позволяет учесть особенности описания характеристик пространственных данных и пространственных объектов.

В этой связи актуальность диссертационного исследования обусловлена следующим:

необходимостью интеграции несопоставимых и нескоординированных между собой пространственных данных в ходе создания ИПД;

неспособностью метаданных в составе ИПД описывать как характеристики пространственных данных и пространственных объектов, так и процессы их обработки в среде хранилища данных;

                                                             Там же.

ГОСТ Р 52573-2006 «Географическая информация. Метаданные»    ограниченными возможностями существующих методик проектирования баз метаданных хранилища геоданных.

Степень разработанности темы. Исследования в области создания методики проектирования баз (каталогов) метаданных проводились в МИИГАиК.

Например, исследование Краснобородько А.В. «Исследование и разработка структур баз геоданных информационно-телекоммуникационных систем»

посвящено созданию иерархического каталога метаданных, представляющего основную конструкцию для манипуляции с геоданными в информационнотелекоммуникационной системе. Иерархичность метаданных может выстраиваться по масштабу или охвату территорий.1 В ходе создания каталога метаданных автор использует как основу международный стандарт (профиль) ISO 19115 «Географическая информация.

Метаданные». Создаваемый автором перечень метаданных позволяет четко определить объект геоданных и произвести к нему непосредственное обращение2, но не позволяет описывать происходящие с геоданными преобразования.

Для реализации цели, поставленной в работе Зраенко Ю.Д. «Разработка технологии организации пространственных данных в региональном узле Российской инфраструктуры пространственных данных», одной из поставленных задач является разработка состава объектных метаданных и уровней их организации.

Если в основу структуры метаданных единиц хранения подсистемы «Архивная база данных» положен ГОСТ Р 52573-2006 «Географическая информация. Метаданные» как национальный профиль международного стандарта ISO 19115:2003 «Geographic information — Metadata»3, то в подсистеме «Хранилище» объектные метаданные генерируются на основе метафайлов, получаемых из «Архивной базы данных».

                                                             Краснобородько А.В. «Исследование и разработка структур баз геоданных информационнотелекоммуникационных систем»

Там же.

Зраенко Ю.Д. «Разработка технологии организации пространственных данных в региональном узле Российской инфраструктуры пространственных данных».

 

Далее к подсистеме «Геопортал» подключаются две базы метаданных:

метаданные пространственных объектов и метаданные готовой продукции.

Учитывая, что подготовка выходной продукции выполняется в среде ГИС, отсутствует необходимость в метаданных, описывающих процессы, происходящие с пространственными данными в подсистеме «Хранилище».

В работе Ребрия А.В. «Исследование и разработка методологии создания базы пространственных данных» была разработана логическая структура базы метаданных, отвечающая требованиям стандарта ГОСТ Р 52573-2006 «Географическая информация. Метаданные», совместимая со стандартом ISO 19115 «Географическая информация. Метаданные» и позволяющая перейти к физическому проектированию базы метаданных на любой программной платформе1.

В данной работе автор наиболее полно разработал методику и алгоритмы формирования и ведения базы метаданных геоинформационных продуктов, в которых не применяются метаданные, описывающие процессы трансформации пространственных данных.

Целью диссертационной работы является разработка и исследование методики проектирования базы метаданных хранилища геоданных (далее – БМД ХГД), входящего в состав информационных ресурсов для создания и применения ИПД. Разрабатываемая методика проектирования отличается от существующих методик возможностью создания метаданных, описывающих пространственные данные, а также процессы их преобразования в ходе анализа.

Проектирование базы данных/метаданных подразумевает прохождение трех этапов: концептуального, логического и физического проектирования, результатом каждого из которых будет создание концептуальной, логической и физической модели, соответственно.

Под проектированием в диссертационной работе имеется в виду концептуальное проектирование, так как оно позволяет создать концептуальную модель предметной области без ориентации на конкретную систему управления                                                              Ребрий А.В. «Исследование и разработка методологии создания базы пространственных данных».    базой данных (далее – СУБД) и модель данных. К тому же существующие средства автоматизированного проектирования и создания программ позволяют из концептуальной модели генерировать одну или несколько логических и (или) физических моделей, в зависимости от требуемого уровня представления и подходов к моделированию данных1.

Для достижения поставленной цели в работе были сформулированы и решены следующие основные задачи:

Проведен сравнительный обзор исследований в области ХГД и БМД.

Сформирован базовый набор метаданных, необходимых для создания БМД ХГД.

Описан алгоритм применения базового набора метаданных на этапах развертывания ХГД.

Разработана общая концептуальная модель БМД ХГД в виде диаграммы классов UML.

Проведен сравнительный анализ разработанной методики с существующими методиками проектирования.

Решение перечисленных задач позволило разработать методику проектирования базы метаданных хранилища геоданных.

Методология и методы исследования. Используемые методы исследования включают в себя сравнительный анализ и моделирование. В ходе исследования был проведен анализ нормативно-технических документов в геоинформатике.

Для разработки концептуальной модели предметной области применялся метод объектно-ориентированного моделирования с использованием нотации UML.

Основные результаты, выносимые на защиту:

разработана и исследована методика проектирования БМД, основанная на сформированном автором наборе метаданных и позволяющая создавать БМД одновременно с развертыванием ХГД;

                                                             Нартова А. PowerDesigner 15 Моделирование данных / Изд. «Лори». 2012. – 468 с.

  автором сформирован базовый набор метаданных, позволяющий создать БМД, описывающую как характеристики пространственных данных и объектов, так и происходящие в среде хранилища данных процессы;

на основе базового набора метаданных разработана общая концептуальная модель БМД, позволяющая путем преобразования в логическую и далее в физическую модель создавать БМД на основе выбранной СУБД и модели данных.

Научная новизна диссертационной работы.

Основные результаты диссертационной работы, представляющие научную новизну, заключаются в следующем:

Впервые сформирован набор метаданных для проектирования БМД ХГД, не только организующий доступ к пространственным данным, но и описывающий процессы, происходящие с ними при использовании.

Приведен алгоритм проектирования БМД ХГД, отличающийся от других способов проектирования применяемым набором метаданных и использованием одновременно с построением самого хранилища геоданных.

На основе приведенного набора метаданных впервые была разработана общая концептуальная модель.

Практическая значимость результатов исследования заключается в возможности применения разработанной методики проектирования, набора метаданных и общей концептуальной модели в ходе создания БМД ХГД в составе информационных ресурсов, содержащих пространственные данные и образующих основу для создания и применения ИПД.

Результаты диссертационного исследования используются в учебном процессе в МИИГАиК по дисциплинам: «Информационные технологии» и «Архитектура информационных систем».

Теоретическая значимость результатов исследования состоит в создании теоретических основ методологии проектирования базы метаданных хранилища геоданных, а также научном обосновании методики применения базового набора метаданных на этапах развертывания хранилища геоданных.

  Степень достоверности и апробация результатов диссертационной работы. По теме диссертации был сделан доклад на ежегодной конференции молодых ученных и аспирантов МИИГАиК в 2013 году.

Автор исследования принимал участие в рабочих заседаниях технических комиссий ОАО «Роскартографии» по вопросам, связанным с темой исследования.

Результаты диссертационного исследования были использованы в ходе создания компонента информационной системы ОАО «Уралгеоинформ», а также в ходе создания базы метаданных информационной системы, применяемой для учета единиц хранения результатов работ по созданию геопространственных данных различной точности и детализации ОАО «Сибгеоинформ».

Структура и объем диссертационной работы. Диссертация состоит из введения, первого раздела, содержащего два подраздела, а также второго и третьего разделов, заключения, списка сокращений и условных обозначений, списка литературы и списка иллюстративного материала.

Работа изложена на 131 странице, включает 14 рисунков и 11 таблиц. Список используемой литературы включает 161 наименование.

 

1. Обзор исследований проводимых в области хранилищ геоданных и стандартизации метаданных в геоинформатике

1.1. Обзор исследований проводимых в области хранилищ геоданных

В целях сбора, хранения, обработки, отображения и распространения географических данных, а также получения на их основе новой информации и системы1.

знаний, в настоящее время применяются геоинформационные Географические данные – это пространственные данные, для которых базовой системой координат является земная поверхность. В ГИС кроме пространственных данных используется связанная с ними информация о необходимых объектах, так называемые (непространственные) атрибутивные данные.

Как правило, функции сбора и хранения данных в ГИС переданы базе данных. Иногда этап сбора данных сводится к технологии их ввода в базу данных ГИС. База данных (далее – БД) – совокупность данных организованных по определенным правилам, устанавливающим общие принципы описания, хранения и манипулирования данными, независимая от прикладных программ2. Создание БД и обращение к ней осуществляется с помощью системы управления базами данных.

Исторически сложилось два направления взаимодействия ГИС и СУБД:

гибридные и интегрированные СУБД. Согласно Майклу Н. ДеМерсу3 это разделение связано в основном со способом хранения (совместно или раздельно) пространственных и атрибутивных данных.

                                                             Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 1: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.

ГОСТ 20886-85 Организация данных в системах обработки данных. Термины и определения.

ДеМерс, Майкл Н. Географические информационные системы. Основы / Пер. с англ. Андрианов В. / М.: Дата+, 1999.

  В современных ГИС в основном применяется подход, когда и атрибутивные и пространственные данные хранятся и управляются в единой среде СУБД, а также объектный и объектно-реляционный подходы.

Целесообразно также отметить основные свойства, поддерживать которые присуще любой СУБД – это постоянство и транзакции. В СУБД состояние постоянного объекта подвергается частым изменениям, а в ряде случаев желательно иметь доступ к предшествующим состояниям данных. Транзакции переводят базу данных из одного непротиворечивого состояния в другое.1 Поэтому по своему функциональному назначению применяемые в ГИС базы данных являются системами оперативной обработки транзакций (On-Line Transaction Processing – OLTP-системами).

В OLTP-системах за короткое время происходит максимальное количество транзакций, используется фиксированный набор методов ввода, модификации и удаления данных, а также подготовки отчётности. Как правило, OLTP-системы не требуют большой гибкости и их аналитические возможности ограничены.

В этой связи возникла необходимость в разработке систем управления пространственными базами данных (далее – СУПБД). В то время как традиционные БД могут хранить и обрабатывать числовую и символьную информацию, пространственные базы данных (далее – ПБД) обладают расширенной функциональностью, позволяющей хранить целостный пространственный объект, объединяющий атрибутивные и пространственные данные.2 ПБД позволяют выполнять аналитические запросы, содержащие пространственные операторы для анализа пространственно-логических отношений объектов (пересекается, касается, содержится в, содержит, находится на расстоянии X от, совпадает и пр.).3                                                               Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я.. Прикладная геоинформатика / М.: МАКС Пресс, 2005. – 360 с.   Шаши Ш., Санжей Ч. Основы пространственных баз данных / М.: Кудиц-образ, 2004. – 34 с.  Там же, с. 35.

  Например, ГИС поддерживает большой набор операций над несколькими объектами и слоями, в то время как СУПБД обеспечивает более простые операции над совокупностями объектов и множествами слоев1. Для этих целей Open Geospatial Consortium Inc. (далее – консорциум OpenGIS), установил стандарты на дополнительную функциональность СУПБД.

Со временем стало понятно, что сбор данных это не главная цель. Появилась необходимость в создании информационных системах, позволяющих проводить глубокую аналитическую обработку данных. Например, поиск скрытых структур и закономерностей в массивах данных, вывод из них правил, которым подчиняется данная предметная область, стратегическое и оперативное планирование, формирование нерегламентированных запросов, принятие решений и прогнозирование их последствий2.

Появился новый класс информационных систем (далее – ИС) – систем поддержки принятия решений (далее – СППР), ориентированных на аналитическую обработку данных с целью получения знаний, необходимых для разработки решений в области управления3. Требования к СППР и OLTPсистемам существенно разняться, в основном по следующим причинам: уровень детализации данных, формат хранения данных, требования к качеству хранящихся данных, возможность редактирования существующих данных, временной период хранения собранных данных, периодичность обновления данных, а также характер выполняемых к данным запросов. Поэтому в СППР применяются специализированные базы данных – хранилища данных (далее – ХД).

Концепция ХД, так или иначе, обсуждалась специалистами в области информационных систем достаточно давно. Первые статьи, посвященные именно ХД, появились в 1988 году, их авторами были Б. Девлин и П. Мерфи. В 1992 году                                                              Шаши Ш., Санжей Ч. Основы пространственных баз данных / М.: Кудиц-образ, 2004. – 36 с.

Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – С. 67.

Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – С. 68.

  Б. Инмон подробно описал эту концепцию в своей монографии «Построение хранилища данных»1.

Согласно определению Б. Инмона, «хранилище данных – это предметно ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений»2.

Все существующие архитектуры ХД (реляционные, многомерные, гибридные или виртуальные) основаны на технологии оперативной аналитической обработки (On-Line Analytical Processing, OLAP). Эта технология представляет собой методику оперативного извлечения нужной информации из больших массивов данных и формирования соответствующих отчетов3.

Приведем примеры существующих архитектур ХД:

ROLAP – Relational OLAP. Эти ХД используют реляционную модель, что позволяет хранить данные в реляционных таблицах, образующих структуры (схемы «звезда», «снежинка» или «созвездие»), создающие видимость многомерного представления данных.

MOLAP – Multidimensional OLAP. В ХД этой архитектуры многомерное представление данных реализовано на физическом уровне в виде многомерных кубов данных.

HOLAP – Hybrid OLAP. Гибридные ХД объединяют в себе свойства двух предыдущих архитектур. В эти ХД детализированные данные хранят в реляционных таблицах, а агрегированные данные – в многомерных кубах данных.

В виртуальных хранилищах данных (далее – ВХД) работа ведется с различными источниками, данные из которых собираются во время выполнения запроса без их слияния в едином формате.

Понятие «многомерная модель данных» опирается на концепцию «многомерный куб данных» (OLAP-куб, гиперкуб), представляющую собой                                                              Барсигян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / 2-е издание, переработанное и дополненное / СПб.: БХВ-Петербург, 2007. – 384 с.

Там же, с. 384.

Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – С. 77.

  упорядоченные многомерные массивы данных. В основе этой концепции лежит разделение данных на две группы – измерения и факты. Причем в случае создания ХД на основе реляционных таблиц, данные заносятся в таблицы двух типов: таблица фактов и таблица измерений. А в случае создания ХД в виде многомерных кубов данных используются следующие понятия: показатель, ячейка, измерение, а также член измерения. В свою очередь ключевыми понятиями при построении OLAP-кубов являются: размерность, иерархия, уровень, член и мера.

Но ПБД создавалась для обработки регулярных транзакционных запросов к необобщенным данным без хронологической привязки, поэтому применение к ПБД запросов сформированных с целью поддержки принятия решений очень затруднительно.

В этой связи получила развитие идея создания ХГД, являющегося объединением традиционного ХД и ПБД. ХГД основывается на понятии ХД и дополнительно поддерживает хранение, индексацию, агрегирование и анализ пространственных данных1.

Например, в ГИС обобщение данных происходит двумя способами группировки: объединение объектов по равенству значений определенного атрибута или объектов одной темы в соответствии с их размещением внутри полигональных объектов другой темы2. Также существуют специализированные – исторические ГИС, в которых применяются исторические пространственные данные.

ХГД активно исследовались в прошлом десятилетии. Выделив основные различия пространственного и традиционного ХД, исследователи сконцентрировали на них свою работу. В таблице 1.1 приведены основные темы исследований, разделенные на категории и подкатегории.

–  –  –

Концептуальная модель ХГД представляет собой описание основных сущностей и отношений между ними, и является отражением предметной области, планируемого ХГД.

Существующие концептуальные модели ПБД, не подходят для использования их при проектировании ХГД, так как в них отсутствуют такие понятия, как «иерархия», «агрегат», «измерение» и «факт».

Все исследования в данной области были направлены на формулирование общих требований к концептуальной модели, создание пространственной многомерной и пространственно-временной моделей, а также на перенос концептуальной модели в физическую модель.

  В ходе исследований было предложено несколько вариантов многомерной модели ХГД. Например, С. Бимонте и М. Микуэль в своем докладе «В отношении пространственной многомерной модели»1 предлагают многомерную модель, где измерения и факты представляют собой сложные объекты. Эта модель использует такие понятия как «экземпляр сущности» и «схема сущности» для определения – куба данных, иерархий и агрегатов.

Е. Малиновски и Е. Зимани в своих работах «Представление модели»2 пространственности в концептуальной многомерной и «Пространственные иерархии и топологические связи в пространственной MultiDimER модели» предлагают концептуальную многомерную модель – MultiDimER. Эта модель вводит следующие понятия: «пространственный уровень», «пространственная иерархия», «пространственное измерение», «пространственный факт» и «пространственный факт отношения». С помощью этих понятий авторы представляют реальный мир в виде модели иерархий.3 Рассмотрим эти фундаментальные понятия многомерной модели

MultiDimER:

Пространственный уровень – уровень, где сохранены пространственные характеристики. Между различными пространственными уровнями существуют топологические отношения.

Пространственная иерархия – иерархия, которая состоит хотя бы из одного пространственного уровня.

Пространственное измерение – измерение, у которого есть, по крайней мере, одна пространственная иерархия.

Пространственные измерения имеют три типа иерархий:

Непространственная иерархия.

Пространственная иерархия к непространственной иерархии.

Пространственная иерархия.

                                                             Bimonte S., Miquel M. Towards a spatial multidimensional model.

Malinowski E., Zimanyi E. Representing spatiality in a conceptual multidimensional model.

Malinowski E., Zimanyi E. Spatial Hierarchies and Topological Relationships in the Spatial MultiDimER model.

  Пространственный факт – любое численное значение измерения, вычисленное с помощью топологических операторов или геометрии, которое может быть агрегировано по иерархиям.

Пространственный факт отношения – это факт отношения, который требует пространственного соединения между двумя или более пространственными измерениями.

Эти же авторы в своей статье «Реализация иерархий пространственного хранилища данных в объектно-реляционных СУБД»1 описывают перенос концептуальной модели MultiDimER в физическую модель. В статье рассматриваются проблемы, возникающие при реализации схем созданных с помощью концептуальных моделей. Пространственный уровень, определенный в модели MultiDimER, является таблицей в базе данных, а отношения между уровнями соответствуют отношениям между таблицами.

Основные требования при проектировании эффективной многомерной модели ХГД описаны в статье Г. Вишванатхан и М. Шнейдер «Требования к пользовательскому складированию пространственных данных и SOLAP»2.

Исследования вопросов хранения данных и организации запросов к ним.

С целью повышения производительности поиска данных в ПБД используют индекс — объект БД. Ускорение работы с использованием индексов достигается в первую очередь за счёт того, что индекс имеет структуру, оптимизированную под поиск.

В случае правильного построения структуры индекса на колонках таблиц измерений и фактов сильно увеличивается производительность запросов, в том числе нерегламентированных, что очень важно в среде ХД.

В ходе исследований, проводимых в отношении структур индексов, применяемых в ХГД, предлагались различные расширения существующих структур индексов, таких как Обобщенные деревья поиска GiST (Generalized Search Trees), R-дерево (R* -дерево и R+ -дерево), B-дерево и т.д.

                                                             Malinowski E., Zimanyi E. Implementing spatial data warehouse hierarchies in object-relation DBMSs.

Viswanathan G., Schneider M. On the requirements for user-centric spatial data warehousing and SOLAP.

  Обобщенное дерево поиска (GiST) является инфраструктурой разработки поисковых деревьев, расширяемой как с точки зрения типа данных, по которым производится поиск, так и с точки зрения поисковых запросов. Индексы GiST разделяют данные на «объекты по одну сторону», «пересекающиеся объекты» и «объекты внутри», что позволяет использовать их для многих типов данных.

Статья Ф. Рао, Л. Занг и Ю. Чен «Пространственная иерархия и поиск, основанный на OLAP, в пространственном хранилище данных»1 описывает расширение индекса GiST.

Определенный в GiST интерфейс, позволяет создать новые разновидности индекса, так как он не зависит от конкретного типа данных и поисковых запросов.

Для расширения GiST предлагается реализация двух интерфейсов – gist и predicate.

Каждый узел дерева состоит из (p, ptr), где p – это предикат запроса, а ptr – указатель на следующий узел. Для нахождения всех узлов, совместимых с предикатом запроса, в GiST используется последовательный алгоритм поиска, для применения в ХГД авторы предлагают новое состояние этого предиката – «неравнодушная истина».

Статья М. Юргенс и Х. Ленз «R*a-дерево: усовершенствованное R*-дерево с материализованными данными для поддержки запросов по областям на OLAP данных»2 описывает расширение R*-дерева (R*a-дерево), с помощью материализованных данных. Эта статья показывает, что хранение агрегатов во внутренних узлах дерева индекса уменьшает время отклика OLAP запросов.

Далее рассмотрен измененный рекурсивный алгоритм запросов на диапазонах, применяющий предварительное вычисление. Результаты данного исследования показывают, что потребность в дополнительном пространстве для хранения агрегированных данных имеет прямую зависимость от размера структуры данных.

                                                             Rao F., Zhang L., Chen Y. Spatial hierarchy and OLAP-favored search in spatial data warehouse.

Jurgens M., Lenz H.-J. The R*a-tree: An improved R*-tree with materialized data for supporting range queries on OLAP

- data.

  Если R*a-дерево хранит агрегаты в индексе, но не выделяет пространственные объекты, то aR-дерево1, основываясь на идее – материализации индекса, расширяет возможность применения R-дерева для ХГД. При создании пространственных данных иерархия не используется, в то время как она требуется для работы OLAP операций. Индекс aR-дерево хранит результаты функций агрегирования на все объекты, попавшие в каждый MBR (Minimum Bounding Rectangles – минимальные ограничивающие прямоугольники).

Преимуществами этого подхода являются:

индекс определяет иерархию среди MBR, которые затем формируют модель решетки куба данных. Это дает возможность для выборочной материализации структуры;

данная идея может быть расширена за счет хранения результатов запросов или других типов операторов агрегирования.

Не смотря на то, что aR-дерево считается эффективной структурой для создания запросов к агрегатам, в случае большого числа измерений ее эффективность существенно снижается. Возникают трудности схожие с последовательным просмотром всех записей БД. М. Горавски и Р. Малкзок в своей статье «Материализованное aR-дерево в распределенном пространственном хранилище данных»2 описывают создание и исследование aR-деревьев для ХГД.

Большинство методов индексации в ХГД основываются на пространственных или временных индексах. Поэтому индексы в пространственно-временных хранилищах данных должны быть созданы на основе интеграции пространственных и временных индексных структур.

Например, агрегат RB-дерево (aRB-дерево) описанный в статье Д. Пападиас и Д. Занг «Индексация пространственно-временного хранилища данных»3, является расширением R-дерева, имеющим указатель на B-дерево, хранящий исторические агрегированные данные о MBR. Данная индексная структура была предложена для представления статических пространственных измерений.

                                                             Papadias D., Kalnis P., Zhang J., Tao Y. Efficient OLAP Operations in Spatial Data Warehouses.

Gorawski M., Malczok R. Materialized aR-Tree in distributed spatial data warehouse.

Papadias D., Zhang J. Indexing Spatio-temporal data warehouses.

  Исторический агрегат RB-дерево (aHRB-дерево) объединяет понятия aRBдерево и историческое R-дерево (HR-дерево) для индексирования динамических пространственных измерений. Каждый узел данного дерева хранит определенный отрезок времени. Другая форма записи узла схожа с записями в aRB-дереве.

Каждый раз, когда происходит обновление, новое R-дерево создает метку времени.

Другое предложение по индексации динамических пространственных измерений – это агрегат 3-х мерного RB-дерева (3DRB-дерево). В этом случае формируется одно большое R-дерево для целой истории, в отличие от множества маленьких R-деревьев, создающихся в случае применения aHRB-дерева. Это большое R-дерево хранит различные версии всех областей в одном дереве.

Следующий способ ускорить обработку данных это материализованная индексация или материализованное представление данных. Материализация данных — это объект БД, содержащий предварительно вычисленный результат запроса. Материализованное представление позволяет ускорить выполнение запросов, в случае использования большого количества записей. Это достигается за счет использования заранее вычисленных итоговых данных, а также результирующих таблиц, так как эти данные имеют меньший по сравнению с первичными данными объем.

Одним из вариантов материализованного представления данных является выборочная материализация. Не смотря на то, что выборочная материализация куба данных была подробно изучена, М. Поэсс, Б. Смит, Л. Коллар и П. Ларсон в своей статье «TPC-DS (Decision Support) – новый уровень поддержки принятия решения с помощь контрольных точек»1 предложили ряд методов выбора кубов для материализации. Например, они применяют модель решетки, в узлах которой, с помощью «жадного алгоритма», сформирован ключ выборочной материализации на основе минимального расстояния до объекта.

В качестве решения Н. Стефановик, Д. Хан и К. Коперски в своей статье «Объектно-ориентированная выборочная материализация для эффективной                                                              Poess M., Smith B., Kollar L., Larson P. TPC-DS, taking decision support benchmarking to the next level.

  реализации пространственных кубов данных»1,  предлагают подход с более глубокой степенью детализации куба пространственных данных, т.е.

материализация до уровня клетки куба. Этот подход называется объектноориентированной материализацией и основывается на выборке конкретных пространственных объектов. А выборочная материализация основана на частоте доступа к наборам объединенных пространственных областей. Если ожидается, что эти области будут использоваться чаще других, то проводят их предварительное вычисление.

Рассмотренные выше структуры индексов, содержат материализованные агрегаты пространственных фактов, большая часть из которых является числовыми агрегатами или простыми операциями. В этой связи появилась необходимость изучения структур индексов, содержащих материализованные агрегаты пространственно-временных фактов, например, таких как направление движения.

–  –  –

                                                             Viswanathan G., Schneider M. BigCube: A MetaModel for managing multidimensional data.

Pedersen B., Tryfona N. Pre aggregation in spatial data warehouses.

  использовать распределенные операции агрегирования. Недостатком этого подхода является возможность его применения только для агрегирования полигонов.

Статья Н. Пелекис, Ю. Теодоридис, С. Возинакис и Т. Панайотопоулос «Hermes – структура для управления данными о местоположении»1 описывает формальную модель геометрического агрегирования.

Она определяет три части:

алгебраическую, геометрическую и прикладную (классический OLAP), каждая из которых поддерживает отдельные иерархии и взаимодействует друг с другом. На рисунке 1.2 показан пример этих частей.

Рисунок 1.2.

Геометрическая, алгебраическая и прикладная части модели геометрического агрегирования Дальнейшие исследования в этой области сосредоточены на проблеме многократного представления одних и тех же объектов. Приведенная проблема данных2.

широко известна в пространственных базах Тот же самый пространственный объект можно рассмотреть как точку в одном приложении и как полигон в другом, либо как кубоид или многогранник в трехмерном представлении.

В случае ХГД данная проблема встает особенно остро по двум причинам3:

интеграция данных происходит из различных источников, в которых данные представлены по-разному;

                                                             Pelekis N., Theodoridis Y., Vosinakis S., Panayiotopoulos T. Hermes – a framework for location-based data management.  Zlatanova S., Stoter J.E., Quak W. Management of multiple representations in spatial DBMSs.

Malinowski E., Zimanyi E. Spatial Data Warehouses: Some Solutions and Unresolved Problems.

  во время выполнения SOLAP операций (таких как «свертка» и «развертка»), один и тот же уровень иерархии может иметь различное представление одного объекта.

В статье Н. Стефановик, Д. Хан и К. Коперски «Объектно-ориентированная выборочная материализация для эффективной реализации пространственных кубов данных»1, проблема двойного учета рассматривалась для топологических отношений между пространственными фактами. Решение проблемы неправильного агрегирования авторами предлагалось путем выполнения агрегирования по несвязанным объектам. Для трехмерных объектов эта проблема все равно остается открытой из-за понятия «множественное представление» и топологических отношений между ними.

Исследования в области SOLAP (Spatial On-Line Analytical Processing) пространственной оперативной аналитической обработки данных.

OLAP инструмент – это категория инструментов СППР обеспечивающих доступ к ХД для эффективной обработки данных. Но большинство OLAP инструментов не готовы к анализу как пространственных, так и пространственновременных данных.

В свою очередь ГИС инструменты применяются для анализа пространственных данных, но все еще недостаточно хороши для полнофункционального использования пространственно-временных наборов данных2. В этой связи, появилась необходимость объединения функциональности OLAP и ГИС инструментов. Таким способом можно создать новые инструменты поддержки принятия решений, лучше приспособленные к пространственновременному исследованию и анализу данных. Эти инструменты называют SOLAP системы.

Классические OLAP инструменты поддерживают пространственные данные, но рассматривают пространственное измерение как любое другое, не обращая

–  –  –

В статье «Контрольные точки в пространственном хранилище данных»

приведены контрольные точки называемые – Spadawan (spatial data warehouse benchmark)2.

Данный тип контрольных точек является очень эффективным способом контроля ХГД, поскольку создает наборы данных, состоящие из точек и полигонов, а также поддерживает анализ SOLAP запросов, что позволяет оценить результаты работы запросов, таких как пересечение, ограничение и вложение.

Дальнейшие исследования в этой области проводятся в следующих направлениях:

контрольные точки пространственных данных – линии, полигоны с отверстиями и островами;

контрольные точки создания пространственных данных и обработки SOLAP запросов;

контрольные точки SOLAP запросов для анализа операций развертки с помощью расширенных схем ХГД.

Исследования в области создания пространственно-временных хранилищ данных (далее – ПВХД).

                                                             Pat O'Neil, Betty O'Neil, Xuedong Chen Star Schema Benchmark Revision. – 2009, June 5.

Siqueira T. L., Ciferri R. R., Cesrio V. Benchmarking Spatial Data Warehouses.

  Основной тенденцией в области разработки ХГД является создание и развитие ПВХД. Большинство сфер применения ХД имеет дело с данными, содержащими пространственный компонент (например, адрес местоположения).

Если в ХД этот компонент объединить с временным компонентом (например, дата регистрации события), то потенциал принятия решений на основе таких данных возрастет.

Например, вопрос «Сколько объектов посещало эту область за определенный период времени?» включает в себя и пространственный, и временной компоненты. Для ответа на такой вопрос, находящиеся в ХД пространственные данные должны содержать временную привязку. Это позволит находить в наборе данных скрытые взаимоотношения.

Все ИС, имеющие отношение к сведениям о перемещающихся объектах, применяют пространственно-временное моделирование для анализа этих данных.

Сбор и обобщение всех данных о движении объекта ведет к накоплению огромных наборов данных.

В дополнение к вышесказанному существуют сложности в вопросе временной организации данных. Во временной характеристике географических объектов применяются два понятия времени – Мировое время и Системное время1. Мировое время – это время, когда в действительности происходит изменение объекта, тогда как системное время это время, в которое делается запись об изменении объекта в БД.

В зависимости от требований приложения, пользователи могут использовать или только системное время (в ГИС), или оба времени (в хранилище данных), что усложняет приложение из-за необходимости моделировать оба типа временных измерений в ПВХД.

Хранение данных о траектории движения – это ответвление пространственно-временного складирования данных. Для поддержки данных о траектории используются кубы пространственно-временных данных,                                                              Jizhou W., Chengming L. Research on the framework of spatial-temporal data warehouse.

  позволяющие проводить анализ по временным, пространственным и тематическим измерениям на разных уровнях детализации.

В настоящее время существует ряд инструментов и методов хранения данных о траектории перемещения объектов.

STAU. Это пространственно-временное расширение для объектнореляционной СУБД Oracle10g. Оно создает инфраструктуру управления данными для истории движущихся объектов.

Hermes. Это ядро БД для работы с объектами, которые дискретно или непрерывно во времени меняют местоположение, форму и размеры. Опытный образец был разработан как расширение STAU и поддерживал требования, предъявляемые оперативными динамическими приложениями. Это ядро обеспечивает пространственно-временную функциональность современным объектно-реляционным СУБД.

GeoPKDD (Geographic Privacy-aware Knowledge Discovery and Delivery).

Хранилище данных о траектории – GeoPKSS является проектом, извлекающим знания из большого количества пользовательских необработанных пространственно-временных географических данных1.

Хранение данных о траектории движения – важный шаг для СППР в приложениях связанных с перемещающимися объектами. Вследствие масштабируемости этого типа данных будущие исследования можно сосредоточить на вопросах их моделирования, агрегирования и индексирования.

Будущим исследованием в этом направлении могло бы стать внедрение концепции трехмерных пространственных объектов в ХГД. Трехмерные запросы к ХГД могут быть полезны в сфере городского планирования или ликвидации последствий стихийных бедствий. Топологические отношения для трехмерных объектов могли бы включать такие отношения как «внутри», «взаимодействие с кем-либо».

                                                             Damiani, Vangenot, Frentzos, Marketos, Theodoridis, Veryklos, Raffaeta Geographic privacy aware Knowledge Discovery and Delivery. – 2007.

  В качестве общего вывода можно сказать, что исследования ХГД не потеряли своей актуальности до настоящего времени. Например, исследования в области анализа больших данных (Big Data) содержащих пространственно-временную информацию ведутся с большей интенсивностью ввиду отсутствия сложностей со сбором информации и наличием трудностей в ее обработке.

Одновременно с возрастанием объема накапливаемых данных возрастает потребность в применении метаданных. ХГД можно рассматривать, как часть будущих исследований, учитывая их способность поддержки принятий решений с помощью существенного сжатых данных.

 

1.2. Стандартизация метаданных в геоинформатике В процессах информационного обмена метаданные применяются при каталогизации, учете, статистической обработке и анализе, обеспечивают возможность планирования, быстрого поиска и восстановления данных1. В связи с этим при разработке информационных систем (в том числе ГИС) и создании пространственных данных, метаданным стали уделять больше внимания, как на этапе проектирования (создания), так и на последующих этапах разработки.

Когда говорят о метаданных в контексте геоинформатики, имеют в виду метаданные, используемые для документирования пространственных данных. А определяя термин «метаданные» (metadata) как «данные о данных», многие авторы делают оговорки, что это определение не объясняет сущности термина и не раскрывает общего смысла. Тем более в настоящее время в это понятие включены модели программных систем, и термин «метаданные» используется как эквивалент термина «модель».

В отношении метаданных предпринимаются шаги в двух направлениях — стандартизация представления (согласование и описание метаданных, различных по синтаксису и структуре) и обеспечение поддержки метаданных в информационных системах. Для решения задач стандартизации следует установить правила формирования и представления метаданных в пригодном для обработки и понимания виде, а также однозначного определения продукции (услуги) с необходимым и достаточным уровнем детализации. Вторая задача решается созданием стандартного модуля (программы) создания, редактирования и управления метаданными, встроенного в состав ИС.

                                                             ГОСТ Р 52573-2006 «Географическая информация. Метаданные».

  В данной работе будем пользоваться следующим определением метаданных – это совокупность элементов данных и спецификаций, содержащих описание данных информационной системы и процессов их обработки1.

Для метаданных широкой сферы применения существует ряд стандартов, не связанных с пространственными данными. Знакомство с этими стандартами может оказаться полезным для взаимодействия с ресурсами, не содержащими явных пространственных данных, или для интеграции их в ИПД. Также это может пригодиться при создании баз метаданных ПБД и ХГД.

Одним из первых стандартов в этой области стал CODASYL – язык описания данных для БД с сетевой структурой. За ним следует упомянуть стандарт языка SQL, который содержит понятие информационной схемы (совокупности представлений). Также часть стандарта объектных БД – ODMG, описывающий интерфейсы репозитория объектных схем и стандарт IRDS, позволяющий описывать системы для создания и поддержки справочников информационных ресурсов. Все они сыграли свою роль и легли в основу современных стандартов.

Учитывая большой объем и длительный временной диапазон данных, находящихся в ХД, а так же различие в стандартах разных производителей программного обеспечения возникла необходимость в метаданных и их стандартизации для ХД. В 1998 году ведущие корпорации – поставщики программного обеспечения представили в консорциум OMG (Object Management Group) спецификацию «Обмен общими метаданными хранилища данных»

(Common Warehouse Metadata Interchange, CWMI). Одновременно консорциум MDC (Meta Data Coalition) рассматривал, разработанный Microsoft, стандарт «Открытая информационная модель» (Open Information Model, OIM). После слияния в 2000 году обеих организаций была опубликована первая версия спецификации «Общая метамодель хранилища» (Common Warehouse Metamodel, CWM).

                                                            

Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:

перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.

  Спецификация CWM определяет интерфейсы, используемые для обмена метаданными между хранилищами данных и аналитическими приложениями с помощью инструментальных средств ХД, программно-аппаратных платформ и баз метаданных в распределенных гетерогенных вычислительных средах1.

Спецификация CWM основывается на трех основных стандартах:

стандарт «Унифицированный язык моделирования» (Unified Modeling Language, UML) применяется для объектно-ориентированного моделирования;

стандарт «Средства мета объекта» (Meta Object Facility, MOF) применяется для метамоделирования и создания баз метаданных;

стандарт «XML обмен метаданными» (XML Metadata Interchange, XMI) применяется для обмена метаданными.

Общий подход к созданию баз метаданных сформирован концепцией модельно-ориентированного подхода к разработке программного обеспечения MDA (Model-Driven Architecture). Идея основана на использовании моделей, более высокого уровня – метауровня. После построения абстрактной метамодели управления и обмена метаданными задается способ ее трансформации в поддерживаемые технологии программирования. Построение метамодели опирается на стандарт MOF – не зависящий от платформы, универсальный способ описания конструкций моделирования, содержащий средства для определения моделей метаданных (метамоделей), и обеспечения программных средств хранения и доступа к метаданным.

Стандарт XMI описывает обмен метаданными в формате XML. Это язык является подмножеством языка SGML (Standard Generalized Markup Language), предназначенного для хранения и обмена структурированными данными между программами. Не стоит путать SGML с языком GML (Geography Markup Language) разрабатываемым консорциумом OpenGIS как частный случай XML для представления географических объектов.

Платформа XML была разработана консорциумом W3C для Web и включает стандарты представления метаданных. К их числу относится подмножество языка                                                              Спецификация «Common Warehouse Metamodel».

  XML – определение типа документа (Document Type Definition, DTD), используемое для описания логической структуры SGML документов в частности XML-документов. На его смену пришел стандарт XML Schema, предлагающий больше возможностей для описания XML-документов. А стандарт «Структура описания ресурса» (Resource Definition Framework, RDF) определяет язык представления знаний для описания содержимого XML-документов.

Следует упомянуть также стандарт дублинского ядра (ISO 15836:2004, Information and documentation – The Dublin Core metadata element set), представляющий собой набор элементов метаданных для описания содержания документов различной природы. К сожалению, дублинская модель не дает возможности описания геопространственных ресурсов.

Все перечисленные стандарты метаданных общего назначения лишь частично подходят для документирования пространственных данных. На основе большого набора метаданных можно создать его упрощенное представление, а вот обратное действие невозможно. В этой связи при создании базы метаданных целесообразно применять всесторонний общий стандарт метаданных пространственной информации.

Пространственные метаданные, геометаданные (spatial metadata) – данные о пространственных данных, которые содержат, помимо общих сведений о составе, содержании, статусе (актуальности и обновляемости), происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и т.п., специальные сведения о применяемых системах координат, позиционной точности, масштабах и других позиционных характеристиках и существенных свойствах пространственных данных1.

Сейчас действуют три основных международных стандарта пространственных метаданных, имеющих широкий спектр применения.

1. «Стандарт содержания метаданных цифровой геопространственной информации» (Content Standard for Digital Geospatial Metadata, CSDGM). Проект                                                               ГОСТ Р 52573-2006 Географическая информация. Метаданные.

  стандарта CSDGM обрел вполне современные формы уже в 1992 году, когда он носил наименование «Стандарт содержания метаданных геопространственной информации» (Content Standards for Spatial Metadata, CSSM). Стандарт был принят в 1994 году и после детального и продолжительного обсуждения разработана и утверждена его вторая версия CSDGM Vers.2.0, известная под индексом FGDCSTD-001-1998, а затем обновлен Федеральным комитетом США по географическим данным (The Federal Geographic Data Committee, FGDC).

Этот стандарт предназначен для обеспечения развития национальной ИПД Канады и Великобритании.

2. Стандарты ISO 19115:2003 «Geographic Information – Metadata» и ISO 19139:2007 «Geographic information – Metadata – XML schema implementation»

приняты как международные. В 1994 году в ISO был создан технический комитет (ISO/TC 211) который занимается только стандартами в области геоинформатики (геоматики) и разрабатывает стандарты серии 19000. В основе стандартов этой серии лежит стандарт эталонной модели предметной области, содержащий методы описания предмета стандартизации и требований к нему1.

Стандарт ISO 19115 содержит описание логической модели организации геопространственных метаданных, но не предусматривает строгого соблюдения, поскольку не содержит никаких обязательных тестов на соответствие ему форматов метаданных2. В свою очередь требования ISO 19139 созданы для стандартизацию метаданных, отвечающих требованиям предыдущего стандарта.

3. Техническим подкомитетом (TC 287) Европейского Комитета по Стандартизации (CEN), отвечающим за разработку геоинформационных стандартов, в 1998 году был принят стандарт CEN Pre-standard. CEN/TC 287 была разработана и принята группа европейских стандартов, включая ENV 12657 (Euro-Norme Voluntaire): «Географическая информация: Описание данных – Метаданные».

                                                             Стандарт ISO 19101:2002 Geographic information – Reference model.

ISO 19115:2003 «Geographic Information – Metadata».

  Также подкомитет CEN/TC 287 разработал европейские варианты международных стандартов ISO. Ряд национальных и региональных инициатив был также посвящен созданию стандартов пространственных метаданных, например ANZLIC, LaClef и ESMI. Во всех этих проектах применялись аналогичные подходы к определению набора элементов метаданных.

Разрабатываемые консорциумом OpenGIS технические требования также касаются пространственных метаданных. Специально для проекта «OpenGIS

Abstract

Specification» частично был принят стандарт ISO 19115 в качестве абстрактной модели управления метаданными. В ходе разработки формализованных глобальных стандартов для метаданных пространственной информации сотрудничают между собой и консорциум OpenGIS, и комитет FGDC, и рабочая группа ISO/TC 211.

В России первоначально для этих целей Министерством обороны РФ был разработан ГОСТ Р 51353-99 «Геоинформационное картографирование.

Метаданные электронных карт». Затем в 2006 году был принят стандарт ГОСТ Р 52573-2006 «Географическая информация. Метаданные», соответствующий требованиям стандарта ISO 19115 и, практически, являющийся национальным российским профилем метаданных1.

Описанные инициативы в вопросах стандартизации предлагают свои подходы к проектированию метаданных и различные наборы их элементов. Эти стандарты призваны предоставить информацию достаточную для описания данных и организации запросов к ним.

Применение спецификации «Общая метамодель хранилища», разработанной для стандартизации метаданных в среде ХД, позволяет полнее описать все метаданные. Но применение метаданных в ХД регламентируется стандартными средствами описания метаданных в традиционных ХД, что не позволяет учитывать особенностей хранения и анализа пространственных данных.

                                                             Плешков В.Г., Ребрий А.В. Роль международных стандартов в создании инфраструктуры пространственных данных // Международный конгресс Великие реки. Нижний Новгород. – 2004.

  Поэтому, в случае использования ХГД в качестве компонента ИПД, становятся актуальными исследования в области создания методики проектирования базы метаданных хранилища геоданных.

Проведенный сравнительный анализ показывает необходимость в ходе проектирования БМД ХГД учитывать существующие международные и национальные стандарты описания, как пространственных метаданных, так и метаданных широкой сферы применения.

 

2. Состав базы метаданных хранилища геоданных В этом разделе будет определен базовый набор метаданных достаточный для формирования концептуальной схемы БМД ХГД. С этой целью приведены основные функции, выполняемые метаданными в среде ХД, архитектурная концепция информационного ХД и схема движения информации в ХД.

Под метаданными в среде ХГД следует понимать совокупность спецификаций, отражающих информационную модель, описание структуры хранилища данных, структуры источников данных, а также процессов обработки данных, циркулирующих в среде. Это определение состоит из двух частей, в первой половине приведено семантическое требование к метаданным, а во второй техническое требование. Из этого вытекает основное деление метаданных на пользовательские и системные метаданные.

Еще одно определение дополняющее предыдущее, «метаданные — это структурированные, кодированные данные, которые описывают характеристики объектов-носителей информации, способствующие идентификации, обнаружению, оценке и управлению этими объектами»1.

Из приведенных определений можно сделать выводы, что метаданные, так же как и данные обладают определенной структурой и выполняют ряд возложенных на них функций.

Конкретные функции и состав метаданных существенным образом зависят от информационных технологий, на которых базируется система, от ее функциональности, свойств поддерживаемых в ней информационных ресурсов, способов их организации в системе, особенностей задач их обработки и от многих                                                              Taylor C. An Introduction to Metadata // The University of Queensland. – Australia.

    других факторов1. Приведем основные функции метаданных в среде ХГД (далее – метаданные).

Описание модели предметной области. С разработки этой модели начинается проектирование ИС. Это - концептуальная схема предметной области, дополняемая в системах семантического уровня онтологией2. Для описания концептуальной схемы применяются диаграммы классов UML. Благодаря чему она содержит в себе семантику предметной области.

Описание семантики данных. Представление данных в терминах пользователей ИС, так называемые «семантические метаданные». Например, в случае структурных элементов БД семантика описывается с помощью семантического аннотирования, заключающегося в связи с описываемым ресурсом семантической аннотации (примечания).

Описание структуры данных. Эти функции выполняют, схемы БД, определения типа XML-документа (DTD), а также XML-схемы. Этот вид метаданных представляется соответствующими языками описания данных.

Идентификация данных. Метаданные описывают, какие элементы или связанные с ними атрибуты обеспечивают идентификацию данных, например первичные и вторичные ключи строк таблиц БД. Значения ключей уникальным образом идентифицируют отдельные строки и/или их множества.

Описание представления данных по уровням информационной архитектуры. В системах БД метаданные описывают представление хранимых данных (внутренняя схема БД), «логическое» представление полной БД (концептуальная схема БД) и представления для пользователей или приложений необходимых им фрагментов БД или полной БД (внешние схемы).3                                                             

Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:

перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.  Когаловский М.Р., Калиниченко Л.А. Концептуальное и онтологическое моделирование в информационных системах // Программирование. МАИК «Наука». Интерпериодика. – 2009. – № 5.

Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:

перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.

    Управление данными. Управление данными это комплекс задач, связанных с эффективным хранением, обработкой, а также организацией доступа к структурированным данным. Для решения этих задач в основном используют технологии БД. В тоже время метаданные этого типа, обеспечивают механизмы СУБД необходимой информацией об организации БД, ограничениях целостности данных и управлении доступом.

Поддержка версионности. Эта функция касается данных с большим временным горизонтом. Метаданные, поддерживающие версии данных в различное время, отражают изменения структуры данных в источниках и изменяются сами для обеспечения непрерывной истории изменений структуры данных.

Верификация данных. Метаданные структурированных данных позволяют контролировать их форматы и типы данных, проверять соблюдение ограничений целостности, все эти задачи в основном решают механизмы СУБД1.

Предоставление пользователям сведений об описываемых ресурсах.

Метаданные применяются не только для описания системных функций, но также для информирования пользователей об имеющихся информационных ресурсах или сервисах. Пользовательские метаданные могут быть и структурированными, и неструктурированными. Последние представляются в виде текста, схемы, плана, фрагмента карты и др. Дополнительно эти метаданные могут описывать условия использования, терминологию, а также иные сведения об информационных ресурсах или сервисах.

Организация доступа к данным. Метаданные этого типа позволяют описывать функции доступа к данным, а также полномочия пользователей на доступ к ним или на выполнение иных операций в ХГД.

Описание пользовательских профилей. Совокупность метаданных, содержащих сведения о пользователях, их характеристиках, а также информационных потребностях, необходимых для сбора и учета в работе статистических данных об использовании системных ресурсов.

                                                             Там же.

–  –  –

                                                            

Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:

перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.

Там же.      возможные значения, идентифицирующие поля в структурах данных, а также источники сведений об объектах и т.п.

Кто это (пользователь)? Метаданные отвечающие на этот вопрос содержат профили пользователей использующих данные: права доступа пользователей к данным, а также сведения о пользователях, выполнивших операции над данными.

Где он (объект, пользователь и т.п.) находиться? Метаданные описывают местонахождение и взаимодействие серверов, рабочих станций, источников данных, а также размещенное на них программное обеспечение и распределение между ними данных.

Как он (объект, пользователь и т.п.) действует? Эти метаданные описывают операции, выполняемые над данными. Описываемые действия могли выполняться на разных этапах работы с данными (перенос из источника данных, загрузка в хранилище, выборка из хранилища данных и т.п.).

Когда это (объект, пользователь и т.п.) происходило? Метаданные отвечающие на этот вопрос описывают момент или промежуток времени выполнения разных операций над данными.

Почему это (объект, пользователь и т.п.) произошло? Метаданные этого типа описывают причины выполнение над данными операций. Этими причинами может быть запрос к данным, изменение количества обращений к данным или достижение определенного значения контролируемого показателя и т.п.

Одновременно состав метаданных зависит от информационной архитектуры проектируемой ИС. Упрощенное представление ХГД представлено на рисунке 2.1, в виде шестиуровневой архитектурной концепции информационного хранилища данных.

Первый уровень приведенной архитектурной концепции представлен источниками данных (далее – ИД). Это любые источники структурированных данных, так как большинство методов анализа данных работает только с хорошо структурированными данными, поэтому в среде ХГД речь идет только о структурированных или слабоструктурированных геоданных.

    Второй уровень содержит систему извлечения, преобразования и загрузки данных в ХД (далее – ИПЗ). Основные задачи

системы ИПЗ – извлечение данных из разнородных источников, приведение их к единому согласованному виду и загрузка в хранилище данных.

Следующий уровень хранит собранные данные, а также организует доступ к ним в соответствии с определенными правами. На этом уровне размещаются единое хранилище данных (далее – ЕХД), содержащее детальные, агрегированные и архивированные данные, а также зона временного хранения (далее – ЗВХ), системы ведения метаданных и базы метаданных (далее – БМД) и нормативносправочной информации (далее – НСИ).

На следующем уровне расположена система выборки, реструктуризации и доставки данных (далее – ВРД) выполняющая выборку и доставку очищенных данных из общего ХД, предварительно приводя структуру этих данных в соответствие с требованиями различных приложений. Эта система является единственным пользователем ХД, за счет чего на него снижается нагрузка.

Система ВРД доставляет данные на следующий уровень в различные витрины данных (далее – ВД).

Уровень представления данных (далее – ПД) отделяет функцию хранения от функции представления данных для выполнения различных задач. На этом уровне находятся ВД – наборы данных, наиболее отвечающие потребностях обслуживаемых задач. В связи с отсутствием универсальных структур данных, пригодных для решения любых задач, витрины данных представляют в виде подмножеств ХД, физически разделенных между собой. Эти подмножества могут быть сгруппированы по территориальным, тематическим, прикладным, функциональным или другим признакам.

Уровень прикладных задач (далее – ПЗ) представлен программными инструментами сценарного расчета, статистического анализа, многомерного анализа, а так же средствами планирования и подготовки отчетов. Естественно, что список прикладных задач этим не исчерпывается.

Рисунок 2.1.

Шестиуровневая архитектурная концепция информационного хранилища данных     На этом уровне также расположены средства анализа данных, которые можно разделить на две основные категории:

средства OLAP;

средства Data Mining и Knowledge Discovery in Databases (DM и KDD).

Дополнительно в состав уровня могут быть включены средства генерации запросов и отчетов (Query and Reporting, Q&R). Также на этом уровне может находиться (либо быть выделены в отдельный уровень) система подготовки публикаций.

Приведенная архитектурная концепция может быть положена в основу архитектурной модели предприятия при разработке аналитической системы с БД. Между компонентами описанной архитектурной концепции происходит постоянный обмен данными.

В среде ХГД существует две общие категории движения данных (информационные потоки):

входной поток – загрузка данных в ХД;

выходной поток – доступ к данным для анализа и представления из ХД. В свою очередь входной поток может быть потоком обновления или потоком добавления данных.

Одновременно в самом ХД происходит четыре категории движения данных (информационные потоки):

поток обобщения данных – образуется путем агрегирования детальных данных и их хранения в ХД;

архивный поток – происходит вследствие переноса детальных данных в архив, в случае сокращения количества обращений к ним;

поток метаданных – получается в результате переноса информации о данных из источников в БМД.

внутренний поток – происходящие взаимодействия между НСИ, БМД и базами данных, хранящими детальные, агрегированные или архивные данные.

Все приведенные информационные потоки целесообразно учитывать при создании схема движения информации. Пример этой схемы приведенной на рисунке 2.2.

   

Рисунок 2.2. Схема движения информации в среде хранилища данных

    Учитывая, что метаданные являются структурированными данными, а так же в целях их систематизации в БМД применим следующие понятия:

элемент метаданных – дискретная единица метаданных1;

сущность метаданных – набор элементов метаданных, описывающих один и тот же аспект данных, а из одной или более сущностей, связанных отношениями обобщения или агрегирования состоит пакет метаданных2.

Основываясь на архитектурной концепции информационного ХД и общей категории движения данных в нем, а также на приведенном перечне функций метаданных, определим базовый набор метаданных.

1. Пакет метаданных «Информация о предметной области».

Требования к составу этого пакета формируются исходя из основной функции метаданных – интерпретации данных предметной области в терминах понятных пользователям. Предметной областью геоинформатики являются пространственные объекты, их свойства и характеристики.

Термины, используемые в среде ХГД, должны соответствовать общепризнанной, упорядоченной и стандартизированной геоинформационной лексике, которая, в свою очередь, может быть поделена на группы:

геоинформатика, картография, геодезия и системы спутникового позиционирования, дистанционное зондирование и аэрокосмические методы, цифровая обработка изображений, общая информатика и вычислительная техника.

Поэтому в части сбора требований к составу этого пакета метаданных можно воспользоваться стандартами регламентирующими термины и определения в области геоинформатики и ее окружении, такими как:

ГОСТ Р 51606-2000 «Карты цифровые топографические. Система классификации и кодирования цифровой картографической информации. Общие требования»;

                                                             ГОСТ Р 52573-2006 Географическая информация. Метаданные.

 Там же.      ГОСТ Р 51607-2000 «Карты цифровые топографические. Правила цифрового описания картографической информации. Общие требования»;

ГОСТ Р 52438-2005 «ГИС. Термины и определения»;

ГОСТ Р 52439-2005 «Модели местности цифровые. Каталог объектов местности. Требования к составу»;

Стандарт ГОСТ Р 52438-2005 устанавливает основные термины и определения понятий в области геоинформационных систем и применяется совместно с ГОСТ Р 21667-76 «Картография. Термины и определения» и ГОСТ Р 28441-99 «Картография цифровая. Термины и определения».

Всю терминологию, применяемую в среде ХГД, следует согласовывать с этими стандартами, так как метаданные должны поддерживать в запросах понятную для пользователя терминологию, независимо от того, какие правила наименования атрибутов были использованы проектировщиком ХГД.

Следующий стандарт ГОСТ Р 52439-2005 устанавливает перечень объектов местности и их свойств, подлежащих описанию в цифровых моделях местности.1 Этот стандарт можно использовать для формирования классификатора пространственных объектов ХГД входящий в состав НСИ.

Сбор и анализ сведений о предметной области всей ИС происходит параллельно с формированием НСИ и описанием элементов метаданных этого пакета. Другими словами, можно сказать, что целесообразно постоянно согласовывать между собой НСИ, концептуальную модель предметной области ХГД и метаданные пакета «Информация о предметной области».

Так как предметная область ИС не ограничивается только описанием пространственных объектов (объектов материального мира), следует дополнительно описывать информационные объекты, процессы и функции, проходящие в ХГД, а также правила (исключения), по которым происходит взаимодействие между объектами. Эти описания позволят организовать эффективный анализ данных в ХГД.

                                                             ГОСТ Р 52439-2005 Модели местности цифровые. Каталог объектов местности.

    Дополнительно для точного определения местонахождения описываемых предметной областью данных в этот пакет метаданных целесообразно включить сведения об архитектуре среды ХГД. Элементы метаданных описывающие архитектуру среды ХГД содержат сведения о местоположении серверов, рабочих станций и источников данных, описывают размещенных на них программных средств и распределения между ними данных.

2. Пакет метаданных «Информация об источниках данных».

Этот пакет содержит метаданные, описывающие источники данных. Для сбора требований к составу этого пакета следует определить источники данных для ХГД – основу его информационного обеспечения.

В геоинформатике могут быть использованы данные, получаемые в различных технологиях:

в полевых условиях геодезическими (полевыми) методами;

с помощью систем глобального позиционирования GPS, ГЛОНАСС;

посредством средств и технологий дистанционного зондирования:

фотограмметрических методов (наземные и аэрокосмические снимки), телевизионной видеосъемки, радиометрических методов когерентного оптического зондирования;

с карт (географических, тематических, специальных и т.п.);

по сети Internet;

из баз данных или из архивов;

из других ГИС;

с помощью средств мультимедиа1.

Источники данных (далее – ИД) оперируют различными упорядоченными наборами пространственных данных, среди которых различают картографические, статистические и аэрокосмические материалы. Помимо указанных материалов реже используются данные специально проводимых полевых исследований и съемок, а также статистические (текстовые) источники,                                                             

Савиных В.П., Цветков В.Я. Геоинформационный анализ данных дистанционного зондирования / М.:

Картоцентр-Геодезиздат, 2001. – 23 с.

    что позволяет охарактеризовать их лишь в самом общем виде1. В это связи пространственные данные в ИД можно разделить на три основных класса: карты, аналитические данные и данные дистанционного зондирования Земли.

Пространственные данные – информация о пространственных объектах. Под пространственным объектом понимается отнесенная к одному из классов информационная единица (цифровая модель), содержащая координатные данные (позиционирование), определенный набор свойств (атрибутику) и уникальный идентификатор. Это может быть неподвижный или подвижный, простой или сложный объект, явление, событие, процесс или ситуация.

Любой предмет или явление может быть описано в пространстве координатами (географическое множество) и (или) набором характеристик (атрибутивное множество).

Каждый вид представления данных имеет свои правила хранения, отображения и обработки образов объектов. Согласно ГОСТ Р 52438-2005 «модель пространственных данных – набор пространственных объектов и межобъектных связей, сформированных с учетом общих для этих объектов правил цифрового описания».

При оценке и анализе различных типов ИД, являющихся основой информационного обеспечения ХГД, следует учитывать их общие свойства, описываемые пространственными метаданными.

Практика внедрения ХД показала, что метаданные, созданные и импортированные из различных источников, фактически управляют всем процессом сбора данных. Многие источники содержат в себе элементы метаданных, но практически никогда не несут их полный набор2.

                                                              Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 2: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.  Асадуллаев C. Фирменные архитектуры хранилищ данных // PC Week. – 1998. – № 32-33. – С. 156-157.

      Рисунок 2.3. Источники пространственных данных для хранилища геоданных     В этой связи при извлечении данных из ИД применяется одновременный перенос метаданных из этих источников (например, в формате XML-файла). Как отмечалось выше метаданные пространственных данных используемые в ИД формируются на основе ГОСТ Р 52573-2006 «Географическая информация.

Метаданные», поэтому приблизительный состав переносимых метаданных должен соответствовать базовому набору метаданных, определенному в этом стандарте.

В случае если источником пространственных данных является электронная карта, то ее метаданные должны соответствовать ГОСТ Р 51353-99 «Геоинформационное картографирование. Метаданные электронных карт».

Настоящий стандарт устанавливает требования к составу и содержанию метаданных геодезической, гравиметрической, фотограмметрической и картографической информации, которую используют при создании (обновлении) и применении электронных карт1.

Анализ ИД позволяет не только наполнить пакет метаданных «Информация об источниках данных» информацией об их структуре и семантике, но также собрать сведения для организации интегрированной модели данных ХГД и создания схем переноса данных из источников данных.

3. Пакет метаданных «Информация о хранилище данных».

Пакет содержит метаданные, описывающие следующие компоненты ХД:

единое хранилище данных, зона временного хранения, нормативно-справочная информация и база метаданных.

Как уже отмечалось в основе единого хранилища данных (ЕХД) находится реляционная база данных, имеющая специальную структуру, или OLAP-куб данных, либо все из перечисленного. В любом случае в них содержится единый массив данных, базовыми единицами хранения которого являются значения свойств пространственных объектов. Это связано с обязательной предметной ориентацией ХД, в нашем случае ориентация на пространственные объекты и                                                              ГОСТ Р 51353-99 «Геоинформационное картографирование. Метаданные электронных карт».

    явления, а также с необходимостью применения для анализа и хранения многомерной модели данных.

Поэтому для формирования набора метаданных описываемого пакета целесообразно рассмотреть требования к многомерной модели данных ХГД предложенные G. Viswanathan и M. Schneider. Ниже приведены эти требования.

Визуальное представление модели пользователем должно быть простым и удобным, а также охватывать все размерности данных. Это позволяет облегчить пользователям поиск и анализ данных.

Модель должна быть эффективной для анализа и не зависима от методов реализации, то есть эффективность анализа не должна зависеть от применяемой схемы.

В модели должно присутствовать явное разделение структуры и значений, то есть должна быть учтена независимость спецификации от реализации.

Модель должна поддерживать иерархии по измерениям и фактам данных.

Модель должна поддерживать составные иерархии по измерениям данных а также по одинаковым значениям фактов.

Модель должна поддерживать тематические (описательные) атрибуты для элементов измерений и фактов (например, геометрических), что позволяет применять в ходе анализа выборку, фильтрацию и агрегированные запросы.

Модель должна поддерживать агрегирование геометрических и тематических атрибутов, за исключением вычисленных значений атрибутов (например, вычисленной общей площади нескольких полигонов).

Модель должна поддержать составные (сложные) элементы измерений и фактов. Ячейка куба может содержать несколько фактов, в случае если объект составной (сложный). Например, элемент измерения «Местоположение» может иметь составной объект, лес – полигон с внутренним отверстием – поляна.

Модель должна уметь работать с данными на разных уровнях детализации (динамические многоуровневые иерархии).

    Модель должна поддерживать не строгие, (рваные) иерархии, а так же отношения – обобщение и специализация.

Модель должна поддерживать функции агрегирования определенные пользователями. Модель должна позволять пользователям применять нерегламентированные (ad-hoc) операции агрегирования, как на числовом, так и на геометрическом наборе данных.

Модель должна уметь работать со случайными погрешностями в данных, избегая в ходе сложения двойного подсчета и не учитывая неаддитивные данные.

Модель должна уметь работать с обновленными и удаленными данными за длительный временной интервал. Любые пересчеты значений фактов должны быть последовательными и правильными.

Модель должна учитывать возможность представления на схеме сложных (составных) фактов и измерений.

Модель должна поддерживать поперечную детализацию по измерениям – разделение измерений между различными кубами данных, а также сквозную детализацию для запросов к самому нижнему уровню данных (к «сырым данным»).

Модель должна поддерживать агрегирование по тематическим атрибутам, не являющимся частью измерений или иерархий, а также по тематическим атрибутам фактов.

Модель должна поддерживать возможность создания динамических многоуровневых запросов.

Модель должна поддержать иерархии обобщения и специализации пространственных объектов. Например, «город – область – страна» в иерархии «Местоположение», при этом должна существовать связь пространственных иерархий с иерархиями тематических атрибутов.

Измерения и иерархии должны поддерживать пространственные данные и операции над ними, такие как свертки и развертки на пространственных иерархиях. Одновременно куб данных должен быть способен к хранению и     управлению пространственными фактами, простыми или сложными объектами, а также объединений пространственных объектов.

Модель должна поддерживать операции агрегирования на пространственных фактах и элементах измерений. Например, совокупность городов, имеющих наибольшую численность населения в каждом районе одной области в 2013 году.

Модель должна поддерживать нерегламентированные пространственные операции на пространственных фактах, элементах измерений и их тематических атрибутах.

Выполнение приведенных выше требований к многомерной модели данных ХГД позволяет учесть всю сложность и разнообразие реального мира при создании концептуальной (инфологической) модели предметной области.

В первом разделе данной работы рассмотрены подходы к построению многомерной модели данных ПХД. В следующем разделе приведем пример создания метаданных, описывающих концептуальную модель ХГД.

Важной функцией метаданных рассматриваемого пакета является описание структуры данных всех БД находящихся на этом архитектурном уровне, а в случае наличия ЗВХ, описывают ее структуру и семантику. Но ключевой функцией метаданных этого пакета является описание интегрированной модели данных ХГД (далее – модель ХГД).

Важным компонентом ХГД расположенным на этом уровне является НСИ, в состав которой входят: словари, справочники, классификаторы, нормативы, идентификаторы и кодификаторы1. В таблице 2.1 рассмотрены метаданные описывающие этот компонент.

Таблица 2.1.

Метаданные нормативно-справочной информации Нормативно-справочная Метаданные НСИ информация (НСИ) В качестве метаданных словарей, например, может Словари выступать оглавление (содержание) словаря. Это позволяют ориентироваться в многообразии термином, а                                                              Асадуллаев С. Данные, метаданные и НСИ: тройная стратегия создания хранилищ данных // IBM Developer Works. – Россия. – 09.07.2009.

–  –  –

    управления метаданными1. В технической литературе БМД часто называется репозиторий метаданных или словарь-справочник данных. Целесообразно конкретизировать это определение с учетом его применения в ХГД.

БМД – система хранения и управления метаданными ХГД, состоящая из информационного навигатора для классификации, хранения и управления метаданными и базы данных содержащей весь массив пользовательских и системных метаданных.

Базу метаданных ХГД можно создавать и поддерживать с помощью любого метода проектирования. При этом важно выбрать для неё архитектуру (централизованная или распределенная) и способы поддержки её в актуальном состоянии.

При централизованной схеме организации БМД, создается одна БД, в которой хранятся метаданные всех элементов информационной цепи.

Централизованная база метаданных (далее – ЦБМД) имеет одни и те же преимущества и недостатки централизованной БД.

Распределенная база метаданных (далее – РБМД) хранит метаданные в нескольких БД, но метаданные остаются на собственных уровнях шестиуровневой архитектуры. Созданный XML-шлюз действует как справочник для получения доступа к метаданным в пределах каждого уровня. Преимущества и недостатки РБМД те же что и для распределенной базы данных.

Как вариант РБМД существует децентрализованная база метаданных. Её отличие состоит в том, что метаданные распределены не по уровням архитектуры, а по месту физического хранения.

Идеальное решение для управления метаданными – это централизованная база метаданных, доступная пользователям, разработчикам и администраторам из всех мест среды ХГД.

Но для этого ей следует соответствовать следующим основным требованиям:

                                                             Ponniah P. Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. – John Wiley & Sons, Inc. – 2001.

    Гибкая организация. Только администратор данных классифицирует и организует метаданные по логическим категориям и подкатегориям, а также классифицирует новые элементы метаданных.

Историчность. Контроль версий метаданных для поддержки их исторической перспективы.

Интегрированность. Хранение предметно-ориентированных (так называемых «бизнес метаданных») и технических метаданных в форматах, понятных всем пользователям.

Хорошая обособленность. Способность разделять и хранить логические и физические модели БД.

Возможность анализа и просмотра. Способность просматривать все метаданные, а также отслеживать связи между ними.

Возможность настройки. Способность создавать настраиваемые представления метаданных для отдельных групп пользователей и включать по мере необходимости новые метаданные в эти группировки.

Поддержка описаний и определений. Представление метаданных в терминах описываемой предметной области.

Стандартизация присвоения имен. Гибкость при присвоении имен и стандартизации в БМД.

Синхронизация. Синхронизация хранимых метаданных с внешними системами и в пределах ХГД.

Открытость. Поддержка обмена метаданными между различными инструментами через стандартные интерфейсы.

БМД отвечает за физическое хранение метаданных, а также их каталогизацию, подобно словарю данных, который позволяет поддерживать и контролировать информацию о данных в БД.

Метаданные условно можно разделить на пользовательские и системные, служащие различным целям и используемые разными потребителями. Структуры этих двух категорий метаданных также различаются. Поэтому БМД можно     сравнить с двумя отдельными информационными справочниками: один хранит пользовательские метаданные, а другой – системные метаданные. Это деление может быть логическим и осуществляться в пределах единой физической БД.

Для хранения метаданных могут использоваться как реляционные, так и объектно-ориентированные БД. Кроме СУБД, управляющей созданием и использованием БД, содержащей весь массив метаданных, применяется дополнительная надстройка – информационный навигатор, содержащий набор сервисных функций создания, просмотра и редактирования метаданных.

На рисунке 2.4 приведено типовое содержание БМД ХД.

Информационный навигатор доступа к метаданным 

–  –  –

Рисунок 2.4.

Типовое содержание БМД ХД Информационный навигатор – компонент не содержащий метаданных, а являющийся интерфейсом взаимодействия пользователя с БМД, позволяющий выполнять следующие обязательные функции:

Создавать запросы к метаданным.

Проводить развертку метаданных по уровням детализации.

Просматривать и выполнять перечень сформированных запросов и отчетов.

Пользовательские метаданные – компонент содержащий предметноориентированные а также технические метаданные. Здесь находятся справочники позволяющие описывать предметную область в терминах конкретных пользователей.

Системные метаданные – компонент состоящий из метаданных процесса обработки данных, а также структурных метаданных.

   

4. Пакет метаданных «Информация о системе извлечения, преобразования и загрузки».

Метаданные этого пакета должны описывать расположенную на одноименном уровне систему ИПЗ, точнее циркулирующие в ней данные и проходящие в ней процессы. Для своей работы система ИПЗ должна обладать сведениями об ИД такими как: формат и структура данных, алгоритмы обработки данных и их отличия, семантика хранящихся данных, график выполнения обработки информации в транзакционных системах.

Процессы происходящие в системе ИПЗ должны разрабатываться с учетом особенностей моделей данных на основе которых строится ХГД.

Независимо от особенностей построения и функционирования система ИПЗ должна обеспечивать выполнение следующих процессов: извлечения, преобразования и загрузки данных, а метаданные пакета «Информация о системе извлечения, преобразования и загрузки» описывать эти процессы.

В ходе описания процедуры извлечения данных сначала целесообразно определить регламент загрузки данных в ХД и частоту выгрузки данных из ИД.

Время, занимаемое выгрузкой данных, называется «окном выгрузки».

Процедура извлечения данных может быть реализована двумя способами:

Извлечение данных дополнительными программными инструментами из структур хранения данных.

Выгрузка данных средствами OLTP-систем в промежуточную структуру хранения данных (например, в ЗВХ).

После извлечения данные попадают в промежуточную область в которой для каждого ИД создается отдельная таблица или отдельный файл. При этом следует учитывать, что система ИПЗ не предназначена для длительного хранения извлеченных и очищенных данных.

В качестве переходного этапа между ИД и ХД можно использовать определенный тип файла, например SHP или SXF.

Формат SHP «Шейп-файл» позволяет хранить следующие различные типы геометрических объектов: точки, линии, полигоны и другие объекты. Причем     отдельный файл может хранить, только однотипные объекты. Каждая запись в «Шейп-файле» также может иметь несколько атрибутов для описания своей геометрии, например: название, температура, глубина1.

Формат SXF (Storage and eXchange Format) — открытый формат цифровой информации о местности предназначен для применения в геоинформационных системах для хранения цифровой информации о местности, обмена данными между различными системами, создания цифровых и электронных карт и решения прикладных задач2.

Перед началом процесса извлечения данных целесообразно определить в каких ИД хранятся требуемые данные.

При этом выбирая ИД для загрузки в ХД надо учитывать следующие факторы:

Значимость данных для анализа.

Сложность извлечения этих данных из ИД.

Возможность нарушения целостности и достоверности данных.

Объем данных в ИД.

После выбора ИД определяют какие данные из них требуются в ХД. Если требуется извлечь только определенные записи, создается набор условий или алгоритм выборки записей, представляющих интерес.

Дополнительно, для начала процесса извлечения данных используется некоторая служебная информация, например, имя набора данных, из которого извлекаются записи, номера первой и последней извлекаемых записей, количество извлекаемых записей, формат представления данных, максимальная длина записи и т.д.

Другой не менее важный момент это выбор «временной глубины» выгрузки данных. В основном это относится только ко времени первичной загрузки данных в ХД, когда требуется определить, за какой период времени информация является актуальной. Определение «временной глубины» выгрузки данных обеспечивает                                                              О шейпинге на покрытиях. Топология и шейп-файлы // ArcGIS Review. – 2001. – № 4 (19).

Формат хранения и обмена цифровых навигационных карт и планов городов в двоичном виде (SXF). – ЗАО КБ «Панорама».

    правильный баланс между объемом выгружаемых из источника данных и их ценностью для анализа.

При повторных загрузках данных в ХД уже целесообразно организовать поиск измененных данных, например с помощью меток времени.

Как отмечалось выше, процесс извлечения данных в системе ИПЗ существенно зависит от ИД, а именно от их типов и структуры. Выделяют следующие разновидности ИД.

Структурированные ИД.

Базы данных. Структура данных в БД жестко задана, а так же предусмотрен контроль целостности и непротиворечивости данных, поэтому извлечение данных из них не должно вызывать проблем.

Файлы различных форматов. К таким источникам относятся файлы форматов SHP и SXF, а так же текстовые и табличные файлы с разделителями.

Для доступа структурированным данным применяют стандартные средства, такие как ODBC и ADO.

Неструктурированные ИД. Если в целях анализа приходится использовать неструктурированные источники, то применяют средства их преобразования в структурированный вид для возможности загрузки в реляционную таблицу.

Следующим в схеме работы с данными запускается процесс их преобразования. Целью процесса преобразования данных является подготовка извлеченных данных к размещению в ХД а также приведение их к виду пригодному для анализа.

В процессе преобразования данных в системе ИПЗ в основном выполняются следующие операции:

Преобразование структуры данных.

Агрегирование данных.

Перевод значений.

Создание (вычисление) новых данных.

    Очистка данных.1 Преобразование структуры данных следует применять в случае отличия структурной организации ИД и целевых таблиц ХД (таблиц, в которые передаются данные). Различия в структурной организации могут быть следующими: в соглашении о назначении имен полям и таблицам, в порядке описания данных, форматов и типов данных, в применяемых разделителях целой и дробной частей и т.п.

Процесс агрегирования данных достаточно полно описан в первом разделе диссертационной работы. С целью выяснения необходимости агрегирования данных следует изучить наиболее вероятные направления использования полученных агрегатов данных в ХД.

При выборе способа агрегирования данных целесообразно исходить из планируемых направлений анализа. Дополнительно выбор нужных агрегатов определяется особенностями предметной области. При этом следует понимать, что агрегаты, применяемые для анализа, могут вычисляться, как во время аналитического запроса, так и перед ним.

Существует два правила создания агрегатов. Во-первых, создавать только агрегаты необходимые для анализа, а во-вторых, при определении количества агрегатов, следует соблюдать баланс между потребностью в дополнительных вычислениях агрегатов в процессе анализа и сложностью структуры данных, ее размером.

Обычно данные в ИД хранятся с использованием кодировок, например, если в качестве ИД применяются файлы в форматах SXF и SHP. В этих случаях перед загрузкой данных в ХД следует выполнить перевод таких сокращенных значений в более понятные и полные. К тому же, может возникнуть необходимость конвертации числовых данных, (преобразовывать вещественные числа в целые, уменьшить точность представления чисел и т.д.)                                                               Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – 113 с      Во время загрузки данных в ХД дополнительно может потребоваться на основе существующих вычислить новые данные, это связано с обогащением данных, которое может проводиться (частично или полностью) на этапе преобразования. Вычисление новых данных сопровождается созданием новых записей и полей в ХД. Причем, и агрегирование данных можно рассматривать как создание новых данных.

Процедура очистки данных – корректировка данных, которые в каком-либо смысле не удовлетворяют определенным критериям качества, то есть содержат нарушения структуры данных, противоречия, пропуски, дубликаты, неправильные форматы и т.д.1 Другими словами очистка данных – это подготовка данных к загрузке в ХД.

Для разработки методики очистки данных, целесообразно определить критерии, по которым оценивать качество получаемых данных, например критичность ошибок, условно разделив эти данные на три категории:

Данные высокого качества.

Данные, содержащие критические ошибки.

Данные, содержащие некритические ошибки.

Некритические ошибки обычно исправляются в процессе анализа средствами аналитической системы на уровне прикладных задач. При обнаружении критических ошибок в данных может потребоваться провести дополнительную работу для их устранения.

Дополнительно при создании методики очистки данных необходимо учитывать особенности предметной области, функционирования ИД и порядка сбора данных. Кроме того, необходимо понимать, что полностью очистить данные не получиться. Если достоверность каких-то данных не влияет на результаты анализа, то от их очистки, возможно, следует вообще отказаться2.

                                                             Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – 118 с.

Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – 113 с.

    В системе ИПЗ процесс преобразования может выполняться на разных этапах работы с данными. Причем порядок распределения этого процесса зависит от эффективности преобразования.

Преобразование во время извлечения данных из ИД. Выполняется преобразование типов данных и производится фильтрация интересующих аналитика записей (отбираются только записи, измененные или созданные в ходе предыдущей загрузки).

Преобразование перед загрузкой данных в ХД. Преобразование происходит в промежуточной области, использующейся для интеграции данных из гетерогенных ИД. В ходе преобразования в этой области происходит сортировка, группировка, обработка временных рядов и т.п.

Преобразование во время загрузки данных в ХД. На этом этапе могут выполняться только некоторые простые преобразования, но только после загрузки данных в ХД.

В свою очередь данные после процесса преобразования загружаются в ХД.

Перенос данных из промежуточной структуры хранения системы ИПЗ в структуры ХД называется процессом загрузки данных. Обычно в ходе этого процесса первыми загружаются данные в таблицы измерений, а затем в таблицы фактов.

Перед внесением новых записей в таблицу измерений требуется убедиться в отсутствии этих или подобных записей в ней. В этом случае, данные добавляются в таблицу, в противном – запись обновляется, либо добавляются дополнительные поля, сохранив старую и добавив новую информацию.

Затем загружаются данные в таблицы фактов. Новая информация добавляется в конец таблицы фактов для того чтобы не изменять существующие данные.

Одной из основных проблем этапа загрузки данных является редкость полной загрузки данных, например, может быть отказано в загрузке некоторых важных записей.

В случае неудачной повторной попытки загрузки данных должны быть предусмотрены возможные варианты действий, например:

    Сохранить отфильтрованные данные, в виде таблицы или файла этого же формата (таблица исключений).

Провести анализ исключенных данных для выявления причин, отказа в загрузке.

Провести дополнительную или повторную обработку и очистку данных.

А в случае положительного результата предпринять дополнительную попытку загрузки в ХД.

Невозможность загрузки данных после этих операций приведет к появлению в ХД неполных данных.

Для решения этой проблемы можно:

Привести ХД в исходное состояния (до загрузки).

Очистить таблицы с неполными данными.

Оставить все как есть, с отметкой для ознакомления пользователей о возникших проблемах.

При очередной загрузке из ИД в ХД переносятся только данные измененные в течение промежутка времени, прошедшего с предыдущей загрузки, при этом происходит либо добавление, либо обновление (дополнение) данных. Для этого загружаемые данные распределяются по двум потокам – потоку добавления и потоку обновления, что позволяет выполнить перенос данных в ХД с помощью запросов, не используя фильтры для разделения данных.

Для разделения загружаемых данных на потоки применяются два основных метода: полное сравнение загружаемых записей с ранее загруженной информацией и частичное сравнение с использованием признаков модифицированных полей «Время/Дата» для определения последних изменений записей.

По окончанию загрузки могут выполняться пост загрузочные операции над только что загруженными данными (переиндексация, верификация и т.д.). Для этих целей предусматривают комплекс верификационных тестов. Дополнительно целесообразно, сравнить данные после их загрузки в ХД с исходными данных.

    Метаданные пакета «Информация о системе извлечения, преобразования и загрузки» должны описывать весь приведенный выше алгоритм преобразования данных.

5. Пакет метаданных «Информация о системе выгрузки, реструктуризации и доставки».

Этот пакет метаданных необходим в случае применения в ИС системы ВРД.

При использовании системы ВРД весь алгоритм информационного обеспечения витрин данных (далее – ВД) сосредотачивается в ней. Поэтому ВД обслуживают различные пользовательские запросы, а ЕХД осуществляет надежное хранение данных.

К тому же система ВРД также смягчает нагрузку на ЕХД за счет того, что однажды извлеченные данные преобразует в форматы ВД и доставляет их в соответствии с запросами.

Определив основную цель системы ВРД, рассмотрим применяемые ею методы работы с данными.

Выборка данных происходит в соответствии с требованиями, заложенными в ВД или определяемыми пользователями в соответствии с формируемыми запросами.

Реструктуризация – комплекс методов и алгоритмов, направленных на оптимизацию представления и форматов данных для повышения эффективности анализа и решения задач.1 Реструктуризация не изменяет информационное содержание данных, а оптимизирует представление информации, полученной на основе этих данных, в виде пригодном для эффективного использования.

Основная цель реструктуризации данных на этапе аналитического приложения – непосредственная подготовка данных к анализу, объединение и                                                              Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – 138 с.

    выделение наиболее ценной информации, обеспечение корректной работы аналитических алгоритмов, методов и моделей1.

Целесообразность применения методов реструктуризации данных в аналитических приложениях вызвано их доступностью аналитику. Если аналитик в процессе подготовки данных к анализу по своему усмотрению применяет методы реструктуризации данных, настраивать их параметры, проводить эксперименты, это позволяет ему определить влияние реструктуризации данных на результат анализа.

Большинство аналитических платформ оснащено следующими основными методами реструктуризации данных.

Преобразование упорядоченных данных. Используется для оптимизации представления данных, то есть повышения наглядности.

Квантование. Позволяет разбить диапазон значений по числовому признаку на определенное количество интервалов, а затем присвоить метки попавшим в них значениям.

Сортировка. Изменяет порядок следования записей первичной выборки данных, основываясь на пользовательском алгоритме.

Слияние. Этот метод позволяет объединить две таблицы по одинаковым полям и дополняет одну таблицу отсутствующими записями из другой.

Группировка и разгруппировка. Группировка позволяет объединить нужную информацию, в наименьшее количество значений и полей. Разгруппировка – обратная операция.

Настройка выборки. Изменяет имена, типы и метки полей первичной выборки данных.

Подстановка значений из таблицы. На основе таблицы подстановки, содержащей «исходное значение – новое значение» происходит замена значений в полученной выборке данных. Этот метод позволяет использовать автоматическую корректировку значений.

                                                             Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – 139 с.

    Вычисление значений. В случае когда в выборке в явном виде отсутствует информация необходимая для анализа, ее можно получить на основе проведения вычислений над полученными значениями. Для этого целесообразно в аналитическое приложение добавить алгоритм расчета, позволяющий выполнять над данными первичной выборки необходимые вычисления.

Нормализация. Этот метод позволяет проводить преобразование диапазона изменений числового признака в другой диапазон. Это дает возможность применить к новому диапазону данных аналитические алгоритмы.

Все описанные методы реструктуризации должны быть описаны метаданными этого пакета, что позволит аналитикам выбирать способы реструктуризации для поиска наиболее оптимального представления данных для целей анализа.

Доставка данных в различные витрины данных происходит по правилам доставки, правам доступа, а также требованиям к составу информации определенным в среде ХГД и описываемым метаданными этого пакета.

6. Пакет метаданных «Информация о системе предоставления данных».

Уровень представления данных состоит из витрин данных, являющихся тематическими базами данных. Особенность их заключается в хранении информации относящейся только к аспектам деятельности конкретных пользователей, либо определенной тематики Путем переноса части нагрузки на ВД происходит оптимизация работы ЕХД.  Структура ВД должна максимально отвечать потребностям обслуживаемых аналитических задач. В связи отсутствия универсальных структур данных, подходящих для решения любых аналитических задач, структуры данных в ВД следует группировать по определенным признакам: территориальным, тематическим, организационным и т.п.

Достоинства ВД:

ВД представляет аналитикам, только нужные им данные;

ВД намного меньше по объему, чем ХД;

ВД максимально приближена к пользователю;

    ВД проще для проектирования и настройки.

По существу, концепция ВД предполагает создание распределенной ИС с отсутствием контроля избыточности, целостности и непротиворечивости, хранящихся в ней данных.

Дальнейшая эволюция этой концепции заключалась в ее объединении с ХД, и его использования для наполнения ВД.

Идея создания отдельных ВД заключается в проектировании ИС в целом, с дальнейшим разделением по отдельным функциям. Это привело к появлению двух подходов к проектированию ХД. Первый подход начинает проектирование с построения ЕХД, второй с построения ВД.

На сегодняшний момент существует следующее решение:

Первый уровень содержит детализированные данные. На этом уровне находиться общая БД с нормализованной или слабо нормализованной схемой, реализуемая на основе реляционной СУБД.

Второй уровень содержит агрегированные данные. Несколько БД, реализуемые на основе многомерной СУБД.

Третий уровень содержит аналитические приложения, в виде автоматизированных рабочих мест, причем эти аналитические инструменты работают с данными на двух нижних уровнях.

Это решение вписывается в шестиуровневую концепцию и позволяет использовать достоинства каждого из подходов:

Реляционные СУБД обеспечивают хранение детализированных данных и поддержку больших объемов данных.

Многомерные СУБД обеспечивают простоту настройки и быстродействие при работе с агрегированными данными.

Описанное решение не может обеспечить оперативной аналитической обработки запросов (из-за отсутствия кубов данных в ЕХД), но при использовании новых способов хранения и индексации данных, либо денормализации реляционных таблиц фактов и измерений, время обработки запросов может оказаться вполне приемлемым.

    В случае если в многомерной СУБД можно хранить данные, на постоянной основе, а также динамически загружать их из реляционных БД, то можно на постоянной основе хранить только часто запрашиваемые данные. А для всех остальных данных хранить только описания структуры и программы их выгрузки из единой реляционной БД или ЕХД.

У такого подхода можно выделить три преимущества:

Однажды разработанные таблицы общих измерений распространяются на все ВД.

По мере роста программного решения сокращаются усилия, затрачиваемые на проектирование, моделирование и реализацию, так как каждый этап становится базовым блоком для следующего.

ВД, созданные в первую очередь для проблемных областей, позволяют решать наиболее важные задач.

Главной задачей проектирования ВД является создание структуры данных, наиболее эффективной для целей анализа. Проектирование ВД заключается в создании таблиц измерений и фактов, определении связей между ними, а также связи готовой БД с ЕХД.

Поэтому метаданные этого пакета должны описывать в первую очередь структуру каждой ВД (имеющиеся таблицы фактов и измерений), а также имеющиеся таблицы общих измерений.

7. Пакет метаданных «Информация о прикладных задачах».

Метаданные этого пакета должны описывать используемые для целей анализа прикладные задачи. Спектр прикладных задач анализа очень широк, а способы применения ХД для решения различных прикладных задач весьма разнообразны.

Не смотря на это, выделяют следующие основные подходы использования ХД для целей анализа:

Регулярные отчеты. Многократная подготовка периодических отчетов стандартных форм.

Нерегламентированные запросы. Нестандартные запросы, не учтенные в ходе разработки ИС.

    Интеллектуальный анализ данных. Анализ больших массивов данных с целью выявления скрытых закономерностей, структур и объектов, а также построения моделей, прогнозов и т.д.1 Для решения различных прикладных задач анализа в среде ХД используются аналитические приложения, расположенные на уровне прикладных задач (далее – ПЗ). Приложения статистического и многомерного анализа, а так же средства планирования и подготовки отчетности. В среде ХГД также должны быть представлены инструменты пространственного анализа.

Все перечисленные приложения работают только с данными структурированными определенным образом, например, многомерному анализу необходимы кубы данных; статистический анализ работает с рядами данных, а моделирование использует реляционные таблицы.

Следует отметить, что помимо очистки данных перед их загрузкой в ХД, пользователь может выполнить дополнительную очистку средствами аналитического приложения уже после выполнения запроса к ВД, направленную на подготовку данных к решению конкретной аналитической задачи2.

8. Пакет метаданных «Информация о визуализации данных».

Метаданные этого пакета описывают применяемые способы визуализации данных в ХГД и позволяют пользователю выбрать способ визуализации с учетом его потребностей.

Визуализация – представление данных в виде, обеспечивающем наиболее эффективную работу пользователя. Способ визуализации должен максимально полно отражать поведение исследуемых данных, а также содержащуюся в них информацию, тенденции и закономерности3. Выбор способа визуализации зависит от характера данных и задач анализа.

В ИС на основе ХД целесообразно использовать визуализацию практически на всех этапах работы с данными.

                                                              Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – 42 с.  Там же 108 с.

Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – 173 с.

    Визуализация исходных данных. Визуализация данных находящихся в ИД позволяет определить их соответствие ожиданиям аналитика, оценить степень пригодности для анализа. К целям этой визуализации относится определение необходимости применения к данным дополнительной очистки и предобработки, а так же определение метода загрузки данных в аналитическое приложение. Для визуализации исходных данных могут применяться приложения в которых созданы эти данные, или сами аналитические приложения.

Визуализация данных, загруженных в аналитическое приложение. Целью визуализации на этом этапе является проверка правильности загрузки данных, оценка степени их гладкости, наличие шумов и аномальных выбросов. По результатам визуального анализа исходной выборки делаются выводы о целесообразности применении видов очистки и трансформации данных, вырабатывается методика и стратегия их анализа1.

Визуализация данных в процессе аналитической обработки. Данный вид визуализации применяется в случае многошаговости процедуры анализа, что позволяет изучать промежуточные результаты анализа.

Визуализация результатов анализа. После получения конечных результатов аналитической обработки следует убедиться в их достоверности и правильной интерпретации. Следует заметить, что в случае неудачного выбора метода визуализации не получиться правильно интерпретировать результаты анализа, а также увидеть в них зависимости и закономерности.

В настоящее время существует ряд методов визуализации выбор которых зависит от контекста решаемых задач.

В связи с этим можно выделить следующие группы методов визуализации:

Визуализация общего назначения (решение типовых задач анализа).

OLAP-анализ (визуализация многомерных данных).

Оценка качества моделей.

Интерпретация результатов анализа.

                                                              Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – 175 с.      Визуализация результатов пространственного анализа.

Особенность визуализации данных в ХГД связана с необходимостью отображения взаимодействия исходных данных и результатов их анализа с применением картографического материала. В настоящее время для визуализации данных в ИС использующих ХД применяются ГИС, либо растровый слой данных в качестве картографической основы.

9. Пакет метаданных «Информация о профилях пользователей».

Метаданные содержащиеся в этом пакете применяются для организации доступа к данным, циркулирующим в ХГД. Эти метаданные относятся к группе технических метаданных. Требования к их составу формируются исходя из состава пользователей ИС.

Дополнительно метаданные этого пакета описывают процедуру авторизации

– предоставление определенных полномочий пользователю на выполнение ряда действий в ИС. С помощью авторизации устанавливаются права доступа к ресурсам ИС.

Процедуры аутентификации (проверки подлинности) и идентификации (распознавания субъекта по его идентификатору) пользователей ИС позволяют обезопасить хранение и доступ к данным.

Например, стандартом ГОСТ Р 52573-2006 предусмотрен элемент метаданных «CI_RoleCode» определяющий ответственных субъектов, выполняющих операции над описываемым набором данных, одновременно существуют исторически сложившиеся группы пользователей ХД (администратор ХД, аналитик ИПЗ, аналитик данных и т.д.), поэтому целесообразно расширить перечень субъектов и их ролей в ХГД.

Приведенный в таблице 2.2 набор пакетов метаданных, не является исчерпывающим, так как их состав зависит от особенностей проектируемой ИС.

–  –  –

Рисунок 2.5.

Пакеты базового набора метаданных Приведенный выше базовый набор метаданных по существу является сводом требований к составу метаданных, планируемых к применению в БМД информационного ХД. Но для построения БМД не достаточно собрать требования к метаданным, дополнительно требуется определить модель отношений этих метаданных между собой, то есть модель метаданных. Приступать к созданию модели метаданных (метамодели) можно, только после сбора требований к метаданным.

Выделяют три способа создания метамодели:

ручное создание метамодели;

создание метамодели, основываясь на стандартах (спецификациях);

одновременное создание метамодели, а также информационного ХД.

Первый из указанных способов является наиболее трудоемким, но позволяет учесть все мелочи при создании метамодели. Следовать стандартам как предложено во втором способе, на практике, бывает очень сложно, к тому же, например, спецификация CWM не учитывает особенностей пространственных данных. В последнем случае построенная метамодель станет основой для БМД информационного ХД, в то время как в первых двух случаях БМД придется создавать отдельно, с нуля, то есть подстраиваться под вновь создаваемое ХД.

    Дополнительно, не смотря на выбранный способ создания модели метаданных, для построения полнофункциональной метамодели БМД ХГД, необходимо учитывать требования стандартов по геоинформатике1.

Построение модели метаданных является одной из важных составляющих проектирования БМД, поэтому в ходе разработки методики проектирования в следующем разделе планируется рассмотреть создание метамодели БМД ХГД с применением созданного базового набора метаданных, а также спецификации CWM и существующих стандартов по геоинформатике.

В качестве выводов ко второму разделу можно сказать, что опираясь на обзорный анализ функций метаданных, шестиуровневую архитектурную концепцию информационного ХД и схему движения информации, был сформирован свод требований к их составу метаданных БМД ХГД. На основе требований был сформирован базовый набор метаданных, состоящий из девяти пакетов метаданных. В следующем разделе с помощью этого набора планируется построить метамодель БМД.

Основное отличие приведенного набора от существующих заключается в том, что в ходе его формирования учитывались как особенности пространственных метаданных применяемых для описания пространственной информации, так и особенности технических метаданных процессов и операций работы с данными в информационном ХД. Таким образом, сформированный набор метаданных является фундаментом для создания метамодели БМД, а также составляет основу создаваемой методики проектирования БМД ХГД.

                                                              Зайцев В.В. Описание подхода к формированию набора метаданных, применяемого в хранилище геоданных // Известия ВУЗов: Геодезия и аэрофотосъемка. – 2015. – № 5. – С. 82-84. 

–  –  –

Основной целью третьего раздела является создание методики проектирования БМД ХГД, а также проведение сравнительного анализа создаваемой методики с уже существующими.

Понятие «методика» схоже с понятием «технология» и представляет собой готовый алгоритм (процедуру) проведения действий направленных на изготовление конечного продукта. Под конечным продуктом в данной работе понимается БМД ХГД. Одновременно следует учитывать, что проектирование любой БД, в том числе БМД – это процесс создания её схемы, а также определения ограничений целостности. Поэтому в данной работе под понятием «методика проектирования БМД» понимается алгоритм создания схемы БМД и определения ограничений её целостности.

Существующие методики проектирования БД служат для выполнения следующих задач:

обеспечение хранения необходимых данных;

обеспечение получения информации по любым запросам;

сокращение избыточности (дублирования) данных;



Pages:   || 2 |
Похожие работы:

«Министерство образования и науки Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Северный (Арктический) федеральный университет имени M B. Ломоносова» СМ. Потапенко Задачи регионального содержания 1 как фактор активизации познавательной...»

«Московский государственный университет имени М. В. Ломоносова Факультет Вычислительной Математики и Кибернетики Кафедра Математических Методов Прогнозирования ДИПЛОМНАЯ РАБОТА СТУДЕНТА 517 ГРУППЫ Автоматическая сегментация изображений рукописных документов Выполнила: студентка 5 курса 517 группы Малышева Е...»

«ГОСУДАРСТВЕННЫЙ НАУЧНЫЙ ЦЕНТР РОССИЙСКОЙ ФЕДЕРАЦИИ ИНСТИТУТ ФИЗИКИ ВЫСОКИХ ЭНЕРГИЙ ИФВЭ 201224 ОУК В.П. Воеводин Эволюция понятия и показателей надёжности вычислительных систем Протвино 2012 УДК 004.41 М-24 Аннотация Воеводин В.П. Эволюция понятия и показателей надёжности вычислительных систе...»

«Министерство образования Республики Беларусь Учреждение образования “Белорусский государственный университет информатики и радиоэлектроники” Баранов В.В. Основные теоретические положения (конспект лекций) по дисциплине Системное проектирование...»

«Анализ мотивации, целей и подходов проекта унификации языков на правилах Л.А.Калиниченко1, С.А.Ступников1 Институт проблем информатики РАН Россия, г. Москва, 117333, ул. Вавилова, 44/2 {leonidk, ssa}@ipi.ac.ru Аннотация. Работа посвящена...»

«Министерство общего и профессионального образования Свердловской области Государственное автономное образовательное учреждение дополнительного профессионального образования Свердловской области «Институт развития образования» Кафедра информационных технологий Современный урок информатики в условиях введения ФГОС общего образования Сборник...»

«I. ИНФОРМАТИКА УДК 519.68: 681.513.7 КАК ОЦЕНИТЬ НАДЕЖНОСТЬ АЛГОРИТМА КЛАССИФИКАЦИИ. II. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ С.И. Гуров факультет ВМиК МГУ им. Ломоносова, г.Москва, Россия e-mail: sgur@cs.msu.su, gurov@ccas.ru Работа выполнена при поддержке гранта...»

«Э. М. БРАНДМАН ГЛОБАЛИЗАЦИЯ И ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ ОБЩЕСТВА Глобальная информатизация и новые информационные технологии открывают небывалые возможности во всех сферах человеческой деятельности, порождают новые проблемы, связанные с информационной безопасностью личности, общества и государст...»

«Министерство образования Республики Беларусь Учреждение образования «БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ» УТВЕРЖДАЮ Проректор по учебной и воспитательной работе _С.К. Дик «30» _05 2016 г. ПРОГРАММА вступительного экзамена в маг...»

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ЖЕЛЕЗНОДОРОЖНОГО ТРАНСПОРТА Федеральное государственное образовательное учреждение высшего профессионального образования «Уральский государственный университет путей сообщения»...»

«Учреждение образования «Белорусский государственный университет информатики и радиоэлектроники» СОГЛАСОВАНО Проректор по учебной работе и социальным вопросам _А.А. Хмыль _._. 2013 Регистрационный № УД-_р. ИНОСТРАННЫЙ ЯЗЫК (английский, немецкий, французский, испанский) Рабочая учебная программа для маги...»

«РАЗРАБОТКА МЕТОДИКИ АНАЛИЗА ЭФФЕКТА ЛОЖНОГО ОКОНТУРИВАНИЯ НА ИЗОБРАЖЕНИЯХ м.н.с. Насонов А.В.1, проф. Крылов А.С.1, асп. Черноморец А.А.1, проф. Динг Йонг2 Московский государственный уни...»

«Р. Н. Залата АГРЕГАЦИЯ И СТАТИСТИЧЕСКАЯ ПРЕДОБРАБОТКА АККАУНТИНГОВОЙ ИНФОРМАЦИИ С ЦЕЛЬЮ ОПТИМИЗАЦИИ ОПЕРАЦИЙ С СУБД ДЛЯ СИСТЕМ УЧЕТА И МОНИТОРИНГА КОРПОРАТИВНЫХ СЕТЕЙ В процессе разработки систем мониторинга и расчета трафика для корпоративных сетей встает вопрос большого объема хранимых и о...»

«Министерство образования Республики Беларусь Учреждение образования «Белорусский государственный университет информатики и радиоэлектроники» Кафедра химии И.В Боднарь, А.П. Молочко, Н.П. Соловей ХИ...»

«УДК 519.6 ЗАДАЧА ШТЕЙНЕРА ДЛЯ АЦИКЛИЧЕСКОГО ГРАФА Ильченко А. В. Таврический национальный университет им. В.И. Вернадского факультет математики и информатики пр-т Вернадского, 4, г. Симф...»

«Министерство образования Республики Беларусь БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ Кафедра электронной техники и технологии Г.М. Шахлевич, А.А. Костюкевич, В.Ф. Холенков, Г.В. Телеш ЛАБОРАТОРНЫЕ РАБОТЫ по дисциплинам ''ТЕХНОЛОГИЯ ОБРАБОТКИ МАТЕРИАЛОВ'' ''ТЕХНОЛОГИЯ ДЕТАЛ...»

«П. А. Колчин (аспирант), А. В. Суслов (к. филос. н., доцент) СИНЕРГЕТИЧЕСКИЙ ПОДХОД К ПРОБЛЕМАМ СОЦИАЛЬНОЙ ИНФОРМАТИКИ Москва, АБиК Минфина РФ, РГУИТП Важной чертой современной постнеклассической науки является усиление роли междисциплинарных исследований на осн...»

«Заключительный этап Всесибирской открытой олимпиады школьников по информатике 15 марта 2015 года Для всех задач: Имя входного файла: input.txt Имя выходного файла: output.txt Ограничение по памяти: 256 Мб Ограничение по време...»

«УПРАВЛЕНИЕ И КОНТРОЛЬ РАБОТОСПОСОБНОСТИ СИСТЕМ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ СПУТНИКОВЫХ ДАННЫХ В.Ю. Ефремов, Е.А. Лупян, А.А. Мазуров, А.А. Прошин, Е.В. Флитман Институт космических исследований РАН E-mail: info@d902.iki.rssi.ru Представлена технологи...»

«Учреждение образования «Белорусский государственный университет информатики и радиоэлектроники» УТВЕРЖДАЮ Проректор по учебной работе и менеджменту качества Е.Н.Живицкая 26.03.2015г. Регистрационный № УД -4-200/р «ТЕОРЕТИЧЕСКИЕ ОСНОВЫ РАДИОТЕХ...»

«Министерство образования Республики Беларусь Учреждение образования «Белорусский государственный университет информатики и радиоэлектроники» Кафедра химии Забелина И. А., Молочко А. П., Соловей Н. П., Ясюкевич Л. В. ХИМИЯ ЛАБОРАТОРНЫЙ...»

«УЧЕНЫЕ ЗАПИСКИ КАЗАНСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА Том 150, кн. 4 Естественные науки 2008 УДК 631.427.12 ИНФОРМАТИВНЫЕ ПОКАЗАТЕЛИ ФИТОТОКСИЧНОСТИ СЕРОЙ ЛЕСНОЙ ПОЧВЫ В УСЛОВИЯХ ЗАГРЯЗНЕНИЯ НЕФТЬЮ И.В. Леонтьева, Л.Г. Ахметзянова, Г.Р. Валеева Ан...»

«СПЕЦВЫПУСК «ФОТОН-ЭКСПРЕСС» – НАУКА №6_2005 АЛГОРИТМ ОЦЕНИВАНИЯ ДЛИНЫ БИЕНИЙ ПРИ ИЗМЕРЕНИЯХ ПМД ОПТИЧЕСКИХ ВОЛОКОН РЕФЛЕКТОМЕТРИЧЕСКИМ МЕТОДОМ В.А. Бурдин, А.В. Бурдин 443010, г. Самара, ул. Льва Толстого, д. 23 тлф./факс (846) 228-00-27 E-mail: burdin@psati.ru; bourdine@samar...»

«УЧЕБНИК /ДЛЯ ВУЗОВ В. Н. Петров ИНФОРМАЦИОННЫЕ СИСТЕМЫ Допущено Министерством образования Российской Федерации в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению «Информатика и вычисл...»





















 
2017 www.pdf.knigi-x.ru - «Бесплатная электронная библиотека - разные матриалы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.