Структуризация тематического мониторинга геоинформационного портала отрасли

Введение. В настоящее время накоплен большой объем геоинформационных ресурсов различного назначения, служащих для выполнения разного рода задач управления. Это электронная схема сети железных дорог Российской Федерации и стран Содружества; схемы отдельных дорог с нанесенными на них объектами, привязанными к станциям и перегонам; схемы железнодорожных узлов, схемы диспетчерских участков, масштабные и немасштабные схемы станций. Кроме того, в рамках опытного внедрения созданы геоинформационные базы данных крупных воднотранспортных узлов, схем перспективного развития станций, масштабных планов крупных станций с расположенными на них объектами инфраструктуры различных хозяйств, масштабных планов полосы отвода с точным указанием границ земельных участков и объектами недвижимости. Повышение эффективности использования геоинформационных ресурсов возможно путем выполнения следующих действий.

1. Создание единого каталога всех геоинформационных ресурсов отрасли. Создание такого каталога представляется очень важным условием, так как в настоящее время руководство ОАО «РЖД» и филиалов часто не знает, какими материалами располагает и какова степень их актуальности. Кроме того, базы геоданных (БГД) хранятся в разных местах, что обусловлено необходимостью оперативной корректировки графической информации и, соответственно, обеспечением близости БГД к рабочему месту, на котором происходит корректировка. В этих условиях функции поиска конкретной, факторизованной информации, формирования заявки на ее получение и предоставления сведений об актуальности ресурса могут быть выполнены на основании каталога. В состав каталога должны входить также списки пользователей, подключенных к конкретному геоинформационному ресурсу, а также указатель или адрес хранения соответствующей БГД.

Создание каталога отраслевых геоинформационных ресурсов является первым шагом для создания геоинформационного портала отрасли (Рис. 1).

Создание каталога отраслевых геоинформационных ресурсов

Рис. 1

2. Создание геоинформационного портала. В состав геоинформационного портала отрасли должны входить функции, позволяющие осуществлять поиск требуемого геоинформационного ресурса по его текстовому описанию, формирование заявки на подключение к ресурсу, администрирование и актуализация каталога геоинформационных ресурсов отрасли. Создание геоинформационного портала позволит увязать геоинформационные ресурсы в единую интегрированную геоинформационную базу данных отрасли для эффективного решения следующих задач (рис. 2).

Схема функционирования геоинформационного портала

Рис. 2. Схема функционирования геоинформационного портала

• Рассматривать все виды геоинформационных ресурсов отрасли во взаимосвязи. Это означает, что все виды графической пространственной информации будут представлять собой некоторую иерархию в соответствии с масштабами (абсолютными или условными), в которых они представлены. С увеличением масштаба детальность карт, планов и схем возрастает, а площадь охватываемой территории уменьшается. То есть для получения общей картины необходимо использовать изображения в минимальных масштабах, а для детального анализа расположения объектов, например, на станции - планы достаточно больших масштабов. Кроме того, в пределах одного уровня масштабности представляются слои с различным набором типов объектов и создаются специальные тематические виды, например, для показа взаимного расположения объектов различных служб. В условиях разрозненных геоинформационных ресурсов такое решение не представляется возможным.

 

Схема использования внешних данных

Рис. 3. Схема использования внешних данных

 

• Оперативно получать графическую информацию необходимого вида и содержания. На текущий момент в отрасли в качестве типовых уже используются геоинформационные ресурсы. В их состав входят: общая схема сети железных дорог, схемы железных дорог, схемы диспетчерских участков, схемы станций. Определен состав объектов и перечень условных обозначений для типовых геоинформационных ресурсов. Разработаны технологии и регламенты их актуализации. Однако в процессе анализа и принятия решений руководство отрасли зачастую использует и другую графическую информацию, например, схемы транспортных коридоров, схемы развития воднотранспортных узлов, схемы крупных железнодорожных узлов и т.п. Необходимо сформулировать требования к виду, масштабу, составу объектов и их условным обозначениям для каждого из таких ресурсов, разработать технологию и регламент их корректировки и актуализации, определить должностное лицо, отвечающее за правильность информации.

Для выполнения действий по созданию, ведению и использованию интегрированной геоинформационной базы данных отрасли необходимо специальное программное обеспечение, опирающееся на типовые функции геоинформационных систем. Можно выделить несколько таких программных комплексов:

• Специализированные графические и текстовые редакторы и анализаторы обеспечивают проверку правильности ввода текстовой и графической информации и максимально автоматизируют работы по ведению графических данных. Редакторы масштабных и немасштабных схем станций, схем секционирования контактной сети упрощают добавление и корректировки, помогают оператору автоматизировать работы по корректировке графических данных и контролируют правильность.

Программные интерфейсы интеграции данных геоинформационных баз с другими автоматизированными системами для обеспечения увязки с параметрами работы и развития ОАО «РЖД». Для их реализации необходим анализ информационных потоков и разработка принципов совместного использования интегрированной геоинформационной базы данных с другими автоматизированными отраслевыми системами с целью решения задач стратегического мониторинга, оптимизации инвестиционной деятельности, прогнозирования работы отрасли (рис. 3).

Перечисленные программные средства практически обеспечивают функции мониторинга информационных ресурсов.

Современные системы управления информационными ресурсами воплотили в себе комплексные технологические решения, направленные на поддержку различных этапов формирования и использования корпоративных данных и знаний. На каждом из этих этапов решаются самостоятельные задачи, однако, важнейшими среди них являются задачи, связанные с мониторингом.

В общем случае задача мониторинга заключается в перманентном сборе из различных источников необходимой информации, ее аналитической обработке экспертами и выработке на основе этого соответствующих решений. Условно задачи мониторинга можно разделить на два класса: внутренний и внешний мониторинг.

Первый класс задач связан в большей степени с мониторингом внутренних параметров деятельности, например, с постоянным контролем за функционированием сложного оборудования, использованием собственных ресурсов и пр. В качестве примера можно привести сложные системы управления электростанциями, системы обеспечения транспортных перевозок и т.д. Характерной особенностью таких задач можно считать относительно постоянный набор параметров, по которым оценивается текущее состояние производственного или иного процесса (физические параметры оборудования и пр.).

Внешний мониторинг, в отличие от внутреннего, в большей степени связан с оценкой состояния внешней среды и внешних условий, в которых осуществляется деятельность компании. В качестве примера такого мониторинга можно привести анализ предоставления транспортных услуг в зависимости от условий поставки энергоносителей, специфики регионов, сезонных ограничений. Характерной особенностью таких задач является то, что оцениваемые параметры не носят четко формализованный характер с одной стороны, а с другой - состав этих параметров может постоянно изменяться, что требует от специалистов-аналитиков реорганизации своих знаний в соответствии с новыми условиями. В задачах внешнего мониторинга особые требования должны предъявляться к информационным источникам, используемым экспертами для локализации необходимых им знаний и данных.

Эти обстоятельства позволяют выделить необходимость реструктуризации базы геоданных в качестве одной из характерных особенностей задач внешнего мониторинга.

1. Подход к обеспечению согласованности знаний.

В ряде работ был предложен механизм по обеспечению согласованности динамически формируемой базы данных, основанный на анализе структурных взаимосвязей между отдельными компонентами базы знаний и последующей ее реструктуризации с целью уменьшения существующей рассогласованности. При этом основной критерий структурной согласованности определялся на основе понятия поликонсонанса степени п, то есть возможности приведения множества к структуре, состоящей не более, чем из п кластеров.

Применение механизма структурной согласованности при решении задач мониторинга на основе поиска и анализа необходимых информационных ресурсов связано с определенными проблемами, в основе которых лежит слабая формализация неясной, неопределенной структуры этих ресурсов, представляющих собой текстовые или мультимедийные документы. Кроме того, характерной особенностью рассматриваемых задач мониторинга является и значительное количество информационных сообщений, поступающих эксперту для аналитической обработки и пополнения формируемой им базы знаний. Как следствие этого - значительный рост требуемых ресурсов, в особенности -временных, необходимых для реструктуризации динамически изменяющейся базы знаний, что, вероятно, является главным препятствием на пути успешной практической реализации любого механизма.

Одной из главных проблем предложенного в алгоритма является его ориентация на переборный характер возникающих задач, поэтому особое внимание авторами было уделено поиску путей, позволяющих сократить этот перебор и тем самым повысить эффективность алгоритма при его практической реализации. Частично это решается приведенным ниже подходом.

Будем рассматривать совокупность взаимосвязанных информационных объектов О = i} с заданной на ней функцией сходства f, удовлетворяющей условию: 0 < f(oi, oj) < 1.

Определим числовые значения аи/? как нижний и верхний пороги сходства соответственно, удовлетворяющие условию: 0 ≤ α ≤ β ≤ 1.

Определим связь между двумя произвольными объектами oi и oj рассматриваемой совокупности О как отрицательную, если ее значение не превосходит нижнего порога сходства: 0 f(oi, oj) α. Соответственно, эту связь определим как положительную, если значение функции сходства не ниже верхнего порога: β ≤ f(oi, oj) 1, и, наконец, как индифферентную (нулевую), если α < f < β

Назовем связь между произвольной парой объектов oi и oj из всей совокупности «плохой», если либо oi и oj принадлежат одному и тому же подмножеству, и связь между ними является отрицательной, либо oi и oj принадлежат различным подмножествам, и связь между ними является положительной.

Пользуясь этим определением, можно каждому объекту из рассматриваемой совокупности поставить в соответствие число vk, определяющее количество плохих связей этого объекта при заданном разбиении множества на классы. Вектор V={vk}, имеющий размерность, совпадающую с количеством объектов в множестве элементов, и состоящий из этих величин, назовем Вектором Повершинных Различий (ВПР), сумму элементов которого обозначим через SВПР.

Рассмотрим разбиение данной совокупности объектов на некоторое количество непустых подмножеств К1, ..., Кп без плохих связей, то есть приведение структуры множества в поликонсонанс степени п.

Естественно, что разным разбиениям исходной совокупности элементов на подмножества будут соответствовать различные вектора ВПР и суммы SВПР В соответствии с предложенным алгоритмом, основной задачей является поиск такого разбиения рассматриваемой совокупности элементов О, при котором сумма SВПР принимала бы минимальное значение, т.е. общее количество плохих связей стремилось к нулю.

Разработанный алгоритм заключается в последовательном преобразовании совокупности информационных объектов, исходя из условия, выражаемого формулой:

формула

где S 'ВПР - сумма повершинных различий для выбранной совокупности из п элементов, принадлежащих паре консонансных подмножеств общей мощностью N элементов. Выполнение этого условия обеспечивает такое структурное преобразование рассматриваемой совокупности, при котором общая сумма повершинных различий Shot уменьшается.

Для того, чтобы найти какую-либо совокупность объектов из заданных двух подмножеств, удовлетворяющую условию алгоритма, достаточно проверить на выполнение этого условия только подмножества из (n1+ n2) / 2 объектов, т.е. те из них, общее количество объектов в которых не превышает половины суммы мощностей исходных множеств.

При практической реализации предлагаемого авторами алгоритма достаточно осуществлять поиск совокупности элементов для очередного шага итерации с ненулевыми показателями вектора повершинных различий.

2. Определение функции сходства информационных объектов.

Наиболее существенным фактором, влияющим на функционирование рассматриваемого алгоритма, является функция сходства, на основе которой определяются взаимосвязи между различными информационными объектами из заданной совокупности. Когда речь идет о поддержке задач мониторинга, где в качестве основного источника информации выступает текстовой материал, в частности, информационные сообщения, то определение функции сходства становиться достаточно сложной задачей. Вероятно, одним из решений подобной задачи могло бы быть применение различных методов лингвистического анализа Для определения «схожести» двух различных документов, хотя эти методы не лишены определенных недостатков, связанных со сложностью их реализации, настройки и т.д.

Анализ различных методов оценки взаимосвязей между слабоструктурированными текстовыми документами и существующих методов позволяет сделать вывод о том, что наибольшее распространение сегодня получили два метода оценки взаимосвязей («сходства») между документами: метод выделения ключевых слов и метод латентных семантик (latent semantic indexing - LSI) - скрытых семантических зависимостей.

Метод выделения ключевых слов. Предлагаемый ниже подход был использован в одной из версий системы INTELLEDGER. Структуризация информационных объектов (на примере документов) проводится на основе выделения списка ключевых слов для каждого документа и формирования на основе этого списка единого информационного массива ключевых слов. Совокупность документов В можно представить как массив: В = {D1,D2,D3,..., Dn}, где D — документ. Не акцентируя внимание на структуре каждого из этих документов, их можно представить как набор ключевых слов: D = {ki1,ki2,ki3,..., kim}, где kij — ключевое слово. Объединяя наборы ключевых слов всех документов (опуская при этом проблему синонимии и омонимии), можно сформировать информационный массив ключевых слов: K = {k1,k2,k3,...,kN}.

Предлагаемый метод определения значимости ключевого слова основывается на оценке частоты встречаемости его во всех документах. Чем чаще то или иное слово встречается в базе данных, тем, вероятно, оно менее значимо с точки зрения способности однозначно идентифицировать конкретный документ из В, поскольку меньше характеризует тематическую направленность конкретного документа, в котором оно имеется. Введем следующие величины: Ai — множество документов, в которых встречается ключевое слово ki; Хij — пересечение множеств Аi и Аj (множество документов, в которых встречаются одновременно два ключевых слова ki и kj); Yij — объединение множеств Ai и Aj (множество документов, в которых встречаются хотя бы одно из двух ключевых слова ki и kj), тогда степень близости (равнозначности) двух ключевых слов можно выразить следующем образом: Pij = [ Xij ] / [ Yij ], где [Xij] и [Yij] — мощности соответствующих множеств. Как видно из этого определения, Pij — аналог коэффициента композиционного сходства, используемого в кластерном анализе.

Введя определенный порог равнозначности ключевых слов у, будем считать одно из двух ключевых слов ki и kj избыточным, если для них Pij > γ. Процедура отсева непродуктивных ключевых слов сузит множество К потенциально возможных ключевых слов для использования их в качестве идентификаторов документов Zi =1-[ Ai]/[В].

Задавая определенный порог значимости W, мы будем считать ключевое слово значимым и помещать его в общий массив ключевых слов, если для него выполняется соотношение: Zi > W.

Таким образом, используя вышеописанные процедуры отсева равнозначных ключевых слов и выделения значимых для идентификации ключевых слов, можно решить задачу построения для каждого документа минимального характеристического набора ключевых слов {ki}, который будет однозначно идентифицировать документ и являться его "визитной карточкой", т.е. Dj={ki}, где i = 1..N, где N— минимальное с точностью до потери идентифицируемости Dj.

В качестве примера одной из наиболее простых функций сходства можно привести следующую функцию сходства: F(Di,Dj) = [Qij]/[Mij], где Qij — множество совпавших ключевых слов, Mij — общее для Di и Dj множество ключевых слов.

При заданной функции сходства (близости) ключевых слов проводится их кластеризация, в результате чего возникает разбиение этого множества на несколько кластеров, каждый из которых можно представить как описание конкретной проблематики. Полученный в результате такой кластеризации набор проблематик является основой для построения модели собственно списка документов. В общем случае каждый документ из рассматриваемого массива настолько относится к той или иной проблематике, насколько составляющие его ключевые слова принадлежат к соответствующему кластеру.

Пусть G — множество классов, полученных в результате кластеризации массива ключевых слов: G = {G1,G2,G3,...,Gm}, тогда каждому документу из базы данных можно привести в соответствие вектор из т элементов:

Si = (gi1,gi2,gi3,..., gim), - количество ключевых слов из документа Di, принадлежащих кластеру Gk.

Множество векторов {Si} и заданная на нем функция сходства Fij представляют собой модель проблематики массива документов, в котором можно проводить кластеризацию на основе того или иного алгоритма. Задача построения функции сходства Fij — самостоятельная проблема, однако, в >настоящее время существует множество подходов к ее решению и целый ряд стандартных функций, задаваемых на множестве многомерных векторов.

Поисковый запрос для описанной выше документальной базы данных будет строиться на основе задания списка поисковых слов. Однако в отличии от стандартного подхода к поиску, когда его результатом является набор только тех документов, в которых имеются заданные поисковые слова, в данном случае результатом будет являться набор документов, близких друг к другу с точки зрения проведенной кластеризации базы данных.

Усовершенствованием метода выделения ключевых слов является метод взвешенных ключевых слов. Данный метод основывается на представлении документов в виде неупорядоченного набора слов, встречающихся в этом документе, с присвоенным каждому из них весовым коэффициентом, характеризующим значимость этого слова для выражения общего смысла всего документа. Расчет весовых коэффициентов часто производится по методике, которая во многих публикациях обозначается аббревиатурой «tfidf», составленной из начальных букв выражения "term frequency times inverse document frequency" и определяющей вес того или иного слова в документе на Основе частоты его встречаемости в данном документе и относительно общего количества документов, в которых это слово присутствует. Если документ имеет некоторую структуру (заголовок, аннотацию, авторов и т.п.), то весовые коэффициенты слов могут быть модифицированы в соответствии с их месторасположением в тексте: например, коэффициенты слов, присутствующих в заголовке, могут быть увеличены. В общем случае формула расчета весовых коэффициентов может быть представлена в виде:

wi =Cifilog(N/fd) — , где wi — вес i-го слова документа d; Ci модифицирующая константа, значение которой определяется местоположением слова в документе; fiчастота встречаемости слова в документе; N— общее количество документов; fd — количество документов, в которых найдено данное слово.

Модифицирующие константы С, определяются часто эмпирическим путем или с помощью применения алгоритмов обучения.

Метод латентных семантик LSI. Одним из методов, учитывающих скрытые взаимосвязи, является латентное семантическое индексирование LSI.

LSI представляет собой расширение стандартного векторного метода. Основная идея алгоритма — статистическая оценка и учет скрытых (латентных) ассоциаций между словами в документах. В последней версии системы INTELLEDGER использована реализация LSI, описанная в, где для выделения таких взаимосвязей применялось разложение по сингулярным числам матрицы (Singular Value Decomposition или SVD). Эта техника, близкая к разложению по собственным векторам и методам факторного анализа, выделяет множество из к факторов (как правило, от 100 до 500), линейная комбинация которых аппроксимирует исходную матрицу "слова-документы". Вместо представления документов как дискретных векторов в пространстве независимых слов LSI рассматривает и ключевые слова, и документы как непрерывные вектора в базисе из к ортогональных "индексирующих" размерностей, полученных в ходе SVD-анализа. Разные исследователи определяют меру сходства между этими векторами либо через их скалярное произведение, либо через косинус угла между ними. Авторы отдают предпочтение первому подходу, так как он учитывает вклад слов, встречающихся в документах более одного раза.

Данный метод, несмотря на более высокую сложность математического аппарата, обладает рядом неоспоримых достоинств. Так как количество полученных размерностей гораздо меньше первоначального числа терминов, последние перестают быть независимыми. Например, как показано в [11,12], если два на первый взгляд никак не связанных между собой слова используются в нескольких сходных по содержанию документах, они будут иметь близкие вектора (в смысле величины их скалярного произведения) в k-мерном пространстве факторов. Таким образом, термины, входящие в профиль пользователя, рассматриваются не сами по себе, а в контексте фильтруемых документов. Метод "улавливает" их скрытую, латентную структуру, более глубокую, чем просто статистика встречаемости слов. Кроме того, ввиду небольшого числа "индексирующих" размерностей существенно сокращается вычислительная сложность алгоритма, что позволяет использовать его на практике в промышленных масштабах.

Основная идея метода LSI заключается в использовании методов математической статистики для определения неявных взаимосвязей между терминами в рассматриваемом наборе документов, когда делается предположение, что если некоторые термины встречаются в одних и тех же документах, то, скорее всего, они описывают одну и ту же проблему.

3. Интеллектуальный обработчик информации (система INTELLEDGER).

Интеллектуальный информационный обработчик (INTELLEDGER) -интеллектуальное программное средство, предназначенное для решения задач аналитической обработки информационных массивов, представленных в виде текстовых данных, когда имеется необходимость проблемно-ориентированной классификации информации. Ядром системы явился описанный выше интерактивный алгоритм поиска согласованной структуры множества взаимосвязанных объектов, представляющих собой слабо формализованные и неструктурированные данные.

Рассчитанные для каждого документа вектора взвешенных ключевых слов используются в дальнейшем на этапе определения взаимосвязей между различными элементами информационного массива пользователя.

Взаимосвязи между элементами проекта необходимы для определения «близких» по своему содержанию документов. Именно на основе анализа близости документов друг к другу, их «сходства» система INTELLEDGER осуществляет их дальнейшую классификацию. Цель осуществляемой классификации - распределить все документы на несколько групп (приведение к поликонсонансу степени п), соблюдая два ключевых принципа:

♦ Документы из одной группы должны быть максимально "близки" по своему содержанию.

♦ Документы из разных групп должны обладать минимальным сходством. Система INTELLEDGER имеет удобный пользовательский интерфейс,

основанный на принципах "Look and feel" (L&F), основу которого составляют стандартизованные и ассоциативные управляющие элементы. К таким элементам относятся основное меню системы и информационные панели, расположенные в рабочей области окна программы.

Для обработки документов пользователь создает проект, под которым понимается совокупность текстовых файлов, расположенных в одном каталоге (директории), и набор параметров, характеризующих этот проект (рис. 4).

Для обработки документов пользователь создает проект, под которым понимается совокупность текстовых файлов

....................................................................................................










Системы передачи данных

 


Комплексные проектные решения

 


Управление распределенными системами

 


Автоматизированные рабочие места

 


Системы и средства обеспечения безопасности движения

 


Цифровые сети технологической связи

 


Информационные системы управления движением

 


Автоматизированное управление разработками проектов

 




Производитель паркета - "Склад-паркет". Продажа паркета, массивной доски, аренда паркетных машин, паркетные работы, ламинат Ecoflooring в Москве.

 


Разработка надежных баз данных

 



Copyright (c) 2008, Infotest, Inc.