ИСПОЛЬЗОВАНИЕ СЕМАНТИЧЕСКОЙ ВЫСОКОУРОВНЕВОЙ ФАЙЛОВОЙ СИСТЕМЫ В МАСШТАБИРУЕМЫХ ЦЕНТРАХ ОБРАБОТКИ ДАННЫХ

Трухин Ю.В. (ООО «ЦНИП ГИС», г.Тверь, РФ)

This article discusses the advantages of semantic file systems over traditional file systems and some features of the developed high-level semantic scalable file system, designed for scalable data centers.

В статье рассмотрены преимущества семантических файловых систем перед традиционными файловыми системами и некоторые особенности разработанной семантической высокоуровневой масштабируемой файловой системы, предназначенной для масштабируемых центров обработки данных.

Семантические файловые системы

На протяжении более 30 лет иерархические файловые системы требуют от пользователей организации данных конкретные пути. Люди склонны связывать объекты в физическом мире с множеством слабо определенных атрибутов, а не четко определенных позиций. Многие пользователи говорят, что не могут найти или организовать файлы, которые создали, потому что не могут вспомнить имена, которые они дали файлам или содержимое файлов. Поэтому пользователи начинают поиск файлов, который может занимать много времени или не дать результата, так как они не могут вспомнить объект поиска.

Для обеспечения более полного соответствия организации данных в человеческой и компьютерной памяти необходимо использовать набор семантических атрибутов, назначенных данным, вместо уникальной иерархической структуры данных. Эти атрибуты могут принимать формы слова (например «проверено»), структурированные ключевые слова («документ.отчет»), пары «ключ-значение» (тип=”docx”) или более сложные структуры.

Сравнение иерархической и семантической выборки данных показано на рис.1.

Рисунок 1- Иерархическая и семантическая выборка данных

Выборка данных может быть описана следующим образом:

сnipgis://харасавэй&2000&нефть||газ,

что означает: из файловой системы «cnipgis» вернуть все файлы, описанные семантическими атрибутами «харасавэй» и «2000» и «нефть» одновременно и все файлы, описанные семантическим аттрибутом «газ», как показано на рис.2.

Рисунок 2- Выборка данных из семантической файловой системы

В результате выборки будут выведены два файла: «Информация.doc» и «Информация2.doc».

В случае использования зависимых семантических атрибутов выборка данных может быть описана следующим образом:

cnipgis://скважина:400&месторождение:Харасавэй

Путь к конкретному файлу может быть описан следующим образом:

сnipgis://2000&харасавэй&нефть/информация.doc

В настоящее время анализируется возможность использования стандарта SOAP для формирования запросов к данным.

Семантическая масштабируемая файловая система

CNIPGIS Semantics – семантическая файловая система, которая адаптирована для использования в масштабируемых центрах обработки данных. Она была разработана в ответ на постоянно растущие объемы данных и рост сложности организации проектов, необходимость постоянной доступности оперативной информации, потребность в надежном и безопасном хранении данных. Эта файловая система является высокоуровневой и в качестве хранилища использует документ-ориентированную базу данных. Реализация файловой системы на уровне ядра операционной системы не могла решить проблему необходимости в горизонтальной масштабируемости и требовала модернизации уже имеющихся в центрах обработки данных операционных систем. Использование реляционных баз данных в качестве основы не позволяло эффективно производить горизонтальное масштабирование, а вертикальное масштабирование серьезно ограничивало применение даной файловой системы и делала невозможным использование ее в центрах обработки данных с постоянно растущими требованиями к вычислительным мощностям. Разработанная файловая система поддерживает горизонтальное масштабирование для данных, миграцию данных между серверами, балансировку нагрузки и использование отказоустойчивой технологии. К тому же добавление узлов в систему не приводит к простою и отказу системы в обслуживании. Для работы системы в режиме горизонтального масштабирования используются конфигурационные серверы, серверы балансировки нагрузки, серверы данных и серверы репликации. При использовании системы в центрах обработки данных, которым требуется обеспечение отказоустойчивости используются три сервера конфигурации. В случае отказа одного из них конфигурационные данные переходят в режим «только для чтения» и вся система остается работоспособной пока доступен хотя бы один сервер конфигураций. Серверы данных занимаются хранением и обработкой данных. Серверы репликации обеспечивают отказоустойчивую работу системы. Балансировщики нагрузки распределяют нагрузку между серверами данных и могут быть запущены на серверах приложений (веб-служб). Расположение данных по серверам данных происходит на основании семантических атрибутов и в случае недостатка места или вычислительных ресурсов сервера данных происходит миграция данных, при которой отказа в обслуживании не происходит.

На стороне пользователей запущено программное обеспечение, которое обращается по сети к веб-сервисам центра обработки данных для работы с файловой системой. Благодаря разработанному программному интерфейсу клиентское программное обеспечение не требуется изменять при изменении структуры датацентра. Semantics представляется одной базой данных для клиентского программного обеспечения вне зависимости от физической структуры расположения данных.

В данный момент ведутся работы по интеграции семантической файловой системы CNIPGIS Semantics с клиентским геолого-геофизическим программным обеспечением CNIPGIS GEO4GEO.

Литература:

1. David Ingram “Insight: A Semantic File System. Final Report.”, Department of Computing Imperial College London, June 18^th, 2008

2. Toby Segaran, Colin Evans, Jamie Taylor “Programming the Semantic Web”, O`Reilly, 2009.