какое свойство домена позволяет использовать его для идентификации семантического смысла данных

Информационные интеллектуальные сети и Семантический Веб

Информационные интеллектуальные сети, Семантический Веб, Веб 3.0, ИИ… Эти слова все чаще стали появляться в нашем обиходе.

Целая эпоха универсального Интернета заканчивается. Она начинает сменяться до того, как мы начинаем это ощущать. На смену едва оформившемуся термину Web 2.0 уже приходит другой, непонятный и загадочный на первый взгляд — Web 3.0, или же просто «Семантический Веб».

О том, что это такое и куда движется наш интернет, я хотел поговорить в этой статье.

Сейчас сеть становится персональной. «Интернет все больше знает о нас». Отчасти, мы сами способствуем этому, раздавая свою персональную информацию в социальных сетях, пользуясь поисковыми системами, будучи авторизованными.

Это означает, что скоро, вводя в строку поиска «Хочу постричься недорого», пользователь получит ответ в виде ближайшей парикмахерской к его местоположению в виде четкого ответа на четкий вопрос – нам не надо будет переходить по 10, 20, 50 ссылкам из поисковой выдачи разных поисковиков, расстраиваясь в очередной раз, что очередная открытая вкладка – это очередной дорогой салон, продвигаемый силами SEO специалистов.

Это касается различных сфер жизни и деятельности человека – начиная от бытовых и заканчивая более глобальными. Например, покупка автомобиля или квартиры, поиск работы и другие.

Более того, поисковая система сможет определить, какой именно автомобиль нужен пользователю на основе информации о том, какими тест-драйвами он больше всего интересуется и какие автомобильные сайты посещает, в каком районе и в каком ценовом диапазоне вы хотите найти квартиру, не голодны ли вы, какую еду предпочитаете и так далее.

С развитием семантического веба после сбора определенных данных о пользователе технологии позволят составить его социально-демографический портрет. Собранные пользовательские данные компьютеры будут понимать уже как портрет личности.

Во многом такой динамике способствует стремление упростить сервисы и сделать упрощенный доступ пользователей к контенту. Ставшая модной в последняя время, авторизация через социальные сети (Вконтакте, Facebook), специальные сервисы (OpenID, OAuth), комментирование через виджеты социальных сетей.

Наши сотовые сети завязывают на себя персональную информацию.

Информация – вот что будет играть решающую роль в будущем интернете!

Продвигаемая крупными игроками рынка технология NFC – предоставляющая возможность совершать покупки, используя мобильный телефон (в том числе, оплачивать проезд в метро, например), все больше связывает наши сим-карты, телефоны, банковские карты, стягивая нашу персональную информацию в единую точку.

Попробуем во всем разобраться, но пока начнем по порядку с малого. Для начала давай-те вместе с вами рассмотрим интеллектуальные информационные системы (ИИС).

Информационные интеллектуальные системы

ИИС (intelligent information system)это информационная система, которая основана на концепции использования базы знаний для генерации алгоритмов решения задач различных классов в зависимости от конкретных информационных потребностей пользователей.

Особенности и признаки интеллектуальности ИС

Коммуникативные способности ИИС характеризуют способ взаимодействия (интерфейса) конечного пользователя с системой.

Интеллектуальными считаются задачи, связанные с разработкой алгоритмов решения ранее нерешенных задач определенного типа

Интеллект представляет собой универсальный алгоритм, способный разрабатывать алгоритмы решения конкретных задач.

Если в ходе эксплуатации ИС выяснится потребность в модификации одного из двух компонентов программы, то возникнет необходимость ее переписывания. Это объясняется тем, что полным знанием проблемной области обладает только разработчик ИС, а программа служит “недумающим исполнителем” знания разработчика. Этот недостаток устраняются в интеллектуальных информационных системах.

Недостатки ИС и их устранение в ИИС
Классификация ИИС
I класс: системы с интеллектуальным интерфейсом (коммуникативные способности):
II класс: экспертные системы (решение сложных задач):
III класс: самообучающиеся системы (способность к самообучению):

Интеллектуальные БД

Интеллектуальные БД – отличаются от обычных возможностью выборки по запросу информации, которая может явно не храниться, а выводиться из имеющейся БД (например, вывести список товаров, цена которых выше отраслевой).

Естественно-языковой интерфейс предполагает трансляцию естественно-языковых конструкций на машинный уровень представления знаний. При этом осуществляется распознавание и проверка написанных слов по словарям и синтаксическим правилам. Данный интерфейс облегчает обращение к интеллектуальным БД, а также голосовой ввод команд в системах управления.

Гипертекстовые системы предназначены для поиска текстовой информации по ключевым словам в базах.

Системы контекстной помощи – частный случай гипертекстовых и естественно-языковых систем.

Системы когнитивной графики позволяют осуществлять взаимодействие пользователя ИИС с помощью графических образов.

Семантический Веб

HTML-страница описывает как представить информацию визуально в Веб-браузере и трудно поддаётся смысловому анализу компьютерами. Для неё невозможно автоматизировать даже такие тривиальные задачи, как нахождение людей, проектов, программ в Интернете.

Технология Семантический Веб (Semantic Web) позволяет компьютеру интерпретировать информацию в Вебе наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework), которая является спецификацией W3C.

С помощью RDF можно создавать любые утверждения о любых ресурсах.

Графовая модель RDF

Утверждения о ресурсах в модели RDF состоят из троек.

Ресурсы и свойства представляются в виде URI, а литералы в формате Unicode. URI позволяет уникальным образом идентифицировать ресурсы в Вебе, а Unicode решает проблему мультиязычности.

RDF схема – это не XML схема

RDF схема описана в утверждениях RDF.
В отличие от XML схемы определяет ресурсы (термины) предметной области, а не ограничивает структуру RDF.

За ресурсами RDF схемы в спецификации W3C закреплена семантика.
какое свойство домена позволяет использовать его для идентификации семантического смысла данных
Пример RDF схемы, описанной с помощью RDF

Семантика данных – что это такое?

Под семантикой данных будем понимать возможность формального описания смысла передаваемых данных, делая их независимыми от приложений. Это особенно важно в контексте рассматриваемых нами перспектив развития Интернета – побеждает тот, у кого есть данные. Может быть очень много приложений, сайтов, сервисов, но сами по себе они будут очень мало чего значить. Будут выигрывать те, кто сможет предоставлять свой контент в любом, удобном пользователю контенте.

Какие данные можно использовать независимо от сервисов, в которых они используются сегодня: данные из баз данных, XML-документы, приложения в социальных сетях? Нет, потому что их семантика зашита в логике программы и/или неформально в спецификациях. Только данные снабжённые явной семантикой можно сделать действительно независимыми от приложений!

Зачем нужен RDF? Чем плох XML?

Вложенность тегов XML несет только синтаксис, но не несёт никакой семантики. Если мы рассмотрим различные возможные формы представления утверждения “Иван Петров преподает курс информатики” в формате XML:

Приложение, которое использует первый формат, не сможет понять два других формата и наоборот. Поэтому, XML хорош только как формат (синтаксис) для обмена данными, но не как модель описания семантики данных! Это же можно сказать и про другие популярные форматы (JSON, например).

Где в RDF семантика?

На уровне модели RDF семантика появляется благодаря использованию онтологий OWL (Ontology Web Language), благодаря которым компьютер может понимать, как известный ему ресурс или свойство связано с другим, неизвестным ему ресурсом или свойством соответственно и производить другие логические выводы над утверждениями RDF.

Онтологии основываются на математическом аппарате формальной логики (description logic, DL), малое подмножество которого охвачено RDF схемой. DL является вычислимым подмножеством логики первого порядка.

Пример использования семантики

Как проинтерпретирует следующие утверждения приложение, которое понимает только ресурсы словаря foaf?

Оно поймёт, что Pugofka: semantic #Lector является foaf:Person и выведет новое утверждение:

Семантические хранилища

Предполагается, что большие объёмы RDF данных будут храниться в семантических хранилищах и для доступа к ним использоваться язык запросов SPARQL – аналог SQL.

Пример запроса “вывести все проекты, созданные Pugofka” на SPARQL:

В качестве примеров развития направления можно привести создание новых проектов. Так, например, компания «Clark&Parsia» (http://clarkparsia.com/) уже имеет несколько серьезных проектов в сфере Семантического Веба, и на первые числа Апреля назначен старт бета-тестирования RDF-базы данных под названием StarDog.

Уровни Семантического Веба

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

Эволюционный подход

Семантический Веб это не замещение существующего интернета, а всего лишь его эволюционное развитие. RDF/XML либо внедряется внутрь HTML или доступен по URL.

По этому принципу уже широко используются в WWW RDF-данные с использованием словарей RSS, FOAF (Friend Of A Friend), DOAP (Description Of A Project).

Пример кода FOAF на странице пользователя LiveJournal
какое свойство домена позволяет использовать его для идентификации семантического смысла данных

Семантический веб – цели, задачи, примеры

Семантический Веб создан не на пустом месте. В него заложены фундаментальные основы:
Технологии, которые задействованы в Семантическом Вебе
Примеры программной поддержки технологии
Направления исследования
Задачи и проблемы Семантического Веба:

Заключение

Семантический Веб – это динамичная, постоянно развивающаяся концепция, а не набор комплексных, работающих систем.

Веб 3.0 – очень многогранное и, на текущий момент, до сих пор не сформированное понятие. Его можно рассматривать с разных точек зрения.

Например, с точки зрения машинной обработки данных – Семантический веб – это идея хранить данные такие образом, чтобы они были определенными и связанны, а также существовала возможность их дальнейшей автоматизированной обработки, интеграции и многократного использования в различных сервисах, приложениях и т.п.

С точки зрения интеллектуальных агентов, то целью будет являться более «машиноориентированный» Веб,
с тем, чтобы можно было наиболее эффективно использовать поисковых пауков (агентов) для поиска и обработки информации.

С точки зрения распределенных баз данных, баз знаний, то концепция Семантического Веба заключается в описании, добавлении дополнительной мета информации, которая позволяет однозначно идентифицировать и сопоставить информацию.

Концепция Веб 3.0 подразумевает наличие целой инфраструктуры.

С точки зрения обслуживания пользователей (потребителей контента) – идея Веб 3.0 заключается в минимизации действий пользователю и выдаче в качестве ответа на его запрос непосредственного ответа на его запрос, который будет учитывать не только его запрос, но и всю его историю, особенности (социально–психологический портрет), вкусы, интересы и многие другие факторы.

С точки зрения качества поиска – реализация поиска не только по ключевым словам или контексту, но и по контенту. Выдача точного ответа на запрос пользователя. Во многом, использование поисковой системы, как экспертной системы.

С точки зрения веб-сервисов Семантический Веб обеспечивает доступ не только к существующим статическим сайтам, но и к динамическим, приложениям, сервисам и другим ресурсам, содержащим полезный контент.

Источник

Какое свойство домена позволяет использовать его для идентификации семантического смысла данных

7.1. Назначение модели

7.2. Элементы модели

7.3. Диаграмма «сущность-связь»

7.4. Целостность данных

7.5. Обзор нотаций, используемых при построении диаграмм «сущность-связь»

7.1. Назначение модели

Модель «сущность-связь» основывается на некой важной семантической информации о реальном мире и предназначена для логического представления данных. Она определяет значения данных в контексте их взаимосвязи с другими данными. Важным для нас является тот факт, что из модели «сущность-связь» могут быть порождены все существующие модели данных (иерархическая, сетевая, реляционная, объектная), поэтому она является наиболее общей.

Отметим, что модель «сущность-связь» не является моделью данных в том смысле, поскольку не определяет операций над данными и ограничивается описанием только их логической структуры.

7.2. Элементы модели

type employe = record

В дальнейшем для определения сущности и ее атрибутов будем использовать обозначение вида

СОТРУДНИК (ТАБЕЛЬНЫЙ_НОМЕР, ИМЯ, ВОЗРАСТ).

Например отделы,на которые подразделяется предприятие, и в которых работают сотрудники, можно описать как ОТДЕЛ(НОМЕР_ОТДЕЛА, НАИМЕНОВАНИЕ).

[Балашов Е.П., Пузанков Д.В. Проектирование информационно-управляющих систем. – М.: Радио и связь, 2007.]

Связь также может иметь атрибуты. Например, для связи ОТДЕЛ-РАБОТНИК можно задать атрибут СТАЖ_РАБОТЫ_В_ОТДЕЛЕ.

сущности наборы сущностей

Хотя, сторого говоря, понятия «связь» и «набор связей» различны (первая является элементом второго), их, тем не менее, очень часто смешивают. Поэтому, мы, не претендуя на академическую строгость, в дальнейшем также будем часто пользоваться терминами «связь» имея в виду «набор связей» и «сущность» имея в виду «набор сущностей».

[Димов Э.М., Диязитдинова А.Р., Качков Д.А. Проектирование информационных систем: Учебное пособие. – Самара: ПГАТИ, 2003. – 78 с.]

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

Другой важной характеристикой связи помимо ее степени является класс принадлежности входящих в нее сущностей или кардинальность связи. Так как в каждом отделе обязательно должен быть руководитель, то каждой сущности «ОТДЕЛ» непременно должна соответствовать сущность «СОТРУДНИК». Однако, не каждый сотрудник является руководителем отдела, следовательно в данной связи не каждая сущность «СОТРУДНИК» имеет ассоциированную с ней сущность «ОТДЕЛ».

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

Данный рисунок дополнительно иллюстрирует тот факт, что между двумя сущностями может быть определено несколько наборов связей.

Здесь также необходимо учитывать класс принадлежности сущностей. Каждый сотрудник должен работать в каком-либо отделе, но не каждый отдел (например, вновь сформированный) должен включать хотя бы одного сотрудника. Поэтому сущность «ОТДЕЛ» имеет обязательный, а сущность «СОТРУДНИК» необязательный классы принадлежности. Кардинальность бинарных связей степени n будем обозначать так:

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

В данном случае, по совершенно очевидным соображениям (каждый контракт заключен с конкретным заказчиком, а каждый заказчик имеет хотя бы один контракт, иначе он не был бы таковым), каждая сущность имеет обязательный класс принадлежности.

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

Заметим, что кардинальность связи для сильной сущности всегда будет (1,1). Класс принадлежности и степень связи для зависимой сущности могут быть любыми. Предположим, например, что рассматриваемое нами предприятие пользуется несколькими банковскими кредитами, которые представляются набором сущностей КРЕДИТ(НОМЕР_ДОГОВОРА,СУММА, СРОК_ПОГАШЕНИЯ, БАНК). По каждому кредиту должны осуществляться выплаты процентов и платежи в счет его погашения. Этот факт представляется набором сущностей ПЛАТЕЖ(ДАТА, СУММА) и набором связей «осуществляется по». В том случае, когда получение запланированного кредита отменяется, информация о нем должна быть удалена из базы даных. Соответственно, должны быть удалены и все сведения о плановых платежах по этому кредиту. Таким образом, сущность ПЛАТЕЖ зависит от сущности КРЕДИТ.

какое свойство домена позволяет использовать его для идентификации семантического смысла данных

7.3. Диаграмма «сущность-связь»

Очень важным свойством модели «сущность-связь» является то, что она может быть представлена в виде графической схемы. Это значительно облегчает анализ предметной области. Существует несколько вариантов обозначения элементов диаграммы «сущность-связь», каждый из которых имеет свои положительные черты. Краткий обзор некоторых из этих нотаций будет сделан в параграфе 7.5. Здесь мы будем использовать некий гибрид нотаций Чена (обозначение сущностей, связей и атрибутов) и Мартина (обозначение степеней и кардинальностей связей). В таблице 2.1 приводится список используемых здесь обозначений.

Источник

Использование семантической аннотации для идентификации требований

какое свойство домена позволяет использовать его для идентификации семантического смысла данныхДобрый день, %userName%.

В своем предыдущем топике по Управлению требованиями к IT-проектам я затронул тему идентификации требований с использованием концептов и повторное использование уже реализованных требований из одного проекта в другом. В данном топике я бы хотел развить данную тему.

Далее идет немного математики, теоретических выкладок и много букв.

Управление требованиями

Управление требованиями является одним из ключевых процессов в течение всего периода разработки программного обеспечения. Этот процесс обеспечивает не только сбор непосредственных пожеланий заказчика, но и представление их в форме, доступной всем участникам процесса разработки программного обеспечения.

Использование современных методологий и парадигм программирования, таких как объектно-ориентированное программирование, позволяет создавать самостоятельные законченные модули, которые могут быть использованы в нескольких проектах. Возможность повторного использования достигается за счет соблюдения основных принципов объектно-ориентированного программирования: инкапсуляции, наследования и полиморфизма.

Многие бизнес-процессы на предприятиях одной сферы деятельности протекают сходным образом. Различия в данных процессах незначительны и связаны с исторически сложившимися структурами бизнес-процессов. Протекание бизнес-процессов на нескольких предприятиях сходным образом способствует появлению коробочных версий информационных систем, где реализованы наиболее общие схемы протекания бизнес-процессов. Для адаптации информационной системы к специфике бизнес-процессов определенного предприятия организация-поставщик выполняет кастомизацию программного продукта.

При кастомизации информационной системы для нескольких предприятий одной предметной области модули, разработанные для одного предприятия, могут быть использованы при кастомизации информационной системы для другого предприятия. Время, затраченное на доработку модуля значительно ниже, чем при разработке его с нуля. С ростом числа выполненных доработок снижается необходимость новых доработок за счет повторного использования или адаптации уже существующих.
Для повторного использования разработанных модулей необходимо не только соблюдение принципов объектно-ориентированного программирования, но и необходима технология, которая бы позволила выявлять модули для повторного использования без привлечения эксперта или с его минимальным участием.

В данном случае экспертом является аналитик или менеджер проекта, но так как аналитик или менеджер проекта не может участвовать во всех проектах организации и быть в курсе всех производимых доработок, то необходим аппарат для идентификации выполняемых доработок с возможностью их поиска для повторного использования. Таким аппаратом является семантическая аннотация.

Еще работы на данную тему

Работа с требованиями предполагает их сбор и последующую обработку. Для этого необходим механизм, который позволил бы однозначно идентифицировать требования и выполнять поиск среди уже существующих.

В большинстве своем описание требований является текстовым, то есть с использованием естественного языка — ограничения и необходимые возможности описываются в виде текста с использованием терминов предметной области.

При добавлении нового требования в проект необходимо выполнить поиск среди уже имеющихся в проекте требований, чтобы исключить их дублирование. В данном случае, тождественность требований определяется семантическим соответствием текстов, которыми эти требования представлены. Для определения соответствия требований необходим механизм определения схожести текстов.

Наиболее распространенным методом определения схожести текстов является алгоритм шинглов. Данный алгоритм позволяет выявлять нечеткие дубликаты текстов и может быть использован для кластеризации документов по схожести и выделения документов-плагиата.

Использование данного алгоритма, как и его модификаций (алгоритма супершинглов и мегашинглов) не дает репрезентативного результата, так как при описании требований используется ограниченный набор лексических конструкций, что не позволяет получить точный результат.

Математический аппарат семантической аннотации

Использование методов полнотекстового анализа текста не позволяет однозначно идентифицировать тексты в виду ограниченности набора используемых лексических конструкций. Для решения возникшей проблемы предлагается использование семантической аннотации, что позволит с помощью набора концептов малой длины описать требование, представленное в виде текста большей длины.

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
С — условие или возможность, которую требование должно представлять,
R — реализация данного требования в системе.

Так же требование на естественном языке можно идентифицировать набором концептов:

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
Сi — концепт, описывающий требование.

Таким образом, требование можно представить в виде следующей модели:

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
CO — концепт, описывающий объект требования,
CS — концепт, описывающий субъект требования,
CE — концепт, описывающий событие требования,
CA — концепт, описывающий действие,
— набор концептов из категорий, полученных от домена.

Примем мерой различия двух требований семантическое расстояние, которое является показателем смыслового различия и является действительным числом в интервале от 0 до 1, где 1 — требования идентичны, 0 — требования совершенно не связаны. Исходными данными для вычисления являются концепты, которыми аннотированы требования.

Введем дополнительные понятия:

Алфавит — это произвольное непустое конечное множество, элементы которого называются буквами или символами.

Словом или цепочкой в алфавите V называют произвольный кортеж из множества (k-й декартовой степени алфавита V) для различных k = 0, 1, 2…

В данном конкретном случае алфавитом является совокупность всех имеющихся в системе концептов, концепты являются символами данного алфавита. Совокупность концептов, описывающих требование, является словом, длина которого определяется количеством категорий данного домена. Положение каждого символа в слове определяется категорией, к которому относится концепт, в следствие чего мы имеем конечный набор слов, который можно составить из символов данного алфавита.

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
a­i1 — i-й символ первой строки,
ai2 — i-й символ второй строки.

H равно единице, если символы a­i1 и a­i2 совпадают и равно нулю во всех остальных случаях.

Для вычисления семантического расстояния между требованиями используем расстояние Хэмминга в следующем виде:

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
L — семантическое расстояние
Ci — i-й концепт требования
N — число концептов в требовании (длина требования).

Представим категорию в виде следующей модели:

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
Т — название категории,
W — вес категории в рамках домена.

Тогда семантическое расстояние с учетом весов категорий будет вычисляться по следующей формуле:

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
Wi — вес i-й категории в рамках домена.
max W –вес категории с максимальным весом в рамках домена

Использование метода Хэмминга достаточно для работы со строками, в которых каждый из символов самостоятелен и не связан с остальными. Так как концепты являются терминами, представленными на естественном языке, а не просто бинарными значениями, то между ними могут быть установлены семантические отношения, такие как синонимия, антонимия, меронимия.

Для расчета семантического расстояния с учетом семантических отношений между концептами введем следующую модель концепта:

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
С — концепт,
V — значение лингвистической переменной, описывающее концепт,
— совокупность концептов, которые являются синонимами с данным. Семантическое расстояние между ними равно 1.
— совокупность меронимов для данного концепта. Семантическое расстояние в данном случае определяется экспертным путем на основе словаря меронимов. Чем менее связаны между собой термины, тем меньше между ними семантическое расстояние. Оно равно единице, если термины являются синонимами и стремится к нулю по мере смыслового удаления.

Таким образом, семантическое расстояние с учетом семантических отношений можно вычислить по следующей формуле:

какое свойство домена позволяет использовать его для идентификации семантического смысла данных, где
какое свойство домена позволяет использовать его для идентификации семантического смысла данных— совокупность концептов, состоящих в семантическом отношении с концептом какое свойство домена позволяет использовать его для идентификации семантического смысла данных.

Заключение

PS: Прошу не ругать за академический стиль изложения — проба пера для публикации в ВАКовском журнале.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *