Разработка программных средств конвертирования HTML текстов в семантическую сеть

Содержание:

Что такое семантическая сеть

Основные сведения о языке HTML

1.Введение

2.Сруктура HTML-документа

Что такое фреймы

Возможности представления знаний на базе

языка HTML

TextAnalyst 2.0 – персональная система

автоматического анализа текста

Принцип работы HTML-конвертора

Список использованных источников

Что такое семантическая сеть

Семантическая сеть – структура для представления знаний в виде ориентированного графа, в котором вершины – это понятия, а дуги - отношения. Термин семантическая означает "смысловая", а сама семантика – это наука, устанавливающая отношения между символами и объектами, которые они обозначают, что есть наука, определяющая смысл знаков.

Самые первые семантические сети были разработаны в качестве языка-посредника для систем машинного перевода. Однако последние версии семантических сетей стали более мощными и гибкими и составляют конкуренцию логическому программированию, фреймовым системам и другим языкам представления.

На сегодняшний день существует множество вариантов семантических сетей. Их терминология и структура различаются, но существуют сходства, присущие всем семантическим сетям:

1. Узлы семантических сетей представляют собой концепты предметов, событий, состояний

2. различные узлы одного концепта относятся к различным значениям, если они не помечены как относящиеся к одному концепту

3. дуги семантических сетей создают отношения между узлами-концептами (пометки над дугами указывают на тип отношения)

4. некоторые отношения между концептами представляют собой лингвистические падежи, такие как агент, объект, реципиент и инструмент (другие означают временные, пространственные, логические отношения и отношения между отдельными предложениями

5. концепты организованы по уровням в соответствии со степенью обобщенности так, как, например, сущность, живое существо, животное, плотоядное.

Несмотря на некоторые различия, сети удобны для чтения и обработки компьютером, а также достаточно мощны, чтобы представить семантику естественного языка.

Наиболее часто в семантических сетях используются следующие отношения:

- связь типа "часть-целое" ("класс-подкласс", "множество-подмножество" и т.п.)

- функциональные связи, определяемые обычно глаголами "производит", "принадлежит" и т.п.)

- количественные ("больше", "меньше", "равно" и т.п.)

- пространственные ("близко от", "далеко от" и т.п.)

- временные ("раньше", "позже" и т.п.)

- логические связи ("и", "или" и т.п.)

- лингвистические связи и т.д.

Основные сведения о языке HTML

1. Введение

Все стандартные броузеры для сети Интернет используют способы представления текстов, основанные на языке HTML. HTML (Hyper Text Markup Language) – это язык разметки гипертекста. Этот язык «понимают» все компьютеры, он довольно прост, но при этом имеет достаточные выразительные средства для удобного описания разных типов документов. Язык позволяет хранить текст в «чистом» виде (не кодируя его), что делает возможным просмотр HTML скриптов с помощью обычных текстовых редакторов. Этот язык предоставляет авторам Интернет - публикаций средства:

- представления документов, включающих заголовки, тексты, таблицы, списки, «картинки» и т.п. элементы;

- осуществления навигации по отдельным документам и множеству документов путем использования гиперссылок;

- конструирования диалоговых форм для взаимодействия с удаленными сервисами, доступными в сети;

- включения в документы вычисляемых форм (spread-sheets), видео и звука, равно как и разнообразных приложений.

Первая версия языка HTML была разработана Т. Бернерс-Ли из Европейского Центра ядерных исследований (CERN). В дальнейшем язык претерпел существенные изменения. К середине 90-х годов произошла стандартизация его версий, которая стала курироваться международными организациями. В настоящее время наиболее развитой является версия языка HTML 4.0, в которой представлены новые возможности аппаратуры и требования производителей программного обеспечения броузеров, а также пожелания Интернет – авторов.

2. Структура HTML-документа

В HTML – файле находится символьная информация. Часть ее – это данные, составляющие содержимое документа, а другая часть – HTML – теги, языковые конструкции, используемые для разметки документа и управляющие его отображением. Для выделения тегов в тексте HTML – документа эти конструкции берутся в угловые скобки. Обычно теги используются парами: открывающий и закрывающий тег.

Типичный HTML – документ имеет следующую структуру:

< ! DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN”

“http://www.w3.org/TR/REC-html40/strict.dtd”>

<HTML>

<HEAD>

<TITLE> Наименование документа </TITLE>

<META> name=keywords content=”Ключевые слова”>

</HEAD>

<BODY>

Тело документа

</BODY>

</HTML>

В приведенном фрагменте комментарий <!DOCTYPE …> фиксирует текущее состояние спецификации версии языка HTML. Документ должен открываться тегом <HTML>, закрываться тегом </HTML> и состоять из двух частей: заголовка и тела документа.

Заголовок находится между тегами <HEAD> и </HEAD> и содержит служебную информацию. В представленном выше фрагменте HTML – документа показаны два компонента заголовка:

- <TITLE> Заглавие </TITLE> - строка символов, которая отображается в заголовке окна броузера.

- <META> - дополнительная информация об HTML – документе (в нашем примере этот тег с помощью параметров name и content фиксирует значение первого атрибута как keywords, а второго – как ключевые слова «Представление знаний» и «Мультиагентные системы»). Этот тег ориентирован на аннотирование Интернет – документов и значительно облегчает задачу индексирования их, например, с помощью сетевых роботов.

Кроме этих компонентов заголовок может содержать еще и другие теги:

- <BASE> - базовый адрес, используемый при обработке относительных URL,

- <LINK> - используется для связи HTML-документа с другими источниками данных.

Собственно содержание документа находится в теле между тегами <BODY> и </BODY>. Иногда вместо этих тегов можно встретить тег <FRAMESET>, который определяет специальный тип документа – Web-страницу с кадрами или фреймами.

Как правило, тело HTML-документа состоит из последовательности структурных единиц, базисными из которых являются:

- заголовки разного уровня (текст, заключенный между тегами <Hi> и </Hi>), где i может меняться от 1 до 6;

- параграфы (текст, заключенный между тегами <P> и </P>).

Это минимальные средства форматирования документа. Естественно, что в HTML эти средства значительно богаче (всевозможные выравнивания, табуляция, несколько видов списков, таблицы и т.д.).

Страница:

Последние рефераты