Разделы

Авто
Бизнес
Болезни
Дом
Защита
Здоровье
Интернет
Компьютеры
Медицина
Науки
Обучение
Общество
Питание
Политика
Производство
Промышленность
Спорт
Техника
Экономика

Поля в тексте, маркирование и структурный поиск

Описанный выше поиск с учетом близости, по существу, вносит в информационный поиск понятие контекста, необходимое для оценивания того, является ли встреченное в тексте слово значимым для данного запроса. При этом виде поиска контекст задается механически: "плюс/минус п слов". Более строго учет контекста может осуществляться, если в тексте выделяются структурные элементы фиксированного смысла. Тогда появление слова внутри структурного элемента гарантирует его определенную интерпретацию, а совместная встречаемость слов внутри одного структурного элемента подразумевает смысловую связь между ними.

Простейший способ смыслового структурирования текста - это задание в нем полей. Одни системы позволяют указывать границы полей в тексте документа, т.е. задавать их статически. Другие -позволяют задавать поля динамически, указывая последовательности символов (слова), которые должны служить границами поля (начальными и конечными маркерами). В первом случае, очевидно, требуется ручная "доводка" текста, но гарантируется точная идентификация полей. Во втором случае все делается автоматически, но инструкции, задаваемые пользователем, могут оказаться неточными, и программа ошибочно выделит в качестве полей последовательности символов, которые в действительности не имеют подразумеваемого пользователем смысла. Однако в любом случае использование полей на порядок увеличивает точность извлечения информации. При этом дополнительные затраты труда могут оказаться небольшими, поскольку многие текстовые документы обладают более или менее строгой структурой, и все без исключения тексты содержат "естественные" структурные маркеры" - знаки пунктуации.

 

Идея выделения полей находит последовательное развитие в языках маркировали: я, которые представляют собой согласованные наборы правил идентификации элементов текста. Например, элементу с именем ""город" позволено встречаться в элементе с именем "адрес" и т.п.

В настоящее время приобрел широкое распространение "стандартный обобщенный язык маркирования", представляющий собой метаязык, т.е. средство описания языков маркирования. Он не предлагает определенной схемы кодировки, но позволяет описать любую такую схему. Наиболее важными для исследователей-гуманитариев являются схемы кодировки, предназначенные для стандартизации структурного описания различных типов текстов (прежде всего, литературных:) и научных комментариев к ним в целях упрощения обмена машиночитаемыми текстами между различными группами исследователей.

Использование программными системами знания о структуре текста, предоставляемое подобной маркировкой, позволяет давать очень точные ответы на запросы в виде логически цельных и содержательно определенных фрагментов текста.

4.2.4. "Нечеткий" поиск

Переходя к методам агрегированного поиска, необходимо, прежде всего, упомянуть ряд относительно простых методов, не предполагающих точного совпадения результата с введенными пользователем строками (словами). Они позволяют, во-первых, не указывать все возможные вариации искомых слов, а во-вторых, с высокой вероятностью выдают правильный ответ, даже если слово в тексте или в запросе было набрано с ошибкой. Среди этих методов:

• поиск по основе С-лова;

• поиск по созвучнее (Soundex);

• поиск по шаблону (при этом методе поиска в строке запроса допускается указывать не только конкретные символы, но и группы символов и 'т.п.).

Нечеткий поиск может базироваться на любом из вышеупомянутых алгоритмов, но отличается тем, что результаты поиска

оцениваются количественно (степень совпадения строки запроса со строкой в тексте).

 

Дата публикации:2014-01-23

Просмотров:398

Вернуться в оглавление:

Комментария пока нет...


Имя* (по-русски):
Почта* (e-mail):Не публикуется
Ответить (до 1000 символов):







 

2012-2018 lekcion.ru. За поставленную ссылку спасибо.