Разделы

Авто
Бизнес
Болезни
Дом
Защита
Здоровье
Интернет
Компьютеры
Медицина
Науки
Обучение
Общество
Питание
Политика
Производство
Промышленность
Спорт
Техника
Экономика

Общие принципы работы

МЕТОДЫ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ В ПОЛНОТЕКСТОВЫХ СИСТЕМАХ

 

Определение. Под полнотекстовыми системами понимается любое программное обеспечение, ориентированное на обслуживание и целенаправленное извлечение текстовой информации.

Далее будет дан обзор наиболее распространенных технических решений, используемых в этих системах.

4.1.1. Доступ по ключевым словам

Это довольно примитивный и архаичный подход, при котором эффективность работы системы ставится в полную зависимость от способностей человека (оператора), прочитывающего текст и выделяющего набор ключевых слов,который должен быть сопоставлен тексту. Ключевые слова заносятся в записи базы данных, поиск документов осуществляется путем запросов к этой базе. Как уже упоминалось выше, такую систему можно реализовать на основе распространенных СУБД. Специализированные системы такого рода в настоящее время не имеют широкого хождения. Это связано с тем, что и без того трудоемкая работа оператора может, с одной стороны, свестись на нет при изменении системы ключевых слов, а с другой стороны, стать просто невозможной при увеличении потока текстов. Если же процесс выделения набора клю-

чевых слов не контролируется централизованно, то он попросту не имеет смысла, поскольку отсутствие единой системы ключевых слов делает всякий поиск недостоверным.

4.1.2. Индексирование

Этот принцип лежит в основе подавляющего большинства современных систем полнотекстового поиска (в том числе, и системы TACT, которая будет подробнее обсуждаться ниже, в разделе 5). Сущность его состоит в том, что текст, поступающий в систему, "прочитывается" ею и в результате создается обратный файл, или индекс,т.е. список всех словоформ, встреченных в тексте, с указателями на те позиции, где они встречены. При добавлении текстов к коллекции система прочитывает их, используя уже имеющийся индекс, к которому добавляются только новые словоформы и/или новые указатели для уже имеющихся. Таким образом, создается единый обратный файл для всей коллекции текстов, по которому и осуществляется поиск. Слово, вводимое пользователем в качестве запроса, ищется в этом файле, и в качестве ответа выдаются документы, в которых оно встречено, или их фрагменты.

Возможны следующие варианты индексирования:

• полностью автоматическое;

• автоматическое с ограничениями - пользователь задает список "мусора" - слов, часто встречающихся, но не несущих смысловой нагрузки (таких, как предлоги, союзы и т.п.); эта возможность встречается в большинстве индексирующих систем;

• селективное - пользователь задает список значимых слов, по которым должно вестись индексирование.

Индексирование позволяет осуществлять очень быстрый поиск конкретных словоформ, однако цена, которую приходится платить за быстродействие, - это дополнительные затраты памяти на хранение обратных файлов, объем которых может превышать объем исходных текстов. Реальная эффективность индексирования очень сильно зависит от вариативности лексики. Так, в английском языке, где вариативность очень мала, чтобы получить "все об информации" достаточно в запросе задать слово "information" (это существительное и прилагательное одновременно), а в русском языке тому же запросу соответствует два десятка словоформ. Еще одно ограничение этого метода - текст должен быть статичным (неизменяемым); если текст меняется (редактируется, пополняется и т.п.), то соответствующие индексные записи устаревают и возникает необходимость в полном повторном индексировании: текста.

4.1-3. "Сканирование"

Термин сканирование в данном случае не следует понимать технологично, поскольку здесь не имеется ввиду использование специального устройства - сканера, с помощью которого создается графический образ документа. Речь идет о применении специализированных программ, которые работают с уже имеющимся в компьютере текстом.

При этом подходе индекс не создается. При каждом запросе текст прочитывается программой на предмет поиска заданного пользователем слова или словосочетания. Простейшие операции такого рода умеет выполнять любой текстовый редактор - это т.н. контекстный поиск. Практически все полнотекстовые системы умеют выполнять контекстный поиск, однако лишь немногие ограничиваются этой техникой - а именно, те системы, которые ориентированы на работу с динамическим (постоянно обновляемым текстом), или системы, предназначенные для распределения конечным пользователям вновь поступающих в систему электронных текстов (например, сообщений, приходящих по электронной почте).

В противоположность предыдущему случаю гибкость этого метода оплачивается меньшей скоростью поиска.

4.1.4. Гипертекст

Индексирование и сканирование составляют ядро методов, используемых системами полнотекстового поиска. Кроме этого, в них используются и другие методы, которые могут составлять основу в системах, ориентированных главным образом не на информационный поиск, а на организацию текстового материала в виде электронных публикаций. Прежде всего, сюда относится гипертекст.Многие полнотекстовые системы предлагают те или иные средства для установления и использования в информационном поиске гипертекстовых связей.

Существуют два основных технических решения для установления гипертекстовых связей. Первый (более традиционный) предполагает установление статических связей вручную. Второй вариант - автоматическое установление динамических связей. Следует отметить, что индексирование само по себе уже подразумевает установление косвенных связей между документами или их фрагментами - за счет вхождения в них одинаковых слов, словосочетаний или других индексируемых элементов текста. Однако не все индексирующие программы максимально используют имеющиеся потенциальные возможности для установления связей между документами. В разряд гипертекстовых функций часто относят возможность установления связей между текстовыми документами и любой другой сопутствующей информацией - от текстовых же комментариев до изображений и ссылок на внешние базы данных.

Дата публикации:2014-01-23

Просмотров:776

Вернуться в оглавление:

Комментария пока нет...


Имя* (по-русски):
Почта* (e-mail):Не публикуется
Ответить (до 1000 символов):







 

2012-2018 lekcion.ru. За поставленную ссылку спасибо.