Разделы

Авто
Бизнес
Болезни
Дом
Защита
Здоровье
Интернет
Компьютеры
Медицина
Науки
Обучение
Общество
Питание
Политика
Производство
Промышленность
Спорт
Техника
Экономика

Поиск с учетом близости и частоты

Методы уточнения результатов поиска

Возможность найти определенное слово или словосочетание во всех текстах коллекции составляет основу и смысл полнотекстовых систем. Однако использование отдельно взятого слова дает ограниченные возможности для извлечения необходимой информации, а точнее, не дает достаточных точности и полноты результата запроса.

Одредеденне. Полнотойназывается доля значимых документов, извлекаемых запросом, среди всех значимых документов, имеющихся в коллекции. Точностьюназывается доля значимых документов среди всех документов, извлеченных запросом. Значимость документа- это, разумеется, субъективный критерий, которым каждый конкретный пользователь оценивает свою заинтересованность в документе в каждом конкретном случае.

Ниже дается обзор основных методов, направленных на увеличение точности и полноты поисковых операций.

 

4.2.1. "Булевы запросы"

Основным и повсеместно используемым методом построения точных запросов является комбинирование искомых слов в логические выражения с помощью связок И и ИЛИ. Поиск на основе таких запросов называется булевым. Этот запрос позволяет извлекать документы, удовлетворяющие сразу нескольким критериям. Однако многократное использование в запросе связки И ведет к снижению полноты (на документы накладываются слишком жесткие условия по совместной встречаемости определенных слов), а ИЛИ - к снижению точности, поскольку извлекаются все документы, где хоть раз встречается один из заданных терминов. Для улучшения качества запросов пользователь вынужден составлять очень сложные выражения, хотя и это не гарантирует успех, поскольку каждое слово рассматривается как относящееся к документу в целом. Искомые слова реально могут находиться в самых неожиданных значениях и комбинациях, которые пользователь не в состоянии предусмотреть, особенно если коллекция достаточно широка по тематике.

Дальнейшее усовершенствование идет по двум основным направлениям: введение дополнительных ограничений на совместную встречаемость (увеличивает точность) и применение методов агрегирования (увеличивает полноту без необходимости выписывать длинные последовательности связок или).

 

При таком способе поиска учитывается расстояние (обычно измеряемое количеством слов) между отдельными искомыми словами в документе. В одном варианте пользователь в запросе указывает предельное расстояние (т.е. "А и Б не далее, чем в п словах друг от друга"). В другом варианте программа подсчитывает "степень значимости" документа с учетом расстояний между встреченными терминами, указанными в запросе.

Полностью аналогичным образом может учитываться и частота встречаемости слов из запроса в документе. Это особенно полезно в случае документов большого объема, где одни и те же слова могут встречаться много раз, и частота упоминания определенного термина может оказаться действенным критерием отбора значимых документов.

Вычисление степени значимости документов занимает центральное место в развивающейся в настоящее время новой технологии информационного поиска, получившей название кластеризация документов. Кластеризация документов - это установление связей (отношений близости) между документами коллекции на основе подсчета их интегрального сходства друг с другом по лексическому составу.

 

Дата публикации:2014-01-23

Просмотров:563

Вернуться в оглавление:

Комментария пока нет...


Имя* (по-русски):
Почта* (e-mail):Не публикуется
Ответить (до 1000 символов):







 

2012-2018 lekcion.ru. За поставленную ссылку спасибо.