Разделы

Авто
Бизнес
Болезни
Дом
Защита
Здоровье
Интернет
Компьютеры
Медицина
Науки
Обучение
Общество
Питание
Политика
Производство
Промышленность
Спорт
Техника
Экономика

Лингвистическая концепция

КОНЦЕПЦИИ ЭЛЕКТРОННОГО ТЕКСТА

За четыре десятилетия возник ряд концепций электронного текста, различия между которыми касаются не только конкретных методов обработки текстов, но и всей совокупности представлений о том, в каком виде существует и для каких целей используется электронный текст. Можно выделить четыре основных концепции ( с довольно условными названиями)

развивается в рамках и в тесной связи с проблематикой искусственного интеллекта Возможно, ее сущность лучше отражает другой часто используемый термин - "понимание естественного языка".

Здесь основная цель работы с электронным текстом - точная передача смысла естественно-языкового высказывания компьютеру, что подразумевает три последовательные фазы: грамматический разбор высказывания, построение его логической формы и установление полного смысла высказывания на основе накопленных знаний. распространенная альтернатива этой схеме - применение семантических шаблонов, позволяющих "почти" в одно действие осуществить распознавание смысла предложения. В любом случае главным является точность, а не практическая эффективность системы, т. к. здесь не ставиться задача обработки больших объемов информации. Ниша для этого подхода - там, где точность критична, а объемы текста невелики. Это, в основном, автоматизированный перевод и запросы к базам данных

 

Определение. Статистическая концепция,которую также можно отнести к области интересов лингвистов, все же принципиально отличается от предыдущей.

Здесь речь идет, как правило, о достаточно больших массивах неизменяемых текстов и их статистической обработке, а именно построении частотных словарей, конкордансов (словарей словосочетаний) и т.п.

Анализ может вестись на разных уровнях - от грамматических форм до смысловых категорий, обнаруживаемых в тексте (контент-анализ). Цель анализа - выявить некоторые закономерности, характеризующие текст (или группу текстов), и позволяющие сделать умозаключения, например, об авторстве текста или политических пристрастиях автора (именно для этого впервые был применен контент-анализ). Эта отрасль обработки текстов, являющаяся наиболее академичной, создала целый ряд методов, оказывающихся весьма полезными не только для исследовательских целей. Число их реализаций в коммерческих приложениях быстро растет.

Определение. Концепция информационного поискаисходит из посылок, в точности противоположных "искусственно-интеллектуальным". Основная задача информационного поиска - помочь пользователю: обнаружить все документы или фрагменты текста. Отвечающие его информационным потребностям.

При этом не ставится цель заменить естественный интеллект искусственным. Напротив, полагается, что первый является достаточно мощным инструментом анализа информации и нуждается лишь во вспомогательных средствах, которые "наводили" бы его на искомые точки в огромном массиве текстовой информации. В основе работы всех таких систем, так или иначе, лежит поиск отдельных слов, которые, как предполагается, должны отражать смысл содержащего их текста. Поскольку это предположение далеко не всегда верно, то на практике оказывается, что такие системы ориентированы на полноту, а не на точность извлечения информации.

Определение. Концепция публикации/обменаобъединяет три родственных подхода к электронному тексту, в центре внимания которых (в отличие от вышеупомянутых) лежит не анализ и обработка уже готовых текстов, а технология производства электронных документов, представляющих собой общедоступные «носители» структурированной информации

Первый из этих подходов реализует стратегию создания текста "свержу вниз", при которой появлению собственно текста предшествует создание его плана (который может видоизменяться в ходе работы), так что текст с самого начала существует в виде иерархической структуры поименованных (озаглавленных) фрагментов, несущих конкретный смысл. Извлечение информации из текста, организованного подобным образом, осуществляется посредством запросов, адресуемых к элементам плана документа, а не к его словесному наполнению.

При втором подходе - создании электронных публикаций - основное внимание уделяется приемам организации разнородной информации (прежде всего текстовой, но быть может и любой другой) в цельные, логически связные информационные системы. Чаще всего такие системы организуются по принципу гипертекста. Гипертекстовойназывается система, позволяющая связывать различные элементы информации и перемещаться по информационному массиву вдоль этих связей. Система допускает связывание произвольных элементов информации - слов, предложений, абзацев текста. Тем самым снимается ограничение линейности, присущее обычному "плоскому" тексту, и появляются "электронные" связи между удаленными фрагментами. Связи образуют сеть, позволяющую достичь любого фрагмента многими способами.

Наконец, проблема обмена текстовыми документами порождает третий подход (пересекающийся с первыми двумя), в рамках которого рассматриваются средства представления (кодирования) текстовой информации ввиде, обеспечивающем максимально общепонятную передачу ассоциированного с текстом знания и его максимально однозначную интерпретацию любым читателем - как человеком, так и программой. Речь может идти о физических характеристиках текста (его внешнем виде) -здесь основную роль играет понятие переносимого документа , т.е. текста, закодированного таким образом, чтобы он мог быть воспроизведен (на экране или на бумаге) в одинаковом виде любой программой и в любой операционной среде. Речь может идти также о логической структуре и содержании текста.

В любом случае подразумевается внесение в текст стандартизованной маркировки, которая также имеет вид текста, отличающегося только специальным однозначно идентифицируемым обрамлением. Существует целый ряд языков маркирования (markup languages). Маркирование используется не только при обмене текстами, но и в двух предыдущих подходах, поскольку оно представляет собой наиболее универсальный способ представления текстовых структур.

Следует отметить, что разработчики коммерческого программного обеспечения, как правило, не стремятся добиться "теоретической чистоты" своих продуктов, и в существующих системах часто сочетаются методы, заимствованные из разных подходов и концепций.

Дата публикации:2014-01-23

Просмотров:568

Вернуться в оглавление:

Комментария пока нет...


Имя* (по-русски):
Почта* (e-mail):Не публикуется
Ответить (до 1000 символов):







 

2012-2018 lekcion.ru. За поставленную ссылку спасибо.