Информационно-поисковые языки. Виды и классификации ипя Типы и виды ИПЯ

Статьи

Сукиасян Э.Р.
Школа индексирования. Занятие 4. Требования к классификационным информационно-поисковым языкам. Школа индексирования

[ Библиотека. – 2004. – № 5. – c. 46-48 ]

Классификационные ИПЯ – библиотечно-библиографические или информационные классификационные системы (последние нередко называются рубрикаторами) насчитывают историю в несколько тысячелетий и широко распространены в современном мире. В подразделе 5.2.2 ГОСТ 7.59–2003 рассмотрены составные части и элементы классификационных ИПЯ, подробно охарактеризована типология классификационных индексов, система грамматических отношений, характерная для ИПЯ данного типа. Принципиально важным является приведенный в стандарте перечень применяемых в стране классификационных ИПЯ (подобного положения нет в аналогичном по содержанию Международном стандарте).
5.2.1. Классификационный ИПЯ представляют в виде универсальных или отраслевых таблиц классификации, состоящих, как правило, из основных и вспомогательных таблиц, алфавитно-предметного указателя и правил применения.
Определим приведенные понятия. Универсальные таблицы классификации – таблицы классификации по всем отраслям знаний; отраслевые таблицы классификации – таблицы классификации, включающие полные таблицы по соответствующей отрасли знания, сокращенную выборку из таблиц классификации по смежным отраслям, а также комбинированные индексы.
Стандарт устанавливает, что таблицы классификации состоят, как правило, из четырех частей:

  • основная таблица классификации – составная часть таблиц классификации, включающая иерархические таблицы классификационных делений по основным классификационным признакам. Определение этого термина в ГОСТ 7.74: часть классификационной таблицы, включающая классификационные записи, которые в совокупности исчерпывают предметную область;
  • вспомогательная таблица классификации – часть классификационной таблицы, выделенная из состава основной классификационной таблицы и включающая классификационные записи, которые используются, главным образом, для детализации классов основной классификационной таблицы (здесь надо добавить, что в основу таблиц положены вспомогательные дополнительные классификационные признаки);
  • алфавитно-предметный указатель к систематическому каталогу, АПУ – вспомогательный аппарат к систематическому каталогу, представляющий собой алфавитный перечень предметных рубрик, раскрывающих содержание отраженных в систематическом каталоге документов с указанием соответствующих классификационных индексов;
  • правила применения – термин очевиден и не требует особого объяснения. Иногда эта часть таблиц классификации называется иначе – общей методикой, методическими указаниями, или же правила применения излагаются вместе с описанием ИПЯ во введении к таблицам.

Обратим внимание, что типология изданий таблиц не стандартизована. Специалисты, занимающиеся индексированием, должны знать, что в зависимости от объема представленной лексики таблицы классификации могут быть полными, средними (примерно 40–60% объема) и сокращенными (примерно 10% объема). Виды таблиц классификации по назначению предполагают указание вида библиотек: для научных библиотек, для областных библиотек, для детских и школьных библиотек. В практике нашей страны публиковались также таблицы специального назначения – для краеведческих каталогов и картотек.
5.2.2. Основным элементом таблиц классификации является классификационное деление (запись класса), в состав которого входят классификационный индекс, словесная формулировка (описание класса), при необходимости – методические указания, включающие также справочно-ссылочный аппарат.
Определим новые для нас термины: перечисленные через запятую и выделенные шрифтом являются допустимыми синонимами и могут употребляться равнозначно. Классификационная запись, классификационное деление, запись класса – совокупность элементов, обозначающая в классификационной таблице класс классификационной системы и состоящая из кода класса, описания класса и методических указаний. Классификационный индекс, код класса – обозначение класса средствами нотации (индексации) классификационной системы. Словесная формулировка, описание класса, наименование классификационного деления – обозначение класса на естественном языке.
Термин справочно-ссылочный аппарат не требует определения – ясно, что речь идет о совокупности ссылок и справок. (Надо помнить, что ГОСТ7.76 (п. 5.5) регламентировал применение термина ссылка запись, связывающая между собой части документа, библиографические записи, классификационные деления, предметные рубрики. В примечании к этому определению сказано: различают ссылки «см.», которые организуют поиск в нужном направлении, и «см. также», которые обеспечивают полноту поиска. В связи с этим указанием стандарта теперь применение терминов «отсылка» и «полная ссылка» не рекомендуется: следует применять форму «ссылка см.», а вместо термина «частная ссылка» применяется «ссылка см. также».
5.2.3. Классификационный индекс состоит из одной или нескольких ЛЕ, которые следует выражать цифровыми, буквенными или смешанными (буквенно-цифровыми) обозначениями с использованием синтаксических знаков.
Выше мы уже употребили термин «индекс». Надо иметь в виду, что этот термин введен русскими библиотекарями еще в XIX в. (от французского Indice classificateur). От него в дальнейшем образовалась группа терминов (индексация, база индексации и др.), которые характерны только для русской терминологии. В мировой практике распространен в этом значении термин нотация (вместо индексация). Классификационный индекс в английском языке – classification number. Индексирование и индексация, таким образом, понятия совершенно различные, хотя у этих слов один корень (index – указатель (англ.)).
ГОСТ 7.74 допускает параллельное использование как основных терминов (индексация – нотация), так и всех производных (например, смешанная индексация – смешанная нотация). В библиотечной практике мы традиционно используем привычные для нас термины.
Нотация, индексация – множество символов и правила их применения, используемые для представления лексических единиц и их взаимоотношений; алфавит нотации, база индексации – множество символов, используемых в конкретной нотации (индексации). В индексации используются буквы, цифры и синтаксические знаки.
Основной элемент базы индексации – арабские цифры, десять традиционных математических знаков (0, 1, 2, … 8, 9). На самом деле эти цифры возникли в Индии в V–VI вв. и стали известны в Европе в X–XIII вв. по арабским сочинениям (откуда и получили свое название). В арабской письменности цифры обозначаются совершенно иными знаками. Недостатком арабских цифр является их узкая база – одним знаком можно обеспечить всего 10 классов, двумя – 99, тремя – 999 и т. д. Однако есть и большие достоинства: ясно видна последовательность классов, выразительно начертание индекса, он удобно произносится. Как правило, три знака в индексации отделяются точкой. Если они обозначены цифрами, то мы произносим их поразрядно (555 – пятьсот пятьдесят пять), что очень удобно.
Римские цифры (I=1, V=5, Х=10, L=50, С=100, D=500, М=1000) при–меняются в индексации крайне редко, так как занимают много места. Надо, кроме того, принимать во внимание правила сочетаний знаков: если большая цифра стоит перед меньшей, то они складываются, если же меньшая – перед большей, то меньшая вычитается из большей.
В качестве буквенных индексов используются, как правило, возможности алфавитного ряда латинского языка или национальных алфавитов (например, в России -русского, в Грузии – грузинского и т. д.). По сравнению с цифрами база индексации значительно расширена (например, латинский алфавит – 26 букв). Однако некоторые сочетания букв трудно или неудобно произносить. Одиннадцать букв в латинском и русском алфавитах совпадают по графике: А, В, С, Е, Н, К, М, О, Р, Т, X (ср. с рядом в последовательности русского алфавита: А, В, Е, К, М, Н, О, Р, С, Т, X). Когда не ясна последовательность, приходится запоминать, алфавит какого языка положен в основу индексации.
Синтаксические знаки – пунктуационные и математические символы, которые используются в системе обозначений (нотации, индексации) различных классификационных ИПЯ. Перечислим эти знаки:

Перечень не является исчерпывающим, при необходимости используются и другие знаки (звездочка, знак конгруэнтности и пр.). Надо иметь в виду, что в соответствии с правилами различных классификационных ИПЯ синтаксические знаки могут комбинироваться между собой, приобретая при этом совершенно новые значения.
5.2.4. В зависимости от количе-ства ЛЕ в классификационном индексе различают простой, сложный или составной классификационные индексы.
Определим понятия: простой индекс – классификационный индекс, содержащий один код класса без сочетания с кодами других классов; комбинированный индекс – классификационный индекс, образованный из сочетания кода класса основной таблицы классификации с кодами классов вспомогательных таблиц классификации; составной индекс – комбинированный индекс, включающий в себя один или более сложных индексов.
5.2.5. Один или несколько классификационных индексов, отражающих в совокупности содержание данного документа, составляют ПОД (полный индекс).
В систематическом каталоге полный индекс указывает все деления каталога, в которых отражается данный документ. Полный индекс указывается на основных каталожных карточках всех видов каталогов справа на 3-й снизу строке. Он выполняет связующие, системные функции: с помощью полного индекса поиск из алфавитного каталога перенаправляется в систематический. В этом случае алфавитный каталог становится как бы указателем, дополнительным входом в систематический каталог. Обратную системную функцию (переход при поиске от систематического к алфавитному каталогу) выполняет заголовок БЗ. Надо последовательно добиваться реализации найденных в карточном каталоге решений, удобных при поиске и известных читателям и библиографам, при организации электронных каталогов. Наши коллеги в США, например, выяснили, что большинство читателей хотели бы видеть на экране БЗ в той форме, которая традиционно закрепилась в карточных каталогах.
5.2.6. Система грамматических отношений классификационного ИПЯ включает: парадигматические отношения между классификационными делениями (классами), зафиксированные с помощью иерархической структуры таблиц классификации, а также с помощью ссылочно-справочного аппарата; синтагматические отношения между классификационными индексами в сложных и составных индексах, образованных в соответствии с классификационной формулой.
Напомним, что о парадигматических и синтагматических отношениях мы говорили на предыдущем занятии. Классификационная формула – унифицированный порядок расположения классификационных индексов, определяющий классификационное решение.
5.2.7. В зависимости от вида документа и поставленных задач следует применять одну или несколько универсальных систем классификации – классификационных ИПЯ, приведенных ниже.

  • Библиотечно-библиографическую классификацию (ББК),
  • Государственный рубрикатор научно-технической информации (ГРНТИ),
  • Универсальную десятичную (децимальную) классификацию (УДК),
  • Десятичную классификацию М. Дьюи(ДКД), Классификатор правовых актов (КПА),
  • Межгосударственный классификатор стандартов (МКС),
  • Международную патентную классификацию (МПК).

При необходимости допускается применять также и локальные (отраслевые, специальные) классификационные ИПЯ.
Заключительное положение о требованиях к классификационным ИПЯ рекомендует набор универсальных классификационных систем и рубрикаторов. При этом определяющими для выбора являются вид документа и поставленные задачи. Стандарт не исключает возможности использования каких-либо иных ИПЯ в том случае, если они носят локальный характер, являются отраслевыми или специальными. Такой системой является, например, номенклатура специальностей научных работников ВАК. На последующих занятиях мы поговорим о каждой из перечисленных систем, разберемся в их функциях, назовем последние издания.
В дальнейшем в наших занятиях мы будем применять стандартизованные аббревиатуры: АК (алфавитный каталог), СК (систематический каталог), ПК (предметный каталог), ПР (предметная рубрика), а также аббревиатуры, принятые стандартом для наименований классификационных систем.

Please enable JavaScript to view the

СТРУКТУРА И НАЗНАЧЕНИЕ ИНФОРМАЦИОННО-ПОИСКОВОГО ЯЗЫКА (ИПЯ) ИПЯ как разновидность искусственных языков Любой язык является знаковой системой, выполняющей познавательную и коммуникативную роль в процессе человеческой деятельности. Язык может быть естественный либо искусственный. Языки, которые используются как средство общения, обмена мыслями и взаимного понимания в человеческом обществе называются естественными. Искусственным языком называется любой вспомогательный язык, созданный людьми для каких-либо узких целей, разрабатываются исскуственные языки на основе естественных. Почему возникла необходимость создания исскуственных языков? В естественном языке нет однозначного соотношения между словами и их значениями, одно и то же слово может употребляться в различном смысле. Кроме того, значения слов повседневного языка обычно зависит не только от их внешней формы, но и то обстоятельств, при которых они высказаны, а иногда и от субъективно-психологических факторов. От обычного, естественного языка, возникшего стихийно и представляющего собой систему знаков и букв, исскуственные языки отличаются тем, что они представляют собой систему знаков, все операции с которыми совершаются по формальным правилам. При разработке исскуственных языков устраняется многозначность слов естественного языка, а также и то, что характеризует наше отношение в различным предметам и явлениям, наши эмоции, волевые побуждения. В исскуствееном языке должны выражаться лишь объективные характеристики объектов и отношений между ними. Информационно-поисковый язык (ИПЯ) - это специализированный исскуственный язык, предназначенный для описания (выражения) центральных тем или предметов и формальных характеристик документов с целью последующего отыскания нужных документов среди множества других -и/или для выражения содержания информационных запросов и поиска нужных документов. Под формальными признаками документа понимается его тип, авторы, название издательства, год и место издательства и т.п. Ни один из естественных языков не может быть применен в качестве ИПЯ. Причиной этого в том, что естественному языку как средству записи информации присущи существенные недостатки. Недостатки эти заключаются в отсутствии однозначного соответствия между содержанием различных текстов и средствами выражения этого содержания. Это несоответствие можно трактовать как избыточность и недостаточность естественного языка. Например, в русском языке величина избыточности достигает 75-85 %. Если в устной речи избыточность служит защитой против речевых помех, то в механизированных и автоматизированных системах избыточность языка является отрицательным фактором, так как приводит к излишней загрузке памяти и уменьшает полноту и точность выдачи информации. Избыточность проявляется в следующем: 1. Для передачи основного содержания сообщения активную роль играют только некоторые слова текста, называемые ключевыми, а остальные слова могут быть отброшены без ущерба для понимания. Язык ключевых слов применяется в реальной жизни при составлении телеграфных сообщений, которые требуют экономии языковых средств. 2. В естественном языке распространены синонимы и близкие по значению слова, что является одним из основных источников неоднозначности выражения одного и того же смысла. 3. Избыточность естественного языка проявляется в возможности выразить одну и ту же мысль ключевыми словами, не являющимися синонимами (перефразировка). Например, "удаление влаги" = "сушка", "повышение производительности труда" = "снижение трудовых затрат". Недостаточность выражений на естественном языке, требующая знания ситуации, к которой относится то или иное сообщение, с точки зрения информационного поиска проявляется в следующем: а)многозначность отдельных слов (омонимия, полисемия); б)эллипсность естественного языка. Под эллипсом понимается пропуск в тексте сообщения отдельных слов, которые подразумеваются. Эллипсы могут быть: - лексические - употребляется сокращенный вариант словосочетания, например, "машина" в смысле "электронная вычислительная машина"; - логико-психологические - не раскрываются логические отношения и психологические ассоциации между словами, употребленными в тексте, и общим языковым фондом. Если лексическая эллипсность довольно легко устраняется по контексту, то для компенсации логико-психологических эллипсов нужно владеть данным языком и знать систему понятий и представлений, относящихся к той области, о которой идет речь. Пусть, например, имеется статья, посвященная вопросам линейного кодирования структурных формул. В этой статье могут отсутствовать слова "автоматизация", "информационный поиск", "химия", но компетентным специалистам известно, что данная публикация имеет непосредственное отношение к проблеме автоматизации поиска химической информации. Именно вследствие логико-психологических эллипсов специальная литература, доступна лишь специалистам, владеющим отраженными в ней понятиями и ассоциациями. Основные требования к ИПЯ сводятся к следующему: 1. ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для точного выражения центральной темы или предмета любого текста и темы любого информационного запроса по данной отрасли науки, техники или практической деятельности. 2. Однозначность - каждая запись на ИПЯ должна иметь один, и только один смысл; и наоборот - любой смысл должен получать единообразное представление на информационно-поисковом языке (отсутствие синонимов, антонимов, омонимов и полисемичных слов); 3. ИПЯ не должен содержать элементов, которые как-то связывают сообщение с автором или адресатом этого сообщения, т.е. как-то характеризируют наше отношение к описываемой ситуации, наши эмоции, волевые побуждения и т.п. 4. Эксплицитное (явное) фиксирование в словаре ИПЯ полезных для поиска логических отношений и психологических ассоциаций между словами ИПЯ (устранение логико-психологических эллипсов); 5. ИПЯ должен быть удобным для алгоритмического сопоставления и отождествления (полного и частичного) поисковых образов документов с поисковыми предписаниями; 6. Возможность корректировки и дополнения, т, е. открытость ИПЯ. Иначе говоря, ИПЯ должен быть гибким, обладать способностью включать новые понятия без коренной ломки принятой структуры; В одной ИПС часто применяется не один, а два различных ИПЯ: один - для индексирования документов, а другой - для индексирования информационных запросов. При разработке ИПЯ необходимо учитывать: - специфику отрасли или предмета, для которого этот язык создается; - особенности текстов (документов), образующих поисковый массив; - характер информационных потребностей, для удовлетворения которых создается данная ИПС. Структурные составляющие ИПЯ В настоящее время существует большое число различных информационно-поисковых языков, их комбинаций и модификаций. Сравнительное изучение различных ИПЯ показало возможность единообразного их описания и анализа. Для этого необходимо выделить основные структурные составляющие плана содержания ИПЯ, которые можно назвать логико-лингвистическими универсалиями информационно-поисковых языков. Универсальными структурными составляющими ИПЯ являются: - алфавит; - лексические единицы; - парадигматические отношения; - синтагматические отношения. Алфавитом называется система графических знаков, используемая для записи (фиксации) слов и выражений какого-либо языка. Алфавитом ИПЯ может включать в свой состав буквы алфавита какого-либо естественного языка (латинского, кириллического и др.,), арабские и римские цифры, знаки пунктуации (точка, запятая, двоеточие, кавычки, дефис, круглые и квадратные скобки, апостроф), знаки арифметических операций (плюс, минус, косая черта, знак процента), знаки отношений (больше, меньше, равно), специальные символы (стрелки, двойное двоеточие) и т.д. Лексическая единица (индекс, слово ИПЯ) - наименьшая осмысленная последовательность знаков, задаваемая при конструировании ИПЯ. Можно сказать, что лексические единицы - это единицы смысла в ИПЯ. Их план содержания соответствует значению отдельного слова или словосочетания естественного языка, либо научному понятию. Совокупность лексических единиц, которыми оперирует ИПЯ, образует лексику. В зависимости от способа задания лексики различают ИПЯ с контролируемой и неконтролируемой лексикой. В ИПЯ с контролируемой лексикой все лексические единицы учитываются в специальном словаре. В качестве таких словарей выступают, например, таблицы классификации УДК и ББК, рубрикаторы, дескрипторные словари. В ИПЯ с неконтролируемой лексикой используется естественный язык, применение которого ограничено (формализовано) введением специальных правил. В отличие от естественного языка, в качестве лексической единицы ИПЯ может выступать не только отдельное слово, но и устойчивое словосочетание, а также фраза, предложение. В соответствии с этим различают уровни интеграции. К первому уровню интеграции относятся ИПЯ, лексическими единицами которых являются преимущественно единичные слова и устойчивые словосочетания, например: бетон, каменный уголь (дескрипторные ИПЯ, фасетные классификации). Вторым уровнем интеграции лексики характеризуются те ИПЯ, лексическими единицами в которых выступают не только слова и словосочетания, но и фразы, имеющие сложную синтаксическую структуру (УДК, ББК, МКИ). Построение лексических единиц ИПЯ может осуществляться двумя способами: 1) использованием в качестве лексических единиц специальных кодов; 2) использованием в качестве лексических единиц слов и словосочетаний естественного языка. В соответствии с этим различают словарные и кодированные ИПЯ. Словарные ИПЯ - это языки, в которых план содержания совпадает с планом выражения естественного языка. Поэтому для лексических единиц этого типа ИПЯ не требуется перевод на естественный язык. Кодированные ИПЯ - языки, в которых план выражения не совпадает с планом содержания. В этих случаях создаются специальные двуязычные словари, позволяющие коды ИПЯ переводить на естественный язык и обратно. Независимо от способа контроля лексики, уровня ее интеграции и способа построения лексических единиц в основе лексики любого ИПЯ лежат термины, так как они являются основными носителями научно-технической информации в текстах документов и запросов. Термины подразделяются в зависимости от сферы применения. При этом в каждой области могут быть выделены специальные (базисные) термины, характерные только для данной сферы; общенаучные термины, отражающие методы, процедуры, средства познания любой предметной области; Термины смежных областей знания, обозначающие необходимые для данной предметной области понятия из смежных отраслей науки и техники. Все эти совокупности терминов находятся во взаимосвязи и не имеют четких границ. Для обеспечения лексической однозначности ИПЯ из его словарного состава необходимо полностью устранить синонимию, омономию и полисемию. Синонимами называются слова разные по звучанию и написанию, но совпадающие по основному значению и употреблению. Лексические синонимы - слова и словосочетания, выступающие в роли взаимозаменяемых элементов высказывания: токсины = яды, экслибрис - книжный знак, избирательное распространение информации = ИРИ. Логические синонимы возникают при логическом определении понятий: Мнемозина - богиня памяти в греческой мифологии, булева алгебра = алгебра логики. Синтаксические синонимы отражают возможность естественного языка выразить одну и ту же мысль речевыми оборотами, т.е. перефразировать: плавание под водой = подводное плавание, план на квартал = квартальный план. Омонимами называются слова, совпадающие по звучанию и написанию, по разные по значению, например: банки (финансовые учреждения) и банки (вид посуды), рысь (млекопитающее рода кошек) и рысь (вид поступательного движения лошади). Полисемией, или многозначностью называются наличие у одного и того же слова нескольких разных, но связанных между собой значений. Так, слово адрес может означать: а) местожительство или местонахождение; б) обозначение местожительства или местонахождения получателя на почтовом отправлении; в) код, определяющий местоположение информации в ЭВМ. В ИПЯ преобладает номинативность над глагольностью, т.е. чаще используются существительные, а не глаголы. Наиболее типичными моделями образования терминов являются следующие: 1) прилагательное + существительное (библиотечные каталоги); 2) существительное + существительное (комплектование фондов, автоматизация библиотек); 3) прилагательное + прилагательное + существительное (интегральные информационные системы). Между лексическими единицами любого ИПЯ, как и между словами естественного языка, существуют определенные отношения, которые обусловлены наличием логических связей между предметами и явлениями, обозначенными этими словами. Такие отношения отражают смысловую связь между понятиями, показывают объективные предметно-логические зависимости между явлениями внешнего мира. Они носят внетекстовой характер и поэтому не зависят от ситуации, для описания которых используются слова. Эти отношения называются парадигматическими (базисными, аналитическими, имманентными) отношениями. Благодаря предметно-логическим связям слова на основе того или иного семантического признака объединяются в лексико-семантические группы, которые называются парадигмами. Например, парадигма хвойные деревья включает ель + кедр + туя. одна и та же лексическая единица может входить в различные смысловые ряды, в которых она противопоставляется по различным смысловым признакам. Например: Река - ручей - речка (размеры водоема) Река - пролив - озеро - море (форма водоема) Река - канал - пруд - водохранилище (характер происхождения водоема). Необходимость отнесения той или иной лексической единицы к различным смысловым рядам (парадигмамО возникает при построении классификационных схем понятий. Принято различать сильные и слабые парадигматические отношения, связывая эти понятия с той ролью, которую эти отношения выполняют для реализации информационного поиска. Сильные парадигматические отношения включают в свой состав отношения тождества и отношения иерархии. Отношения тождества (совпадения, адекватности) как разновидность сильных парадигматических отношений выражаются в использовании синонимов. Отношения иерархии как разновидность сильных парадигматических отношений соответствуют отношениям подчинения. В пределах иерархических отношений различают отношения типа "род-вид" и "целое-часть". По поводу отнесения связи типа "целое-часть" к сильным парадигматическим отношениям не существует единства. Отношение "род-вид" является одним из важнейших видов связей между понятиями. При этом родовым (подчиняющим) называется понятие, выражающее существенные признаки класса предметов, являющихся видами этого рода. Соответственно видовым (подчиненным) называется понятие, которое отображает существенные признаки класса предметов, являющегося видом какого-либо рода. Например, понятия лошадь, корова, овца - видовые понятия, в которых выражены существенные признаки отдельных, качественно особенных, но взаимосвязанных форм животных, входящих в одно родовое понятие домашние животное. Одно и то же понятие может быть (за исключением единичных понятий и предельно общих категорий типа материя, движение, время и т.п.) как видовым, так и родовым одновременно в зависимости от того, по отношению к какому понятию оно рассматривается. Например, понятие аннотация является видовым по отношению к понятию вторичные документы и родовым по отношению к понятию справочная аннотация. Родовидовые отношения, эксплицитно представленные в ИПЯ, позволяют существенно корректировать стратегию поиска по запросам в зависимости от результатов выдачи. В случае "нулевой" или недостаточной выдачи информации по запросу привлечение родовых, вышестоящих терминов позволит расширить область поиска. Основным условием для установления иерархических отношений типа "род-вид" является соблюдение требования: "Все, что можно сказать о роде, можно сказать о виде". Отношение "целое-часть" отражает реальный факт вхождения одного объекта (понятия) в состав другого. При этом подчиняющее понятие соотносится с подчиненными в результате разложения целого на части. Понятия, выражающие части целого, не находятся между собой в отношении соподчинения, что является характерным признаков видовых понятий. Корректировка стратегии поиска может происходить и с учетом парадигматических отношений типа "целое-часть", так как вполне вероятно, что для потребителя информации интересующегося системой, механизмом, процессом в целом, может оказаться полезной информация и об их составных частях, элементах, операциях. Слабые (ассоциативные) парадигматические отношения учитывают логические отношения пересечения понятий и различные психологические ассоциации. Психологические ассоциация возникают в сознании человека, когда представление об одном предмете (процессе или явлении) вызывают у него представление о предметах (процессах, явлениях), связанных с первым по какому-либо существенному признаку. Такие отношения всегда характеризуют совместное участие соотвествующих объектов в типичной для данной области ситуации или участие объектов в аналогичных ситуациях. К разряду слабых парадигматических отношений принято причислять отношения "причины-следствия", "смежности", "контраста". Отношения типа "причина-следствия" характеризует такую ситуацию, при которой одно явление, действие (причина) вызывает, определяет, изменяет или влечет за собой другое явление - следствие. Например, авария-травма, нарушение технологии-брак. Отношение "смежности" является отражением в сознании ассоциативной связи между предметами или явлениями, которые воспринимаются в непосредственной близости друг к другу в пространстве и во времени: болото-торф, ток электрический-напряжение. Отношение контраста (притовоположности) является результатом противопоставления предметов, процессов не по критерию их общности, а по критерию различия. Оно выражается в лексике ИПЯ с помощью антонимов, противоположных по значению слов: экспорт-импорт. Знание и использование парадигматических отношений необходимо для правильного выбора и точного употребления всех слов, которые требуются для передачи какого-либо сообщения, в том числе и для формулирования поискового образа документа или поискового предписания. Поэтому в ИПЯ должны быть выявлены и в явном виде выражены важнейшие парадигматические отношения между словами, которые образуют словарный состав этого ИПЯ. Другим типом отношений, связывающих слова любого языка, в нем имеются также и линейные отношения, уставливаемые непосредственно при объединении слов и словосочетаний во фразы (предложения). Такие отношения получили название синтагматических (синтаксические, текстуальные, грамматические). Синтагматические отношения представляют собой семантические отношения между лексическими единицами, входящими в текст на ИПЯ, т.е. отношения устанавливаемые непосредственно при соединении слов в словосочетания и фразы. Группу лексических единиц, связанных синтагматическими отношениями, образуют синтагму (фразу, предложение на ИПЯ). Если поисковый образ рассматривать как текст на информационно-поисковом языке, то требуется решить две задачи для того, чтобы зафиксировать синтагматические отношения в этом тексте. Во-первых, нужно предусмотреть средства выделения отдельных фрагментов (предложений, фраз), соответствующих законченному высказыванию. Во-вторых, требуется указать смысловую роль лексических единиц, входящих в выделенные фрагменты. Следовательно, грамматические средства ИПЯ можно разделить на два вида: - фрагментирующие; - смыслоразличительные. Фрагментирование может осуществляться: Разделением поискового образа на несколько частей (предложений), вводимых автономно. Указателями связи. Указатель связи (скобки) представляет собой символ (буква, цифра, знак пунктуации), приписываемый всем лексическим единицам, входящим в данный фрагмент. Отдельные лексические единицы могут входить в несколько фрагментов, и следовательно, иметь несколько указателей связи. Фрагментирование не производится. Смыслоразличительные отношения между лексическими единицами одного фрагмента или - в случае нефрагментированного поискового образа - всеми словами текста на ИПЯ могут фиксироваться следующими способами: "Мешочная" грамматика - простое перечисление лексических единиц. В этом случае сам факт присутствия данного набора слов свидетельствует о существовании текстуальной связи между ними, и эта связь может быть более или менее однозначно выявлена, исходя из значения перечисленных лексических единиц. Языки с "мешочной" грамматикой часто квалифицируются как языки без грамматики. Например, когда к тому или иному понятию присоединяется еще одно, поясняющее первое и указывающее на то, что это понятие является именем собственным, определением или видом деятельности. Так, если документ касается изобретателя и его изобретения, то понятия, относящиеся к изобретателю и к устройству, может быть помечены самостоятельно, чтобы избежать путаницы при осуществлении поиска - "дизель" (изобретатель) и "дизель" (двигатель). Позиционная грамматика, заключающаяся в установлении жесткого порядка следования лексических единиц, относящихся к различным информационно-поисковым категориям. Типичным примером позиционной грамматики могут служить фасетные формулы, задаваемые в фасетных классификациях. Указатели роли, представляющие собой вспомогательные индексы, присваиваемые лексическим единицам поискового образа для уточнения их значения. Чаще всего эти списки представляют собой перечни логических категорий, которыми оперирует та или иная область знаний. Указатели способствуют уменьшению объема понятия, обозначаемого лексической единицей. Используются два вида указателей роли: Статистические указатели, представляющие собой численные "весы" ("весовые" коэффициенты), приписываемые лексическим единицам с целью указания их относительной важности для описания смысла сообщения. Функциональные указатели, которые задаются списком, поясняют грамматическую функцию того или иного индекса. Имеют такой вид: 1- исходный продукт 2- конечный продукт............................... 6-воздействующий фактор.................................. 10- метод или средство Поисковые образы, состоящие из одних и тех же лексических единиц, но имеющих различные роли, опознаются при поиске как различные. Например, "каталоги книг" и "каталоги в форме книг". Синтагматические (текстуальные, грамматические, синтаксические) отношения представляют собой смысловые отношения между лексическими единицами. 6

Информационно-поисковые языки

Искусственный язык, предназначенный для формализованного описания смыслового содержания документов, данных, отдельных понятий или терминов и обеспечения последующего их поиска в информационно-поисковых массивах. Формализация лексики и создание различных ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей информационного поиска, а также ликвидации присутствующий в нем синонимии и омонимии, для реализации "однозначности" информационного поиска .

Информационно-поисковый язык (ИПЯ) - искусственный язык , представляющий совокупность средств для описания формальной и содержательной структуры для поиска (путем индексирования) по запросу пользователя .

Структура

  • Алфавит - совокупность определенных символов для записи слов и выражений. Во многих языках для этого используются символы естественного языка.
  • Лексика - совокупность всех использующихся в языке слов - лексических единиц.

В качестве лексических единиц ИПЯ могут быть использованы:

1. слова, фрагменты слов, словосочетания и выражения любого естественного языка; 2. коды и шифры (цифровые, буквенные, буквенно-цифровые) словосочетаний, слов и выражений, выступающие в роли имён соответствующих классов; 3. шифры и коды в сочетании со словами, словосочетаниями и выражениями.

  • Грамматика - совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика это:
1. Морфология – совокупность средств и способов построения и изменения слов. 2. Синтаксис – совокупность средств и способов соединения слов в выражения и фразы.

Для упорядочения лексических единиц при построении лексики служат парадигматические отношения, то есть смысловые отношения между лексическими единицами. Эти отношения устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска.

Типы и виды ИПЯ

Способы задания лексических единиц

I классификация

  1. Контролируемые - языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные классификации. (Универсальная десятичная классификация , Библиотечно-библиографическая классификация , Классификация Дьюи ).
    1. Язык предметных заголовков (рубрик) . На основе иерархической классификации строят систематические каталоги. На основе языка предметных рубрик строят предметные каталоги. Алфавитные каталоги - ручной поиск.
    2. Дескрипторные ИПЯ , а также язык ключевых слов - автоматический поиск.
  2. Неконтролируемые - лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последне время.
  1. Перечисление всех лексических единиц ИПЯ. Способ не требует больших интеллектуальных усилий, а процесс построения лексики нельзя автоматизировать. Лексика ИПЯ оказывается жёстко фиксированной и в ряде случаев не позволяет достаточно точно выразить смысловое содержание текстов.
  2. Перечисление части лексических единиц и задание правил формирования из них других лексических единиц. Занимает промежуточное положение и в отношении интеллектуальных усилий, и в отношении автоматизации процессов.
  3. Задание правил построения лексических единиц, слов и выражений естественного языка. Поддаётся полной автоматизации, хотя и требует больших интеллектуальных затрат на определение правил формирования лексики. Однако научный подход к формированию словарного состава делает его более совершенным, обеспечивает единообразие и уменьшает субъективизм при построении лексики.

III Фасетная классификация (классификация двоеточием или классификация Ранганатана)

Это совокупность нескольких независимых классификаций, осуществляемых одновременно по различным основаниям, в которой:

  1. понятия представлены в виде пересечения ряда признаков (фасетной, см. фасет структуры);
  2. классификационные индексы синтезируются посредством комбинирования фасетных признаков в соответствии с фасетной формулой.

Этот способ построения разработан индийским учёным и библиотековедом Ш. Р. Ранганатаном («Классификация двоеточием», 1933). Основой классификации является привычное человеку отнесение объекта к разным категориям (задание множества и его элементов).

Порядок записи лексических единиц

  1. Некоординируемые языки - не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска. (система расстановки книг в библиотечном фонде, по инвентарным номерам).
  2. Координируемые ИПЯ - языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.
    1. Предкоординируемые - связи между лексическими единицами устанавливаются перед поиском.
    2. Посткоординируемые - когда связи между лексическими единицами устанавливаются только при поиске.

Типы ИПЯ по сфере (области) применения

  1. Коммуникативные (общесистемные), предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в том числе распределенными по государственной, ведомственной или территориальной принадлежности).
  2. Локальные (внутренние), предназначенные для использования в рамках отдельной системы.
  3. Внешние, используемые в других системах и предназначенные для взаимодействия только с ними.

Виды отношений в ИПЯ

Синтагматические отношения в ИПЯ - линейные отношения между лексическими единицами ИПЯ, устанавливаемые непосредственно при их использовании. Способом выражения синтагматических отношений являются грамматические средства, в качестве которых выступают: мешочная, позиционная грамматика, указатели роли, указатели связи, грамматика логических операторов. Формальным средством выражения синтагматических отношений являются опознавательные, разделительные знаки, а также знаки присоединения.

  1. Мешочная грамматика - один из способов выражения синтагматических отношений в ИПЯ, заключающийся в простом перечислении лексических единиц, входящих в один поисковый образ или поисковое предписание. Порядок следования лексических единиц при этом значения не имеет. Мешочная грамматика используется в словарных ИПЯ.
  2. Позиционная грамматика - один из способов выражения синтагматических отношений в ИПЯ, заключающийся установлении жесткого порядка следования лексических единиц, входящих в один поисковый образ. В классификационных ИПЯ проявляется в использовании классификационной формулы при систематизации и формулы предметных рубрик при предметизации, в ИПЯ координатного типа - в использовании метода стандартных фраз, аспектного метода представления информации.
  3. Указатели роли - один из способов выражения синтагматических отношений в ИПЯ, характеризующий логические связи между лексическими единицами и уточняющий смысловую функцию (роль) каждой лексической единицы в поисковом образе. Указатели роли используются преимущественно в словарных ИПЯ и создаются применительно к конкретным отраслям знания. В классификационных ИПЯ функцию указателей роли выполняют, например, общие определители точки зрения в (УДК). Указатели роли позволяют уменьшать объем понятия, обозначаемого лексической единицей, что дает возможность обеспечить большую точность информационного поиска. Выражаются с помощью букв и цифр.
  4. Указатели связи - один из способов выражения синтагматических отношений в ИПЯ, указывающий на наличие логической связи между лексическими единицами и устраняющий их ложное сочетание в поисковом образе. Указатели связи широко используются в словарных ИПЯ и выражаются с помощью символов, букв или цифр. В классификационных ИПЯ функцию указателей связи выполняет знак квадратные скобки. Указатели связи позволяют исключить информационный шум и обеспечить точность информационного поиска.
  5. Грамматика логических операторов - один из способов выражения синтагматических отношений в ИПЯ, позволяющий осуществлять логическое умножение, сложение и вычитание лексических единиц ИПЯ при построении поискового предписания. Грамматика логических операторов используется в словарных ИПЯ. Служит для уточнения объемов понятий, выражаемых лексическими единицами, с целью обеспечения большей точности информационного поиска.

Семантические отношения - отношения между понятиями в т.н. "семантических сетях". Различают:

  • Лингвистические (соответствующие и взаимоотношению слов в предложении) отношение
  • Теоретико-множественные отношения.
  • Логические отношения.

Парадигматические отношения в ИПЯ - смысловые логические отношения между лексическими единицами ИПЯ, не зависящие от контекста, в котором употребляются. Различают сильные и слабые парадигматические отношения.

Сфера информационно-поисковых систем в филологии. Информационно-исследовательская база данных "Русский Шекспир"

"Информационные проекты в области филологии должны быть направлены на создание инновационного продукта, научных информационно-телекоммуникационных систем и сетей, унифицированной системы научных знаний и технологий, на создание некоторых элементов искусственного интеллекта при построении экспертных систем и баз знаний, информационных сетей коллективного пользования с уникальными научными ресурсами" .

Научные задачи: «Информационно-исследовательской базы данных «Русский Шекспир»

  • создание наиболее обширной библиографии по теме «Русский Шекспир», которая будет в себя включать целый ряд разделов («Переводы произведений Шекспира на русский язык: собрания сочинений и сборники, отдельные произведения», «Критические работы, посвященные творчеству и жизни Шекспира» (проблема авторства, критика отдельных произведений, Шекспир и театр, история шекспироведения, Шекспир и зарубежная литература, Шекспир в России, Пушкин и Шекспир, пародии на произведения и т. д.); исследование и разработка проблем, связанных с вхождением Шекспира в русскую культуру, формированием русской теорией перевода (написание статей и монографий;
  • использование Интернет-ресурсов в преподавании филологических дисциплин, методики перевода, истории театра, кинематографа, мировой художественной культуры, разработка оригинальнспользование Интернет-ресурсов в преподавании филологических дисциплин, методики перевода, истории театра, кинематографа, мировой художественной культуры, разработка оригинального спецкурса «Русский Шекспир».

"Мир Шекспира" имеет 3 основных направления

  • подготовка и сдача в эксплуатацию информационной системы и web-сайта,
  • формирование полнотекстового содержания информационно-исследовательской базы данных «Русский Шекспир»,
  • разработка разнообразных способов просмотра информации, атрибутного информационного поиска, полнотекстового поиска по свободной лексике как на русском языке, так и на английском языке.

Основное значение базы данных

Апробация информационно-исследовательской базы данных "Русский Шекспир"

Информационно-исследовательская база "Русский Шекспир" представляет собой своеобразный информационный центр об Уильяме Шекспире, его произведениях, проблемах изучения его творчества. С одной стороны, база предоставляет посетителю возможность просмотреть собранные в одном месте произведения, пожалуй, самого известного английского писателя, а с другой, предлагает относительно широкий охват работ разных направлений, так или иначе связанных с творчеством У. Шекспира. На ресурсе представлены, в основном, тексты отечественных исследователей и авторов (что, в принципе, логично соотносится с названием базы).

Произведения У. Шекспира расположены здесь в различной форме (раздел: «В русских переводах») в зависимости от размера часть из них расположена непосредственно на сайте (например, сонеты, перевод которых представлен в сопровождении оригинала. Таким образом, оба текста располагаются в максимальной доступности), часть (некоторые пьесы) представлена в формате pdf. Представленные переводы принадлежат разным авторам и времени. Самые ранние переводные тексты произведений на ресурсе датируются 1899 годом (например, «Гамлет» в пер. А. Кронеберга, «Ромео и Джульетта» в пер. Д. Михаловского, «Ричард III» в пер. А. Дружинина и др.), и в них сохранен оригинальный дореволюционный стиль.

В другом разделе – «В научной и театральной критике», представлены перечни научных монографий исследователей творчества У. Шекспира, научных сборников, предисловия и вступительных статей к изданиям разного времени, рецензий на книги о писателе и его произведениях, спектакли (причем как центральных театров России, так и малых, провинциальных), аннотации на выходящие издания.

На ресурсе можно найти творческие работы на темы шекспировских произведений, а также отражающие восприятие личности самого автора (Раздел: «В оригинальном творчестве»). Это различные работы вдохновленных читателей, поклонников и просто неравнодушных: стихотворения, рисунки, фото, произведения прикладного искусства. Здесь также представлено творчество современников У. Шекспира и цитаты его/из него/о нем.

Одним из самых полезных для научных исследователей творчества У. Шекспира является раздел «Bibliographia», в котором представлен перечень работ и произведений по следующим направлениям: переводы и переделки произведений на русский язык с 1748 года, история шекспироведения (в том числе переводы и оценка драматурга в разные периоды (Просвещение) и в разных странах (США, Западная Европа, Германия), русская критика У. Шекспира XVIII-XIX вв., проблема авторства, влияние У. Шекспира на литературу других стран, У. Шекспир и А. Пушкин, а также художественная литература и публицистика (пародии, фельетоны, юморески по мотивам произведений, рецензии на художественные произведения о писателе). Еще одним полезными разделами окажутся: «Personalia», который не даст запутаться в многочисленных фамилиях современников У. Шекспира и тех, кто изучал и изучает его творчество задолго после его жизни. И «Шекспир в Интернете», где представлены ссылки на русскоязычные, украиноязычные и англоязычные ресурсы.

Необходимо отметить, что все перечни литературы снабжены выходными данными, что значительно облегчает поиск нужной информации.Стоит также упомянуть, что, не смотря на значительный объем информации, интерфейс ресурса сделан достаточно удобным и логичным, что также облегчает работу с данными, содержащимися в базе.

Разработчики ставили перед собой задачи создания обширной библиографии по теме «Русский Шекспир» и внедрение базы в преподавание в различных сферах. Конечно, ресурс получился так или иначе в большей степени направлен на филологов и литературоведов. Однако, если информация, скажем об оценке выходящих спектакля и фильмах, будет пополняться, то ресурс (как источник информации) станет более полезен и другим направлениям, в данном случае театроведам и представителям творческих специальностей: режиссерам, сценаристам и актерам.

ЛЕКЦИЯ 3

Учебная презентация

Вопросы:

1) Информационно-поисковые языки (ИПЯ): понятие и структура.

2) Упорядочения лексических единиц ИПЯ.

3) Требования к ИПЯ

Вопрос 1. Информационно-поисковые языки: структура и требования . Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки.

Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык - это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации.

Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационно -поисковый язык (ИПЯ) - искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.

Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:

Фонетического;

Лексического;

Синтаксического;

Текстового.

Элементы каждого уровня объединяются в синтагмы и парадигмы.

Фонетический уровень - это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.

Лексический уровень или словарный запас - совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица - наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.

Вопрос 2. Упорядочение лексических единиц ИПЯ . Для упорядочения лексических единиц ИПЯ служат парадигматические отношения, которые фактически определяют и задают структуру языка.

Парадигматические отношения (аналитические) - это внетекстовые, объективно существующие смысловые отношения между лексическими единицами, которые устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. Парадигматические отношения учитывают сходство или различие в объеме и содержании лексических единиц (понятий). Отношения делятся на: сильные (логические) и слабые (ассоциативные).



Объем понятия - множество предметов, отображенных в данном понятии. Например, "периодические издания" включает газеты, журналы. Количество предметов, входящих в объем, может быть конечным (части света), бесконечным (число), существуют единичные понятия (Луна).

К сильным (логическим) парадигматическим отношениям относятся:

· Эквивалентности (равнозначности) - отношения между понятиями, объемы которых совпадают, но в содержании имеются различия. Например, документ печатный - документ опубликованный; документ рукописный - документ неопубликованный.

· Подчинения - отношения между понятиями, когда объем одного или нескольких понятий входит в объем другого. Например, вторичные документы (род) включают аннотации, рефераты (виды).

· Соподчинения - между видовыми понятиями, в равной степени подчиненными одному родовому. Например, книга, брошюра, листовка - виды непериодических изданий.

· Перекрещивания - между понятиями, содержание которых различно, но объемы частично совпадают. Например, студенты и туристы, писатели и ученые.

· Противоположности - между соподчиненными понятиями, которые в своем содержании имеют несовместимые признаки, обуславливающие несовпадение объемов. Например, документы текстовые и документы машиночитаемые.

· Противоречия (контрадикторности) - между двумя соподчиненными понятиями, видовые признаки которых несовместимы, что обуславливает несовпадение объемов этих понятий. Эти понятия исключают друг друга. Например, документы первичные и документы вторичные.

Слабые (ассоциативные) парадигматические отношения выражают связи не между понятиями, а между самими предметами (технологические, причинно-следственные, системно-элементные). При создании ИПЯ целесообразно фиксировать следующие ассоциативные отношения:

· Целое - часть (Справочно-поисковый аппарат и каталоги, картотеки).

· Система - элемент (Архивная отрасль Беларуси и Национальный исторический архив).

· Отношения детерминации: причина - следствие (Старение публикаций и снижение спроса).

· Процесс - оборудование (Ксерокопирование и ксерокс).

· Процесс - материал (Ксерокопирование и бумага).

· Материал - изделие (Древесина и бумага).

· Изделие - процесс изготовления (Документ и документирование).

· Предмет - назначение (Магнитные диски и запись информации).

· Наука - объекты изучения (Информатика и информация).

· Наука - представители (Философия и Сократ).

Парадигматические отношения позволяют объединять лексические единицы ИПЯ в семантические группы - парадигмы , элементы которых обладают свойством взаимозаменяемости.

Кроме парадигматических отношений существуют синтагматические (синтаксические, грамматические, текстуальные) отношения , служащие для установления семантических связей между лексическими единицами. Речь идет о правилах образования и правилах интерпретации ИПЯ. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова и выражения.

Средства выражения синтагматических отношений называют грамматикой ИПЯ. ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов.

Одной из основных характеристик ИПЯ является семантическая сила - возможность передавать полно и точно содержание сообщений.

Вопрос 3. Требования к ИПЯ . При разработке конкретного ИПЯ учитываются:

Специфика отрасли или предмета, для которой этот язык создаётся,

Особенности текстов, образующих поисковый массив,

Характер информационных потребностей, для удовлетворения которых создается язык.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких языках выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов - выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного. В середине 20 в. в качестве ИПЯ широко применялись библиотечно-библиографические классификации и классификации дескрипторного типа).

Главная отличительная особенность ИПЯ - простота лексики и грамматики по сравнению с теми же элементами естественного языка. Требования, предъявляемые к ИПЯ : однозначность, точность и недвусмысленность семантики (каждая запись ИПЯ должна иметь точно определенное и одно-единственное значение); большая семантическая сила (словарь должен включать все термины, необходимые для индексирования документов и запросов); удобство для пользования; простота и немногочисленность грамматических средств.

КЛАССИФИКАЦИЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ ЯЗЫКОВ

Учебная презентация

Вопросы:

1) Типы и виды ИПЯ.

2) ИПЯ дескрипторного типа.

3) Методика построения и грамматика ИПЯ дескрипторного типа.

Вопрос 1. Типы и виды ИПЯ. В настоящее время существует множество типов и видов ИПЯ. Наиболее распространенными подходами к классификации ИПЯ являются: классификация Ф.Ланкастера, классификация ВИНИТИ, классификация ЛГИК им. Н.К.Крупской. Последняя классификация представляется наиболее логичной. В ее основу положены три видообразующих признака, учитывающих основные структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относятся способ задания лексических единиц, способ кодирования (сочетания) лексических единиц и способ учета парадигматических отношений. Принимается во внимание и возможность автоматизированного поиска.

1) По способу задания лексических единиц: контролируемые и неконтролируемые. Контролируемые ИПЯ - языки, лексика которых задается заранее с помощью словарей и таблиц (УДК, ББК). Неконтролируемые ИПЯ - языки, лексика которых не задается словарем, а строится на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений.

2) По координации лексических единиц (способу записи): некоординируемые и координируемые. Некоординируемые ИПЯ - языки, не допускающие координации своих лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ - языки, в которых лексические единицы координируются между собой или в процессе индексирования, или в процессе поиска. Различают Предкоординируемые и посткоординируемые ИПЯ. Предкоординируемые языки устанавливают порядок записи лексических единиц в процессе индексирования по заранее определенным правилам и предусматривается их жесткая последовательность. Как правило, используются в ручном поиске. Посткоординируемые ИПЯ - языки, в которых лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска.

3) С учетом и без учета парадигматических отношений: иерархические, фасетные и неиерархические. Языки иерархической структуры представляют собой иерархическую классификацию - систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс - совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток - невозможность организации внеиерархических связей (иерархическая модель данных - невозможность перекрестных запросов).

Пример иерархической классификации:

1. Документы

1.1 Иконические

1.2 Идеографические

1.3 Текстовые

1.3.2 Вторичные

Языки фасетной структуры представляют собой фасетную классификацию - совокупность фасетов, следующих друг за другом в определенной последовательности. В основе построения такой классификации лежит индуктивный метод, который предполагает исследование отдельных предметов множества, нахождение в них общих существенных признаков и группировку на основе последних терминов, обозначающих эти понятия.

Пример фасетной классификации:

1 Документы по знаковой форме представления информации

1.1 Идеографические

1.2 Иконические

1.3 Текстовые

2 Документы по способу распространения

3 Документы по периодичности изданий

3.1 Непериодические

3.2 Периодические

3.3 Продолжающиеся

Языки неиерархической структуры являются продуктом эмпирического подхода к построению ИПЯ. Такой подход предполагает создание языка на основе индексирования реальных текстов. Из содержания документа выбираются ключевые слова, которые преобразуются в лексические единицы ИПЯ (ТАСТ, алфавитно-предметная классификация).

К специальным неиерархическим ИПЯ с учетом сильных и слабых прардигматических отношений относится дескрипторный язык.

Вопрос 2. ИПЯ дескрипторного типа. Дескрипторные ИПЯ - искусственные информационные языки, появившиеся 1950-ых годах. Возможность и необходимость их создания были вызваны рядом объективных причин. В эти годы были разработаны первые механизированные системы поиска информации и предпринята попытка использования ЭВМ для решения разнообразных информационно-поисковых задач. Традиционные языки предкоординатного тиап не соответствовали требованиям механизированного, а в дальнейшем автоматизированного поиска информации. Интенсивный поиск новых семантических средств привел к созданию принципиально новых ИПЯ посткоординатного типа. Основы индексирования данных языков были заложены в работах М.Тауба и К.Муерса за рубежом и В.П.Черенина в СССР.

М.Тауб в 1951 году разработал ИПЯ унитермов, т.е. неформализованных единичных терминов, перечнем которых можно достаточно полно и точно передать содержание документа и запроса. Координация унитермов происходит в момент поиска сообщения после получения запроса. Однако этот язык не отвечал требованию однозначности. И нуждался в совершенствовании. В своем первоначальном виде ИПЯ унитермов не применяются. Зато широко распространился ИПЯ унитермов с искусственной грамматикой, который принято называть дескрипторным.

Понятие о дескрипторе ввел в информатику К.Муерс. (Дескриптор - позднелат. descriptor, от лат. describо - описываю). Он предложил уитывать синонимию в языке унитермов и применять лексикографический контроль за используемыми ключевыми словами, который заключался в их нормализации и полном устранении неоднозначности и многозначности. К.Муерс считал, что для контроля лексики должен составляться специальный дескрипторный словарь

Таким образом, дескрипторный язык - искусственный язык посткоординатного типа, построенный на безе формализованной лексики естественного языка. Для контроля лексики создается информационно-поисковый тезаурус (ИПТ) - контролируемый словарь лексических единиц дескрипторного языка, основанный на лексике одного естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для организации поиска информации путем индексирования документов и/или запросов. Каждый конкретный ИПЯ отражает систему понятий предметной области знания в виде структурированной совокупности терминов и является результатом серьезной и трудоемкой работы.

Вопрос 3. Методика построения и грамматика ИПЯ дескрипторного типа. Разработка ИПТ осуществляется на основе следующих этапов:

1) Определение тематического профиля ИПТ. Тематический профиль определяется путем анализа информационных потребностей специалистов отрасли.

2) Сбор лексики и формирование словника ключевых слов. Словник - исходный массив терминов, который потом подвергается семантической обработке в процессе дескрипторизации. Массив формируется путем извлечения первичных, а чаще вторичных документов и ключевых слов. Иногда используются справочная литература, опрос специалистов. Основная проблема на этом этапе формулировка ключевых слов. Служебные слова (предлоги, союзы, частицы) следует считать неключевыми; общие термины (метод, способ и т.п.) необходимо употреблять только в сочетании с другими словами, конкретизирующими их значение. Ключевыми словами могут быть словосочетания.

3) Построение словарных статей и формирование лексико-семантического указателя. Осуществляется дескрипторизация ключевых слов (для составления дескрипторного словаря) и установление прадигматических отношений между дескрипторами (для увеличения семантической силы языка). Устраняется неоднозначность ключевых слов путем снабжения соответствующими пояснениями - реляторами (ЗАПИСЬ – процесс, ЗАПИСЬ – предмет) Все слова группируются в классы эквивалентности: Безусловноэквивалентные (ОПУБЛИКОВАННЫЕ ДОКУМЕНТЫ = ПЕЧАТНАЯ ПРОДУКЦИЯ) и условно-эквивалентные (ТЕХНИЧЕСКИЕ СРЕДСТВА=АППАРАТУРА)

После этого производится выбор одного из слов в качестве дескриптора. Таким образом, дескриптор - лексическая единица ИПТ, под которой принято понимать нормализованное слово или словосочетание, выбранное из множества условно-эквивалентных ключевых слов для его обозначения. Свойства дескриптора:

§ Полнота выражения смыслового значения данного класса.

§ Краткость и понятность.

§ Частота встречаемости термина в текстах документов и запросов.

Аскриптор - лексическая единица ИПТ, входящая в класс эквивалентности данного дескриптора, которая при индексировании документов и запросов подлежит замене на дескриптор. Результат дескрипторизации: дескрипторный словарь – алфавитный перечень дескрипторов и аскрипторов. Например:

Архивные службы

Архивные учреждения

Архивные центры

Статьи аскрипторов снабжаются отсылками на заменяющие их дескрипторы. Стандарт предлагает три типа отсылок:

1. Аскриптор – синоним дескриптора:

Первичные издания

см ПЕРВИЧНЫЕ ДОКУМЕНТЫ

2. Аскриптор, заменяемый комбинацией дескрипторов (используй комбинацию):

Русские тексты

исп к РУССКИЙ ЯЗЫК

3. Аскрипторы, заменяемые несовместимыми дескрипторами (используй альтернативу):

Текущая информация

исп а СВЕДЕНИЯ

§ Логический анализ.

§ Ассоциативный анализ.

§ Прагматический анализ.

Логический анализ – сопоставление объемов понятий, представленных дескрипторами:

вр ОРГАНИЗАЦИОННО_РАСПОРЯДИТЕЛЬНАЯ ДОКУМЕНТАЦИЯ (выше род)

нв ПРИКАЗЫ ПО ЛИЧНОМУ СОСТАВУ (ниже вид)

Ассоциативный анализ – сопоставление признаков предметов, входящих в определенные понятия, представленные дескрипторами.

вц НАУНО-СПРАВОЧНЫЙ АППАРАТ (выше целое)

нч ОТДЕЛ (ниже часть)

Прагматический анализ – упорядочение структуры и состава словарной статьи дескриптора. Учитывает: область ИПТ, терминологические особенности отрасли знания

Структура дескрипторной статьи имеет вид:

Д {Мс; Мв; Мн; Ма}

Д – заглавный дескриптор;

Мс – множество аскрипторов, входящих в класс эквивалентности дескриптора;

Мв – множество вышестоящих дескрпиторов;

Мн – множество нижестоящих аскрипторов;

Ма – множество ассоциативных дескрпиторов.

Например для дескриптора:

с АРХИВНЫЕ СЛУЖБЫ

АРХИВНЫЕ УЧРЕЖДЕНИЯ

в ИНФОРМАЦИОННЫЕ СЛУЖБЫ

н НАЦИОНАЛЬНЫЙ АРХИВ

РЕГИОНАЛЬНЫЙ АРХИВ

а СИСТЕМА АРХИВНОГО ОБСЛУЖИВАНИЯ

Для аскриптора:

АРХИВНЫЕ СЛУЖБЫ

см АРХИВЫ

4) Разработка вспомогательных указателей. Наиболее распространены три типа указателей: систематический указатель дескрипторов тезауруса, указатель иерархических отношений и пермутационный указатель дескрипторов. Систематический указатель – алфавитный список дескрипторов (тематический, категориальный, смешанный). Указатель иерархических отношений - свод классификационных деревьев. Каждый дескриптор может входить при этом более чем в одно дерево. Пермутационный указатель - перечень списков, каждый их которых соответствует одному из знаменательных слов в составе лексической единицы. Предназначен для поиска лексической единицы по отдельным словам.

5) Оформление ИПТ.

6) Экспертиза и регистрация ИПТ.

Основным способом уменьшения информационного шума является введение в ИПЯ грамматических средств, которые позволяют точно и полно выражать синтагматические отношения. Грамматические средства делятся на:

Фрагментирующие. Для разделения поискового образа на части. К ним относятся указатели связи (буквы, цифры, знаки);

Смыслоразличительные. Для указания смысловой роли различительных слов внутри фрагмента поискового образа. К ним относятся указатели роли.

Перейти к: навигация , поиск

Информационно-поисковый язык (ИПЯ) - искусственный язык , представляющий совокупность средств для описания формальной и содержательной структуры для поиска (путем индексирования ) по запросу пользователя .

Структура

В ИПЯ можно выделить алфавит , лексику и грамматику .

    Алфавит - совокупность определенных символов для записи слов и выражений. Во многих языках для этого используются символы естественного языка .

    Лексика - совокупность всех использующихся в языке слов - лексических единиц.

    Грамматика - правила составления выражений. Грамматика во многих ИПЯ формальна, а в некоторых вообще отсутствует.

Для упорядочения лексических единиц при построении лексики служат парадигматические отношения, то есть смысловые отношения между лексическими единицами. Эти отношения устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска.

Типы и виды ипя Способ задания лексических единиц

    Контролируемые - языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные классификации. (универсальная десятичная классификация,библиографическая классификация, классификацияДьюи ).

    1. Язык предметных рубрик. На основе иерархической классификации строят систематические каталоги. На основе языка предметных рубрик строят предметные каталоги. Алфавитные каталоги - ручной поиск.

      Дескрипторные ИПЯ, а такжеязык ключевых слов- автоматический поиск.

    Неконтролируемые - лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последне время.

Порядок записи лексических единиц

    Некоординируемые языки - не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска. (система расстановки книг в библиотечном фонде, по инвентарным номерам).

    Координируемые ИПЯ - языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.

    1. Предкоординируемые - связи между лексическими единицами устанавливаются перед поиском.

      Посткоординируемые - когда связи между лексическими единицами устанавливаются только при поиске.

Лекция 8. Автоматизированные информационно-поисковые системы.

Информационно-поисковая система

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и как искать (какие инструменты для этого использовать).

Каковы основные источники информации, представленные в Интернете?

Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях.

Где эти источники информации размещаются?

Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы. Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых - собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.

ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу. Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.

Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Адреса популярных каталогов:

Зарубежные каталоги:

Yahoo - www.yahoo.com Magellan - www.mckinley.com

Российские каталоги:

@Rus-www.aport.ruWeblist-www.weblist.ruУлитка -www.ulitka.ru

Поисковая машина

Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах. Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов). Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Адреса наиболее популярных поисковых машин за рубежом и в России.

Зарубежные поисковые машины:

Google - www.google.comAltavista - www.altavista.comExcite - www.excite.comHotBot - www.hotbot.comNothern Light - www.northernlight.comGo (Infoseek) - www.go.com(infoseek.com) Fast - www.alltheweb.com

Российские поисковые машины:

Яndex - www.yandex.ru(илиwww.ya.ru) Рэмблер -www.rambler.ruАпорт -www.aport.ru

Метапоисковая машина

етапоисковая система. Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Адреса известных метапоисковых систем:

MetaCrawler-www.metacrawler.comSavvySearch-www . savvysearch . com

Поиск источников информации

Обсудим проблему поиска такого источника информации, как статьи в группах новостей. Инструментами поиска в данном случае могут являться рассмотренные поисковые машины WWW, которые индексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальный режим поиска именно в этом ресурсе. Поиск в группах новостей поддерживает, например, поисковый сервер Altavistа. Следует отметить, что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах новостей существую специализированные системы, самой известной из которых является система Deja (www.deja.com). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja и подписаться на определенные группы новостей.

Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы WWW стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport). Для этого вовсе нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссылкам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл.

Что касается поиска программного обеспечения, во всемирной паутине существуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некоторые из них специализируются на поиск программного обеспечения для Интернета или для конкретной операционной системы. Эти системы в конечном итоге приведут вас к конкретному серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie, также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гораздо удобнее.

Рассмотрим поисковые инструменты для поиска адресной информации. Введем понятие Белого(White) и Желтого (Yellow) поиска.

White-поиск - поиск адресной информации по заранее известному собственному имени адресата (имя человека или организации)

Yellow-поиск - поиск собственного имени по дополнительным признакам (по роду деятельности, по географическому признаку), а затем поиск его адресной информации.

Обычно Yellow Pages системы фактически сразу включают в себя и White Pages - у найденного адресата сразу видны его телефон и почтовый адрес. Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поиск). С другой стороны, White pages также содержат элементы yellow-поиска - кроме задания собственного имени они обычно позволяют указать название города, штата и другие, сужающие поиск, данные (что необходимо в случае многих однофамильцев). Возможно, именно поэтому многие on-line телефонные справочники, выполняющие, фактически white-поиск, называют себя Yellow pages.

Здесь приведены адреса Web-систем для поиска адресной информации для людей и организаций.

Поиск людей:

    Поиск людей на Yahoo (http://people.yahoo.com).

    Система WhoWhere (www.whowhere.com).

    Система Bigfoot (www.bigfoot.com).

Поиск организаций: раздел Желтые страницы (Yellow pages) на поисковых системах специализированные сервера www.yellowpages.com- для поиска в США и других странах.

Пользователям Internet уже хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek, а без услуг этих систем сегодня практи чески нельзя найти что-либо полезное в море информационных ресурсов Сети. Но что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos.

Информационно-поисковые системы появились на свет достаточно давно. Теории и практике построения таких систем посвящено множество статей, основная масса которых приходится на конец 70-х - начало 80-х годов. Среди отечественных источников следует выделить научно-технический сборник "Научно-техническая информация. Серия 2", который выходит до сих пор. На русском языке издана так же и "библия" по разработке ИПС - "Динамические библиотечно-информационные системы" Ж. Солтона , в которой рассмотрены основные принципы построения информационно-поисковых систем и моделирования процессов их функционирования. Таким образом, нельзя сказать, что с появлением Internet и бурным вхождением его в практику информационного обеспечения появилось нечто принципиально новое, чего не было раньше. Если быть точным, то ИПС в Internet - это признание того, что ни иерархическая модель Gopher, ни гипертекстовая модель World Wide Web еще не решают проблему поиска информации в больших объемах разнородных документов. И на сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам. При использовании иерархической модели Gopher приходится довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. Учитывая анархичность Internet и огромное количество всевозможных интересов у пользователей Сети, понятно, что кому-то может и не повезти и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, называемого GopherSpace была разработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives).

Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 году в специальном выпуске журнала "Communication of the ACM" среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал в качестве первоочередной задачи для следующего поколения систем этого типа назвал проблему организации поиска информации в больших гипертекстовых сетях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей реализации. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.

Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие два года снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital , главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.

Архитектура современных ИПС для WWW

Прежде чем описать проблемы построения информационно-поисковых систем Web и пути их решения рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, например , приводятся схемы, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы.

Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Search engine (поисковая машина) - служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Рассмотрим теперь назначение и принципу построения каждого из этих компонентов более подробно и определим, в чем отличие данной системы от традиционной ИПС локального типа.

В традиционных системах используется понятие поискового образа документа - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель , в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются - элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Internet .

Вообще говоря, существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска и модель поиска в нечетких множествах . Не вдаваясь в подробности, имеет смысл обратить внимание на то, что пока только линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb. Однако ведутся исследования по применению и других моделей, результаты которых отражены в работах . Таким образом, первая задача, которую должна решить ИПС, - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы, и все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы, и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался.

Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы, и таким образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла наличие документов Gopher и обновляла свою базу данных ПОД для документов Gopher. В World Wide Web ничего подобного нет. Для решения этой задачи используются программы сканирования сети или роботы-индексировщики . Разработка роботов - это довольно нетривиальная задача; существует опасность зацикливания робота или его попадания на виртуальные страницы. Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Главный вопрос заключается в том, что за термины приписывать документам, откуда их брать, ведь ряд ресурсов вообще не является текстом. Сегодня роботы обычно используют для индексирования следующие источники для пополнения своих виртуальных словарей: гипертекстовые ссылки, заголовки, заглавия (H1,H2), аннотации, списки ключевых слов, полные тексты документов, а также сообщения администраторов о своих Web-страницах . Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL, для новостей Usenet и почтовых списков поля Subject и Keywords. Наибольший простор для построения ПОД дают HTML документы. Однако не следует думать, что все термины из перечисленных элементов документов попадают в их поисковые образы. Очень активно применяются списки запрещенных слов (stop-words), которые не могут быть употреблены для индексирования, общих слов (предлоги, союзы и т.п.). Таким образом даже то, что в OpenText, например, называется полнотекстовым индексированием реально является выбором слов из текста документа и сравнением с набором различных словарей, после которого термин попадает в ПОД, а потом и в индекс системы. Для того чтобы не раздувать словарей и индексов (индекс системы Lycos уже сегодня равен 4 Тбайт), применяется такое понятие, как вес термина . Документ обычно индексируется через 40 - 100 наиболее "тяжелых" терминов.

После того как ресурсы заиндексированы и система составила массив ПОД, начинается построение поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы WWW. Для ускорения поиска строится индекс, которым в большинстве систем является набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый язык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы , для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд других возможностей, отсутствующие во многих поисковых системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL).

Page-ID отображает идентификаторы страниц в их URL, Keyword-ID - каждое ключевое слов в уникальный идентификатор этого слова, таблица заголовков - идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок - идентификатор страниц в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар - идентификатор страницы, позиция слова в странице. Прямой список - это массив поисковых образов страниц. Все эти файлы так или иначе используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле - это объединение и/или пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным - хеширование. Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модификации страниц. Суть такого решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса - его перезагрузка. Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является "секретом фирмы" и ее гордостью. Для того чтобы убедиться в этом, достаточно почитать материалы OpenText .

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно".

Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользователь надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На приведенной на рис. 1 схеме имеется сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.

Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.

Кроме ссылок на документы в списке, полученном пользователем, могут оказаться ссылки на части документов или на их поля. Это происходит при наличии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, но обычно такие ссылки роботы пропускают, и система их не индексирует. Если с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более сложные объекты. Дело в том, что WAIS реализует архитектуру распределенной информационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом серверы WAIS имеют свои собственные локальные базы данных. При загрузке документов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с протоколом WAIS, чтобы получить доступ к этим документам.