Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по библиотечно-информационной деятельности
Информационно-поисковые языки (ипя): назначение, структура и принципы построения

Информационно-поисковые языки (ипя): назначение, структура и принципы построения

👀 1493 просмотра
📌 1456 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Информационно-поисковые языки (ипя): назначение, структура и принципы построения», docx

Загружаем конспект в формате docx

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Информационно-поисковые языки (ипя): назначение, структура и принципы построения», Word формат

Лекция «ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ (ИПЯ): НАЗНАЧЕНИЕ, СТРУКТУРА И ПРИНЦИПЫ ПОСТРОЕНИЯ» В период возникновения теории ИПС (60 — 70-егоды ХХ в.) под языковыми или лингвистическими средствами понимались преимущественно только ИПЯ (классификационные, дескрипторные) и неразрывно связанные с ними методы и методики индексирования. В связи со стремительным развитием информационно-коммуникационных технологий и электронной среды состав языковых или лингвистических средств стал расширяться. К языковым средствам кроме ИПЯ стали относить иные искусственные языки: языки описания данных, включая форматы, языки манипулирования данными, языки управления данными, языки разметки текста, и языки интерфейса и т. д. Кроме того, в состав лингвистических средств стали включать машинные словари, авторитетные файлы, лингвистические процессоры и др. Лингвистические средства  это собирательное понятие, не имеющее пока четких границ. В рамках данной лекции под лингвистическими средствами будет пониматься совокупность ИПЯ, методов индексирования, методов формализованного представления данных, языков взаимодействия с системой. ИПЯ — это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. Методы индексирования  способы выражения смыслового содержания документов, фактов, информационных запросов средствами какого-либо ИПЯ. Методы формализованного представления данных  способы снижения субъективности процедур смыслового анализа документов за счет использования аспектного, матричного, формулярного, анкетного и иных способов, метода стандартных фраз и т. п. Языки взаимодействия с системой  собирательное понятие, не имеющее в настоящее время точных границ. Представляет собой совокупность языков разметки текста, языков сценариев, языков манипулирования данными, языков поисковых запросов, языков диалога и аналогичных средств, вызванных к жизни необходимостью работы в электронной среде и «общения» человека с автоматизированными системами. Тема 1. Естественные и искусственные языки. Требования, предъявляемые к ИПЯ Естественные и искусственные языки Языки, которые когда-либо использовались как средство общения в повседневной жизни человеческого общества, называются «естественными языками». Естественные — в том смысле, что они являются объективной реальностью, подобно биологическим видам или физическим компонентам материи. Естественные языки развивались стихийно и постепенно. История каждого такого языка неотделима от истории народа, владеющего им. Можно изучать, описывать, анализировать естественные языки, но нельзя изменить их по своему произволу: естественные языки изменяются так же, как меняются биологические виды — путем эволюции. Естественный язык — это звуковой язык, созданный тем или иным народом в ходе многовековой общественной практики, являющийся средством общения, обмена мыслями и взаимного понимания в человеческом обществе. Язык является важнейшим средством человеческого общения, орудием, при помощи которого люди обмениваются мыслями и добиваются взаимного понимания. Язык — это звуковая материальная оболочка мысли. Мышление развивается и может развиваться только на базе языкового материала. Без языка невозможно само мышление, язык есть орудие человеческого интеллекта. Неразрывная связь языка и мышления была обоснована в трудах основоположника языкознания В. фон Гумбольдта. В ответ на вопрос «Сколько языков сейчас существует на планете Земля?» можно найти разные данные: от 2500 до 7000. Точное количество языков трудно установить потому, что ученые-лингвисты при подсчете используют разные подходы: одни учитывают только основные языки, а другие — диалекты, говоры, наречия. На 40 наиболее распространённых языках разговаривает примерно две трети населения Земли. Больше всего людей говорят на китайском, испанском, хинди, английском, русском, португальском, арабском, французском, немецком языках. Их иногда называют «мировыми языками». Естественные языки исчезают, рождаются, распадаются на отдельные диалекты, и, наоборот, группа родственных наречий может собираться в один язык. Они неразрывно связаны с историей и культурой народов и стран. Естественный язык обладает следующими свойствами: – неограниченная семантическая сила — безграничная способность к передаче информации относительно любой области наблюдаемых или воображаемых фактов; явлений, процессов и т. п. – эволюционность — неограниченная способность к бесконечному развитию и трансформации; – проявление языка в виде речи, понимаемой как конкретное говорение, протекающее во времени и облечённое в звуковую или письменную форму; – этничность  неотъемлемая и двусторонняя связь языка с этносом (народом). Естественный язык многофункционален. Основными функциями языка являются: • коммуникативная — или функция общения между людьми. Язык служит средством общения и передачи информации; • мыслеформирующая или функция воплощения и выражения мысли. Язык служит средством оформления и выражения мысли; является средством человеческого мышления; • экспрессивная или эмоциональная Экспрессивная функция позволяет языку не только сообщать какую-то информацию, но и выражать отношение говорящего к содержанию сообщения, к собеседнику, к ситуации общения. Язык выражает не только мысли, но и эмоции человека; • эстетическая или творческая. Язык обеспечивает литературное творчество, создание прекрасного за счет речевых средств. Кроме этих функций выделяют также когнитивную (язык отражает деятельность сознания), познавательную (язык служит средством познания и обучения); металингвистическую (язык является средством описания и исследования языка в терминах самого языка) и др. Наряду с естественными языками, возникшими стихийно, подобно естественным природным объектам, существуют также искусственные языки, то есть специально созданные, сознательно сконструированные людьми. Искусственные языки — это языки, изобретенные людьми для специфических видов коммуникации или для решения определенных задач в области науки, техники, культуры. Например, музыкальная партитура — это искусственный язык, с помощью которого композитор или аранжировщик доводит свое сочинение до музыкантов; исчисление предикатов — один из многих искусственных языков, изобретенных для использования в специальных разделах математики. В последние годы наряду с термином «искусственные языки» стал использоваться синонимичный англоязычный эквивалент — конланги. Конла́нги (англ. Conlang, сокр. От constructed language), пла́новые языки, искусственные языки — языки, специально созданные человеком или группой лиц для определённой цели (вспомогательной, научной или художественной). Искусственные языки возникли в связи с развитием науки и техники, культуры и искусства, они применяются в профессиональной деятельности специалистов. В настоящее время насчитывается свыше тысячи таких искусственных языков, постоянно создаются всё новые и новые. Среди искусственных языков различают универсальные и специализированные Универсальные языки — это суррогаты (заменители) естественных языков, созданные для международного общения. К таким языкам относятся эсперанто, волапюк, идо, интерлингва, новиаль, бейсик-инглиш, латино-сине-флексионе, окциденталь, сольресоль, словио и множество других. Непрекращающиеся попытки создания единого языка для международного общения заставляют вспомнить о легендарной Вавилонской башне. Согласно Библии, после Всемирного потопа человечество было представлено одним народом, говорившим на одном языке. По преданию (Быт 11:19), в земле Сеннаар (Вавилония) потомки Ноя решили воздвигнуть башню, чтобы достигнуть небес. Бог, разгневанный дерзким замыслом людей, смешал их языки, чтобы они не могли понимать друг друга, а самих рассеял по миру. Так появилась одна из первых попыток объяснить происхождение различных языков, побуждающая людей из разных стран мира обращаться к идее единого языка. Не случайно Л. Заменгоф, создатель языка эсперанто, получившего наибольшую известность в мире, избрал псевдоним «Esperanto», то есть «Надеющийся». Его главной целью было создать новый, всеобщий язык и с его помощью объединить разобщенных непониманием и враждой людей. Наряду с универсальными искусственными языками, предназначенными для общения между людьми на планете Земля, созданы языки для общения людей с внеземными цивилизациями. Например, в результате развития космических исследований и полетов в космос появился язык линкос (лат. Linqua — язык, гр. Kosmos — вселенная), специально разработанный для общения с внеземным разумом. Его создатель — голландский математик Г. Фрейденталь. Все универсальные искусственные языки, как правило, создаются из элементов естественных языков, имеют ограниченный словарный состав и упрощенную грамматику, предлагаются в качестве вспомогательного средства межнационального общения, призваны содействовать преодолению речевой разобщенности в современном многонациональном мире. Специализированные искусственные языки — это особые знаковые системы для записи необходимой информации из определенных областей науки, техники, культуры. Различают следующие виды специализированных искусственных языков: 1. Формализованные языки науки — языки, предназначенные для символической записи научных фактов и теорий (язык математических формул, язык химических формул, язык логики предикатов, логлан (от англ. Logical language — логический язык) — язык для логико- лингвистических исследований и т. п.) Эти языки не только обеспечивают однозначно понимаемую запись научной информации, но и служат средством выведения нового знания. 2. Формализованные языки культуры и искусства — языки, предназначенные для символической записи явлений культуры и искусства. Примерами таких языков могут служить нотная грамота, система условных знаков для записи танца, например, нотнолинейная запись, система Рудольфа фон Лабана или «Лабанотейшен», система Рудольфа и Джоан Бенеш и др. В последние годы распространение получили так называемые «языки несуществующих народов» или вымышленные языки. Вымышленные языки — искусственные языки вымышленных народов и рас, на которых говорят герои художественных произведений (книг, игр, фильмов). Вымышленные языки создаются для демонстрации большей достоверности и погружения читателя в вымышленный мир. Среди наиболее известных, вымышленных языков можно назвать: • квенья (Quenya), древний язык эльфов, и сииндарин (Sindarin) — язык серых эльфов, придуманый английским писателем и лингвистом Дж. Р. Р. Толкином в своей литературной вселенной Средиземья; • клингон или клингонский — язык инопланетных рас — из фантастического сериала «Star Trek» («Звёздный путь»), разработанный американским лингвистом М. Окрандом на основе исчезнувших языков американских индейцев; • D'ni. Язык D'ni — язык внеземной расы, прибывшей на землю, созданный для серии компьютерных игр «Myst» сотрудником компьютерной фирмы «Cyan Worlds» Р.А. Ватсоном. Появление вымышленных авторских языков — это проявление мощного движения лингвоконструирования, развивающегося на просторах Интернета, продукт одного из видов языковой деятельности, через которую человек реализует свои творческие способности, расширяет понимание себя и мира. Энтузиасты лингвоконструирования (conlangers, конлангеры) устанавливают новые отношения между человеком и языком — отношения создателя и создания, пусть даже ограниченные уровнем модели. 3. Языки программирования — языки для автоматической обработки информации с помощью компьютеров. Они представляют собой формальные языки, предназначенные для описания данных (информации) и алгоритмов (программ) их обработки и заставляющие компьютер выполнять те или иные действия. Языки программирования многочисленны и многообразны по своему функциональному назначению. Среди языков программирования выделяют различные классы, например, процедурные и декларативные, аспектно- и объектно-ориентированные языки и многие другие. К числу наиболее популярных отдельных языков программирования относятся Java, C, C#, C++, Objective-C, Visual Basic, PHP, Python, Perl, JavaScript и целый ряд других. 4. Информационно-поисковые языки (ИПЯ) — языки, используемые в различных системах поиска и обработки информации. ИПЯ, как будет показано в дальнейшем, имеют значительную дифференциацию по своему назначению и подразделяются на различные типы: предкоординатные (ДКД, УДК, ББК, рубрикаторы и т. п.) и посткоординатные (язык «Унитерм»). Требования, предъявляемые к ИПЯ Информационно-поисковый язык (ИПЯ) — это искусственный язык, предназначенный для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Таким образом, основное назначение любого ИПЯ — обеспечить поиск документальной или фактографической информации. Понятийно-терминологический аппарат, которым оперирует теория ИПЯ, регламентируется ГОСТ 7.7496 «Информационно-поисковые языки: Термины и определения». ИПЯ является важнейшим элементом информационно-поисковых систем (ИПС) и зачастую используется в качестве главной характеристики системы, так как именно от качества ИПЯ зависит достижение наилучших показателей поиска, таких, как полнота и точность. Однако и документы, и факты, и запросы, поступающие в информационно-поисковую систему, представлены с помощью естественного языка. Возникает вопрос: какова необходимость использования в ИПС искусственного языка — ИПЯ? Почему нельзя воспользоваться для поиска информации естественным языком? Оказывается, что с точки зрения информационного поиска естественный язык обладает рядом недостатков, препятствующих отбору релевантных запросу сообщений (документов или фактов). Рассмотрим основные недостатки естественного языка, затрудняющие проведение информационного поиска. К их числу относятся следующие: 1. Избыточность естественного языка, то есть наличие в языке слов, имеющих небольшую смысловую нагрузку (союзы, предлоги, междометия), а также слов, которыми можно пренебречь при передаче содержания текста документа или запроса. Избыточность естественного языка позволяет сокращать объем какого-либо текста без значительного ущерба для его содержания. Например, в сообщении «Проблема повышения качества информационного обслуживания является весьма актуальной, и решить ее можно только при широком использовании современной компьютерной техники» наиболее информативными и значимыми будут слова информационное обслуживание, качество, компьютерная техника. Избыточность языка мы устраняем, когда пишем телеграмму или СМС, используя так называемый «телеграфный», то есть очень лаконичный, «рубленный» стиль. 2. Наличие в естественном языке синонимов. Синонимы (от греч. Synonymos — одноименный) — это слова, различные по написанию и звучанию, но тождественные или близкие по смыслу. С их помощью человек «расцвечивает» и делает более выразительной свою речь, достигает точности выражения мыслей, ее тончайших нюансов. Синонимы отражают богатство естественного языка. Особое значение использование синонимов для достижения художественного эффекта имеет в литературном творчестве, поэзии. Однако при проведении информационного поиска наличие синонимов существенно ухудшает его качество, снижает полноту выдачи информации по запросу. Так, вряд ли может быть достигнута приемлемая полнота выдачи, если человек, осуществляющий разыскание, не знает, что лазер и оптический квантовый генератор, шафран и крокус, триаллат, авадекс BW и диптал — это слова-синонимы. Точно так же при не устраненной синонимии будет страдать качество выданной информации и в автоматизированной информационно-поисковой системе. При обеспечении качественного информационного поиска особое значение имеет устранение лексической, логической и синтаксической синонимии. Лексические синонимы — это, как правило, слова и словосочетания, выступающие в роли взаимозаменяемых элементов высказывания: благородные металлы — драгоценные металлы, крыша — кровля, пища — еда. К. лексическим синонимам относятся также полное наименование предмета и его аббревиатура (сокращенное наименование): Соединенные Штаты Америки — США, Информационно-поисковый язык — ИПЯ. Логические синонимы возникают при логическом определении понятий: Катманду — столица Непала; андрогогика — наука о закономерностях обучения взрослых». Синтаксические синонимы представляют собой синонимичные синтаксические конструкции, отражающие возможность естественного языка выразить одну и ту же мысль различными речевыми оборотами, т. е. перефразировать: добыча угля — угледобыча, план на год — годовой план, системный гербицид — гербицид системного действия. С точки зрения создания ИПЯ, обеспечивающего качество информационного поиска, важное значение имеет объединение слов-синонимов или синонимических конструкций в синонимические ряды (классы условной эквивалентности), что позволяет значительно повысить полноту выдачи. 3. Наличие в естественном языке многозначных слов: мина (снаряд) и мина (выражение лица), операция (хирургия) и — операция (военное дело). Многозначность языка проявляется в омонимии и полисемии. Омонимы (от греч. Homos — одинаковый и onyma — имя) — это слова, которые звучат и пишутся одинаково, но по смыслу не имеют ничего общего, например: вал (деталь машины) и вал (оборонительное сооружение; линь (вид рыбы) и линь (вид каната), рысь (млекопитающее рода кошек) и рысь (вид поступательного движения лошади). Полисемия (от греч. Poly много + sema знак) — это лингвистическая многозначность, наличие у одного слова нескольких значений. Полисемичные слова отличаются от омонимов тем, что сохраняют некоторую общность значений у разных по смыслу слов, омонимы же такой общности значений не имеют. Например, полисемичное слово «гардероб» от фр. Garder — беречь, и robe — платье) имеет три разных, но имеющих некоторую общность значкений:1) совокупность одежды какого- либо человека; 2) шкаф для одежды; 3) помещение в общественном здании для хранения верхней одежды посетителей. Многозначность возникает разными путями. Новое значение может образовываться путем переноса названия по сходству (зерно злаков — зерно истины), по функции (перо гусиное — перо стальное), по смежности, то есть соотношению вещей в пространстве или во времени (большая аудитория — внимательно аудитория, деревянный стол — диетический стол, перевод книги — yстный перевод, фарфоровое блюдо — вкусное блюдо и т. д.). Лингвисты утверждают, что около 80% слов естественного языка являются многозначными. В этом нетрудно убедиться, если открыть толковый словарь какого-либо естественного языка — русского, немецкого, французского и др. Однозначными являются чаще всего термины, то есть слова, относящиеся к определенной, строго очерченной области знания: «азот», «гипотенуза», «дифтонг» и т. д. Следует подчеркнуть, что в естественном языке полисемия и омонимия — это проявление его богатства и выразительной мощи, они существенно не препятствуют речевому общению, т.к. контекст — окружение- всегда показывает, в каком значении употребляется то или иное слово. Однако при проведении информационного поиска полисемия и омонимия играют отрицательную роль, являются существенным тормозом. Неустраненные омонимия и полисемия не только затрудняют поиск информации, но и приводят к снижению качества выдаваемой информации, к так называемому «информационному шуму». Например, лишенные контекста слова гусеница, сыворотка, соединение, операция, заговор и т. п. трудно отнести к какой-либо тематической области поиска и, значит, гарантировать точность выдаваемой информации. Таким образом, можно сделать вывод, что с точки зрения информационного поиска естественный язык обладает рядом недостатков. Именно «недостатки» естественного языка послужили причиной создания особого класса искусственных языков — ИПЯ, призванных обеспечивать информационный поиск и качественный отбор релевантных документов (фактов) в ответ на запрос пользователей. Любой ИПЯ должен отвечать следующим специфическим требованиям, предъявляемым к ним информационно-поисковыми системами: 1. Однозначность: каждая запись на ИПЯ должна иметь только один смысл; и, наоборот, любой смысл должен получать единообразное представление на ИПЯ. Следовательно, ИПЯ должен устранять такие явления естественного языка, как полисемия, омонимия, синонимия. 2. Эксплицитное (явное) выражение полезных для поиска смысловых отношений между словами (логических отношений и психологических ассоциаций). Реализация этого требования делает ИПЯ своего рода справочником, схемой-путеводителем, позволяющим библиотекарю и информационному работнику легко ориентироваться в конкретной отрасли (отраслях) знаний, устанавливать виды связей и взаимодействия между отдельными понятиями. 3. Возможность корректировки и пополнения ИПЯ, его «гостеприимство». Иначе говоря, ИПЯ должен быть гибким, обладать способностью включать новые понятия без коренной ломки принятой структуры. 4. Удобство пользования, предполагающее мнемоничность — удобство для запоминания записей на ИПЯ, а также компактность. 5. Семантическая сила ИПЯ (выразительность, селективная мощность), т. е. способность языка идентифицировать предмет, различать его мелкие особенности, а также описывать его с разной степенью детализации. Семантическая сила ИПЯ тем больше, чем богаче его словарный состав и шире его словообразовательные возможности, чем более четко дифференцированы смысловые отношения между его словами, чем более развита система синтаксических отношений между словами этого языка. Резюме Естественный звуковой язык людей является самой полной и совершенной из всех знаковых систем. Естественный язык отличается гибкостью, открытостью и динамичностью, позволяет говорящему порождать новые и при этом понятные для собеседника знаки, а также использовать существующие знаки в новых значениях, что невозможно в искусственных языках. Другие знаковые системы, созданные человеком, воплощают лишь некоторые из свойств естественного языка. Они могут значительно усиливать естественный язык и превосходить его в каком-либо одном или нескольких отношениях, но одновременно уступать ему в других Появление наряду с естественными искусственных языков обусловлено развитием науки и техники, культуры и искусства, и необходимостью решения особых, специфических задач. Они служат не только средством общения, передачи информации, но и выведения нового знания. От обычного, естественного языка, возникшего стихийно и представляющего собой систему звуков и букв, такие искусственные языки отличаются тем, что они представляют собой систему знаков, все операции с которыми совершаются по формальным правилам. Искусственные языки генетически и функционально вторичны в отношении естественного языка: они всегда возникают на базе естественного языка и могут функционировать только в связи с ним. Искусственные языки делятся на универсальные и специализированные. Важнейшей разновидностью специализированных искусственных языков, получивших широкое распространение в сфере производства, обработки, хранения и поиска информации (книгоиздательской и книготорговой, библиотечной, информационной и архивной деятельности), являются ИПЯ. Причина создания ИПЯ — недостатки, которыми, с точки зрения информационного поиска, обладает естественный язык. Это избыточность, синонимия и многозначность (полисемия и омонимия) естественного языка. При поиске информации по запросу пользователей синонимия резко снижает полноту выдачи, а многозначность препятствует точности выдаваемой информации, влечет за собой значительный «информационный шум». Именно поэтому одним из важнейших требований, предъявляемы к ИПЯ, является однозначность лексических единиц, используемых при поиске информации. Вопросы 1) Назовите основные компоненты лингвистических средств. 2) Каковы функциональные различия между естественными и искусственными языками? 3) Какими «недостатками» обладает естественный язык с точки зрения поиска информации? 4) Как синонимия влияет на качество поиска информации? 5) Как полисемия влияет на качество поиска информации? 6) Каковы причины создания ИПЯ? Тема 2. ИПЯ как разновидность искусственных языков: структура и технология создания Алфавит и лексика ИПЯ Основными структурными составляющими любого ИПЯ являются алфавит, лексика, грамматика, парадигматические и синтагматические отношения. Как и любой другой искусственный язык, ИПЯ зависит от естественного языка, обладает чертами различия и сходства с ним. Так, если в естественном языке алфавит представляет собой набор букв, то в ИПЯ под алфавитом понимаются не только буквы, но и множество других знаков и символов. Алфавит ИПЯ — это совокупность букв, цифр и специальных символов. Он может включать в свой состав буквы латинского или кириллического алфавита, арабские и римские цифры, знаки пунктуации (точка, запятая, двоеточие, кавычки, дефис, круглые и квадратные скобки, апостроф), знаки арифметических операций (плюс, минус, косая черта, знак процента), знаки отношений (больше, меньше, равно), операторы булевой алгебры (знаки конъюнкции, дизъюнкции, отрицания), специальные знаки и символы, например, стрелки, двойное двоеточие, квадрат, знак конгруэнтности и т. д. Алфавит ИПЯ может быть представлен преимущественно цифрами, например, в УДК, ГРНТИ, или только буквами, базируясь на алфавите какого-либо естественного языка, например, язык предметных рубрик, дескрипторный язык, язык библиографического описания и некоторые другие ИПЯ. Кроме того, алфавит ИПЯ может быть смешанным, буквенно-цифровым. На буквенно-цифровом алфавите основаны ББК, фасетная классификация, язык RX-кодов, СИНТОЛ, семантический код Перри — Кента и др. Из алфавита строятся лексические единицы ИПЯ, совокупность которых образует его лексику или словарный состав. Лексическая единица — это последовательность букв, цифр, специальных символов, принятая для обозначения какого-либо понятия. Каждая лексическая единица имеет план выражения и план содержания. План содержания — это понятие, которое представлено в ИПЯ. План выражения — это последовательность знаков и символов, обозначающая какое-либо понятия в ИПЯ. Таким образом, лексическая единица ИПЯ представляет собой единство плана содержания и плана выражения. В ней органически слиты две стороны — форма и значение. В таких ИПЯ, как язык «Унитерм», язык ключевых слов, язык предметных рубрик, дескрипторный ИПЯ, план выражения и план содержания лексической единицы будут совпадать, так как эти ИПЯ базируются на алфавите и лексике естественных языков. В ИПЯ классификационного типа, например УДК, ББК, Международной патентной классификации и т. п., план выражения и план содержания не будут совпадать, так как это кодированные, а не словарные, ИПЯ. Пример реализации плана содержания и плана выражения в разных ИПЯ Способы представления плана содержания и плана выражения лексических единиц в различных ИПЯ ИПЯ План выражения лексической единицы План содержания лексической единицы ГРНТИ 04.15.00 Методология социологии. Методика и техника социологических исследований ББК 60.506 Методы социологического исследования Дескрипторный ИПЯ Методы Социологическое исследование Методы социологического исследования Язык предметных рубрик Социологическое исследование — Методы Методы социологического исследования Язык «Унитерм» Методы Социологический Исследование Методы социологического исследования Лексические единицы в каждом ИПЯ имеют разные названия: в языке «Унитерм» — унитермы, в дескрипторном языке — дескрипторы, в языке предметных рубрик (алфавитно-предметной классификации) — предметные рубрики, в фасетной классификации — изолаты, в УДК, ББК, рубрикаторах — индексы и соответствующие им словесные формулировки. Анализ лексики любого ИПЯ можно осуществлять, используя три параметра: способ задания лексики, уровень интеграции лексики и способ построения лексических единиц. В зависимости от способа задания различают ИПЯ с контролируемой и неконтролируемой лексикой. В ИПЯ с контролируемой лексикой все лексические единицы учитываются в специальном словаре. В качестве таких словарей выступают, например, таблицы классификации УДК и ББК, рубрикаторы, дескрипторные словари и тезаурусы, словари предметных рубрик и тому подобные пособия. В ИПЯ с неконтролируемой лексикой таких пособий нет. В них используется естественный язык, применение которого ограничено (формализовано) введением специальных правил. Примером использования ИПЯ с неконтролируемой лексикой служат информационно-поисковые системы, основанные на так называемом «бестезаурусном» вводе информации или языке ключевых слов. В отличие от естественного языка в качестве лексической единицы ИПЯ может выступать не только отдельное слово, но и устойчивое словосочетание, а также целая фраза, предложение. В соответствии с этим различают уровни интеграции ИПЯ. К первому уровню интеграции относятся ИПЯ, лексическими единицами которых являются преимущественно единичные слова (электрон, генераторы) и устойчивые словосочетания (ядерная физика, железные дороги). К ИПЯ, характеризующимся лексикой первого уровня интеграции, относятся языки типа «Унитерм», дескрипторные ИПЯ, фасетные классификации. Вторым уровнем интеграции лексики характеризуются те ИПЯ, лексическими единицами в которых выступают не только отдельные слова и словосочетания, но и фразы, имеющие сложную синтаксическую структуру. На этом уровне находится лексика ИПЯ иерархических классификаций, таких, как УДК, ББК, ГРНТИ, Международной патентной классификации (МПК), и некоторых других. Например: 641.4 Консервирование продуктов в домашних условиях (УДК); А 44 С 27/00 Изготовление ювелирных изделий (МПК). Появление лексических единиц второго уровня интеграции в иерархических классификациях обусловлено тем, что выражение «узких» понятий, стоящих на нижних ступенях иерархии, требует сложных синтаксических конструкций естественного языка. К аналогичным случаям приводит практика использования «узкой рубрики» при предметизации. Построение лексических единиц ИПЯ может осуществляться двумя способами: 1) использование в качестве лексических единиц специальных кодов, например в УДК, ББК, ГРНТИ и др.; 2) использование в качестве лексических единиц слов и словосочетаний естественного языка, например: язык типа «Унитерм», дескрипторные ИПЯ, язык библиографического описания, язык предметных рубрик. В соответствии с этим различают словарные и кодированные ИПЯ. Словарные ИПЯ — это языки, в которых план содержания совпадает с планом выражения естественного языка. Поэтому для лексических единиц этого типа ИПЯ не требуется перевод на естественный язык. Таковы язык предметных рубрик и дескрипторный язык. Кодированные ИПЯ — это языки, в которых план выражения не совпадает с планом содержания. В этих случаях создаются специальные двуязычные словари, позволяющие коды ИПЯ переводить на естественный язык и обратно. Примером таких языков служат ББК, УДК и другие классификации, рубрикаторы. Термины — основа лексики ИПЯ Независимо от способа контроля лексики, уровня ее интеграции и способа построения лексических единиц в основе лексики любого ИПЯ лежат термины, так как они являются основными носителями информации в текстах документов и запросов. Термин (от лат. terminus — предел, граница) — это слово или словосочетание специальной сферы употребления (науки, техники, искусства, спорта и т. д.), точно и однозначно обозначающее какое-либо понятие. Отличительное свойство термина — наличие дефиниции, т. е. определения. Совокупность терминов, отражающих систему специфических понятий какой-либо сферы профессиональной деятельности (науки, техники, искусства, спорта, ремесла и др.) образует терминологию. К терминам предъявляются следующие требования: • однозначность соответствия между термином и понятием. Термин должен называть только одно понятие, и наоборот, одно понятие должно выражаться только одним термином. Любой термин в противоположность обычному слову или словосочетанию должен иметь ограниченное, четко фиксированное содержание в пределах определенной терминосистемы. В результате нарушения этого требования может иметь место многозначность (омонимия) и синонимия терминов. • точность, соответствие значения термина выражаемому понятию. Буквальное значение термина, то есть значение входящих в его состав терминоэлементов, должно соответствовать выражаемому им понятию. Например, гляциоло́гия (от лат. glacies — лёд, греч. λόγος — слово, учение) — наука о всех формах льда на земной поверхности. Под точностью термина обычно понимается четкость, ограниченность значения. С точки зрения отражения содержания понятия точность термина означает, что в его дефиниции есть необходимые и достаточные существенные признаки обозначаемого понятия. Термин должен прямо или косвенно отражать признаки, способные отличать одно понятие от другого. • системность. Термин должен быть системным, т. е. по возможности отражать отношения называемого понятия со связанными понятиями. Систематичность требует однотипности терминоэлементов у однотипных терминов. Например, системными по форме являются термины-слова, представляющие собой названия воспалительных болезней внутренних органов. Все они образуются из названия этих органов с добавлением суффикса «ит»: аппендици́т (лат. appendix, appendicis - придаток), гастри́т (греч. gaster — желудок ), дуодени́т (лат. duodenum) двенадцатиперстная кишка. Термины-словосочетания также должны соответствовать требованию системности. Например, в терминах электромагнитный сейсмоприемник и пьезоэлектрический сейсмоприемник указывается на вхождение в более общее (родовое) понятие сейсмоприемник и отражается отличительный признак — источник возникновения колебаний; • краткость. Термин должен иметь оптимальную для данной терминосистемы длину. Излишне длинные и громоздкие термины рекомендуется сокращать путем исключения слов и других терминоэлементов, обозначающих несущественные признаки понятия и не влияющих на возможность его выделения из числа других терминов. Для сокращения длины термина при сохранении понятийной системности в терминоведении используются такие способы, как исключение из термина малоинформативных терминоэлементов (работы по озеленению территорий — озеленение территорий, складские сооружения — склады, проходка с помощью щитов — щитовая проходка), замена многоэлементного термина более кратким синонимом (оптический квантовый генератор — лазер, островной водоприемник — крит, ванная электропечь — электрованна); создание сложносокращенных слов (зоологический сад — зоосад, гидротехнические сооружения — гидросооружения, биологический фильтр — биофильтр), создание аббревиатур разных типов, например, буквенных (ремонтно-строительное управление — РСУ), слоговых (военный комиссариат — военком), частичных (магнитогидродинамический насос — МГД-насос) и др. Краткий термин более удобен как для образования производных терминов, так и для использования его на практике. • деривационная способность. Слово «деривация» в языкознании (от лат. derivatio — отведение, отклонение, выведение) буквально означает «словообразование, словопроизводство». Следовательно, требование деривационной способности значит, что термин должен служить основой для образования других, новых терминов. Термины для новых понятий обычно создают на базе существующих терминов. Например, термин газ использован для образования терминов газопровод, газификация, противогаз и др.; • стилистическая нейтральность и отсутствие экспрессии. Термин не должен вызывать нежелательных эмоций и ассоциаций, как фонетических, так и семантических. Например, в приведенных ниже парах терминов-синонимов первый термин является стилистически нейтральным, а второй этим свойством не обладает: педикулез — вшивость, разведчик — шпион, эпилепсия — падучая, пайка — спаивание, работы по устройству пола — половые работы, дегазация — обезгаживание, эризипелоид — свиная рожа. Специфика некоторых областей знания предъявляет дополнительные требования к терминам, например, желание не травмировать больных приводит к намеренной недоступности медицинской терминологии и замене таких терминов, как рак другими, например новообразование. Особое значение соблюдение стилистической нейтральности имеет в производственно-технической терминологии при наименовании профессий. Так, явно негативные ассоциации вызывают названия таких профессий, как болванщик, шипальщик, чесальщик, трепач, загибальщик. Не случайно в тарифно-квалификационных справочниках (ТКС) ряд терминов был заменен. Так, в ТКС по пеработке нефти температурщик был заменен нейтральным пирометристом, а в ТКС крахмально-паточного призводства воронщик стал размывщиком крахмала. Совокупность требований, предъявляемых к терминам, достаточно полно отражает сущность термина как научного и лингвистического явления. Вместе с тем, следует подчеркнуть, что на практике они трудно достижимы в силу их противоречивости. Анализ показывает, что терминологии присущи те же семантические явления, что и общелитературной лексике: многозначность (полисемия и омонимия), синонимия, антонимия. Дадим краткую характеристику этим явлениям. Как уже отмечалось, термин не должен быть многозначным в пределах определенной терминосистемы. Однако вполне допустимо закрепление за ним различных значений в отдаленных отраслях, то есть в непересекающихся терминологиях. Например, многозначный термин деривация (от лат. derivatio — отведение, отклонение, выведение) в военном деле — означает отклонение снарядов и пуль при полете; в математике — метод движения одной функции от другой на основе постоянных коэффициентов; в гидротехнике — отвод воды от русла реки по каналу; в лингвистике — фигура речи: 1) употребление в одном высказывании двух и более однокоренных слов. 2) замена одного слова другим, близким по значению, но более мягким. Существует несколько причин появления полисемии терминов: а) ограниченность словарного состава по сравнению с количеством понятий; б) сосуществование понятий, относящихся к одному явлению, но отражающему различные взгляды, гипотезы; в) неправильное заимствование терминов из иностранных языков и др. Синонимы в терминологии соотносятся с одним и тем же понятием и объектом, поэтому их иногда называют терминологическими дублетами. Причинами и источниками возникновения синонимов в терминологии являются: а) параллельное употребление отечественных и международных или заимствованных наименований: восстановление= реставрация, языкознание=лингвистика, повелительное наклонение=императив; б) параллельное употребление полного и краткого наименования объекта: перфорированная лента = перфолента, атомная электростанция = АЭС; в) параллельное употребление так называемых фамильных терминов и их вариантов, созданных на основе классификационного признака понятия: Закон Брэдфорда = закон рассеяния и концентрации информации; Булева алгебра=алгебра логики; синдром Лериша=хроническая закупорка аорты= аортоподвздошная окклюзия; г) двойное обозначение понятия в физике, химии и некоторых других науках, словесное и символическое: I=U/R — Закон Ома для участка цепи; $HCl = хлороводородная кислота, t=температура; д) использование разных наименований объекта в зависимости от рассматриваемой точки зрения, сферы его функционирования. Например, в зависимости от сферы употребления один и тот же объект может иметь торговое, техническое и химическое название: лавсан= терепласт = полиэтилентерефталат; аспирин — ацетилсалициловая кислота. Характерно, что синонимия особенно присуща ранним этапам формирования терминологической системы, когда еще не произошел отбор лучшего термина из нескольких предложенных. Антонимия в терминологии проявляется в наличии противоположных научных понятий. Для их выражения широко используются словообразовательные средства: чередование приставок (релевантный — нерелевантный, частица — античастица), использование приставок полярного значения (макродокумент — микродокумент, предкоординатный — посткоординатный). В зависимости от сферы употребления термины могут подразделяться на научные, технические, военные, юридические и др. При этом в пределах каждой предметной области могут быть выделены специальные (базисные) термины, характерные только для данной сферы; общенаучные термины, отражающие методы, процедуры, средства познания любой предметной области; «привлеченные» термины смежных областей знания, обозначающие необходимые для данной предметной области понятия из смежных отраслей науки и техники. Все эти совокупности терминов находятся во взаимосвязи и не имеют четких границ. Термины представляют собой наиболее существенный «строительный материал», при помощи которого создается ИПЯ. Кроме того, в каждом развитом естественном языке насчитываются тысячи терминов и десятки терминосистем, потому что каждая отрасль науки оперирует своими терминами, образующими терминологическую систему данной отрасли знания. Специалист в области библиотечно-информационной деятельности призван работать с текстами по самым различным отраслям знания. Для того, чтобы уверенно ориентироваться в терминологии любой науки, он должен иметь представление об основных структурных типах терминов и их лексической и грамматической формах. В качестве терминов используют следующие лексические и синтаксические формы: слова, словосочетания, символы-слова, предложения Термины-слова подразделяются на непроизводные пар, контроль, газ; производные: парник, контролер, деказация; сложные: пароснабжение, контролер-кассир, газопровод; сокращения или аббревиатуры: КПД, УДК, СМИ. Термины-словосочетания включают: 1) свободные словосочетания, в которых каждый из компонентов — термин и может вступать в двустороннюю связь: автомобильное масло, автомобильное производство, масло сливочное 2) несвободные словосочетания, в которых компоненты, взятые изолированно, могут быть и не терминами, и лишь в сочетании друг с другом они образуют термин: библиотечный почерк, авторский лист, белый стих, читальный зал, черный ящик; 3) термины — фразеологизмы, т. е. устойчивые, неделимые словосочетания: роза ветров, роза волнений, кошачьи лапки (морские термины); кошачье золото, кошачье серебро (геологические термины); кармашек книги, ключ к систематическому каталогу, источник информации, информационный шум (библиотечно-информационные термины).Термин-словосочетание может быть беспредложным (ледниковая эрозия) или предложным (запас воды в леднике). Термины в виде символа-слова включает в себя слово и символы: буквы, цифры, графические знаки. Например, в терминологии физики элементарных частиц — α-частица, β-распад, £-радиоактивность, уран-235, СО2-лазер; в терминологии сварки — V-образные соединения, Х-образные соединения; в терминологии сейсмологии — S-волны, SH-волны, SV-волны, P-волна. Термины-предложения чаще всего представляют собой военные, морские, спортивные, производственные команды, например: Шагом марш! Огонь! Лево на борт! Отдать концы! Кругом! Становись! Вира! Майна! и т. п. Экспериментальные исследования терминологии показывают, что наиболее типичными моделями образования терминов являются следующие: 1) существительное (ледник); прилагательное + существительное (горный ледник); 2) существительное + существительное (гидравлика ледника) 3) прилагательное + прилагательное +существительное (снежно-ледовые ресурсы). Возможны различные комбинации этих моделей образования терминов, например: ледник конической вершины, разность высот оледенения, запас воды в леднике. Активное использование в качестве терминов таких частей речи, как существительное и прилагательное, объясняется тем, что именно они способны назвать, выразить понятие, в отличие от лексических единиц, которые лишь указывают на предмет, но не дают ему индивидуального имени: над, он, тот, эта и т. п. Понимание отличительных особенностей терминологической лексики невозможно без знания того, каким образом образуются термины. Источники формирования терминологической лексики, как правило, представляют собой разные виды заимствований: 1. Заимствование элементов классических языков (корней или морфем греческого или латинского языков). Принятые в качестве международных, эти термины наиболее целесообразны. Их легче оградить от полисемии, так как большинство таких терминов однозначно выражают определенные значения: микро-, макро-, -граф-, поли-, -логия, - графия, анти-, супер-, -трон, -дром и т. п. Они не вызывают ложных ассоциаций, так как расшифровывают именуемые понятия посредством значений составляющих их терминоэлементов, например: лимнология (от греч. limne озеро + logos учение) — озероведение; нанотехнология — (от греч. nannos — карлик, наименьшая единица измерения + techne искусство, мастерство + logos знание, наука) — новая отрасль микроэлектроники, занимающаяся созданием микроскопических объектов; микробиология — (от греч., от mikros малый + bios — жизнь +и logos — слово) — наука о микроорганизмах; экслибрис (от лат. ex libris из книг) — книжный знак, ярлык, указывающий на принадлежность книги какому либо владельцу. 2. Заимствования из других языков. Они являются неизбежными не только для терминологии, но и для языков вообще, так как ни один естественный язык не может развиваться изолированно. Например, для музыкальной терминологии характерны заимствования из итальянского (бельканто, ария, виолончель) и испанского (кастаньеты, мандолина, серенада) языков; военной — из французского (батальон, атака, десант); в терминологии техники и спорта немало английских слов (экскаватор, рельс, туннель, блюминг, финиш, рекорд, ринг, нокаут) и т. п. Значительное количество терминов информатики также заимствовано из английского языка (компьютер, файл, дескриптор, релевантность). 3. Заимствование из общелитературного языка. Попадая в терминологию, слова общелитературного языка переосмысливаются и приобретают иной, особый смысл. Например: усталость — состояние металла, находящегося под многократным воздействием нагрузок; информационный шум — сообщения и данные, не представляющие ценности для субъекта информирования, не соответствующие его информационному запросу; сухарь — в технике это простая вспомогательная промежуточная деталь в механизмах и узлах машин; язык ледника — это узкая часть ледника, расположенная ниже границы питания; индекс вспучивания угля — это показатель спекаемости угля и т. д. Без понимания закономерностей образования терминологии, источников ее формирования, структурных особенностей терминов невозможно разработка лексико-семантической основы любого ИПЯ, будь то словарь предметных рубрик, классификатор, информационно-поисковый тезаурус и т. д. Знание механизмов появления и функционирования терминов в научных текстах позволяет качественно улучшить подготовку поисковых образов документов и поисковых предписаний, совершенствуя тем самым процедуру индексирования. Кроме того, представление о структурных типах и специфике терминов, как лексических единиц, облегчает и другие виды аналитико-синтетической переработки информации кроме индексирования, например, аннотирование и реферирование, составление обзоров. Ценные сведения об основных принципах и методах, порядке и содержании работ с научно-технической терминологией приводятся в нормативно-методических документах. Парадигматические отношения в ИПЯ Между лексическими единицами ИПЯ, как и между словами естественного языка, существуют определенные отношения, которые обусловлены наличием логических связей между предметами и явлениями, обозначенными этими словами. Такие отношения отражают смысловую связь между понятиями, показывают объективные предметно-логические зависимости между явлениями внешнего мира. Они носят внетекстовой характер и поэтому не зависят от ситуаций, для описания которых используются слова. Например, слова акварель, фреска, темпера связаны друг с другом отношением соподчинения или координации, так как они обозначают понятия, входящие в более широкий класс — живопись. Между словами лиственные деревья и береза, дуб, клен, каштан существует отношение «род — вид», слова платье и рукав, здание и крыша связывает отношение «целое — часть», а между словами загрязнение окружающей среды и нарушение экологического равновесия существуют отношения причинно-следственного характера. Слово зима вызывает у нас устойчивую ассоциацию со снегом, морозом, вьюгой. Все эти примеры иллюстрируют парадигматические отношения. Парадигматические (аналитические, базисные, имманентные) отношения — это логические, объективно существующие отношения между лексическими единицами ИПЯ, не зависящие от контекста. Они обусловлены наличием не языковых, а логических связей между предметами и явлениями. Парадигматические отношения отражают, таким образом, логические отношения и психологические ассоциации между значениями лексических единиц ИПЯ. Важнейшими свойствами парадигматических отношений являются: 1) внетекстовой характер (внетекстовая обусловленность), независимость от контекста, т. е. независимость от ситуации, в которой лексические единицы употребляются. Так, слово карась неизменно вызывает представление о рыбе, а лексические единицы яблоки, апельсины всегда ассоциируются с понятием «фрукты»; 2) многоступенчатость, нелинейность парадигматических отношений: одна и та же лексическая единица может входить в состав различных парадигм, т. е. в различные смысловые ряды, в которых она противопоставляется по различным смысловым признакам. Например: Книга — CDR-ом — веб-сайт (источники информации) Книга — статья — патент — (первичные документы) Книга — газеты — радио — ТВ — (средства массовой информации Книга — шрифт — переплет — иллюстрации — (издательское дело). Свойство многоступенчатости, нелинейности парадигматических отношений особенно заметно проявляется при разработке ИПЯ на этапе систематизации, упорядочения лексики, при построении классификационных схем понятий, когда возникает необходимость отнесения той или иной лексической единицы к различным смысловым рядам (парадигмам). Принято различать сильные и слабые парадигматические отношения, связывая эти понятия с той ролью, которую эти отношения выполняют для реализации информационного поиска. Сильные парадигматические отношения включают в свой состав отношения тождества и отношения иерархии. Отношения тождества (совпадения, адекватности) как разновидность сильных парадигматических отношений выражаются в использовании синонимов. Учет отношений тождества, синонимии при проведении информационного поиска имеет принципиально важное значение: не устраненная синонимия, как уже отмечалось, ведет к ощутимым потерям при поиске, снижает полноту выдачи информации по запросу. Например, вряд ли будет обеспечена полнота выдачи информации на запрос, если человек, ведущий поиск, не знает, что фунду́к, орех лещины и ломбардский орех — это одно и тоже, метаболизм и обмен веществ — это синонимы, так же как и то, что нанотрубки могут называться тубулярные наноструктуры или нанотубулены. Отношения иерархии как разновидность сильных парадигматических отношений соответствуют отношениям подчинения или отношениям типа «выше–ниже». В пределах иерархических отношений различают отношения типа «род–вид» (генерические связи) и «целое–часть» (партитивные связи). Отношение «род—вид» является одним из важнейших видов связей между понятиями. При этом родовым (подчиняющим) называется понятие, выражающее существенные признаки класса предметов, являющихся видами этого рода. Соответственно видовым (подчиненным) называется понятие, которое отображает существенные признаки класса предметов, являющегося видом какого-либо рода. Связь видового и родового понятия отображает ту реальную связь, которая существует между родом и видом в природе и обществе. Например, понятия лошадь, корова, овца — видовые понятия, в которых выражены существенные признаки отдельных, качественно особенных, но взаимосвязанных форм животных, входящих в одно родовое понятие домашние животные. Одно и то же понятие может быть (за исключением единичных понятий и предельно общих категорий типа материя, движение, пространство и т. п.) как видовым, так и родовым одновременно в зависимости от того, по отношению к какому понятию оно рассматривается. Например, понятие аннотация является видовым по отношению к понятию вторичные документы и родовым по отношению к понятию справочная аннотация. Основным условием для установления иерархических отношений типа «род–вид» является соблюдение требования: «Все, что можно сказать о роде, можно сказать о виде». Родовое понятие при этом нельзя рассматривать как сумму более узких видовых понятий. Нельзя сказать, например, что стали — это сумма таких понятий, как сталь высокопрочная, сталь легированная, сталь углеродистая и т. д. Несоблюдение этого условия часто приводит к смешению двух типов сильных парадигматических отношений: «род–вид» и «целое–часть». Отношение «целое–часть» отражает реальный факт вхождения одного объекта (понятия) в состав другого. При этом подчиняющее понятие соотносится с подчиненными в результате разложения целого на части. В отличие от родо-видовых отношений при установлении связей типа «целое–часть» не действует закономерность: «Все, что можно сказать о подчиняющем понятии, можно сказать о подчиненном понятии». Кроме того, понятия, выражающие части целого, не находятся между собой в отношении соподчинения, что является характерным признаком видовых понятий. Следует заметить, что поводу отнесения связи типа «целое — часть» к сильным парадигматическим отношениям в специальной литературе не существует единства. Зачастую этот вид связи рассматривается в рамках слабых, ассоциативных парадигматических отношений. Значение для информационного поиска сильных парадигматических отношений иерархического характера («род — вид» и «целое — часть») вполне очевидно. Родо-видовые отношения, эксплицитно представленные в ИПЯ, позволяют существенно корректировать стратегию поиска по запросам в зависимости от результатов выдачи. В случае «нулевой» или недостаточной выдачи информации по запросу привлечение родовых, вышестоящих терминов позволит расширить область поиска, повысив при этом полноту выдачи. Если же по результатам поиска выдана избыточная информация, корректировку поискового предписания можно осуществить на основе введения видовых, нижестоящих понятий, что дает возможность значительно сузить область поиска и повысить точность выдаваемой информации. Точно так же может происходить корректировка стратегии поиска и с учетом парадигматических отношений типа «целое — часть», так как вполне вероятно, что для потребителя информации, интересующегося системой, механизмом, аппаратом, процессом в целом, может оказаться полезной информация и об их составных частях, элементах, деталях, операциях. Слабые (ассоциативные) парадигматические отношения учитывают логические отношения пересечения понятий и различные психологические ассоциации. Психологические ассоциации возникают в сознании человека, когда представление об одном предмете (процессе или явлении) вызывает у него представление о предметах (процессах, явлениях), связанных с первым по какому-либо существенному признаку. Ассоциативные отношения в лексике связаны с понятием мотивированности. Они всегда характеризуют совместное участие соответствующих объектов в типичной для данной области ситуации или участие объектов в аналогичных ситуациях. К разряду слабых (ассоциативных) парадигматических отношений принято причислять отношения причины — следствия, смежности, контраста, кратности. Отношения типа «причина — следствие» характеризует такую ситуацию, при которой одно явление, действие (причина) вызывает, определяет, изменяет или влечет за собой другое явление — следствие. Это отношение связывает лексические единицы, обозначающие соответственно причину и следствие: авария — травма, нарушение технологии — брак, шум — звукоизоляция. Отношение контраста (противоположности) является результатом противопоставления предметов, процессов не по критерию их общности, а по критерию различия. Оно выражается в лексике ИПЯ с помощью антонимов, противоположных по значению слов: экспорт — импорт, полнота — потери, блокирование — деблокирование, контактное реле — бесконтактное реле. Отношение смежности является отражением в сознании людей ассоциативной связи между предметами или явлениями, которые воспринимаются в непосредственной близости друг другу в пространстве и во времени: болото — торф, ток электрический — напряжение, пастбища — многолетние травы. Отношение кратности — особый вид связи, существующей в категориях единиц измерения величин. Так, нельзя сказать, что километр есть понятие более широкое, чем метр, а сантиметр — более узкое, чем метр. Одно из них является основным, а другое — производным, т. е. кратным. Рассмотренные нами как сильные, так и слабые парадигматические отношения имеют принципиально важное значение для правильного выбора и точного употребления всех лексических единиц, которые требуются для передачи какого-либо сообщения, в том числе и для подготовки поискового образа документа и поискового предписания. Без учета парадигматических отношений: невозможно правильно провести информационный поиск по запросу, осуществить качественное индексирование, аннотирование или: реферирование документа, подготовить обзор литературы. Решающее значение установление парадигматических отношений между лексическими единицами имеет при разработке ИПЯ. Для этого необходимо знание основных способов выявления парадигматических отношений. Существующие способы установления парадигматических отношений можно условно разделить на две группы: логико-интуитивные и формализованные. Логико–интуитивный способ установления парадигматических отношений направлен на выявление существенных смысловых связей между понятиями. Достижению этой цели обычно служат следующие пути. 1. Анализ реальных научно-технических текстов как первичных, так и вторичных документов. Он позволяет вскрыть реальные типы смысловых отношений, характерных для данных текстов, заранее устранить искусственное и надуманное их конструирование в отрыве от самих текстов. При таком подходе парадигматические отношения, введенные в ИПЯ, будут соответствовать смысловым отношениям, существующим в текстах документов соответствующей отрасли знания. 2. Установление парадигматических отношений через обращение к энциклопедиям, терминологическим словарям, обобщающим справочникам в данной области. Этот путь основывается на анализе логического описания и определения терминов. В словарных статьях справочных изданий обычно четко указываются все подвиды объекта, его назначение, сфера применения, местонахождение, основные количественные характеристики и параметры. 3. Обращение к специалистам в данной отрасли знания, предполагающее корректировку намеченных ранее парадигматических отношений. На практике обычно используются одновременно все три способа выявления парадигматических отношений. Формализованный способ базируется на следующих средствах «опознания» (различения) парадигматических отношений в тексте: лексических (использование глаголов, причастий, вводных слов, предлогов и т. п.); пунктуационных (использование двоеточия, тире, скобок и т. п.); использование схем, чертежей; использование различий в шрифтах (курсив, разрядка). Так, целям распознавания сильных (родо-видовых) парадигматических отношений служат такие лексические единицы, как разновидность, подразделяются на, различают, делят на, в виде, относится к классу и т. п. Например: «В комплексе лингвистического обеспечения ИПС принято различать классификационные и дескрипторные ИПЯ»; «Натуральный каучук относится к классу природных полимеров»; «Разновидностью вторичных документов являются рефераты». Распознаванию сильных парадигматических отношений способствуют предлоги из, среди, с и вводные слова типа в частности, как правило, в первую очередь: «Среди информационно-поисковых систем можно выделить документальные и фактографические»; «Из числа платьевых изделий можно назвать платье-костюм, платье-пальто, платье-сарафан»; «В первую очередь, из однолетних бобовых трав надо указать на вику, донник, люпин». Немаловажное значение для установления сильных парадигматических отношений имеют знаки пунктуации — двоеточие, тире. Например: Основные виды угля: гумолит, сапропелит, бурый уголь, каменный уголь, антрацит; Лопастный, электромагнитный, центробежный, вихревой, шнековый, дисковый, вибрационный, струйный — это виды насосов по принципу действия и конструкции. Установлению парадигматических отношений типа «целое — часть» способствуют схемы и чертежи, наглядно представляющие составные части предмета, объекта. Лексическими распознавателями для этого вида отношений могут служить словосочетания типа: состоящий из, изготовленный из, в состав входят, являются частью. Например: «ГРНТИ является частью лингвистического обеспечения системы»; «В состав препарата «Каметон» входят хлоробутанолгидрат, камфара, ментол». Распознаванию слабых парадигматических отношений типа «предмет — назначение» служат следующие лексические средства: используется для, предназначен для, служит для, в целях. Например: «ИПЯ служит для индексирования документов и запросов»; «Кард-ри́дер предназначен для чтения карт памяти, а также иных электронных карт различного назначения, например, смарт-карт и флеш-карт». Использование формализованного способа выявления парадигматичкских отношений позволяет снизить субъективизм при установлении смысловых связей между лексическими единицами сложных, насыщенных отраслевой терминологией научно-технических текстов. Его целесообразно сочетать с логико-интуитивным методом. Синтагматические отношения в ИПЯ Для понимания природы и назначения синтагматических отношений в ИПЯ принципиально важно то, что они устанавливаются при использовании лексических единиц. В отличие от парадигматических, синтагматические отношения проявляются лишь при употреблении лексических единиц и целиком зависят от контекста. Следовательно, они всегда характеризуют момент реального взаимодействия лексических единиц. Применительно к ИПЯ употребление лексических единиц происходит при индексировании — построении поискового образа документа (ПОД) или поискового предписания (или ПП). Именно на этом этапе приводятся в движение лексические единицы ИПЯ и используется его словарный состав. Синтагматические (синтаксические, грамматические, ситуативные, контекстуальные) отношения — это линейные отношения, устанавливаемые непосредственно при объединении слов и словосочетаний во фразы (предложения). Они проявляются лишь при употреблении лексических единиц и целиком зависят от контекста. Как только мы приводим в действие механизм синтагматических отношений, всегда образуется лексическая единица более высокого уровня интеграции, происходит переход от слова — к словосочетанию, от простой предметной рубрики — к сложной, от простого индекса классификации — к составному и т. п. Известно, что парадигматические отношения, характеризуя смысловые, семантические связи между понятиями, носят постоянный характер, например: Сосна — это разновидность хвойных деревьев; Кроссовки — вид спортивной обуви и т. д. В то же время одни и те же лексические единицы могут образовывать различные выражения и передавать совершенно различные (а то и прямо противоположные) значения, например, политика силы и сила политики, золото партии и партия золота и т. п. Таким образом, не имеющее ограничений словоупотребление, «вышедшая из под контроля» лексика может привести к появлению ложных словосочетаний и выражений с искаженным смыслом. В результате лексические единицы в ПОДе могут вступать в ложные словосочетания. При выдаче информации в ответ на запрос это оборачивается «информационным шумом», нерелевантными документами. Для того чтобы избежать подобных негативных явлений и повысить точность информационного поиска, в ИПЯ предусмотрено использование специальных грамматических средств (грамматики), являющихся способом выражения синтагматических отношений. Грамматика ИПЯ — это конкретный набор средств и правил построения поисковых образов на данном ИПЯ. В пределах грамматики одного ИПЯ могут быть использованы следующие грамматические средства. 1. Мешочная грамматика. Это простое перечисление лексических единиц, входящих в один ПОД или ПП. В этом случае сам факт присутствия данного набора лексических единиц свидетельствует о существовании текстуальной связи между ними, и эта «связь может быть более или менее однозначно выявлена, исходя из значения перечисленных лексических единиц. Мешочная грамматика часто используется в отраслевых или узкотематических ИПС дескрипторного типа технической тематики. Языки, применяющие мешочную грамматику, иногда называют также «ИПЯ без грамматики», понимая под этим минимальность используемых грамматических средств. В иерархических библиотечно-библиографических классификациях используется знак «плюс» для соединения понятий, сошедшихся в одном тексте (документа или запроса). Характер отношений при этом не фиксируется. Знак «плюс» фактически выполняет роль оператора мешочной грамматики, поскольку показывает совместное вхождение лексических единиц в один поисковый образ без указания их смысловых отношений друг к другу. Примером ИПЯ, реализующих мешочную грамматику, являются языки типа «Унитерм», которые на «заре автоматизации» разрабатывались для узкоотраслевых и тематических ИПС, обслуживающих небольшие специализированные массивы объемом до 30 тыс. документов. Приведем пример реализации мешочной грамматики, когда простое перечисление слов, извлеченных из текста документа, дает представление о нем и образует его поисковый образ: техника безопасности, травматизм, литейное производство. Важно подчеркнуть, что порядок следования лексических единиц в ПОДе или ПП при использовании мешочной грамматики не имеет никакого значения и носит произвольный характер. 2. Позиционная грамматика. Это установление жесткого порядка следования лексических единиц, входящих в один поисковый образ. В ИПЯ классификационного типа (УДК, ББК) позиционная грамматика проявляется в правилах построения сложного индекса, согласно которому на первое место всегда ставится индекс, взятый из основных таблиц классификации, а затем индекс, содержащийся во вспомогательных таблицах. К разновидностям позиционной грамматики следует отнести анкетный (аспектный, формулярный, матричный) способ составления поисковых образов и метод «стандартных фраз». Смысл первого способа можно охарактеризовать следующим образом. При создании ПОД или ПП вводится единая фиксированная схема (анкета, формуляр, матрица) упорядочения лексических единиц, определяющая порядок их записи. В этом случае перевод слов на ИПЯ, т. е. индексирование сводится к размещению в необходимые зоны соответствующих лексических единиц. Если какие-либо сведения в документе или запросе отсутствуют, то в соответствующей позиции ставится прочерк. Иными словами, индексирование на основе этого способа сводится к заполнению позиций анкеты, матрицы, формуляра и т. п. Такой способ составления поисковых образов определяется однотипной структурой текстов, подлежащих индексированию. Например, для унификации и индексирования научно-технических текстов наиболее часто используется следующая схема анализа: 1. Предмет или тема исследования. 2. Область применения или использования предмета. 3. Метод исследования. 4. Условия, в которых протекало исследование. 5. Технические средства или оборудование, применявшиеся в ходе исследования. 6. Результаты исследования. Преимуществами рассмотренного способа являются компактность записи, удобство сопоставления выражений на ИПЯ при поиске, снижение субъективизма индексатора. Однако при большом разнообразии информации, заключенной в текстах, данный способ теряет свои преимущества, так как многие позиции анкеты остаются незаполненными (они либо не имеют смысла для данного объекта, либо вообще отсутствуют). Данный способ может оказаться неудобным, если анкета будет слишком громоздкой. Метод «стандартных фраз». «Стандартная фраза» — это многоместный предикат, характеризующий определенную ситуацию. Под предикатом при этом понимается логическое сказуемое, т. е. то, что высказывается, утверждается или отрицается в суждении об объекте. Предикат отображает наличие или отсутствие того или иного признака у предмета. Обычно «стандартная фраза» представляет собой простое предложение с типовой структурой. Например, язык «стандартных фраз» для поиска информации в области синтетической органической химии включает в свой состав фразу: Химическое вещество со структурой X находится в состоянии Y. Схема или анкета (матрица, формуляр), «стандартная фраза», используемые при индексировании, позволяют унифицировать форму описания документа или запроса, обеспечивая единообразный подход различных исполнителей к процессу составления поисковых образов, способствуют повышению качества и воспроизводимости (постоянства) индексирования. 3. Указатели связи. Это — символы, буквы или цифры, которые присоединяются к двум или более лексическим единицам ИПЯ с целью наглядного выражения существующей между ними логической связи. Указатели связи появились в результате создания первых дескрипторных ИПЯ, имевших лексику первого уровня интеграции, т. е. состоящую из отдельных слов и словосочетаний. Применение указателей связи было вызвано тем обстоятельством, что отдельные слова и словосочетания (дескрипторы, унитермы, ключевые слова) могут образовывать не одно, а два или несколько осмысленных понятий, но при этом лишь одно из них будет соответствовать целям информационного поиска. Приведем пример использования указателей связи, используя буквенные обозначения: а — для одной пары текстуально связанных лексических единиц и б — для другой пары. В этом случае можно получить в соответствии со смыслом и задачами информационного поиска попарно объединенные лексические единицы, выражающие два разных ПОД для двух отличающихся друг от друга сообщений: 1) производство нефти и очистка автомобильного топлива 2) производстве автомобильного топлива и очистка нефти ПОД 1 ПОД 2 производство (а), нефть (а), очистка (б) автомобильное топливо (б) производство (б), автомобильное топливо (б) очистка (а), нефть (а) 4. Указатели роли. Это — символы, буквы или цифры, которые присоединяются к двум или более лексическим единицам и служат для обозначения логической роли (функции), выполняемой этой лексической единицей в поисковом образе. Если указатели связи лишь фиксируют наличие связи между лексическими единицами ИПЯ, то указатели роли характеризуют эту связь. Указатели роли поясняют смысловую функцию лексической единицы в поисковом образе и задаются списком. Чаще всего эти списки представляют собой перечни логических категорий, которыми оперирует та или иная область знаний. Например, в дескрипторных ИПС в качестве указателей роли могли выступать следующие буквенно-цифровые обозначения: Р1 Основной объект рассмотрения Р2 Область, сфера, место применения РЗ Метод, способ, средство решения Р4 Отличительная часть, элемент, составляющая машины, сооружения, вещества и т. п. Указатели роли используются для описания ситуаций, характерных для определенных тематических областей с ярко выраженной логической структурой. Следовательно, и число, и содержание их будут различными, определяясь особенностями отрасли знания, для которой создается данный ИПЯ. Указатели роли уменьшают объем понятия, обозначаемого лексической единицей, что равносильно увеличению мощности массива смысловыражающих единиц ИПЯ, повышению избирательности языка и точности поиска. Хотя основной сферой применения указателей роли являются дескрипторные ИПЯ, тем не менее, и в ИПЯ классификационного типа имеются аналогичные грамматические средства. Так, функцию указателей роли в УДК выполняют общие и специальные определители, в таблицах ББК — индексы территориальных типовых делений, общих типовых делений, специальных типовых делений. В алфавитно-предметной классификации целям уменьшения объема понятия, выражаемого предметной рубрикой, служат тематические (общие, типовые и специфические), географические, хронологические подзаголовки, а также подзаголовки назначения и формы. В отношении указателей роли и связи следует подчеркнуть, что несмотря на то, что они предназначены для повышения точности информационного поиска, их применение может сопровождаться снижением полноты результатов поиска. Так, использование указателей связи позволяет повысить точность поиска информации до 10 %, а совместное использование указателей роли и указателей связи — на 15 — 17%, но при этом уменьшается полнота поиска. Это происходит из-за того, что индексаторы по-разному определяют функции лексических единиц в одном и том же тексте и, соответственно, могут присоединять к одинаковым лексическим единицам различные указатели роли. ИПЯ, использующие указатели роли и связи, позволяют описывать тексты документов и запросов с большой точностью. Однако языки, обладающие этими грамматическими средствами, чрезвычайно сложны в эксплуатации, требуют утонченных процессов перевода и поиска, уступая по удобству и простоте использования более простым ИПЯ. 5. Грамматика логических операторов основана на использовании трех логических связок И, ИЛИ, НЕ, позволяющих осуществлять логическое умножение, сложение и вычитание лексических единиц, т. е. осуществлять операции алгебры логики (булевой алгебры). Оператор И означает операцию логического умножения — конъюнкцию; оператор ИЛИ служит для обозначения логической суммы — дизъюнкции; оператор НЕ позволяет осуществлять логическое вычитание (отрицание). Операторы имеют свои обозначения: И — /\, ИЛИ — \/, НЕ — ù. Они отражают логические связи между лексическими единицами в запросе. Например, запись: Антикоррозийная защита /\ Подземный газопровод ù Наземный означает, что в ответ на запрос пользователю требуется вывыдать информацию об антикоррозийной защите только подземных газопроводов, исключая газопроводы наземные. Логические операторы И, ИЛИ, НЕ служат для уточнения объемов понятий, выражаемых лексическими единицами. Они используются, как правило, только при составлении поисковых предписаний и определяют стратегию поиска. С формальной точки зрения логические операции И, ИЛИ, НЕ являются грамматическим средством, но фактически их функция близка функции, выполняемой критерием смыслового соответствия. Кроме того, логические связки И, ИЛИ, НЕ часто служат для образования новых понятий, выраженных сочетанием лексических единиц, что сближает их функционально с указателями роли и указателями связи. Технология создания лексико-семантической основы ИПЯ Разработка любого ИПЯ, создание его лексико-семантической основы включает следующие основные этапы: отбор лексических единиц, нормализация лексики, систематизация и группировка лексических единиц, организационное оформление лексики ИПЯ. Дадим характеристику каждого из этих этапов. Отбор лексических единиц — важнейший этап в создании любого ИПЯ, поскольку именно лексические единицы являются теми «атомами», «кирпичиками», тем «строительным материалом», из которого строится любой язык. Именно от качества выполнения этого этапа во многом зависят смыслоразличительные возможности ИПЯ, его семантическая сила. Этому этапу обязательно предшествует изучение структуры той отрасли науки или техники, искусства, по которой создается ИПЯ. Вот почему в состав разработчиков ИПЯ обычно входят не только информационные работники, библиотекари, библиографы, лингвисты, но и специалисты-отраслевики. Занимаясь разработкой того или иного ИПЯ, его создатели отбирают в состав лексики не любые слова вообще, а «ключевые слова», т. е. слова, несущие в тексте наибольшую смысловую нагрузку. Поэтому при дальнейшей характеристике этого этапа работы будем считать условно синонимичными понятия «лексическая единица» и «ключевое слово». Это допущение необходимо для уяснения сути технологических операций, выполняемых на данном этапе. Ключевое слово — это полнозначное слово или словосочетание, являющееся носителем существенной в данном тексте (документе или запросе) информации с точки зрения информационного поиска. К разряду ключевых слов следует отнести в первую очередь термины, важнейшими свойствами которых, как известно, является номинативность (способность называть предмет), однозначность, точность, отсутствие экспрессии. Для каждой предметной области можно выделить три группы терминов: 1. Специальные термины, употребляемые только в данной отрасли знания, являющиеся как бы ее опознавательными знаками, символами. Например, по употреблению в речи или тексте такой группы терминов, как диагноз, гастрит, анестезия, переливание крови или залегание пласта, антрацит, угольный карьер, проходка, метаноопасность, мы всегда безошибочно укажем соответствующую отрасль знания. 2. Термины смежных отраслей знания, «привлеченные» термины, обозначающие необходимые для данной предметной области понятия из смежных отраслей науки и техники. Они отражают важнейшую закономерность развития современной науки: интеграцию, взаимопроникновение научных идей. Так, в медицинской терминологии обязательно используются биологические, химические термины; терминология горного дела активно привлекает лексику геологии, кристаллографии. 3. Общенаучные термины, бытующие в любой отрасли знания, например: метод, анализ, оборудование, дефект, исследование, объект и т. п. Разработчикам ИПЯ приходится всякий раз решать, к какой группе терминов относится то или иное слово, насколько целесообразно его включение в состав лексики ИПЯ, так как пропуск лексических единиц влечет за собой неизбежные потери информации при поиске, а излишнее расширение словарного состава делает его громоздким, неудобным, затрудняет поиск. Очевидно, что в первую очередь в состав лексики разрабатываемого ИПЯ должны включаться термины первой группы. Именно они являются ключевыми. Отсутствие же формальных критериев значимости или незначимости терминов второй и третьей групп для конкретного ИПЯ существенно осложняет этап их отбора. Связав понятие «лексическая единица» с понятиями «ключевое слово» и «термин», целесообразно указать категории неключевых слов, т. е. слов, которыми можно пренебречь в условиях создания лексико-семантической основы ИПЯ. К ним относятся служебные слова (частицы, предлоги, союзы, междометия); часто употребляемые общенаучные термины типа проблема, актуальность, значение и т. п.; термины, не относящиеся к понятийному аппарату того раздела науки или техники, для которого создается конкретный ИПЯ. Например, для ИПЯ по библиотековедению вряд ли имеет смысл включать в состав лексики термины электродвигатель, плазма и т. п. Итак, отнесение конкретного термина к разряду ключевых слов зависит от прагматических соображений, определяемых тематическим охватом создаваемого ИПЯ, а также возможностями возникновения запроса, содержащего данное слово или словосочетание. В качестве основных источников отбора лексических единиц можно назвать следующие: 1) уже существующие, т. е. ранее разработанные ИПЯ, располагающие фиксированным словарем: таблицы УДК, ББК, списки предметных рубрик, классификаторы, тезаурусы и т. п.; 2) терминологические словари, справочники, ГОСТы, словари толковые, энциклопедические и аналогичные нормативно-справочные издания; 3) массив документов по тематике создаваемого ИПЯ с хронологическим охватом в 5 — 6 лет (именно за этот период происходит обновление терминологии), объемом 3 — 4 тыс. документов. Такой объем позволяет получить представительный массив лексики, достаточно полно характеризующий ту отрасль знания, по которой создается ИПЯ; 4) массив запросов, полученных от потребителей информации, содержащий, как правило, наиболее новые термины. Обычно при разработке ИПЯ все эти источники отбора лексики используются одновременно, в комплексе. Отобранные в результате анализа лексические единицы образуют словник ключевых слов — исходный терминологический массив. Важнейшее требование к полученному словнику — полнота охвата лексических единиц, так как основное назначение лексических единиц ИПЯ — служить средством образования ПОД или ПП и, в конечном итоге, средством поиска информации. После того, как лексические единицы (ключевые слова, термины) отобраны, возникает задача их единообразной записи, нормализации. Строго говоря, проблема нормализации решается одновременно с отбором лексических единиц, однако для удобства рассмотрения целесообразно нормализацию лексики охарактеризовать как самостоятельный этап создания лексико-семантической основы ИПЯ. Нормализация лексики реализуется посредством двух операций: 1) представлением ключевых слов в единообразной грамматической форме (морфологический уровень нормализации лексики); 2) устранением синонимии и полисемии (семантический уровень). Представление ключевых слов в единообразной грамматической форме, в свою очередь, складывается из следующих основных процедур: – установление унифицированной формы записи лексических единиц (род, число, падеж). Как правило, исчисляемые существительные рекомендуется записывать в именительном падеже множественного числа, неисчисляемые — в именительном падеже единственного числа: датчики, радиодетали, документы, но информация, реле, резонанс. Прилагательные и причастия записываются в именительном падеже множественного числа: лабораторные, информационные, предшествующие. Следует отметить, что эти правила вариативны и для различных ИПС могут быть изменены; – решение вопроса о формулировке ключевого слова: запись в виде отдельного слова (унитерм) или словосочетания? В первом случае это будут отдельные слова: автоматизированные, информационные, поисковые, системы. Во втором — развернутые словосочетания: автоматизированные информационно-поисковые системы, травы однолетние злаковые. Ориентация на отдельные слова (унитермы) позволяет достигать значительной глубины и детальности индексирования, дает возможность свободно манипулировать элементами поисковых образов. Однако при этом требуется разработка сложной системы грамматических средств для предотвращения информационного шума. Кроме того, механическое разделение многословных терминов, соответствующих определенным научно-техническим понятиям, неизбежно приводит к потерям при поиске информации, снижению точности выдачи. На практике в качестве единой лексической единицы обычно используются устойчивые словосочетания, выражающие целостные (неделимые) понятия. Однако критериев, позволяющих четко и однозначно отделять устойчивые словосочетания от неустойчивых, в настоящее время не существует, а имеющиеся рекомендации носят неформализованный характер. Чаще всего решение о сохранении словосочетания как отдельной лексической единицы принимается на основании статистических данных (наблюдений о частоте встречаемости словосочетания в анализируемом массиве текстов) либо при условии, что в данном ИПЯ очень мала вероятность использования компонентов словосочетания по отдельности. В том случае, если в разрабатываемом ИПЯ решено использовать в качестве лексических единиц не только отдельные слова, но и словосочетания, возникает необходимость определения порядка записи слов в словосочетании. Применительно к словосочетаниям, состоящим из прилагательного(ных) и существительного(ных) возникает дилемма: прямой (гусеничные тракторы, оптические фильтры) или инвертированный (тракторы гусеничные, фильтры оптические) порядок записи следует использовать. На этот счет также отсутствуют убедительные и достаточно формализованные критерии, носящие универсальный характер. Решение по этому вопросу принимается индивидуально в каждом конкретном случае разработчиками ИПЯ. Для обеспечения экономичности и единообразия формулировок лексических единиц существуют рекомендации о целесообразности инвертированной формы записи, обеспечивающей выдвижение на первое место в словосочетании существительного (двигатели реактивные, реакции химические). Однако абсолютизировать принцип инверсии нельзя, так как зачастую его использование влечет за собой образование лексических единиц, первое слово которых не выполняет эвристической функции, либо разрушает общепринятый термин. Устранение полисемии и омонимии на этапе нормализации лексики достигается двумя способами. Первый, наиболее простой способ заключается в развертывании многозначного слова до словосочетания. Например, сети: сети рыбацкие, сети информационные; лист: лист бумажный, лист растения. Второй способ, именуемый лексикографическим, связан с использованием специальных ограничительных или пояснительных помет. Для устранения полисемии и омонимии могут использоваться следующие типы пояснений, помещаемых в скобках рядом с многозначным словом: • пояснение с помощью синонима: прямой (непосредственный), ветвь (ответвление); • отнесение слова к соответствующей отрасли знания: ребро (геометрия), ребро (авиация), ребро (анатомия); • отнесение слова к соответствующей категории: емкость (предмет), емкость (характеристика), смазка (процесс), смазка (материал); • указание на соответствующее слову родовое понятие: танк (резервуар), танк (вооружение); • указание на соответствующие объекты действия: обработка (пищевых продуктов), обработка (информации). На этапе систематизации и группировки лексических единиц. необходимо все отобранные и записанные в стандартной форме лексические единицы систематизировать, упорядочить, установить между ними смысловые связи, образовать классы близких по значению слов. В силу избыточности естественного языка в составе полученного словника ключевых слов неизбежно будут иметь место слова, находящиеся в отношениях эквивалентности, смысловой близости. Поэтому важнейшей задачей этапа систематизации лексики является выявление видов парадигматических отношений между отобранными лексическими единицами. С этой целью используются такие средства, как построение классов условной эквивалентности и построение классификационных схем понятий. Основными видами логических связей (парадигматических отношений) между понятиями являются следующие: 1. Отношения тождества, совпадения смыслов. В тексте эти отношения выражаются синонимами. Работая с текстом, важно понимать, что очень часто одно и то же понятие в тексте выражается различными способами. Например, полное название и его аббревиатура (содружество независимых государств — СНГ), лексическая синонимия (бегемот — гиппопотам), логическая синонимия (денежная единица США — доллар) и другие виды синонимии. 2.Отношения иерархии, подчинения, когда одно понятие включает (подчиняет) другие понятия. Среди них различают: 2.1. Отношения типа «род — вид», когда действует логическое правило «все, что можно сказать о роде, можно сказать о виде», например: грузовые автомобили — самосвал, грузовик, фургон. 2.2. Отношения «целое — часть», когда вышеприведенное правило не применимо и когда один объект является частью другого: автомобиль — колесо, автомобиль — двигатель. 2.3. Отношение «множество- элемент множества», когда очевидным является включение одного понятия в состав другого, но это не является ни родо-видовым отношением, ни отношением типа «целое-часть». Например: «стадо — коровы, бараны», «внутренние органы — легкие, печень, почки, желудок». 3. Атрибутивные отношения, когда одно понятие является атрибутом (свойством, назначением и т. п.) другого. Например, предмет — свойство (металл — электропроводность), предмет — процесс (металл — литье), предмет — назначение (фильтр — удаление вредных примесей). 4. Причинно-следственные отношения, когда одно понятие является следствием другого: гололед — авария, загрязнение атмосферы — заболевания. 5. Количественные отношения, характеризующие предметы и явления внешнего мира со стороны величины, объема, числа, степени развития. Например, больше, меньше, равно. В результате выявления видов логических связей (парадигматических отношений) между лексическими единицами становится возможным построение классов условной эквивалентности. Класс условной эквивалентности — это совокупность лексических единиц, которые считаются условно синонимичными в данной области знания и используются в данном ИПЯ как равнозначные с точки зрения поиска информации. Между лексическими единицами, входящими в один класс условной эквивалентности, могут существовать следующие отношения: 1) равнозначности, тождества, выражаемые синонимами; 2) пересечения — частичного совпадения объемов понятий, т. е. отношения, связывающего слова, между которыми существует ассоциативная связь, семантическое родство; 3) подчинения, т. е. отношения типа «род — вид», «целое — часть», «выше — ниже». Построение классификационных схем понятий. Классификационная схема понятия — это графическое средство фиксирования парадигматических связей между понятиями. Ее основное назначение — обозначение границы того или иного понятия, определение объема, содержания и структуры понятия, установление его связей с другими понятиями. Разработка классификационной схемы включает: выделение наиболее существенных признаков понятия в качестве основания деления; построение частных схем, отражающих взаимосвязь понятий и использующих выделенные признаки. В соответствии с правилами формальной логики деление объема понятий, осуществляемое при построении классификационной схемы, должно быть обоснованным, взаимоисключающим, адекватным по объему, непрерывным. Классификационные схемы понятий позволяют учитывать действительные связи, существующие между понятиями, получать строго упорядоченную систему понятий, наглядно представлять смысловые отношения, объединяющие лексические единицы ИПЯ. Организационное оформление лексики — это ее графическое, знаковое воплощение, которое целиком зависит от типа разрабатываемого ИПЯ. В зависимости от типа создаваемого ИПЯ, его функционального назначения, нормализованные и систематизированные лексические единицы будут преобразованы либо в предметные рубрики, либо в дескрипторы, либо в индексы классификации и т. д. Например, лексико-семантическая основа ИПЯ может быть организационно представлена в виде таблиц классификации (ДКД, УДК, ББК, и др.), рубрикаторов (ГРНТИ, отраслевые, проблемные рубрикаторы), классификаторов, словарей предметных рубрик, информационно-поисковых тезаурусов и ряда других пособий, образующих комплекс лингвистических средств ИПС. Резюме В составе любого ИПЯ можно выделить логико-лингвистические универсалии, к которым относятся алфавит, лексика, парадигматические и синтагматические отношения. В совокупности все эти элементы составляют своего рода универсальную модель ИПЯ, выполняющую две принципиально важных функции: 1) освоение и анализ множества уже существующих на практике ИПЯ, более полное понимание принципов их построения и области применения; 2) создание новых ИПЯ, предназначенных для решения задач, возникающих в ходе развития библиотечно-информационных технологий. Все структурные элементы ИПЯ неразрывно связаны с аналогами в естественном языке, но имеют принципиальные отличия. Алфавит ИПЯ является более широким понятием, нежели алфавит естественного языка, он включает в свой состав не только буквы, но и цифры, многочисленные знаки и символы. На базе алфавита ИПЯ образуются лексические единицы, каждая из которых выражает определенное понятие. В отличие от естественного языка лексическая единица ИПЯ может быть выражена не только словом, но и словосочетанием, а даже целым предложением Системную характеристику лексики ИПЯ можно дать с помощью трех параметров: способ задания лексики, уровня интеграции лексики и способа построения лексических единиц. Особое место в составе лексики ИПЯ занимают термины, характеризующиеся однозначностью, семантической точностью, системностью, стилистической нейтральностью, наличием дефиниции. Терминам присуща высокая степень информативности, смысловой насыщенности. Поэтому изучение терминологии в курсе «Лингвистические средства библиотечно-информационных технологий» преследует не только теоретические, но и практические цели. Знание структурного и семантического состава терминологии и изменений, происходящих в ней, имеет существенное практическое значение для эффективной реализации технологии индексирования, аннотирования и реферирования, а также для актуализации лексики уже существующих и вновь создаваемых ИПЯ. Полнота лексического состава, степень развитости парадигматических и синтагматических отношений определяют семантическую силу ИПЯ, существенным образом влияют на полноту и точность информационного поиска. Знание структуры ИПЯ позволяет рационально организовать технологию разработки новых языков, проводить сопоставительный анализ семантической силы уже существующих ИПЯ, осуществлять обоснованный выбор ИПЯ для решения определенного круга задач в соответствии с выполняемыми ИПЯ функциями. Вопросы для самоконтроля: 1. Назовите основные структурные элементы ИПЯ. 2. Чем отличается алфавит ИПЯ от алфавита естественного языка (языков)? 3. Чем лексическая единица ИПЯ отличается лексической единицы естественного языка? 4. В чем заключается отличие синтагматических отношений от парадигматических? 5. Назовите основные виды грамматических средств, используемых в ИПЯ. Тема 3. Классификация информационно-поисковых языков Представление о классификации и типологии ИПЯ Проблемы классификации и типологии возникают во всех науках, которые имеют дело с крайне разнородными по составу множествами объектов и решают задачу упорядоченного описания и объяснения этих множеств. Они возникают во всех науках — естественных, технических, общественных, гуманитарных. Так, в зоологии и биологии существует проблема классификации и типологии животных и растений, в металлургии — металлов и сплавов, в экономической географии — стран и городов, в психологии — типов личности, в криминологии - типов преступников и т. д. В лингвистике важное место отводится типологической классификации языков народов мира и лингвистической типологии, получить представление о которых можно, обратившись к энциклопедическому словарю «Языкознание». В библиотековедении предметом многолетних дискуссий является классификация и типология библиотек и выполняемых ими функций. Проблеме разграничению понятия «классификация» и «типология» специально посвящена статья Э.Р. Сукиасяна, глава 5 «Классификация и типологизация библиотек» в учебнике Р.С. Мотульского. Научно-методическое пособие Е.Н. Гусевой содержит характеристику рассмотрения проблемы типологии в философии, науковедении и науках, смежных с библиотековедением, а также результаты сопоставительного анализа понятий «типология» и «классификация». В рамках нашего курса речь пойдет о классификации и типологии ИПЯ. Эта проблема является чрезвычайно важной, поскольку отнесение того или иного ИПЯ к определенному классу и типу позволяет определить его наиболее существенные свойства, вскрыть преимущества и ограничения при практическом использовании. В настоящее время существует большое количество различных ИПЯ, и каждый год появляются новые. В этой связи на практике перед работниками библиотечно-информационных учреждений возникает вопрос: какими ИПЯ следует пользоваться, как осуществить их рациональный выбор? Для того, чтобы дать ответ на этот вопрос, необходимо иметь ясное представление о типологии и классификации ИПЯ. В свою очередь, ясность в этом вопросе требует разграничения двух схожих понятий, которые иногда неоправданно используются в специальной литературе как синонимы. Классификация и типология — два родственных понятия. Границы между классификацией и типологией во многом условны и применение их в определенных областях знания в большой мере зависит от исторических традиций. Тем не менее, классификация и типология, при всей их схожести, это не одно и то же. Докажем этот тезис на примере классификации и типологии ИПЯ. Прежде всего, введем понятия «класс» и «классификация». Класс (от. лат. Сlassis  разряд, класс) — это совокупность объектов, имеющих один или несколько общих характеристических признаков. Отличительный, характерный признак, по которому производится деление объектов на классы, называется основанием деления. Термин «классификация» ((от лат. classis — разряд, класс и facio — делаю, раскладываю), как минимум, имеет два значения: 1) классификация как процесс — распределение объектов какого-либо рода на взаимосвязанные классы согласно наиболее существенным признакам, присущим предметам данного рода и отличающим их от предметов других родов, при этом каждый класс занимает в получившейся системе определенное постоянное место и, в свою очередь, делится на подклассы; 2) классификация как результат — система соподчинённых понятий (классов объектов) какой-либо области знания или деятельности человека, часто представляемая в виде различных по форме схем (таблиц) и используемая как средство для установления связей между этими понятиями или классами объектов, а также для ориентировки в многообразии понятий или соответствующих объектов. При классификации должны соблюдаться следующие логические требования: 1. Классификация должна производиться только по одному основанию деления. 2. Получаемые в результате деления классы должны исключать друг друга и не должны пересекаться. 3. Деление на классы должно быть адекватным по объему: в классификации должны быть представлены все группы классифицируемых объектов, а не только часть этих объектов. 4. Деление на классы должно быть непрерывным, без логических «скачков». В результате классификации в исходном множестве объектов выделяются все входящие в него классы таким образом, чтобы каждый, принадлежащий исходному множеству объект, попал в один и только в один класс. Важную роль в отображении полученного в итоге классификации логически упорядоченного множества объектов играют цифровые или буквенно-цифровые коды (индексы). Коды (индексы) классов не только обозначают каждое деление, но и показывают его место в общей структуре, наглядно отражают иерархические отношения между объектами, связывают каждое деление с выше- и нижестоящим понятием, показывают взаимосвязи как отдельных объектов, так и их классов. Приведем в качестве иллюстрации классификацию ИПЯ, представленную в средних таблицах ББК в разделе «78.3 Библиотечное дело. Библиотековедение»: 78.36 Каталогизация. Каталоговедение 78.364.1 Систематизация 78.364.11 Классификационные ИПЯ 78.364.111 Универсальные классификационные системы 78.364.111.1 Библиотечно-библиографические классификации (ББК) 78.364.111.2 Государственный рубрикатор НТИ (ГРНТИ) 78.364.111.3 Универсальная десятичная классификация (УДК) 78.364.111.4 Десятичная классификация М.Дьюи (ДКД) 78.364.111.5 Таблицы библиотечной классификации (ТБК) 78.364.111.6 Классификация двоеточием Ш.Р. Ранганатана 78.364.111.9 Другие универсальные классификационные системы 78.364.112 Таблицы классификации для детских и школьных библиотек 78.364.113 Отраслевые классификационные системы 78.364.114 Классификационные системы специального назначения 78.364.115 Классификационные системы для краеведческих фондов и каталогов 78.364.116 Классификационные системы для отдельных видов документов 78.364.2 Предметизация 78.364.21 Предметизационный ИПЯ 78.364.3 Координатное индексирование 78.364.31 Дескрипторный ИПЯ 78.364.7 Индексирование с применением комбинированных ИПЯ Этот пример наглядно демонстрирует важнейшие свойства классификации как инструмента познания: 1) дифференциацию целого (множества различных ИПЯ) на составные, имеющие относительную самостоятельность и независимость классы ИПЯ, выделенные по такому признаку, как вид индексирования: систематизация, предметизация и координатное индексирование. Соответственно, выделяются три самостоятельных класса ИПЯ: 78.364.11 Классификационные ИПЯ 78.364.21 Предметизационный ИПЯ 78.364.31 Дескрипторный ИПЯ 2) отражение состава ИПЯ, входящих в каждый из трех классов языков; 3) отражение отношений (связей) соподчинения отдельных ИПЯ внутри каждого класса ИПЯ; 4) представление отдельных ИПЯ в форме в упорядоченного (систематизированного) множества ИПЯ. Однако приведенный пример с классификацией ИПЯ порождает и ряд вопросов. Во-первых, выделяются три подкласса ИПЯ (классификационный, предметизационный, дескрипторный) при отсутствии в анализируемом классификационном ряду общего для них класса — ИПЯ. Во-вторых, нарушено логическое требование об отнесении классифицируемых объектов в один и только в один класс. Дело в том, что в, этих же средних таблицах ББК мы встречаем понятие ИПЯ и в другом разделе  78.6 Научно-информационная деятельность: 78.653.4 Информационно-поисковые языки (ИПЯ) Виды ИПЯ, требования к ним. Парадигматика и синтагматика в ИПЯ. Ограничение полисемии. Оценка эффективности ИПЯ. □ Классификационный ИПЯ см. 78.364.11 □ Предметизационный ИПЯ см. 78.364.21 □ Дескрипторный ИПЯ см. 78.364.31 Приведенный пример показывает, что на практике построение «идеальной» классификации, абсолютно точно соответствующей перечисленным выше логическим требованиям, весьма затруднительно. Это происходит по следующим причинам: - один и тот же объект может обладать не одним, а несколькими характерными признаками, каждый из которых, во-первых, может служить основанием деления при классификации, а, во-вторых, затрудняет отнесение объекта только к одному классу; - один и тот признак может быть присущ многим объектом, но при этом он может по- разному варьироваться (в разной степени или формах). Поэтому состав признаков, по которым осуществляется классификация, всегда требует тщательного анализа с целью установления их зависимости или независимости друг от друга. Некоторые однородные признаки, между которыми существует зависимость типа иерархической, образуют одну последовательность признаков, другие однородные признаки образуют другую последовательность и т. д., причем, в каждой последовательности признаки располагаются в порядке убывания их универсальности, т. е. возрастания специфичности; - неочевидность того, какой признак классификации является более общим, а какой—более специфическим (для отдельных подмножеств они могут меняться местами). Применительно к задаче упорядочения и систематизации сведений об ИПЯ и их существенных признаках, наряду с классификацией весьма плодотворным логическим приемом является типология. Принадлежность ИПЯ к определенному типу специализированных искусственных языков составляет одну из его важнейших характеристик, позволяет понять его отличительные особенности, достоинства и недостатки, показать область применения. Как и в случае с классификацией, прежде чем дать характеристику основных типов ИПЯ, введем понятия «тип» и «типология». Тип (от греч. τυπος — отпечаток, форма, образец)  омонимичный термин, имеющий различные значения: - высшее подразделение в систематике животных и растений, объединяющее родственные классы (биология); - особенности психологического склада, присущие людям определённой национальности; характер внешности, облик человека, связанный с его этнической принадлежностью (этнография); - художественный образ, содержащий характерные, обобщённые черты какой-либо группы людей (литература, искусство); - человек оригинального склада, отличающийся какими-нибудь характерными особенностями во внешности, в поведении, в образе мыслей и т. п. ( психология, социология). В рамках данной лекции под типом будем понимать форму, вид чего-либо, обладающее существенными качественными признаками; а также образец, модель которому соответствует известная группа предметов, явлений. Соответственно, тип ИПЯ  это модель, заключающая в себе признаки, повторяющиеся в большом ряде других, подобных ей ИПЯ. Эти признаки называются типичными. Типология (от греч. τυπος — отпечаток, форма, образец и logos — слово, учение) — это научный метод, основа которого — расчленение системы объектов и их группировка с помощью обобщенной модели или типа. Цель типологии — сравнительное изучение существенных признаков, связей, функций, отношений, уровней организации объектов. Типология опирается на выявление сходства и различия изучаемых объектов, на поиск надёжных способов их идентификации, а в своей теоретически развитой форме стремится отобразить строение исследуемой системы, выявить ее закономерности, позволяющие предсказывать существование неизвестных пока объектов. Следовательно, отнесение того или иного ИПЯ к определенному типу позволит определить его наиболее существенные свойства, вскрыть преимущества и ограничения в сфере употребления. Для того чтобы дать характеристику основных типов ИПЯ, примем в качестве обязательного утверждение, что требование отнесения какого-либо ИПЯ к тому или иному типу не должно выполняться целиком для всех без исключения явлений данного языка, т. е. «нет правил без исключения». Таким образом, в дальнейшем рассмотрении будем ориентироваться не на то, каков ИПЯ весь, а на то, что для него наиболее характерно. Одним из характерных признаков, позволяющих выделить два разных типа ИПЯ, является способ построения лексических единиц. Построение лексических единиц ИПЯ может осуществляться двумя способами: во-первых, использование в качестве лексических единиц специальных кодов, во-вторых, использование в качестве лексических единиц слов и словосочетаний естественного языка. Именно на основании этого признака различают кодированные и словарные ИПЯ. Кодированные ИПЯ — это ИПЯ, лексический состав которых представлен кодами (индексами). План выражения лексических единиц в этих ИПЯ не совпадает с планом содержания. Поэтому кодированные ИПЯ обязательно располагают специальными двуязычными словарями, позволяющие коды ИПЯ переводить на естественный язык и обратно. В качестве таких словарей обычно выступают таблицы классификации, располагающие алфавитно-предметным указателем, обеспечивающим переход с естественного языка на какой-либо кодированный ИПЯ. Так устроены ДКД, УДК, ББК, МПК и многие другие классификаторы, рубрикаторы. Понятие «кодированные ИПЯ» находится в отношении пересечения с понятием «классификационные ИПЯ». Классификационные ИПЯ  это ИПЯ, предназначенные для индексирования документов (частей документов) и информационных запросов посредством понятий и кодов какой-либо классификационной системы. Как следует из этого определения, классификационные ИПЯ могут оперировать при индексировании как понятиями, так и кодами. Понятиями оперирует такой классификационный ИПЯ, как алфавитно-предметная классификация (АПК) —классификация, представляющая собой систему классов, расположенных в алфавитном порядке их имен. Однако этот классификационный ИПЯ не использует в своем составе коды, его основной лексической единицей является предметная рубрика, выраженная словесно. Классификационные кодированные ИПЯ включают в свой состав иерархические и фасетные классификации. Иерархические классификации — это классификации, в которых все понятия связаны отношениями подчинения (иерархии) и соподчинения, и образуют единую классификационную схему, представленную в виде иерархического древа. Иерархические классификации могут быть представлены в форме таблиц классификации, рубрикаторов, классификаторов. Фасетная классификация — это неиерархическая классификация, дающая возможность, в отличие от иерархических классификаций, классифицировать объекты не по одному, а одновременно по нескольким различным признакам. Это такая система, при которой классифицируемое множество образует независимые группировки (фасеты), выделенные одновременно по различным признакам. Каждый объект при этом может быть отнесен к нескольким классам (фасетам), по разным основаниям деления. Вместе с тем, фасетная классификация, как и иерархическая, имеет кодированный характер. Характерной чертой всех кодированных ИПЯ является наличие кодовых эквивалентов их лексических единиц. Введение кодов (индексов), т. е. сочетаний цифр, букв и других символов (или смешанных комбинаций), имело целью обеспечить процесс индексирования удобным для работы инструментом — лексическими единицами постоянной (или по крайней мере ограниченной) длины. Преимущество кодов заключается в том, что они идентифицируют (т. е. однозначно определяют) понятия, выраженные любым способом — как отдельными словами, так и словосочетаниями, вплоть до назывных предложений. Именно коды—по отдельности или в виде сочетаний— являются результатом индексирования сообщений на базе классификационных кодированных ИПЯ и представляют собой поисковые образы документов, фактов, или запросов. Эквиваленты кодов, представленные на естественном языке в специальных таблицах (например, таблицы УДК, таблицы ББК и др.), обеспечивают возможность взаимодействия человека с информационной системой путем кодирования и декодирования понятий. Благодаря кодированию и декодированию рубрик существенно ускоряется проведение поиска, т. е. перебор и сравнение поисковых образов документов (фактов) с поисковым предписанием в условиях как ручного, так и автоматизированного поиска информации. Для кодированных ИПЯ, имеющих международный характер, например, для ДКД, УДК, МПК характерна независимость кодов от национального языка. Цифровые или буквенные коды (индексы классификационных рубрик) этих ИПЯ понимаются во всех странах одинаково. В зависимости от наличия структурирования различают ИПЯ со структурированными кодами и ИПЯ с неструктурированными кодами. Структурированные коды — это коды, в структуре которых отражаются иерархические отношения между понятиями. Например, такие ИПЯ как ДКД, УДК, МПК, ББК, ГРНТИ и др., обладают структурированными кодами. Для структурирования кодов, как правило, используется знак точки. Структурирование кодов позволяет сделать их мнемоничными, т. е. обеспечить возможность легкого запоминания кодов людьми. Например, в ГРНТИ структурирование кодов осуществляется путем разделения знаков кода попарно точкой, например: 20.17.15 Виды источников информации. Неструктурированные коды, то есть коды, отражающие только порядок следования понятий в классификационной системе, и не выражающие других связей между ними, присущи таким ИПЯ, как языки-идентификаторы (языки ISBN, ISSN, ISRN, ISMN, ISRC), языки штрих-кодов, классификаторам, основанным на порядковой системе кодирования. Такие неоспоримые достоинства кодированных классификационных ИПЯ, как привычность, значительный опыт использования, обозримость систематики, информативность кодов и др., обусловили их широкое применение во многих областях не только библиотечно-информационной, но и патентной, архивной, книготорговой и издательской деятельности. Однако «жесткость» структуры, слабая приспосабливаемость к меняющемуся характеру решаемых с помощью кодированных классификационных ИПЯ задач, предопределили необходимость разработки другого типа ИПЯ — словарного или вербального. Словарный (вербальный) ИПЯ — это ИПЯ, использующий для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме. К словарным ИПЯ относятся язык предметных рубрик, язык «Унитерм», язык ключевых слов, дескрипторный ИПЯ, язык библиографического описания (ЯБО). Язык предметных рубрик или предметизационный ИПЯ — словарный ИПЯ, предназначенный для индексирования документов (частей документов) и информационных запросов посредством предметных рубрик. Возник в библиотеках, используется для предметизации документов, ведения предметного каталога и обеспечения предметного поиска. Язык «Унитерм» (от английского unit term, что означает «единичный термин», «отдельное слово») — это словарный ИПЯ, лексическими единицами которого являются унитермы, то есть полнозначные, имеющие большую смысловую нагрузку (в отличие от служебных слов, предлогов и союзов) слова, которое выбирается из текста документа или запроса. В качестве унитермов могут выступать только отдельные слова, но не словосочетания. Язык «Унитерм» неразрывно связан с историей автоматизации информационного поиска, он является прообразом дескрипторных ИПЯ и в настоящее время практически не используется. Язык ключевых слов — словарный ИПЯ, предназначенный для индексирования документов и информационных запросов посредством ключевых, то есть наиболее информативных, слов. Дескрипторный ИПЯ — словарный ИПЯ, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов. Дескриптор — это лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов. Ключевое слово — это слово, приведенное к стандартной лексикографической форме и используемое для координатного индексирования. Смысл координатного индексирования заключается в передаче содержания документа, запроса или факта путем перечисления ключевых слов или дескрипторов. Дескрипторные языки могут существовать в двух формах: тезаурусной и безтезаурусной. Информационно-поисковый тезаурус (ИПТ) — это нормативный словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц. И язык ключевых слов, и дескрипторный ИПЯ служат для проведения узкотематического поиска в автоматизированных информационных системах. Язык библиографического описания (ЯБО) — это словарный ИПЯ, основными лексическими единицами которого являются элементы библиографического описания, позволяющие на их основе производить информационный поиск. Такими элементами, приведенными в библиографическом описании в строго определенном порядке, являются, например: заголовок (автор(ы), заглавие, год издания и другие данные. Поскольку библиографические описания документов создаются на естественном языке, то лексика ЯБО представлена словами соответствующих национальных языков. ЯБО предназначен для идентификации и разыскания документов, он обеспечивает проведение адресного поиска информации. Общим признаком, объединяющим все словарные (вербальные) ИПЯ, является использование лексики естественного языка и отсутствие кодов. Однако принципы построения и внутренняя структура этих языков весьма различна, достаточно сравнить между собой такие словарные ИПЯ, как язык библиографического описания, язык предметных рубрик и дескрипторный ИПЯ. Вскрыть эту специфику позволит рассмотрение еще одной пары типов ИПЯ, выделяемой на основании такого признака, как способ координации понятий: предкоординатные и посткоординатные ИПЯ. Разделение на предкоординатные и посткоординатные языки является широко известным способом типизации ИПЯ, получившим развитие в 70-80-х годов ХХ в., в частности в работах А. И. Черного, А.В. Соколова, М. А., Довбенко и А. Н.Уманского, в 90-е годы — в учебном пособии В. П. Захарова. Выделение пред- и посткоординатных ИПЯ в классическом труде А. И. Черного базируется на противопоставлении понятий простого и сложного класса, к которым в результате индексирования могут быть отнесены документы или запросы. Простой класс — класс, который характеризуется наличием у его членов только одного общего признака, выражаемого или обозначаемого именем этого класса. Такое имя обычно выражается одним словом или словосочетанием. Например, самолеты, реактивные двигатели. Сложный класс — класс, члены которого обладают не одним общим признаком, а каким-то сочетанием общих признаков. Именами сложных классов являются словосочетания и даже целые фразы. Например, пассажирские самолеты, экспорт реактивных двигателей. Предкоординированные ИПЯ — тип ИПЯ, основной словарный состав которых составлен из имен сложных классов, построенных до индексирования или при индексировании. Посткоординатный (координатный) ИПЯ — тип ИПЯ, которые отличаются тем, что при их использовании поисковые образы документов и поисковые предписания строятся из имен простых классов путем пересечения (логического умножения) этих классов в момент индексирования (потенциально) и информационного поиска (реально). Отличительная особенность языков предкоординатного типа заключается в том, что в них заранее перечислены имена всех основных классов и подклассов, выраженные не только отдельными словами и словосочетаниями, но и, преимущественно, развернутыми словосочетаниями и целыми фразами. В таких словосочетаниях и фразах слова оказываются связанными (координированными) между собой еще до индексирования, т. е. координированными предварительно (предкоординированными). Предкоординированными ИПЯ являются, например, алфавитно-предметная классификация или язык предметных рубрик, а также все кодированные классификационные ИПЯ: ДКД, УДК, МПК, ГРНТИ, ББК, классификаторы, рубрикаторы и др. В основе предкоординатного индексирования лежит принцип выявления тематики всего документа (запроса, факта) в целом и сравнения этой выявленной тематики с заранее заготовленным (предкоординированным) списком лексических единиц ИПЯ, из которых надо выбрать наиболее подходящие по смысл коды (индексы) или предметные рубрики. Посткоординатные (координатные) ИПЯ состоят преимущественно из изолированных слов и словосочетаний, которые объединяются между собой (координируются) только в процессе индексирования. Для уяснения сути этого типа языков принципиально важным является понимание метода координатного индексирования как способа описания смысла документа с помощью выявленных в его тексте наиболее значимых, или ключевых, слов. Типичным примером языков посткоординатного типа являются все словарные ИПЯ, кроме языка предметных рубрик: язык системы «Унитерм», язык ключевых слов, тезаурусные и безтезаурусные дескрипторные ИПЯ. Появление и развитие посткоординатных ИПЯ связано с автоматизацией информационного поиска. Несмотря на существование принципиальных отличий в структуре пред- и посткоординатных ИПЯ, нельзя не сказать о взаимовлиянии и взаимопроникновении этих типов языков. Так, использование знаков плюс и двоеточия при индексировании в УДК, по сути, является попыткой координатного, многоаспектного отражения содержания документов и запросов. В свою очередь, использование систематических и иерархических указателей в составе информационно-поисковых тезаурусов, является примером «проникновения» элементов предкоординатных ИПЯ в посткоординатные. Таким образом, можно сделать вывод, что «в чистом» виде различные типы ИПЯ практически не существуют, тем не менее, каждый тип ИПЯ обладают совокупностью характерных черт, преобладающих в том или ином ИПЯ. Несмотря на сложность и неоднозначность процедур классификации и типологии, следует отметить их безусловную важность и полезность для упорядочения и систематизации знаний об ИПЯ, их возможностях и ограничениях. Сопоставление классификации и типологии позволило выявить черты их сходства и различия. И классификация, и типология направлены на выявление взаимоотношений между различными группами ИПЯ, они позволяют ориентироваться в их реальном многообразии. Определение места конкретного ИПЯ в классификации выявляет его характерные свойства. Классификация и типология могут иметь различные, но взаимосвязанные цели: 1) выявление структурных сходств и различий между ИПЯ; 2) изучение ИПЯ в плане их совместимости — несовместимости; 3) создание научно обоснованной классификации и типологии ИПЯ Классификация ИПЯ позволяет отразить многообразия современных ИПЯ, дает возможность подойти к типологии ИПЯ, характеризующей всю совокупность наиболее значимых функциональных и структурных характеристик ИПЯ. Типология позволяет характеризовать не конкретные ИПЯ, в которых всегда «переплетаются» признаки нескольких типов, а основные функциональные и структурные признаки и тенденции, присущие данному типу языков, группировать ИПЯ на основе их подобия некоторому образцу, который именуется типом. При этом каждый конкретный ИПЯ в большей или меньшей степени приближается к одному из таких эталонов, то есть типов. В отличие от классификации, которая всегда ставит задачу разделения, распределения множества объектов (в нашем случае — ИПЯ) по каким-либо классам, типология, наоборот, несет в себе задачу объединения, интеграции свойств в целостную, непротиворечивую систему на основе объединения важнейших характеристик объекта (ИПЯ), с выработкой положений об органичном единстве признаков, характеризующих данный тип языка. Отличие типологии от классификации состоит также и в том, что типология допускает существование таких явлений, которые не соответствуют ни одному из выделенных типов. Так, например, при характеристике основных типов ИПЯ нами были рассмотрены кодированные и словарные (вербальные) ИПЯ, пред- и посткоординатные ИПЯ. Однако при этом в рассмотрение не вошел такой класс ИПЯ, как объектно-признаковые языки (ОПЯ), которые, представлены в составе многоаспектной классификации ИПЯ. В заключение следует сказать о том, что проблема классификации и типологии продолжает привлекать внимание ученых и специалистов в различных областях знания: философии и логики, естественных науках, библиотековедении и информатике и др. При этом у исследователей, работающих в разных областях знания, существуют различные, зачастую диаметрально противоположные мнения по этому вопросу: от отождествления классификации и типологии до их противопоставления; от признания классификации частным случаем типологии, до трактовки типологии как частного логического приема классификации и т. д. Тем не менее, классификация и типология позволяют упорядочить и обобщить знание об изучаемом множестве объектов. Классификация позволяет представить все многообразие существующих ИПЯ. Выделение типов ИПЯ не просто дает возможность уменьшить количество изучаемых языков, но и облегчить их освоение, поскольку индивидуальные черты гораздо легче усваивать на фоне типологических. Таким образом, классификация и типология делают возможным увидеть во всем объеме многообразие ИПЯ и, в то же время, выявить и понять общие направления их развития. Многоаспектная классификация ИПЯ. Функции ИПЯ Говоря о многообразии современных ИПЯ и тенденции к их постоянному росту, можно провести аналогию с множеством существующих на земном шаре естественных языков и безуспешностью попыток заставить человечество пользоваться одним языком. Несмотря на стремление отдельных энтузиастов создать единый язык типа эсперанто или интерлингвы, люди в разных странах продолжают общаться на своих родных языках. Вместе с тем, эта аналогия нуждается в уточнении. Требуется дать более четкий ответ на вопрос: почему нельзя свести все многообразие существующих ИПЯ (рубрикаторов, классификаторов, дескрипторных ИПЯ и др.) к единому языку, например, одному из международных (ДКД, УДК и т. п.)? Для ответа на этот вопрос имеет смысл попытаться представить максимально полно все существующие многообразие ИПЯ. Поскольку один и тот же ИПЯ может совмещать в себе признаки разных типов, построение непротиворечивой иерархической классификации с непересекающимися классами ИПЯ практически невозможно. Именно множество признаков, которыми обладает ИПЯ, породило многообразие существующих классификаций и типологий ИПЯ. Отметим, что в настоящее время в специальной литературе нет единой классификации и типологии ИПЯ. Сложившиеся в нашей стране подходы к выделению различных типов ИПЯ и построению классификации ИПЯ представлены в работах А. Б. Антопольского, М. А. Довбенко и А. Н Уманского, В. П. Захарова, А. В. Соколова, А. И. Черного. Наилучшим способом представить все многообразие существующих ИПЯ является использование принципов фасетной, то есть многоаспектной классификации. Для того, чтобы получить такую многоаспектную классификацию ИПЯ, сначала выделим характерные признаки (основания деления), которые применимы ко всем (или почти всем) без исключения ИПЯ. Эти признаки представлены в таблице 1. Таблица 1 Признаки (основания деления), служащие для классификации ИПЯ № Признаки, отражающие назначение и функции ИПЯ Признаки, отражающие структуру ИПЯ 1. Объект упорядочения: 8.План выражения лексических единиц 2. Сфера применения: 9. Способ координации понятий 3. Вид информационного поиска: 10.Степен контроля лексики ИПЯ 4. Тематический охват 11.Уровень интеграции лексики :ИПЯ 5. Широта распространения: 12.Степень развитости парадигматических отношений между лексическими единицами ИПЯ 6. Роль (функция) в информационной системе 13. Степень развитости синтагматических отношений между лексическими единицами 7. Ориентация на ручной или автоматизированный поиск информации 14. Наличие типовых делений (признак, характерный для классификационных ИПЯ) Затем, на основании этих признаков, произведем распределение ИПЯ по аспектам (фасетам). В результате мы получим многоаспектную классификацию ИПЯ. Многоаспектная классификация ИПЯ 1. По объекту упорядочения 1.1. Документальные ИПЯ (ДКД, УДК, ББК, ЯБО, ГРНТИ, МПК, ЕКДИ АФ РФ и др.). 1.2. Фактографические ИПЯ (ОПЯ). 1.3. ИПЯ для поиска Интернет-ресурсов (Рубрикаторы, фасетная классификация, язык манипулирования данными, языки поисковых запросов, языки диалога и др.). 2. По сфере применения 2.1. Книгоиздательские и книготорговые классификации, объектом которых является книгоиздательская и книготорговая продукция (КТК, BIC’s Subject Categories and Qualifiers Scheme, Thema и др.). 2.2. Информационные классификации, объектами которых являются различные виды научно-технической и технико-экономической информации (ГРНТИ, рубрикаторы информационных изданий, классификаторы ТЭСИ, классификаторы стандартов и др.). 2.3. Библиотечно-библиографические ИПЯ, объектами которых являются документы библиотечного фонда (ДКД, УДК, ББК и др.). 2.4. Архивные ИПЯ, объектами которых являются архивные документы («Единый классификатор документной информации архивного фонда РФ»). 2.5. Музейные ИПЯ, объектами которых являются музейные предметы. 2.6. Патентные ИПЯ, объектами которых являются изобретения (национальные патентные классификации, МПК). 3. По виду информационного поиска 3.1. ИПЯ, обеспечивающие адресный поиск (ЯБО, языки-идентификаторы, языки штрих-кодов и др.). 3.2. ИПЯ тематического поиска (ДКД, УДК, ББК, отраслевые рубрикаторы, отраслевые тезаурусы). 3.3. ИПЯ предметного поиска (язык предметных рубрик или алфавитно-предметная классификация, проблемные тезаурусы). 3.4. ИПЯ фактографического поиска (ОПЯ, фактографические тезаурусы), классификаторы ТЭСИ). 4. По тематическому охвату 4.1.Универсальные ИПЯ (ДКД, УДК,ББК, ГРНТИ, КПА и др.). 4.2. Политематические ИПЯ (МПК, политематические классификаторы, рубрикаторы, тезаурусы и др.). 4.3. Отраслевые ИПЯ (отраслевые таблицы УДК, ББК, отраслевые классификаторы, рубрикаторы, тезаурусы и др.). 4.4. Проблемные ИПЯ (проблемные классификаторы, рубрикаторы, тезаурусы и др.). 5. По широте распространения 5.1. Международные ИПЯ (ДКД, УДК,МПК и др.). 5.2 Отечественные ИПЯ (ГРНТИ, ББК, общероссийские классификаторы и др.). 6. По роли (функции) в информационной системе 6.1. По роли (функции) в единой информационной системе. 6.1.1..Общесистемные ИПЯ (ДКД, УДК, МПК , ГРНТИ, ББК и др.). 6.1.2. Локальные ИПЯ (локальные классификаторы, рубрикаторы, тезаурусы и др.). 6.2. По роли (функции) в разных информационных системах. 6.2.1 Внутренние ИПЯ. 6.2.2. Внешние. 7. По ориентации на ручной или автоматизированный поиск информации 7.1 ИПЯ, созданные без учета задач автоматизации информационного поиска (алфавитно-предметная классификация или язык предметных рубрик, ДКД, УДК, ББК и др.). 7.2. ИПЯ, созданные с учетом задач автоматизации информационного поиска (язык «Унитерм», язык ключевых слов, дескрипторные ИПЯ, ГРНТИ, языки-идентификаторы, языки международных стандартных номеров, языки штрих-кодов, языки манипулирования данными, языки поисковых запросов, языки диалога и др.). 8. По плану выражения лексических единиц 8.1. Кодированные ИПЯ (ДКД, УДК, МПК, ГРНТИ, ББК, классификаторы, рубрикаторы, языки-идентификаторы, языки международных стандартных номеров, языки штрих-кодов, и др.). 8.2. Словарные (вербальные) ИПЯ (язык «Унитерм», язык ключевых слов, дескрипторный ИПЯ, язык предметных рубрик или алфавитно-предметная классификация, ЯБО). 9. По способу координации понятий 9.1. Предкоординатные (классификационные) ИПЯ (алфавитно-предметная классификация или язык предметных рубрик, ДКД, УДК, МПК, ГРНТИ, ББК, классификаторы, рубрикаторы и др.). 9.2. Посткоординатные (дескрипторные) ИПЯ (язык «Унитерм», язык ключевых слов, тезаурусные и безтезаурусные дескрипторные ИПЯ): 10. По степени контроля лексики ИПЯ 10.1. ИПЯ с контролируемой лексикой (ДКД, УДК, МПК, ГРНТИ, ББК, классификаторы, рубрикаторы, тезаурусы и др.). 10.2. ИПЯ с неконтролируемой лексикой (язык «Унитерм», язык ключевых слов, ЯБО). 11. По уровню интеграции лексики ИПЯ 11.1. ИПЯ с первым уровнем интеграции лексики (язык «Унитерм», язык ключевых слов, дескрипторные ИПЯ). 11.2. ИПЯ со вторым уровнем интеграции (ДКД, УДК, МПК, ГРНТИ, ББК, классификаторы, рубрикаторы, ЯБО и др.). 12. По степени развитости парадигматических отношений между лексическими единицами ИПЯ 12.1. ИПЯ с развитыми парадигматическими отношениями (ДКД, УДК, МПК, ГРНТИ, ББК, классификаторы, рубрикаторы, тезаурусы и др.). 12.2 ИПЯ с неразвитыми парадигматическими отношениями (язык «Унитерм», язык ключевых слов, ЯБО, языки-идентификаторы, языки международных стандартных номеров, языки штрих-кодов и др.). 13. По степени развитости синтагматических отношений между лексическими единицами 13.1. ИПЯ без искусственной грамматики (язык «Унитерм», язык ключевых слов, языки-идентификаторы, языки международных стандартных номеров, языки штрих-кодов и др.). 13.2. ИПЯ с искусственной грамматикой (алфавитно-предметная классификация или язык предметных рубрик, ДКД, УДК, ББК, МПК, дескрипторные ИПЯ и др.). 14. По наличию типовых делений (для классификационных ИПЯ) 14.1. Перечислительные (алфавитно-предметная классификация или язык предметных рубрик, МПК, ГРНТИ, КПА, МКС и др.). 14.2 Комбинационные ИПЯ (ДКД, УДК, ББК, ЕКДИ АФ РФ, BIC’s Subject Categories and Qualifiers Scheme, Thema и др.). Полученная многоаспектная классификация не претендует на полноту и окончательность, тем не менее, она дает возможность увидеть разнообразие современных ИПЯ, их связи и зависимости, общее и специфическое. Многообразие ИПЯ, получившее отражение в этой классификации, отражает тот неоспоримый факт, что каждый ИПЯ предназначен для функционирования в определенных условиях и «заточен» на удовлетворение информационных потребностей и запросов определенного типа. Поэтому попытки свести многообразие существующих ИПЯ к какому-то одному ИПЯ не оправданны. Многоаспектная классификация еще раз подтверждает вывод, что «в чистом» виде различные типы ИПЯ практически не существуют, тем не менее, каждый тип ИПЯ обладают совокупностью характерных черт, преобладающих в том или ином ИПЯ. Совокупность этих характерных, типических черт позволяет выделить функции как конкретных ИПЯ, так и отдельных типов ИПЯ. Функции ИПЯ Функция - одна из наиболее существенных характеристик различных объектов, что определило широкое распространение в науке функционального исследования как одного из основных типов научного познания. Понятие «функция», появившееся в античности (лат. functio  исполнение, совершение), в настоящее время имеет ряд значений: соответствие единиц одного множества единицам другого; роль, значение, назначение объекта; деятельность, работа объекта; способ поведения объекта в системе; проявление свойств объекта. В рамках данной лекции под функцией ИПЯ будет пониматься роль, значение, назначение ИПЯ. Функции ИПЯ в обобщенном виде отражают роль и назначение отдельных типов ИПЯ или отдельных ИПЯ. К числу наиболее важных функций ИПЯ относятся следующие: преобразующая, поисковая, структурирующая, систематизирующая, идентификационная. Поисковая функция — это функция ИПЯ, обеспечивающая разыскание документальной или фактографической информации в соответствии с поступающими в библиотеку или иную информационно-поисковую систему информационными запросами пользователей (адресными, уточняющими, тематическими, фактографическими, аналитическими). Поисковую функцию реализуют все ИПЯ без исключения. Преобразующая функция — это функция, предусматривающая изменение характеристик исходного объекта (документа, запроса, факта) с целью последующего поиска информации. Преобразующая функция также присуща всем ИПЯ и реализуется в процессе индексирования — то есть в ходе преобразования, перевода какого-либо сообщения (документа, запроса, факта) с естественного на искусственный, формализованный язык. Наряду с ИПЯ преобразующую функцию реализуют также методики индексирования и методы формализованного представления информации, методики библиографического описания, лингвистические процессоры. Структурирующая функция или функция структурирования (от лат. structure — строение, расположение, порядок) — это функция, обеспечивающая разделение однородных объектов (документов, запросов, фактов) по некоторым признакам (параметрам, критериям) и демонстрацию их взаимного расположения и связи. Функция структурирования характерна, прежде всего, для иерархических классификационных языков (ДКД, УДК, ББК, МПК, ЕКДИ АФ РФ, рубрикаторов, классификаторов и др.). С их помощью реализуется упорядочение и структурирование различных информационных массивов: библиотечных, архивных, музейных, патентных и других фондов, информационных изданий, электронных информационных ресурсов и т. д. Функцию структурирования могут выполнять и другие типы ИПЯ, например, алфавитно-предметная и фасетная классификация, язык библиографического описания, а также форматы представления данных в машиночитаемой форме. Функция структурирования тесно связана с функцией систематизации. Систематизирующая функция или функция систематизации (греч. systema — буквально означает «целое из составных частей») — это функция ИПЯ, обеспечивающая объединение однородных объектов по некоторым признакам (параметрам, критериям) и установление определенного порядка. В наибольшей степени систематизирующая функция присуща иерархическим классификационным ИПЯ (ДКД, УДК, ББК, МПК. рубрикаторам, классификаторам и др.). Именно эта способность иерархических классификаций обеспечила возможность создания и ведения систематических каталогов и картотек, систематизации информационных массивов и информационных изданий и т. д. Функция систематизации неразрывно связана с функцией структурирования. Идентификационная функция (от ср. лат. identificare — отождествлять, уподоблять, устанавливать совпадение) — это функция ИПЯ, обеспечивающая установление тождественности объектов (документов, фактов) на основании тех или иных признаков. Наличие идентификационной функции означает, что ИПЯ обладает способностью однозначно опознать объект среди множества ему подобных. Например, язык библиографического описания (ЯБО) позволяет опознать, идентифицировать конкретный документ среди множества других документов. При этом он дает возможность не только различать документы, принадлежащие разным авторам, но и выделить варианты переиздания одного и того же документа. Кроме ЯБО идентификационную функцию выполняют также языки-идентификаторы: международные стандартные номера книг (ISBN), сериальных изданий (ISSN), отчетов (ISRN), музыкальных произведений (ISMN), звукозаписей (ISRC) и т. п., языки штрих-кодов и др. Общими для всех без исключения ИПЯ функциями, как уже отмечалось, являются поисковая и преобразующая. Это вытекает из определения ИПЯ как искусственного языка, предназначенного для описания содержания документов, запросов, фактов с целью последующего поиска информации. Вместе с тем функции разных типов ИПЯ существенным образом отличаются: иерархические классификационные ИПЯ служат для структурирования и систематизации потоков информации и обеспечения тематического поиска, язык предметных рубрик дает возможность вести предметный поиск, дескрипторные ИПЯ служат для проведения узкотематического, поиска, ОПЯ — для фактографического поиска, ЯБО обеспечивают идентификацию документов и т. п. В таблице 2 наглядно показано соотношение между типом ИПЯ и их функциями. Таблица 2 Зависимость между типом ИПЯ и их функциями ИПЯ Функция Содержание функции Иерархические классификационные ИПЯ Структурирующая Структурирование информационных массивов, в т.ч. информационных изданий Систематизирующая Систематизация информационных массивов, в т.ч. информационных изданий Преобразующая Индексирование (систематизация документов и запросов Поисковая Обеспечение широкотематического поиска Вербальные ИПЯ (Язык предметных рубрик, дескрипторный ИПЯ) Поисковая Обеспечение предметного и узкотематического поиска Преобразующая Предметизация и координатное индексирование документов и запросов ОПЯ Поисковая Обеспечение фактографического поиска Преобразующая Индексирование фактов и фактографических запросов ЯБО Идентификационная Обеспечение идентификации документов Преобразующая Подготовка библиографического описания Поисковая Обеспечение адресного поиска Языки иденттификаторы Поисковая Обеспечение адресного поиска Идентификационная Обеспечение идентификации документов Таким образом, выделяются функции, общие для всех типов ИПЯ. Это поисковая и преобразующая функции, они свойственны всем ИПЯ без исключения, т.к. все ИПЯ предназначены для поиска информации на основе индексирования, то есть преобразования поступающих в информационную систему документов и запросов. Однако для каждого типа ИПЯ характерны наряду с общими, еще и специфические функции. Так, иерархические (кодированные) ИПЯ наилучшим образом позволяют выполнять функции систематизации и структурирования информационных массивов (систематизирующую и структурирующую функции). Словарные ИПЯ в рамках поисковой функции обеспечивают решение задач узко тематического и предметного поиска информации. Вместе с тем, в пределах разных типов ИПЯ выделяются отдельные языки, выполняющие одинаковые функции. Так, поиск фактографической информации можно осуществлять как с помощью вербальных языков, например, фактографических тезаурусов, так и кодированных ИПЯ, например, классификаторов ТЭСИ. Идентификационную функцию выполняет не только ЯБО, относящийся к вербальным ИПЯ, но и языки-идентификаторы, языки штрих-кодов, входящие в состав классификационных (кодированных) ИПЯ и т. д. Несмотря на сложность и неоднозначность процедур классификации и типологии, следует отметить их безусловную важность и полезность для упорядочения и систематизации знаний об ИПЯ, их возможностях и ограничениях. Так, классификация ИПЯ в зависимости от плана выражения лексических единиц, способа координации понятий, степени контроля и уровня интеграции лексики, степени развитости парадигматических и синтагматических отношений между лексическими единицами ИПЯ дают возможность раскрыть особенности отдельных ИПЯ с позиций их внутренней организации, т. е. структуры. Классификация ИПЯ по объекту упорядочения, сфере применения, виду информационного поиска, тематическому охвату, широте распространения, роли (функции) в информационной системе и ориентации на ручной или автоматизированный поиск информации, позволяют дать представление о назначении ИПЯ, раскрыть роль ИПЯ сквозь призму выполняемых им функций и сфер употребления. Анализ многообразия современных ИПЯ и выполняемых ими функций позволяет дать ответ на вопрос о причинах невозможности сведения всего множества существующих ИПЯ (рубрикаторов, классификаторов, дескрипторных ИПЯ и др.) к единому языку, например, одному из международных ИПЯ. Причина многообразия ИПЯ кроется в многообразии задач, которые они призваны решать в рамках широкого круга информационно-поисковых систем различного назначения, специфичности информационных объектов, для упорядочения и поиска которых они создаются. Резюме Классификация и типология является мощными инструментами познания, позволяющими упорядочить и обобщить знание об изучаемом множестве объектов. Принадлежность ИПЯ к той или иной группе или типу языков составляет одну из его важнейших характеристик, позволяет понять его отличительные особенности, достоинства и недостатки, область применения. Построение «идеальных», непротиворечивых классификаций ИПЯ весьма затруднительно в силу сложности и многоаспектности самих объектов классификации, каждый из которых обладает несколькими существенными признаками. Тем не менее, классификация позволяет представить все многообразие существующих ИПЯ и выявить их соотношение. Выделение типов ИПЯ позволяет выявить наиболее характерные признаки для определенной группы языков, определяющие их достоинства и ограничения, области применения. Классификация и типология ИПЯ взаимодополняют друг друга, позволяя представить все многообразие ИПЯ, их группировку по различным признакам и отличительные особенности как отдельных типов, так и конкретных ИПЯ. Многообразие задач, которые призваны решать различные ИПЯ в рамках широкого круга информационно-поисковых систем различного назначения, специфичность информационных объектов, для упорядочения и поиска которых они создаются, различные сферы применения, потребность в разных видах информационного поиска - все эти факторы обусловили множество существующих ИПЯ и невозможность их замены каким-либо одним ИПЯ. Разные типы ИПЯ призваны решать разные информационные задачи и выполнять разные функции. Так, иерархические (кодированные) ИПЯ наилучшим образом позволяют выполнять функции систематизации и структурирования информационных массивов (систематизирующую и структурирующую функции). Словарные ИПЯ в рамках поисковой функции обеспечивают решение задач узко тематического и предметного поиска информации. Тем не менее, существуют функции, общие для всех типов ИПЯ. Это поисковая и преобразующая функции, они свойственны всем ИПЯ без исключения, т.к. все ИПЯ предназначены для поиска информации на основе индексирования, то есть преобразования поступающих в информационную систему документов и запросов. Вопросы Назовите черты сходства и отличия между классификацией и типологией. 1. Назовите основания деления для проведения многоаспектной классификации ИПЯ. 2. Что такое «функция ИПЯ»? 3. Какие функции присущие всем типам ИПЯ? Лекция «ДЕСКРИПТОРНЫЕ ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ (ИПЯ)» Общая характеристика дескрипторных ИПЯ Дескрипторный ИПЯ (ДИПЯ, дескрипторный язык) — это ИПЯ, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов. Такое определение ДИПЯ дается в ГОСТ 7.7496 «Информационно-поисковые языки. Термины и определения». Дескрипторный ИПЯ часто определяют также как ИПЯ, лексическими единицами которого являются дескрипторы и ключевые слова, и использование которого основано на принципе координатного индексирования. Уяснение сущности ДИПЯ невозможно без обращения к таким понятиям, как «ключевое слово», «дескриптор», «координатное индексирование». Ключевое слово (КС) — информативное слово, приведенное к стандартной лексикографической форме и используемое для координатного индексирования. Ключевыми являются слова, несущие в тексте наибольшую смысловую нагрузку. Дескриптор — лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов. Дескрипторы используются для координатного индексирования документов и информационных запросов с целью последующего поиска. Разница между ключевым словом и дескриптором обусловлена их принадлежностью к разным типам языков Ключевое слово — это слово или словосочетание естественного языка, которое с точки зрения информационного поиска несет наибольшую смысловую нагрузку. Оно выделяется из текста документа или запроса. Выделение ключевых слов в текстах базируется на таком свойстве естественного языка, как избыточность. Дескриптор — это нормализованное слово, которому искусственным путем придается однозначность. Дескриптор — это лексическая единица искусственного языка — ИПЯ. Сходство ключевых слов и дескрипторов определяется их единой природой: и КС и дескрипторы базируются на лексике естественного языка. Поскольку основными лексическими единицами и языка ключевых слов, и дескрипторных ИПЯ являются слова, а не коды, то такие ИПЯ принято относить к классу вербальных ИПЯ. Вербальный ИПЯ — ИПЯ, использующий для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме. Координатное индексирование — это индексирование путем перечисления ключевых слов или дескрипторов. Координатное индексирование — индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов. Принцип координатного индексирования заключается в том, что основной смысл документа или информационного запроса выражается в виде перечня ключевых слов, то есть наиболее значимых слов или словосочетаний, которые являются как бы координатами документа или запроса. Например, в результате координатного индексирования смысл документа «Ксерография и консервация документов: проблемы и потенциальные возможности» будет передан перечнем таких слов, как документы, ксерография, консервация. А результатом координатного индексирования информационного запроса «Опыт организации социологических опросов в ходе избирательных кампаний в России» явятся ключевые слова социологические опросы, избирательные кампании, Россия. Принцип координатного индексирования, лежащий в основе ДИПЯ, позволяет относить эти языки к классу координатных или посткоординатных ИПЯ (ИПЯ координатного типа). ИПЯ координатного (посткоординатного) типа — ИПЯ, словарный состав которых обладает первым уровнем интеграции, включает в состав лексики преимущественно слова или устойчивые словосочетания, которые объединяются, т. е. координируются между собой в процессе индексирования, а не до него (как в иерархических классификациях). Координация лексических единиц в этих ИПЯ происходит в момент индексирования. При этом порядок следования лексических единиц не имеет особого значения и может быть произвольным, в отличие от предкоординатных (иерархических классификационных) ИПЯ, где действуют жесткие правила позиционной грамматики и порядок следования лексических единиц строго определен. В ходе информационного поиска на базе посткоординатных ИПЯ для отыскания нужного документа нужно лишь одно: чтобы названные в поисковом предписании лексические единицы входили в состав поискового образа документа одновременно, т. е. чтобы в пределах одного поискового образа существовала их координация. Таким образом, в отличие от предкоординированных ИПЯ (ДКД, УДК, ББК, МПК, рубрикаторы, классификаторы и т. д.) языки координатного типа оперируют лексикой первого уровня интеграции, что позволяет достичь большей гибкости и многоаспектности при передаче смысла документа или запроса. Принцип координатного индексирования и сама идея создания ДИПЯ возникли в 50-е годы ХХ в. связи с внедрением в информационную деятельность средств вычислительной техники и необходимостью автоматизации информационного поиска. Принцип координатного индексирования был разработан американскими учеными М. Таубе и К. Муэрсом в первой половине 50-х гг. ХХ в. в связи с попытками механизации и автоматизации информационного поиска. В частности, в 1952 г. М. Таубе предложил систему «Унитерм», работающую по принципу координатного индексирования. «Унитерм» (от английского unit term, что означает «единичный термин», «отдельное слово») — это полнозначное, имеющее большую смысловую нагрузку (в отличие от служебных слов, предлогов и союзов) слово, которое выбирается из текста документа или запроса. В качестве унитермов могут выступать только отдельные слова, но не словосочетания. Следовательно, язык системы «Унитерм» характеризуется первым уровнем интеграции лексики. Например, термин информационно-поисковые системы на языке этой системы преобразуется в три унитерма: информационный, поисковый, системы. Использование ИПЯ «Унитерм» наглядно демонстрировало преимущества принципа координатного индексирования: возможность многоаспектного отражения содержания документа или запроса, гибкость и оперативность проведения поиска по запросу с привлечением средств механизации и автоматизации. Однако применение для индексирования лексики естественного языка (авторской терминологии), не устраненная полисемия, омонимия и синонимия в языке «Унитерм» негативно сказывались на качестве поиска информации. Так, в условиях системы «Унитерм» в ответ на запрос Применение лазеров в медицине не был бы выдан документ Использование оптических квантовых генераторов в здравоохранении, хотя обе эти формулировки идентичны по смыслу и имеют лишь различное языковое воплощение в силу синонимичности естественного языка. Приведем в качестве дополнительных примеров следующие пары условно синонимичных выражений, распознавание которых также невозможно с помощью языка «Унитерм»: 1. Устранение дублирования в преподавании цикла языковедческих предметов в вузах. 2. Исключение параллелизма при изучении комплекса лингвистических дисциплин в университетах. 3. Программа развития санаторно-курортного строительства на побережье Черного моря в России. 4. План сооружения здравниц в Крыму и на Кавказе. 5. История кораблестроения в Великобритании 6. Развитие судостроения в Соединённом Королевстве Великобритании и Северной Ирландии. Ликвидация этих недостатков и дальнейшее развитие языка «Унитерм» были реализованы в дескрипторном ИПЯ. Структура и принципы построения дескрипторных ИПЯ Как и в любом другом ИПЯ в структуре ДИПЯ выделяются: алфавит, лексика, парадигматические и синтагматические отношения. Алфавит дескрипторного ИПЯ совпадает с алфавитом того естественного языка, на котором он создается. Дополнительно в его составе могут использоваться арабские и римские цифры, скобки, другие знаки и символы. Лексика дескрипторного ИПЯ в качестве основных лексических единиц включает дескрипторы и аскрипторы. Дескриптор — словарная единица ИПЯ, выраженная словом, словосочетанием или кодом, являющаяся именем класса условной эквивалентности, в который включены эквивалентные и близкие по смыслу ключевые слова. Дескриптор — это нормализованное слово, которому искусственным путем придана смысловая однозначность. Устранение неоднозначности производится путем снабжения многозначных слов соответствующим пояснением — релятором, помещаемым в круглых скобках в конце дескриптора или аскриптора: Лицо (часть тела), Лицо (субъект права); Акт (документ), Акт (действие). Устранение синонимии достигается за счет использования ссылок с (синоним) и см (смотри): Аскриптор (недескриптор, нондескриптор) — лексическая единица в информационно-поисковом тезаурусе, которая не может быть использована для координатного индексирования и подлежит замене одним или несколькими заменяющими ее дескрипторами (2). Аскрипторы всегда сопровождаются ссылками на заменяющие их дескрипторы, включая такие, как см (смотри), исп к (используй комбинацию), исп а (используй альтернативно). Например: Токсины См. ЯДЫ ЯДЫ с Токсины Исходя из состава лексики дескрипторный ИПЯ может рассматриваться как словарный ИПЯ, обладающий лексикой первого уровня интеграции, план выражения и план содержания лексических единиц которого совпадают. Парадигматические отношения в дескрипторном ИПЯ представлены в явном виде, эксплицитно, с помощью системы ссылок и помет и реализуются в структуре словарной статьи. Различают дескрипторную и аскрипторную словарные статьи. Дескрипторная статья состоит из заглавного дескриптора, списка дескрипторов и аскрипторов, семантически связанных с ним, с указанием вида связи. В рамках дескрипторной статьи термины располагаются в следующем порядке: заглавный дескриптор — дополнительные данные (частота использования дескриптора, кодовый номер дескриптора, код дескриптора по систематическому указателю, лексикографические пометы, иноязычные эквиваленты) — лексическое примечание — аскрипторы или дескрипторы-синонимы — вышестоящие дескрипторы — нижестоящие дескрипторы — ассоциативные дескрипторы — дескрипторы, связанные другими видами отношений. Внутри каждой группы лексических единиц, связанных с заглавным дескриптором одним видом парадигматических отношений, должен быть алфавитный порядок расположения. Приведем пример дескрипторной статьи: ПАСТБИЩА с Выгоны Выпаса в Угодья кормовые Угодья сельскохозяйственные н Пастбище естественное Пастбище культурное долголетнее а Залужение Травостой Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов: Несовпадение рисунка см РАСТРАФ Русские тексты исп к РУССКИЙ ЯЗЫК ТЕКСТЫ Сильные парадигматические отношения в дескрипторном ИПЯ представлены отношениями синонимии и иерархии. Слабые (ассоциативные) парадигматические отношения могут включать все виды связей, кроме синонимии и отношения «род — вид». Они могут быть установлены между дескрипторами в том случае, если понятия, выражаемые этими дескрипторами, находятся в отношениях одного из следующих типов: часть — целое; причина — следствие; сырье — продукт; административная иерархия; процесс — объект; процесс — субъект; функциональное сходство; свойство — носитель свойства; антонимия. В рамках словарной статьи дескрипторного ИПЯ используются как сильные, так и слабые парадигматические отношения, выраженные с помощью ссылок (см. таблицу 1). Таблица 1 Ссылки в дескрипторном ИПЯ № Тип Обозначение Значение 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Ссылка от аскриптора к дескриптору Ссылка от дескриптора к синонимичному дескриптору или аскриптору Ссылка от аскриптора к нескольким альтернативно заменяющим его дескрипторам Ссылка от аскриптора к заменяющей его комбинации дескрипторов Ссылка от дескриптора к вышестоящему дескриптору Ссылка от дескриптора к вышестоящему родовому дескриптору Ссылка от дескриптора к нижестоящему дескриптору, обозначающему целое Ссылка от дескриптора к нижестоящему дескриптору Ссылка от дескриптора к нижестоящему дескриптору, обозначающему вид Ссылка от дескриптора к нижестоящему дескриптору, обозначающему часть Ссылка от дескриптора к ассоциативно связанному дескриптору см с исп а исп к в вр вц нч нв нч а смотри синоним используй альтернативно используй комбинацию выше выше-род выше-целое ниже ниже-вид ниже-часть ассоциация Характеризуя парадигматические отношения, представленные в дескрипторном ИПЯ, следует подчеркнуть, что они очень часто определяются не из строго научных, а из прагматических соображений. Разные тезаурусы могут устанавливать для одного и того же дескриптора разное число парадигматических связей, причем качественная трактовка этих отношений может оказаться различной: некоторое отношение в одном тезаурусе признается ассоциативным, а в другом — родо-видовым и т. п. В таблице 2 для сравнения приводятся аналогичные дескрипторные статьи из трех отраслевых информационно-поисковых тезаурусов (ИПТ). В приведенном примере наглядно видна разница в составе одной и той же дескрипторной статьи. Так, дескрипторная статья ИПТ по электротехнике включает наибольшее количество дескрипторов — 50 терминов, исчерпывающим образом характеризующих виды контрольно-измерительных приборов. Таблица 2 Прагматический характер установления парадигматических отношений в ИПТ Дескрипторная статья Тезаурус информационно-поисковый по сельскому хозяйству по технологии машиностроения по электротехнике Приборы контрольно-измерительные н — Весы — Влагомеры Водомеры Датчики Динамометры Счетчики с КИП а Аппаратура контрольно-измерительная Измерители Счетчики Устройства измерительные Шкалы с КИП н — Акселерометры • Анализаторы • Барометры • Болометры • Виброметры • Влагомеры • Дальномеры • Датчики • Дефектоскопы • Индикаторы • Интерферометры • Искатели повреждений Калориметры Логометры Манометры Микрометры Осциллоскопы Пироскопы . . . . . . . . . . . . . . • Счетчики Тензометры Термопары • Указатели (устройства) Фотоколориметры Щупы Электрометры Синонимия в ИПТ также чаще всего является условной. Именно прагматические соображения определяют и формирование классов условной эквивалентности в ИПТ. Так, в нефтегазовом тезаурусе (АСНТИ «Нефть-2») в пределах дескрипторной статьи объединяются следующие лексические единицы: СВАРКА с Автоген Газосварка Сварка ацетиленовая Электросварка Сварка дуговая в Соединение (процесс) Совершенно очевидно, что ни в тезаурусе любой машиностроительной отрасли, ни тем более в проблемном ИПТ по сварке сведение в один класс этих терминов совершенно недопустимо. Однако в АСНТИ «Нефть-2» все эти слова были необходимы только для обозначения некоторого вида соединения, в то время как более тонкие технологические нюансы этого процесса остаются вне сферы информационных потребностей абонентов. В ИПТ по технологии машиностроения, подготовленном Кемеровским ЦНТИ, приводится, например, следующая дескрипторная статья: БОЧКИ с Кадки в Тара жесткая н Бочки деревянные Бочки металлические Однако в русском языке слова «бочки» и «кадки» не являются синонимами. Словарь С.И Ожегова дает такие определения этих двух разных видов тары: «Бочка — большой цилиндрический сосуд, чаще деревянный с двумя днищами и обычно с немного выгнутыми боками». «Кадка — бочка с прямыми боками и одним днищем». Таким образом, в ИПТ эксплицитно представлены не все парадигматические отношения, существующие в естественном языке, а только такие, которые наиболее часто используются людьми, когда они хотят что-то определить, описать и выразить, и которые по этой причине наиболее важны для полноты повышения информационного поиска. Следовательно, условный характер парадигматических отношений в ИПТ вытекает из задач информационного поиска в конкретной области знаний, отрасли народного хозяйства. Синтагматические отношения в дескрипторном ИПЯ выражаются с помощью мешочной грамматики, позиционной грамматики и таких ее вариантов, как «метод стандартных фраз», аспектный (анкетный, матричный) способ представления информации, указатели роли и указатели связи, операторы булевой алгебры И, ИЛИ, НЕ. Тезаурус как способ систематизированного представления знаний и разновидность идеографического словаря Понятие «тезаурус»: сущность, отличительные особенности Тезаурус (от греч. thesauros — клад, сокровище, сокровищница) — многозначное слово, имеющее, как минимум, два значения: 1) тезаурус как идеальный объект — это «совокупность знаний, накопленных человеком или некоторым коллективом. Это упорядоченный и отраженный в сознании человека «лексикон», «мир» отдельной личности. В русском языке наиболее адекватный перевод слова «тезаурус» — это «мир знаний и интересов». Например, «мир знаний и интересов ребенка — тезаурус ребенка» и «мир знаний и интересов взрослого — тезаурус взрослого»; «мир знаний и интересов художника — тезаурус художника», «мир знаний и интересов бизнесмена — тезаурус бизнесмена» и т. п. В теории информации тезаурусом называют запас знаний (понятий, суждений), размещенных в памяти воспринимающего информацию субъекта. Это структурированное знание в виде понятий и смысловых отношений между ними, 2) тезаурус как материально существующий объект — словарь. Тезаурус — это словарь особого типа или идеографический словарь, в котором слова располагаются не по алфавиту, а по степени смысловой близости. Лексика языка представлена в них в виде систематизированных групп слов, в той или иной степени близких в смысловом отношении (синонимы, гиперонимы, гипонимы, антонимы, паронимы и др.). Тезаурус представляет собой упорядоченную совокупность лексических единиц, в которой в явном виде с помощью специальных помет отражены смысловые отношения (синонимические, родовидовые и ассоциативные) между лексическими единицами. Иными словами, упорядочение лексики в тезаурусе осуществляется не по алфавитному или другому формальному признаку, а по смысловому (семантическому). В основе построения идеографических словарей лежит логическая классификация всего понятийного содержания лексики. Систематизация слов в таких словарях основана на психологических ассоциациях предметов и понятий, называемых какой-либо лексической единицей. Лексические единицы группируются в семанические поля, в центре каждого из которых стоит слово, объединяющее другие слова, в той или иной степени близкие ему по значению или ассоциирующиеся с ним по смыслу (например: насекомое — муха, пчела, муравей, бабочка; ползать, летать, прыгать...). Как правило, слова и словосочетания внутри поля кратко толкуются таким образом, чтобы было видно, чем каждое из них отличается от всех других членов поля. Слова или словосочетания группируются на основании общности обозначаемых ими явлений действительности по определённым темам, например, «Животные», «Насекомые», «Дом», «Театр», «Улица», «Транспорт» и т. д. Так, в идеографическом словаре русского языка О. С. Баранова выделены 12 высших разделов идеографического словаря, среди которых: «порядок, природа, человек, деятельность, общество, культура» и др., каждый из которых делится на группы, подгруппы, отделы, разделы. Все слова в этом словаре собраны в гнезда по смыслу и группируются вокруг некоторого понятия, с которым они связаны чаще всего видовыми отношениями. Гнезда в свою очередь группируются в подразделы и т. д. Большинство гнездовых понятий имеют определения с явным указанием рода и вида (родовых и видовых сем). Приведем пример словарной статьи из этого словаря: 183.4.7 аромат ▲ запах ↑ ароматный аромат - приятный запах (например, запах цветов, травы, сена, нежный, пьянящий). ароматизация благоухание, благоухать благовоние амбре, фимиам Код слова «аромат» отражает принятую в данном словаре идеографическую классификацию, в частности, соотнесенность данного слова с категорией «183- Ощущения». Таким образом, термины «тезаурус», «идеографический словарь», «словарь типа тезаурус», в первую очередь означают, что совокупность слов языка в них представлена таким образом, что в одну группу слов входят слова, близкие по смыслу. Основное назначение идеографических словарей — описать совокупности лексических единиц, объединённых общим понятием; это облегчает читателю выбор наиболее подходящих средств для адекватного выражения мысли и способствует активному владению языком. Из истории тезаурусов. История возникновения тезаурусов восходит к великим мыслителям древности и, прежде всего, к Аристотелю. Ему принадлежат слова, возраст которых 2,5 тыс. лет: «Из сказанного без какой-либо связи, каждое (слово) означает или сущность, или «сколько», или «какое», или «по отношению к чему-то», или «где», или «когда», или «находиться в каком-то положении», или «обладать», или «действовать», или «претерпевать». Одной из наиболее древних попыток идеографических классификаций является труд Аристофана Византийского (директор Александрийской библиотеки, умер в 180 г. до н.э.). Во 11 в. н.э. появляется работа Юлия Поллукса «Ономастикон», составленная на материале греческого языка. Это словарь, состоящий из 10 книг. Каждая книга содержала слова, относящиеся к определенной теме. Например, в первой — слова, относящиеся к богам и царям; в седьмой — к теме «торговля», в десятой — к теме «утварь». Слова в этом словаре сопровождались краткими толкованиями. Между II и III в н.э. появляется санскритский словарь «Амарокоша», который содержал около 10 тыс. слов и состоял из трех книг, каждая из которых делилась на главы, главы — на секции. Так, первая книга была посвящена небу, богам и всему тому, что с ними связано. В ней имелись секции «времена года», «небесный свод» и т. п. Вторая книга содержала слова, относящиеся к земле, растительному и животному миру и человеку. Для лучшего запоминания толкования давались в стихотворной форме. Сам термин «тезаурус» был применен впервые в ХIII в. флорентийским ученым Брунетто Латини, который использовал его в заголовке своего труда — систематизированной энциклопедии, назвав ее «Книга о сокровище». Это вполне соответствовало семантике употребленного слова «Thesauros», т.е. «сокровище», «богатство», «запас». Современный этап истории идеографических словарей открывается работой П.М. Роже «Тезаурус английских слов и выражений» (1852 г.) Его тезаурус — это глубоко структурированная система, восходящая к самым общим категориям: абстрактные отношения, пространство, материя, дух. Всю понятийную область английского языка Роже разбивает на 4 класса: абстрактные отношения, пространство, материя и дух (разум, воля, чувства). Далее эти категории делятся на 24 класса, классы — на подклассы и т. д. Классы распадаются на категории, категории — на секции, секции — на группы. Всего у Роже 1000 понятийных групп, в каждую из которых он собирает слова, близкие по смыслу. Так, есть понятийные группы «рождение», «житель», «помещение», «удовлетворение». Почти в то же время (1862 г.) появился «Аналогический словарь французского языка» Буасьера. Отобрав две тысячи слов французского языка, которые составляют активный словарь (слова повседневного употребления), и, взяв каждое такое слово за основу, Ж. Галтье-Буасьер, собирает все слова, семантически с ним связанные. Интересные классификационные схемы, положенные в основу наиболее значительных идеографических словарей прошлого («Амарокоша», «Ономастикон», тезаурус П. М. Роже и др.) приводятся в разделе «Тезаурус» на сайте Rhymes. Области применения тезаурусов. Помимо применения в сфере информационных технологий и автоматизированной обработки текста тезаурусы могут быть использованы в различных областях гуманитарного знания: образование, журналистика, философия, культурология, право, социология, психология, лингвистика, а также при решении ряда прикладных задач в психиатрии, психодиагностике, криминалистике, рекламе, PR-технологиях, а также в целом ряде других областей знания и практической деятельности. Дадим краткую характеристику некоторым из этих областей применения. Обобщенное представление об основных областях применения современных тезаурусов в зависимости от их функционального назначения дает приведенная ниже таблица 3. Таблица 3 Основные области применения тезаурусов № Функциональное назначение тезауруса Область применения 1. Средство описания объектов (фактов, концепций, документов, музейных экспонатов и т. п.), инструмент информационного поиска АИС, Библиотеки, Музеи Архивы 2. Средство представления систем знаний (онтологий), отраженных в естественном языке Информатика, Компьютерная лингвистика Искусственный интеллект Инженерия знания 3. Инструмент теоретических исследований Семантика, Лингвистика Философия (Гносеология ), Культурология (межкультурные коммуникации), Социология Политология 4. Средство описания и упорядочения терминологии в какой-либо предметной области Терминоведение 5. Учебное пособие Система образования 6. Средство создания словесных и психологических портретов людей Психодиагностика, Криминалистика 7. Словарь, терминологический справочник Журналистика, Издательское и редакторское дело, Практика перевода, Система образования 8. Инструмент поиска средств воздействия на массовое сознание СМИ, PR-технологии, Реклама Основные категории пользователей тезаурусов. Назвать все области применения тезаурусов сложно, так же как и перечислить все категории специалистов, которым полезно обращение к тезаурусам. Тем не менее, попытаемся условно выделить две основные категории, исходя из противопоставления» «профессиональные» и «непрофессиональные» пользователи тезаурусов. Тезаурусы представляют собой ценный вид словарей, крайне необходимых широкому кругу пользователей, работающих со словом профессионально: лингвисты, писатели, поэты, журналисты, переводчики, редакторы, преподаватели-словисты, работники служб информации и библиотек и целый ряд иных специалистов. Для лингвистов тезаурусы являются источниками лингвистической информации и инструментом для описания и изучения языковой способности человека. Поэтому масштаб исследовательских задач, которые могут решаться лингвистами на базе тезаурусов чрезвычайно широк: извлечение знаний из текстов, компьютерный анализ документов, реферирование, классификация, поиск, машинный перевод, модели общения; коммуникация, диалог и др. Писателям, поэтам, журналистам, переводчикам, редакторам, издательским работникам тезаурусы необходимы при решении профессиональных коммуникативных задач. Этим специалистам, профессионально занятым подготовкой текстов, часто требуются получить ответ на следующие вопросы: как еще можно передать этот смысл другими словами? Какие слова могут сочетаться, а какие — нет? Как образнее, красочнее и точнее передать речь какого-либо персонажа своего произведения, или подыскать нужную рифму в стихе? Ответ на эти вопросы можно найти в тезаурусах, отражающих разнообразные сведения, связанные со словоупотреблением. Работники служб информации, библиотек, архивов, музеев используют информационно-поисковые тезаурусы для индексирования документов, фактов, запросов, описания иных объектов (архивных документов, музейных экспонатов и музейных коллекций) с целью последующего поиска информации. Тезаурусы могут полезны и для специалистов, профессионально занимающихся воздействием слова на массовое сознание, то есть тех, кто работает в сфере PR-технологий, рекламы. В заключение следует подчеркнуть, что тезаурусы как особая разновидность идеографических словарей, первоначально были органически связаны с фундаментальными проблемами познания, отображая представление о мире в целом и закономерностях его постижения средствами естественного языка. В дальнейшем области применения тезаурусов значительно расширились, распространяясь не только на теорию познания и лингвистику, но и на многие прикладные сферы деятельности людей: журналистику, издательское дело, терминоведение, образование, психодиагностику, криминалистику и др. Особое значение проникновение идей тезаурусного подхода имеет для информационной сферы и автоматизированных ИПС, где получили развитие информационно-поисковые тезаурусы, понимаемые как словари для построения поисковых образов документов и запросов, качество которых существенно влияло на качество поиска информации. Информационно-поисковые тезаурусы: назначение, структура и порядок разработки Среди тезаурусов, понимаемых как идеографические словари, в особую группу выделяются информационно-поисковые тезаурусы (ИПТ), появление и развитие которых связано с автоматизацией информационного поиска в середине ХХ в. ГОСТ 7.7496 «Информационно-поисковые языки. Термины и определения» определяет ИПТ следующим образом: «Информационно-поисковый тезаурус (ИПТ) — нормативный словарь дескрипторного ИПЯ с зафиксированными в нем парадигматическими отношениями». ИПТ не следует путать с дескрипторным словарем. Тот же ГОСТ 7.74-96 дает следующее разграничение этих понятий: «Дескрипторный словарь — словарь дескрипторного ИПЯ, в котором приведены в общем алфавитном ряду дескрипторы и их синонимы без указания других отношений лексических единиц. Дескрипторный словарь является упрощенным вариантом ИПТ, в котором зафиксированы преимущественно или только синонимические связи». Таким образом, термин «информационно-поисковый тезаурус» используется для обозначения словаря-справочника, в котором перечислены все лексические единицы дескрипторного ИПЯ с указанием их синонимов, а также явно выражены важнейшие смысловые отношения между дескрипторами». Следует подчеркнуть, что на практике, в инструктивно-методической литературе существует большая путаница в понятийном аппарате. Тезаурусом подчас называют любую классификацию, любой рубрикатор или даже список. Тем не менее, следует отличать ИПТ от словарей синонимов, антонимов и ассоциативных; от компьютерных словарных списков взаиморасположения терминов в документах, которые часто в литературе называют автоматизированными тезаурусами; от списков предметных заголовков и ключевых слов, если в них не выражены семантические отношения между терминами. ИПТ — это структурированный словарь для контроля лексики, в котором явно и системно определяются основные семантические отношения (эквивалентности, иерархические и ассоциативные) между терминами естественного языка. В соответствии с ГОСТ 7.25001 ИПТ ориентированы, прежде всего, на использование в рамках автоматизированных информационных систем и сетей научно-технической информации. Назначение ИПТ. Появление ИПТ неразрывно связано с развитием автоматизированных информационных систем (АИС). Первоначально целью создания ИПТ являлось повышение показателей качества поиска информации в АИС. В соответствии с этой целью назначение ИПТ заключалось в следующем: 1. Обеспечивать индексирование документов и запросов средствами дескрипторного языка путем замены ключевых слов соответствующими дескрипторами, а также осуществлять избыточное индексирование документов и/или информационных запросов за счет использования вышестоящих, нижестоящих и ассоциативных понятий; 2. Отражать парадигматические отношения, существующие между лексическими единицами какой-либо отрасли науки или техники. 3. Служить средством контроля и нормализации лексики конкретной отрасли знания, обеспечивать единое и формализованное представление информации в ИПС. Кроме того, ИПТ использовались и используются при традиционном (ручном) информационном поиске как средство терминологического контроля, позволяющее на основе эксплицитного представления парадигматических отношений между дескрипторами сужать или расширять область поиска, уточнять информационные запросы пользователей, осуществлять корректировку поисковых предписаний. Структура ИПТ. В соответствии с ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления» в состав ИПТ входят следующие элементы: 1) вводная часть; 2) основная часть (лексико-семантический указатель); 3) дополнительные части (систематический, пермутационный, иерархический и другие указатели и списки специальных категорий лексических единиц). Обязательными составными частями являются вводная часть и лексико-семантический указатель. Допускается в состав ИПТ вводить приложения, содержащие дополнительные сведения о разработке и использовании ИПТ. Вводная часть включает титульный лист и введение. На титульном листе должны быть приведены наименование ИПТ, включающее термин «информационно-поисковый тезаурус» и указывающее область его применения; наименование организации-разработчика и дополнительные сведения об авторстве ИПТ; сведения о переиздании; место и год создания или издания ИПТ. Введение должно содержать: – цель создания и область применения тезауруса, описанные кодами и наименованиями рубрик Межгосударственного рубрикатора НТИ; – ссылки на источники, использованные для сбора лексики ИПТ; – ссылки на нормативные и методические документы, использованные при составлении ИПТ; – описание порядка составления тезауруса, включая обоснование представительности использованных источников лексики; – описание состава и структуры; – перечень отношений между лексическими единицами и методические основания для их установления; – перечень всех символов и специальных сокращений, допущенных для представления; – порядок алфавитного расположения (расположение букв разных алфавитов, небуквенных символов и др.); – количественные характеристики тезауруса (общее число статей, число дескрипторов, аскрипторов и др.); – описание состава и формы представления дополнительных данных в словарных статьях; – абзац следующего содержания: «Тезаурус подготовлен в соответствии с ГОСТ 7.25». Введение к последующим изданиям (версиям) ИПТ дополнительно должно содержать: – обоснование необходимости составления новой версии тезауруса; – указание на характер внесенных изменений. Лексико-семантический указатель — это упорядоченная последовательностью словарных статей ИПТ, сформированная путем расположения их в алфавитном порядке заглавных лексических единиц. Представляет собой алфавитный перечень всех дескрипторов и аскрипторов с их словарными статьями. Приведем фрагмент лексико-семантического указателя из ИПТ по швейной промышленности: КУРТКИ 2302 в Изделия костюмные Изделия пальтовые Изделия швейные н Куртка двубортная Куртка комбинированная Куртка спортивная КУСОК ТКАНИ 2203 с Отрез в Меры упаковочные а Выпада межлекальные Лоскут Метраж ткани Остатки материала Отходы материала «Полотна красные» Рулон ЛАВСАН 2304 в Волокно полиэфирное Волокна синтетические ЛАСТИК ЖАККАРДОВЫЙ 2304 в Ткани подкладочные Ткани ЛЕКАЛА 2305 с Выкройки Чертежи кроя н — Лекала рабочие — Лекала-эталоны а Развертка поверхности Трафареты Шаблоны Лекала вспомогательные см Лекала производные Дескрипторная статья состоит из заглавного дескриптора, списка дескрипторов и аскрипторов, семантически связанных с ним, с обозначением видов связи. В рамках дескрипторной статьи термины располагают в следующем порядке: • заглавный дескриптор; • дополнительные данные; • лексическое примечание; • аскрипторы или дескрипторы-синонимы; • вышестоящие дескрипторы; • нижестоящие дескрипторы; • ассоциативные дескрипторы; • дескрипторы, связанные другими видами отношений. Внутри каждой группы лексических единиц, связанных с заглавным дескриптором одним видом парадигматических отношений, должен быть алфавитный порядок расположения. Например: АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ с языки алгоритмические машиноориентированные языки проблемноориентированные языки в ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ФОРМАЛЬНЫЕ ЯЗЫКИ н АВТОКОДЫ АЛГОЛ ИПЛ КОБОЛ КОМИТ ПЛ/1 ФОРТРАН а АЛГОРИТМЫ ПРОГРАММИРОВАНИЕ ср искусственные языки Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов. Приведем примеры аскрипторных статей: Алфавитно-цифровые знаки исп к БУКВЫ ЦИФРЫ Языки исп а ФОРМАЛЬНЫЕ ЯЗЫКИ ЕСТЕСТВЕННЫЕ ЯЗЫКИ Языки программирования см АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ Словарная статья может также включать указание на частоту использования дескриптора; кодовый номер дескриптора; код дескриптора по систематическому указателю; классификационные индексы; дополнительные семантические и лексикографические пометы; иноязычные эквиваленты. Качество лексико-семантического указателя определяется полнотой включенных в него лексических единиц. Полнота понимается как вероятность вхождения в тезаурус любого информативно-значащего слова для данной тематической области. Полнота лексико-семантического указателя, а, следовательно, и всего тезауруса оказывает существенное воздействие на результаты индексирования документов и запросов. Дополнительные части могут включать в свой состав систематический, пермутационный, иерархический и другие указатели и списки специальных категорий лексических единиц. Систематический указатель — это указатель, в котором дескрипторы сгруппированы согласно принятой в ИПТ рубрикации. Систематический указатель определяет тематическое направление тезауруса, раскрывает его содержание и отражает те отрасли науки и техники, по которым можно с той или иной глубиной детализации проводить поиск. Необходимость его как составной части ИПТ обусловлена тем, что он дает наглядное представление об общем состоянии терминологии в той или иной области знаний, позволяет построить стройную терминологическую модель и учесть по возможности все термины и понятия, которые должны найти место в тезаурусе. Он предназначен для облегчения поиска терминов при составлении поисковых образов документов и запросов путем упорядочения множества дескрипторов и аскрипторов по предметному признаку. Например, в ИПТ технологии машиностроения, в лексико-семантическом указателе имеется дескрипторная статья: ГИСТЕРЕЗИС 1913 н Гистерезис диэлектрический Гистерезис магнитный Код заглавного дескриптора 1913 показывает связь лексико-семантического указателя с систематическим указателем ИПТ. Первые две цифры отражают первый уровень иерархии — дескрипторную область «19 Физика», к которой относится данный термин. Вторые две цифры отражают второй уровень иерархии в этой области — дескрипторную группу «1913 Электричество и магнетизм». Таким образом, становится ясно, что термин «Гистерезис» связан с электричеством и магнетизмом, и входит в состав терминологии физики. Пользуясь систематическим указателем, можно определить, термины каких областей знания используются в данном ИПТ. Так, ИПТ по технологии машиностроения включает термины из таких предметных областей, как «Строительство», «Физика», «Химия», «Электротехника и радиоэлектроника» и др. Систематический указатель, по существу, представляет собой классификационную схему наполнения тезауруса терминологией, так как он строится путем упорядочения множества дескрипторов по предметно-тематическим областям. Систематические указатели ИПТ подразделяют на три типа: тематические, категориальные, смешанные. Такое деление отражает принцип построения классификационной схемы систематического указателя. Основные функции, выполняемые систематическим указателем ИПТ: – использование в качестве вспомогательного средства при индексировании, обеспечивающее, прежде всего, возможность поиска дескрипторов для индексирования понятий, не представленных в тезаурусе в явном виде (поисковая функция); – использование в процессе ведения тезауруса (функция ведения ИПТ); – использование в качестве структурной основы ИПТ, как средство управления его разработкой (конструктивная функция). В соответствии с ГОСТ 7.252001 при построении систематического указателя тематического и смешанного типов в его тематической части следует использовать рубрики Межгосударственного рубрикатора НТИ или рубрикатора конкретной АСНТИ, совместимого с Межгосударственным рубрикатором НТИ. При построении систематического указателя категориального и смешанного типов в его категориальной части следует использовать следующие общие категории: – названия дисциплин и отраслей деятельности; – предметы, материалы; – методы, процессы, операции, явления; – свойства, величины, параметры, характеристики; – отношения, структуры, модели, законы, правила, абстрактные понятия. Иерархический указатель. Иерархический указатель — указатель, в котором дан перечень списков дескрипторов, причем каждый список начинается с дескриптора, не имеющего вышестоящих. Он отражает полную структуру иерархических отношений в ИПТ. После каждого дескриптора приводятся дескрипторы с указанием их уровня в иерархии путем применения нумерации либо графического обозначения уровня. Например: Консервирование •Консервирование антисептиками • Консервирование инертными газами • Консервирование продовольствия •• Вяление ••Квашение ••Копчение •• Маринование •• Посол (соление) Консервирование 1 Консервирование антисептиками 1 Консервирование инертными газами 1 Консервирование продовольствия 2 Вяление 2 Квашение 2 Копчение 2 Маринование 2 Посол (соление) Необходимость разработки иерархического указателя ИПТ бывает вызвана тем, что в словарных статьях ИПТ не закрепляется вся система подчиненности понятий, т.к. это повлекло бы за собой значительное увеличение лексико-семантического указателя. Отсюда возникает необходимость разработки самостоятельного раздела ИПТ — иерархического указателя, который бы отражал всю иерархическую цепочку подчиненности дескрипторов сверху донизу. Пермутационный указатель — указатель, в котором в алфавитном порядке перечислены все отдельные слова, входящие в компоненты словосочетаний, обозначающих дескрипторы и для каждого из них указаны все дескрипторы, в состав которых входят эти слова. Следовательно, каждый термин встречается в пермутационном указателе столько раз, сколько значащих слов он содержит. Назначение пермутационного указателя — обеспечивать поиск дескрипторов-словосочетаний по любому слову, входящему в их состав, в том числе и по тем, которые не стоят в начале лексической единицы. Он позволяет группировать в одном месте однокоренные слова. Как правило, пермутационный указатель составляется автоматизированным способом и имеет обычно вид указателя типа KWIC (Key Word — In Context — «Ключевые слова в контексте»), в котором все значащие слова — элементы терминов — располагаются в алфавитном порядке. Вход в пермутационный указатель находится в центре колонки, которую образуют микроконтексты элементов терминов, а неуместившаяся часть терминов переносится в левую часть той же строки. оптические квантовые возбуждения электрические с зависимым возбуждением ГЕНЕРАТОРЫ помех ГЕНЕРАТОРЫ последовательного ГЕНЕРАТОРЫ постоянного тока ГЕНЕРАТОРЫ постоянного тока Включение в ИПТ пермутационного указателя позволяет устранить повторы, выявить и ликвидировать омонимию, получить высокий уровень накопления терминов, связанных родовидовыми и ассоциативными отношениями, выявить не представленные полностью группы однородных понятий и дополнить их, ввести пропущенные понятия. Создание пермутационного указателя позволяет решить проблему инверсии прилагательного и существительного. Независимо от того, какое слово использовано для входа в указатель, термин будет найден с принятым для него порядком слов. Кроме того, весьма важен тот факт, что в пермутационном указателе все термины, содержащие одинаковые слова, собраны вместе, что дает при поиске нить к тем терминам, которые потенциально могут оказаться необходимыми. Порядок разработки, экспертизы, регистрации и ведения ИПТ. В настоящее время порядок разработки, экспертизы и регистрации ИПТ определяется двумя стандартами: ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления» и ГОСТ 7.242007 «Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению». В соответствии с этими стандартами функции экспертизы и регистрации ИПТ выполняют национальный и международный депозитарные фонды. Национальный депозитарный фонд ИПТ на русском языке (включая ИПТ, содержащие эквиваленты дескрипторов на русском языке) находится в Москве, в ВИНИТИ. Существует также два международных депозитарных фонда ИПТ: 1) международный депозитарный фонд ИПТ на английском языке, включая ИПТ, содержащие эквиваленты дескрипторов на английском языке. Он находится в Канаде, в г. Торонто, в библиотеке факультета информационных наук Университета в Торонто (Thesaurus Clearinghouse — «расчетная палата», The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada); 2) международный депозитарный фонд ИПТ на всех других языках, кроме английского. Он находится в Польше, в Варшаве, в институте научной и технико-экономической информации (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Poland). ГОСТ 7.252001 и ГОСТ 7.242007 определяют последовательность действий разработчиков ИПТ следующим образом: 1. До начала работ по созданию ИПТ разработчик должен обратиться в соответствующий национальный или международный депозитарный фонд с целью определения наличия зарегистрированных тезаурусов по заданной тематике. При наличии таких тезаурусов проводят оценку возможности внедрения их в данной системе. Если такие тезаурусы не обнаружены, разработчик может приступать к созданию ИПТ. При этом вся технология работы по созданию ИПТ должна строго соответствовать ГОСТ 7.252001 и ГОСТ 7.242007. 2. Готовые (разработанные) ИПТ должны пройти экспертизу на соответствие ГОСТ 7.252001. Если они соответствуют стандарту, то Национальный депозитарий выдает разработчику сертификат соответствия. После этого ИПТ депонируется (сдается на хранение) в соответствующем национальном или в одном из международных депозитарных фондов (в Торонто или Варшаве). Национальные депозитарии распространяют информацию о составе фонда депонированных ИПТ и предоставляют их разработчикам новых ИПТ с целью заимствования элементов и обеспечения совместимости лингвистического обеспечения различных информационных систем. Таким образом, они выполняют функции экспертизы, регистрации, хранения ИПТ и информирования об имеющихся ИПТ. Ведение ИПТ. Следует помнить, что тезаурус никогда не может считаться вполне законченным, так как его содержание, объем и форма постоянно изменяются в связи с развитием науки, техники и производства. Среди причин, требующих периодически корректировать ИПТ, можно назвать: – количественные и качественные изменения документального потока, поступающего в систему (например, появление нового тематического направления или поступление новых типов документов или, наоборот, прекращение их поступлений); – изменение режимов поиска в системе; изменение средств реализации АИС (например, внедрение более мощных компьютеров нового поколения, позволяющих автоматизировать многие операции по ведению ИПТ); – переход АИС от независимого функционирования к работе в режиме сети (при использовании ИПТ в рамках единой информационной сети принципы их ведения должны быть согласованы). Процедура поддержания ИПТ в рабочем состоянии называется ведением или корректировкой тезауруса. Обычно она включает следующие операции: – изменение лексического состава ИПТ: внесение новых лексических единиц, их удаление, изменение статуса лексических единиц (перевод ключевого слова в дескрипторы и наоборот); – изменение парадигматических отношений в ИПТ (усиление, дифференциация, ослабление); – переиздание ИПТ, которое рекомендуется производить следующим образом: второе и третье издание — через год, а последующие — через два-три года. Процедура ведения ИПТ предполагает обязательное использование средств автоматизации, позволяющих оперативно производить такие трудоемкие операции, как алфавитная сортировка словника, частотный анализ лексики, проверка взаимности и непротиворечивости ссылок, с помощью которых в ИПТ фиксируются парадигматические отношения и др. Виды и функции информационно-поисковых тезаурусов В настоящее время существует значительное число информационно-поисковых тезаурусов (ИПТ), разработанных как у нас в стране, так и за рубежом. В 70-90-е гг. ХХ в. в нашей стране было разработано свыше 200 ИПТ. Их созданием занимались как всесоюзные, центральные отраслевые, так и территориальные (региональные) информационные органы. В целях устранения дублирования и непроизводительных затрат на подготовку ИПТ во ВНИИКИ была создана автоматизированная система ведения информационных языков (АСВИЯ), призванная осуществлять учет, контроль и информирование о всех ИПЯ, которые эксплуатируются в отечественных АСНТИ. В рамках АСВИЯ был создан фонд ИПТ, на базе которого эта служба вела справочно-информационное обслуживание всех заинтересованных учреждений и организаций. Однако после распада СССР АСВИЯ прекратила свое существование. В настоящее время вся полнота информации об отечественных ИПТ сосредоточена в Национальном депозитарном фонде ИПТ на русском языке, который находится в Москве, в ВИНИТИ. В рамках программы кооперации между странами Евросоюза в области научной и технической информации была создана база данных (БД) Thesaurus Guide, содержащая сведения о тезаурусах западноевропейских государств, а также США, Канады, Южной Америки, ЮАР и Австралии. Эта БД содержит сведения о 654 тезаурусах, доступных на одном из официальных языков Европейского сообщества. Таким образом, и у нас в стране, и за рубежом разработаны сотни ИПТ. Несмотря на некоторое снижение интереса к ИПТ в 90-е гг. ХХ в., в настоящее время наблюдается активизация исследований и разработок в сфере ИПТ, расширяются области их применения. Поэтому важно знать о том, какие виды отечественных и зарубежных ИПТ существуют. Многоаспектная классификация ИПТ. Все многообразие ИПТ можно проанализировать, воспользовавшись такими их параметрами, как широта тематического охвата, назначение в АИС, системность построения, особенности состава лексики и внутриструктурного построения, количество естественных языков, форма представления и знаковая природа информации. В соответствии с выбранными основаниями деления выделяются следующие виды ИПТ: 1. По широте тематического охвата: 1.1. Политематические (многоотраслевые). Примером одного из первых отечественных политематических тезаурусов может служить «Тезаурус научно-технических терминов», подготовленный и изданный в 1972 г. под руководством доктора технических наук Ю. И. Шемакина. Этот ИПТ содержал 19000 терминов по прикладным областям знания и был предназначен для использования в автоматизированных системах управления и обработки информации. В настоящее время крупнейшим русскоязычным политематическим тезаурусом является информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования в Университетской информационной системе «РОССИЯ» (УИС «Россия»). Он был разработан в 1995 г. Научно-исследовательским вычислительным центром МГУ им. М.В. Ломоносова. Содержит терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы. Тезаурус включает 62 тыс. терминов, более 26 тыс. понятий, отражает около 100 тыс. отношений между понятиями. 1.2. Отраслевые, составляющие наиболее многочисленную группу тезаурусов, например, ИПТ по информатике, подготовленный ВИНИТИ, серия отраслевых ИПТ, разработанных в 1980-е гг. Кемеровским ЦНТИ (по технологии машиностроения, сельскому хозяйству, горному делу и др.). Среди масштабных отраслевых ИПТ, разработанных в последние годы, следует назвать информационно-поисковые тезаурусы ИНИОН по философии, экономике и демографии, правоведению, социологии, политологии. 1.3. Узкоотраслевые или проблемные тезаурусы, предназначенные для поиска информации по отдельному внутриотраслевому направлению, например «Тезаурус по минералам», подготовленный ВИНИТИ, «Тезаурус по сталям», изданный кафедрой математической лингвистики ЛГУ, «Тезаурус терминологии гендерных исследований», разработанный А. А. Денисовой, тезаурус терминов по морскому делу и парусному туризму, составителем которого является В. Н. Белозеров и др. 2. По назначению различают: 2.1. Базисные (базовые) ИПТ, представляющие собой политематические ИПТ, включающие основные понятия и их взаимосвязи, общие для нескольких тематических (отраслевых) подмассивов. В него включается лексика, обозначающая основные понятия комплекса наук: названия разделов наук, важнейшие научные категории, основные научные направления, понятия обобщенного, собирательного характера, лексика верхних уровней терминологической иерархии, лексико-семантические пересечения отраслевых ИПТ. Базисные ИПТ предназначены для использования в качестве лексико-семантической основы при построении, узкотематических рабочих тезаурусов. Таким образом достигается унификация рабочих тезаурусов и облегчается трудоемкий процесс их построения. Базисные тезаурусы служат для выполнения следующих целей: • для совместного использования с отраслевыми тезаурусами при глубоком индексировании документов и обеспечения достаточно полного покрытия смежной тематики, что позволяет при создании отраслевых тезаурусов несколько сузить их тематический охват, ограничиваясь лишь специфическими для отрасли понятиями; • для самостоятельного использования при индексировании документов непрофильной и межотраслевой тематики; • для осуществления нормативной функции: базисный тезаурус выступает как средство координации всех функционирующих в информационной системе ИПТ. Базисные тезаурусы иногда называют макротезаурусами, подчеркивая тем самым то, что они включают лексические единицы высокой степени общности и покрывающие широкую область знаний. 2.2. Рабочие ИПТ, используемые в реальных АИС. В качестве рабочих тезаурусов могут выступать отраслевые, узкоотраслевые или проблемные ИПТ, построенные на основе базисного тезауруса. Если базисные тезаурусы, выступающие в качестве нормативных пособий, включают только основную лексику той или иной отрасли, совокупности отраслей, и наиболее очевидные парадигматические отношения, то рабочие тезаурусы отличаются большим лексическим богатством и развитой парадигматикой. Следовательно, семантическая сила рабочих ИПТ должна превосходить семантическую силу базисных тезаурусов. Особенностью рабочих тезаурусов является большое количество прагматических решений, имеющих силу только в рамках данной внутриотраслевой тематики. Рабочие ИПТ в специальной литературе фигурируют также под именем «микротезаурусы», что отражает как их небольшой объем, так и то, что они составляются на основе развития выборки из более общего ИПТ и дополнительно включают конкретные узкие понятия определенной области знания. 3. По системности построения различают: 3.1. Комплексы ИПТ. Комплекс ИПТ — это система тезаурусов по одной или нескольким отраслям знания, создаваемая в одной организации по единой методике. Можно выделить комплексы тезаурусов, подготовленных в советский период всесоюзными органами информации, такими, как ВИНИТИ, ВНТИЦентр, ИНИОН. Комплексы ИПТ разрабатывались в этот период также и центральными отраслевыми органами информации: ЦНИИТЭИПриборостроения, ЦНИИ «Румб», ЦНИИТЭИ «Союзсельхозтехника», ЦНИИТЭИЧермет, ЦНИИТЭИПищепром и др. Вели разработку комплексов ИПТ и территориальные информационные центры. Например, в 80-е годы ХХ в. был разработан комплекс тезаурусов Кемеровского межотраслевого ЦНТИ. Он включал ИПТ по одиннадцати отраслям народного хозяйства: горное дело, технология машиностроения, сельское хозяйство, черная металлургия, общие вопросы химической технологии, электротехника, лесное хозяйство, молочная промышленность, швейная, хлебопекарная промышленность. В постсоветский период в ИНИОН была осуществлена разработка серии тезаурусов по социальным и гуманитарным наукам: «Экономика и демография», «Философия», «Языкознание», «Правоведение», «Социология», «Политология», «Гендерные исследования», «Религиоведение». Среди зарубежных разработок следует назвать комплекс тезаурусов Фонда Гетти (США). Основателем фонда и самого крупного художественного музея в Калифорнии — музея Гетти (J. Paul Getty Museum) является американский нефтяной магнат, миллиардер Дж. Пол Гетти (18921976 гг.). Оставленное им на нужды музея и фонда многомиллиардное состояние сделало музей Гетти самым состоятельным приобретателем произведений «старых мастеров» и античной скульптуры на самых престижных мировых аукционах, а также позволило Фонду Гетти финансировать создание комплекса лингвистических средств, в состав которых входят следующие словари-тезаурусы: • тезаурус по искусству и архитектуре (The Art and Architecture Thesaurus — AAT). В настоящее время тезаурус AAT содержит около 30 тысяч дескрипторов и более 130 тысяч англоязычных терминов. Терминология тезауруса охватывает искусство, архитектуру, декоративное искусство, материальную культуру, архивные материалы с античности до наших дней; • словарь имен авторов (The Union List of Artist Names — ULAN), включающий 375000 имен, биографическую и библиографическую информацию о художниках и архитекторах, содержащий варианты имен, псевдонимов и вариантов написания имен на разных языках; • тезаурус географических названий (The Getty Thesaurus of Geographic Names — TGN), включающий около 1115000 названий, типов местностей, координат, описательных заметок, фокусирующихся на местах, важных для изучения искусства и архитектуры. 3.2. Отдельные ИПТ. Они отражают единичные попытки информационных служб и организаций, а также частных лиц создать ИПТ отраслевого или проблемного характера. Примерами таких ИПТ могут служить «Тезаурус по теоретической и прикладной лингвистике», разработанный С. Е. Никитиной, «Тезаурус терминологии гендерных исследований», созданный А.А. Денисовой и др. 4. По особенностям состава лексики и внутриструктурного построения ИПТ: 4.1. ИПТ, включающие в свой состав в качестве лексических единиц как дескрипторы, так и аскрипторы. 4.2. ИПТ, включающие в свой состав в качестве лексических единиц только дескрипторы. 4.3. Фасетизированные ИПТ — ИПТ, созданные на базе фасетного анализа лексики. Использование идей Ш. Ранганатана применительно к задачам оптимизации структуры ИПТ плодотворно использовалось школой ленинградских исследователей под руководством профессора А. В. Соколова, предложившего фасетно-блочный метод построения тезаурусов. Реализация данного метода была осуществлена в 80-е гг. ХХ в. в комплексе ИПТ, созданных в научно-исследовательском секторе ЛГИК им. Н. К. Крупской. К ним относятся ИПТ по культурному строительству, библиотечному делу и библиографии, культурно-просветительной работе, музейному делу; тезаурус по целлюлозно-бумажной промышленности для АСНТИ «Папирус», ИПТ «Судоходство», «Морские порты» и др. Фасетный принцип использовался также при создании нефтегазового ИПТ. В этом отраслевом тезаурусе терминология по нефти и газу была сгруппирована по пяти фасетам: «Вещества», «Объекты», «Процесс», «Характеристики», «Идентификаторы (Имена собственные)». Фасетный принцип построения был использован при разработке Тезауруса по архитектуре и искусству — The Art and Architecture Thesaurus (AAT), развиваемого фондом П. Гетти для описания предметов материальной культуры. Дескрипторы тезауруса (около 30 тыс.) подразделяются на 7 фасетов: ассоциированные понятия, физические свойства, стили и периоды, агенты (люди и организации), деятельность, материалы, объекты, Реализация фасетно-блочного принципа построения ИПТ направлена на решение проблемы совместимости тезаурусов как внутри одной отрасли, так и в родственных отраслях, давая возможность обмениваться как отдельными лексическими единицами, так и их блоками, вплоть до объединения ИПТ в сводный тезаурус. 5. По количеству естественных языков, перевод с которых на дескрипторный ИПЯ обеспечивает ИПТ: 5.1. Одноязычные ИПТ. Как следует из их названия, такие ИПТ отражают лексику только на одном из естественных языков: либо русском, либо английском, испанском и т. д.. Разработка отечественных одноязычных ИПТ регламентируется ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». 5.2. Многоязычные ИПТ. Они содержат лексические единицы, взятые из нескольких естественных языков и представляющие эквивалентные по смыслу понятия на каждом из этих языков. Их основное назначение — обеспечение языковой совместимости национальных информационных систем в рамках международного информационного сотрудничества. Представление многоязычных ИПТ должно соответствовать требованиям оформления, установленным ГОСТ 7.242007 «Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению». Примером многоязычного ИПТ может служить трехязычный «Тезаурус по социальным наукам», разработанный в результате совместного проекта Информационного центра по социальным наукам в Бонне (Германия) и Института научной информации по общественным наукам (ИНИОН РАН) в России. Целью проекта было преодоление языкового барьера при поиске информации в немецких и русских банках данных. Тезаурус отражает широкий диапазон политематической терминологии (социология, политическая наука, социальная психология, экономика и право, этнология, социальная история, демография и др.) на немецком, английском и русском языках. Необходимость разработки и использования многоязычных ИПТ обусловлена следующими факторами: • увеличением числа иноязычных документов в АИС. В этом случае создание многоязычных ИПТ обеспечивает их поиск без предварительного перевода; • изменением состава потребителей, при котором в АИС начинают поступать иноязычные запросы; • международным кооперированием двух или нескольких национальных информационных центров разных стран. В этом случае наличии единого многоязычного тезауруса обеспечивает возможность индексирования документов по одной тематике; • созданием международных центров обмена информацией. • Следует отметить, что создание многоязычных ИПТ чаще всего связано с деятельностью международных организаций. Например: • Тезаурус ООН или — тезаурус ЮНБИС (UNBIS Thesaurus) — содержит терминологию на всех официальных языках Организации Объединенных Наций (арабском, китайском, английском, французском, русском и испанском), используемую в качестве дескрипторов при анализе и поиске документов ООН. Тезаурус отражает широкий круг вопросов, которыми занимается ООН и предназначен для точного и четкого обозначения объектов поиска информации с учетом специфики предмета; • тезаурус ЮНЕСКО по образованию (UNESCO: IBE education thesaurus), содержащий термины на английском, французском и испанском языках; • тезаурус Европейского Сообщества — тезаурус EUROVOC, содержащий лексику на девяти языках; • сельскохозяйственный тезаурус AGROVOC, разработанный международной Продовольственной и сельскохозяйственной организацией ООН — ФАО (от англ. Food and Agriculture Organization, FAO)и Европейским сообществом ЕС, содержит лексику на английском, французском и испанском языках. Он доступен пользователю в FAO, варианты на других языках (чешский, немецкий, итальянский и португальский) существуют в соответствующих центрах AGRIS (Agricultural Research Information System — Международная информационная система по сельскому хозяйству и смежным с ним отраслям). • Тезаурус Организации сотрудничества железных дорог — «Информационно-поисковый тезаурус «Транспорт»», отражающий терминологию на русском, немецком и китайском языках. Таким образом, многоязычные ИПЯ являются средствами преодоления языкового барьера и обеспечивают возможность кооперации информационных центров и АИС различных стран. 6. По форме представления: 6.1. ИПТ в печатном виде. Представление ИПТ в печатном виде должно соответствовать требованиям оформления, установленным ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». 6.2. ИПТ на электронных носителях, представленные на компакт-дисках, в форме электронных сетевых версий и др. При представлении ИПТ на машиночитаемых носителях формат записи должен соответствовать ГОСТ Р 7.0.472008. (ИУС 52008) «Формат для представления на машиночитаемых носителях словарей информационных языков и терминологических данных. Содержание записи». Представление ИПТ на видеотерминалах должно соответствовать основным требованиям оформления, установленным ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». Наибольшее распространение нашли ИПТ, реализованные одновременно как на традиционных, так и на машиночитаемых носителях информации. Следует подчеркнуть, что компьютерная реализация ИПТ повлекла за собой не только изменение формы их представления. Она обеспечила оперативность, а также удобство навигации и поиска информации. Так, например, гипертекстовая технология реализации тезауруса позволяет легко и быстро «передвигаться» по ИПТ, переходя от термина к его синониму, вышестоящим, нижестоящим и ассоциативным понятиям. Использование средств мультимедиа позволяет отражать в тезаурусе не только словесную (вербальную), но и звуковую и видеоинформацию (формульную, графическую, иллюстративную и др.), расширяя тем самым возможности ИПТ. 7. По знаковой природе информации. 7.1. Текстовые ИПТ — ИПТ, большую часть объема которых занимает словесный текст. Это наиболее распространенная и многочисленная группа тезаурусов. 7.2. Визуальные ИПТ — ИПТ, значительную часть которых занимают изображения (формулы, карты, схемы, чертежи, диаграммы, пиктограммы, иллюстрации и т. п.). Современные информационно-коммуникационные технологии позволяют не только наглядно представить парадигматические отношения между словами, но и обеспечить мгновенный переход от слова к дефиниции, от слова к слову и т. д. Примеры организации такого словаря можно найти на сайте проекта «Визуальный словарь». Разработка визуальных тезаурусов находится в стадии становления. Особо перспективны они для использования в АИС, в которых визуальная информация является семантически не менее (а иногда — и более) важной, чем вербальные, словесные компоненты документов. Наиболее яркими примерами являются АИС в области химии, где требуется вести поиск по структурам химических соединений и структурным формулам, в геоинформационных системах, требующих поиска картографической информации. Особую актуальность создание визуальных ИПТ приобретает в сфере лингвистического обеспечения музейных АИС для описания музейных коллекций. 7.3. Смешанные ИПТ, сочетающие текст и изображение. В обобщенном виде основные виды ИПТ отражает таблица 4. Таблица 4 Многоаспектная классификация ИПТ № Основание деления Вид ИПТ 1. Широта тематического охвата 1.1. Политематические (многоотраслевые) 1.2. Отраслевые 1.3. Узкоотраслевые (проблемные) 2. Назначение 2.1. Базисные (базовые) 2.2. Рабочие ИПТ 3. Системность построения: 3.1. Комплексы ИПТ. 3.2. Отдельные ИПТ 4. Особенности состава лексики и внутриструктурного построения 4.1. ИПТ, включающие дескрипторы и аскрипторы 4.2. ИПТ, включающие только дескрипторы 4.3. Фасетизированные ИПТ 5. Количество естественных языков 5.1. Одноязычные ИПТ 5.2. Многоязычные ИПТ 6. Форма представления 6.1. ИПТ в печатном виде 6.2. ИПТ на машиночитаемых носителях 7. Знаковая природа информации 7.1. Текстовые ИПТ 7.2. Визуальные ИПТ 7.3. Смешанные Приведенная выше классификация видов ИПТ во многом условна, поскольку на практике реальные ИПТ обладают одновременно множеством признаков. Многоаспектная классификация позволяет вычленять различные признаки ИПТ, отражающих множество разных задач, которые решаются с помощью тезаурусов. Функции информационно-поисковых тезаурусов Несмотря на множество различных областей применения ИПТ, можно выделить основные функции, которые присущи всем без исключения тезаурусам: 1) терминологическая — любой тезаурус отражает терминологию той или иной предметной области (отрасли знаний или их совокупности); 2) систематизирующая — любой тезаурус отражает систему понятий и терминов определенной предметной области (отрасли знаний или их совокупности) и показывает их взаимосвязи через систему помет (например, синоним, выше, ниже и т. п.); 3) навигационная — любой тезаурус позволяет оперативно ориентироваться в терминологии даже в незнакомой предметной области за счет явного выражения парадигматических отношений в структуре дескрипторной статьи; 4) регламентирующая (нормативная) — любой тезаурус содержит в своем составе нормализованные лексические единицы за счет устранения явлений синонимии и многозначности; 5) технологическая, присущая преимущественно ИПТ, которые обеспечивают реализацию технологии индексирования документов и запросов с целью обеспечения поиска информации в АИС. Резюме Дескрипторные ИПЯ по сравнению с иерархическими классификационными ИПЯ относятся к классу более «молодых» искусственных языков, появление которых неразрывно связано со становлением идей автоматизации информационного поиска в 50-е гг. ХХ в. Способ координации понятий, принцип координатного индексирования, лежащий в основе этих языков, предопределил выделение таких двух типов ИПЯ, как предкоординатные (ДКД, УДК, МПК, ББК, рубрикаторы, классификаторы и др.) и посткоординатные (язык «Унитерм», язык ключевых слов, ДИПЯ). В отличие от предкоординированных ИПЯ, лексика которых носит кодированный характер, языки координатного типа являются вербальными (словарными). Они оперируют лексикой первого уровня интеграции, что позволяет достичь большей гибкости и многоаспектности при передаче смысла документа или запроса при индексировании. Средством контроля лексики и способом материального воплощения ДИПЯ являются информационно-поисковые тезаурусы (ИПТ) — разновидность идеографических словарей. ИПТ представляют собой упорядоченную совокупность лексических единиц, в которой в явном виде с помощью специальных помет отражены важнейшие парадигматические отношения. ИПТ создавались для повышения показателей качества поиска информации в АИС. Они предназначались для индексирования документов и запросов, служили средством терминологического контроля и нормализации лексики конкретной отрасли знания, обеспечивали единое и формализованное представление информации в АИС, давали возможность уточнять информационные запросы пользователей, осуществлять корректировку поисковых предписаний. Оценка возможностей ИПТ как средств лингвистического обеспечения автоматизированного поиска информации существенно менялась на разных этапах развития АИС. Если в 6080 гг. ХХ в. их значение и эффективность не подвергались сомнению, то в 90-е гг. ХХ в. в условиях стремительного развития Интернет целесообразность применения ИПТ при поиске в полнотекстовых базах данных была подвергнута сомнению. Начиная с первого десятилетия ХХI в. эта негативная оценка сменилась на более взвешенную, ИПТ вновь признаны как важное средство повышения полноты и точности поиска информации. При этом к ИПТ, призванным обеспечивать поиск информации в условиях Интернета, предъявляются более сложные требования. Они должны характеризоваться: расширением числа синонимов, включенных в тезаурус, иметь более детальное описание многозначных терминов; парадигматические отношения между дескрипторами в тезаурусе должны быть максимально детализированы. В настоящее время существует значительное количество ИПТ, разработанных как в нашей стране, так и за рубежом. Многоаспектная классификация ИПТ позволяет группировать их по таким признакам, как широта тематического охвата, назначение, системность построения, особенности состава лексики и внутриструктурного построения, количество естественных языков, на которые ориентирован ИПТ, форма представления, знаковая природа информации, использованная в ИПТ. ИПТ играют чрезвычайно важную роль в лингвистическом обеспечении АИС, выполняя целый ряд функций: терминологическую, систематизирующую, навигационную, регламентирующую, технологическую. Возрастание мощи и быстродействия компьютерной техники, систем связи и телекоммуникации обеспечили интенсивное развитие не только информационно-поисковых тезаурусов как средств поиска информации, но тезаурусов в целом, как словарей идеографического типа. Возникнув как средство формализованного отображения представлений ученых о мире в целом и закономерностях его постижения средствами естественного языка, тезаурусы сегодня широко используются для решения прикладных задач в целом ряде областей знания и практической деятельности. Помимо применения в сфере информационных технологий и автоматизированной обработки текста, тезаурусы получили распространение в различных областях знания, включая образование, философию, культурологию, социологию, психологию, лингвистику, а также при решении ряда прикладных задач в психиатрии, психодиагностике, криминалистике, рекламе, PR-технологиях и др. Лекция «СИСТЕМЫ И СТАНДАРТЫ МЕТАДАННЫХ: DUBLIN CORE, MARC, ONIX» Системы метаданных: основные понятия и требования В современной электронной среде накоплены огромные разнородные информационные ресурсы, хранящиеся под управлением СУБД, имеющих различное функциональное назначение и расположенных на разных информационных серверах. Это библиографические, реферативные и полнотекстовые базы данных, музейные коллекции, фото-, аудио-, видео коллекции и др. Как правило, взаимосвязи между такими информационными ресурсами и представлениями данных отсутствуют, а это существенно усложняет организацию эффективного поиска. Поэтому возникает задача разработки технологий построения распределенных информационных систем и обеспечения доступа к распределенным информационным ресурсам (коллекциям, базам данных и т. п.). Решение этой задачи невозможно без использования метаданных. Термин «метаданные» находится в ряду сложных слов, первой составной частью которых является греческое слово «Meta», буквально означающее «после, за, через, вслед». Приставка «мета» имеет два значения: 1) уровень описания какого-нибудь объекта или системы (как правило, также описания), высшего по отношению к предыдущему описанию; «описание описания». Например, металингвистика, металогика, метаматематика, метаобозначение, метаописание, метатекст, метатеория, метаязык и т. д.; 2) выход за пределы чего-либо: метагалактика, метафизика. Метаданные — это данные о других данных. Это одно из основных определений, которое широко используется в настоящее время. Например, метаданными являются такие данные о данных, как каталоги, справочники, реестры. Базы метаданных содержат сведения о составе данных, их содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и др. ГОСТ 7.702003 СИБИД «Описание баз данных и машиночитаемых информационных массивов. Состав и обозначение характеристик» вносит уточнение в понятийный аппарат систем метаданных. Метаданные (метаописание) электронного информационного ресурса — это формализованное описание электронного информационного ресурса, используемое для его идентификации и категоризации информационного ресурса при работе с большими совокупностями информационных ресурсов. Система метаданных электронных информационных ресурсов — это система правил, позволяющая сопоставить любому информационному ресурсу его метаописание (метаданные). В соответствии с этим ГОСТом метаданные используются в составе форматов представления их пользователям в режиме теледоступа, в частности, в сети Интернет. При регистрации информационных ресурсов регистрирующий орган записывает метаданные в каталог зарегистрированных ресурсов. Различие между данными и метаданными зависит от контекста. Например, библиографические записи в электронном каталоге — это метаданные по отношению к электронным документам в электронной библиотеке, но в самой библиографической базе данных электронного каталога они рассматриваются в качестве данных. Распространённые категории метаданных — описательные, структурные и административные. В электронных библиотеках описательные метаданные обеспечивают библиографическую обработку и поиск. Библиографическая база данных электронного каталога, по сути, представляет собой массив описательных метаданных для полнотекстовых ресурсов. В свою очередь, нормативные/авторитетные записи для имён лиц, наименований коллективов, унифицированных заглавий — это описательные метаданные для конкретных составляющих (определённых полей) библиографических записей (данных). Информационно-поисковые тезаурусы или библиографические классификации можно интерпретировать как описательные метаданные по отношению к данным о смысловом содержании документов, зафиксированном в виде индексов, ключевых слов, предметных рубрик в библиографической записи. В то же время индексы классификации, ключевые слова, предметные рубрики — это метаданные, описывающие смысловое содержание документов, составленных на естественном языке. Таким образом, каталогизация, систематизация, индексирование — это процессы формирования метаданных. Классическим примером системы метаданных в библиотеках является библиотечный каталог (традиционный или электронный), содержащий набор записей метаданных с элементами, которые описывают книгу либо другую единицу хранения: автор, заглавие, дата создания или публикации, шифры и номера хранения, определяющие местонахождение единицы на полке и др. Как отмечает А. Б. Антопольский, если понятие метаданных рассматривать в аспекте истории информатики, то оно является модернизацией и интеграцией таких традиционных понятий, принятых в 1970-1980-х гг., как форматы представления данных, языки описания данных, языки библиографических данных и др. Термин «метаданные» — это не просто новый ярлык для давно известных понятий, прежде всего, для языка библиографических описаний. Главное отличие понятия метаданных от перечисленных понятий заключается в более общем характере понятия метаданных, подобно тому, как «цифровой объект» (информационный ресурс) является более широким понятием по сравнению с понятием «документ» или «единица хранения» предыдущих поколений информационных систем. По его мнению, именно библиотечно-библиографический опыт является наиболее значительным для проектирования систем метаданных в электронных библиотеках. Поэтому язык библиографических данных представляет собой наиболее продвинутый тип систем метаданных. Вместе с тем, метаданные — понятие исключительно широкое и емкое, не сводимое только библиотечно-библиографической деятельности. Метаданные об информационных ресурсах формируются и используются в различных сферах: электронных библиотеках; web-сайтах; книжных интернет-магазинах и многих других электронных хранилищах информационных ресурсов. К числу основных требований, предъявляемых к системе метаданных, относятся: • универсальность в рамках установленного понимания информационных ресурсов как объекта систематизации; • структурированность и формализованность метаданных, необходимые для их автоматической обработки; • достаточная выразительность для обеспечения решения задач, требующих наличия метаданных; • совместимость с международными стандартами и протоколами в области метаданных и информационного поиска, создание условий для интероперабельности (англ. interoperability — способность к взаимодействию); • возможность задания ограничений целостности, отражающих взаимосвязи полей описания информационных ресурсов; • обеспечение возможности хранения метаданных как совместно с информационным ресурсом, так и отдельно от него; • возможность представления в метаданных сведений о создателях, правообладателях, распространителях информационных ресурсов и отношений между ИР. Связь между записью метаданных и информационным ресурсом (цифровым объектом), который она описывает, может осуществляться двумя способами:1) элементы могут содержаться в записи, хранящейся отдельно от описываемой единицы, как это происходит в библиотечных каталогах. В этом случае метаданные предпочтительно хранить и передавать в формате, реализованном на базе XML. Обмен метаданными сводится к пересылке XML-файлов или ссылок на эти файлы. 2) метаданные могут храниться непосредственно в «теле» ресурса. В этом случае они включаются непосредственно в информационный ресурс, например, в HTML-страницу с помощью тегов <МЕТА>. Назначение и виды метаданных Назначение систем метаданных для информационных ресурсов заключается в обеспечении навигации в информационном пространстве; поиске отдельных цифровых объектов или их совокупностей; вводе, обработке и организации хранения цифровых объектов, а также их исключении; управлении правами доступа к информации, включая защиту авторских прав, организация платы за доступ и пр. Метаданные об электронных информационных ресурсах позволяют вести управлении жизненным циклом информационных ресурсов (процессами создания, использования, хранения цифровых документов); дают возможность более точного и полного обнаружения необходимых ресурсов; обеспечивают гибкие и разнообразные механизмы отбора и представления информации в соответствии с поисковыми запросами пользователей. Выделяют следующие виды метаданных: • описательные, содержащие библиографические описания информационных ресурсов, либо их характеристику в форме рефератов и аннотаций; • структурные, включающие сведения о формате, объеме, структуре и других формальных свойствах информационных ресурсов; • административные, характеризующие сведения о правах на доступ, на коррекцию данных, данные о пользователе, данные для систем оплаты, технологические данные. Первая, основная группа административных метаданных предназначена для того, чтобы проводить владельцу ресурса четкую и гибкую политику в отношении информационного ресурса, которая включает авторизацию, аутентификацию, управление авторскими правами, доступом, а также служит для идентификации и категоризации ресурсов в рамках специальной коллекции или организации. Другая группа административных метаданных может представлять собой схемы хранения данных в базах данных, схемы распределенных баз данных и др. Третья группа административных метаданных может использоваться для позиционирования данного информационного ресурса в контексте группы подобных документов, информационно-поисковой системы, предметной области и т. п.; • идентифицирующие, служащие для однозначного представления описываемых цифровых объектов для внешнего мира и различных приложений. В настоящее время в мире создано множество систем метаданных, обладающих разным статусом (международные, национальные и отраслевые стандарты, корпоративные спецификации, спецификации международных консорциумов и др.). С точки зрения ориентации на виды информационных ресурсов и сферы использования различают универсальные и специализированные системы метаданных. Наибольшую известность в мире получила универсальная система метаданных, известная как «Дублинское ядро». Дублинское ядро метаданных (Dublin Core) Дублинское ядро метаданных (Dublin Core Metadata Element Set, Dublin Core — DC) — это модель описания электронных ресурсов, принятая в марте 1995 г. в г. Дублине (США, штат Огайо), где расположена штаб-квартира OCLC и где состоялась первая рабочая встреча 52 ученых и специалистов в области библиотечного дела, информатики и смежных дисциплин. Их объединило желание создать простой набор элементов метаданных для неподготовленных пользователей, которые публикуют свои электронные документы в сетях и должны некоторым образом описать данные о них для обеспечения поиска. Дублинское ядро — это набор метаданных, использование которых должно облегчать поиск электронных ресурсов и, прежде всего, сетевых. Наибольшую заинтересованность в его развитии в настоящее время проявляют библиотеки, научные и культурные организации, правительственные агентства, а также коммерческие фирмы. Цель Дублинского ядра — создание такого механизма, который при минимальных затратах на описание позволял бы искать и находить данные вне зависимости от языковой принадлежности, тематики и места их нахождения. Основные задачи, которые ставились при создании Дублинского ядра, заключались в обеспечении простоты формирования и поддержки метаданных, включая легко понимаемую (как человеком, так и компьютером) семантику; возможности представления метаданных на разных естественных языках; расширяемости системы метаданных. Формат Дублинского ядра — перечень полей и правил их заполнения, с помощью которых создается описание информационных ресурсов (цифровых объектов). Он может рассматриваться как искусственный язык для создания метаданных, который должен быть доступен для понимания человеком и для машинной интерпретации. Набор элементов метаданных «Дублинское ядро» регламентируется ГОСТ Р 7.0.102019. Для поиска и функционирования в компьютерной сети метаданные вместе с документами (данными) или отдельно от них должны быть преобразованы, то есть переведены на язык, доступный для читающего Интернет-документы устройства — браузера. Таким образом, формат Дублинского ядра определяет семантические области, которые надлежит отразить в описаниях информационных ресурсов. Описание в формате Дублинского ядра есть набор конкретно-семантических элементов, а Интернет-проекция этого описания представляет собой тот же набор, но уже оформленный с помощью языка разметки, например, HTML, SGML и др. Дублинское ядро» включает два уровня: простое Дублинское ядро (Simple Dublin Core) и Дублинское ядро с квалификаторами (Qualified Dublin Core). В состав простого Дублинского ядра входит 15 элементов данных, образующих три группы: содержание информационных ресурсов (Content), интеллектуальная собственность (Intellectual Property); характеристики данного экземпляра информационных ресурсов (Instantiation). Характеристика состава элементов простого Дублинского ядра приводится в таблице 1. Таблица 1 Состав элементов простого Дублинского ядра Группа элементов Содержание информационных ресурсов (Content) Интеллектуальная собственность (Intellectual Property) Характеристики данного экземпляра информационных ресурсов (Instantiation) Title (Заголовок)  название, присвоенное ресурсу создателем или издателем. Creator (Автор)  человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа  это авторы; в случае визуальных ресурсов  это исполнители, фотографы или иллюстраторы Date — Дата Subject (Предмет)  тема ресурса. Обычно выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. Приветствуется использование контролируемых словарей и формальных схем классификации Publisher (Издатель)  организация, ответственная за создание ресурса в его нынешней форме - например, издательский дом, университетский департамент или корпорация Format (Формат)  формат представления данных ресурса (обычно указывается тип программного обеспечения и - возможно - тип компьютера, которые могут быть необходимы для отображения и работы с ресурсом) Description (Описание)  текстовое описание содержания ресурса, включая реферат в случае документов или описание содержания в случае визуального ресурса. Contributor (Участник создания материала)  человек или организация, которые не являются авторами (не обозначены в элементе «автор»), но внесли значительный интеллектуальный вклад в ресурс, но чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов. Например, редактор, переводчик, иллюстратор. Identifier (Идентификатор)  набор букв или цифр, который обычно используется для уникальной идентификации ресурса. В случае сетевых ресурсов примерами являются URL и URN. Туре (Тип)  категория ресурса - например, домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь. Rights (Права)  утверждение об авторских правах и управление ими; идентификатор, связанный с таким утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс. Language (Язык)  язык, на котором изложено интеллектуальное содержание ресурса Source (Источник)  информация о вторичном источнике, из которого был получен настоящий ресурс. Relation (Связь)  идентификатор вторичного ресурса и его связь с настоящим ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также описания ресурса, которые необходимо показать. Например, издание книги и глава книги. Coverage (Охват)  характеристики местонахождения и временной продолжительности ресурса. Состав элементов простого «Дублинского ядра» определен в стандарте ISO 15836:2003. Information and documentation — The Dublin Core metadata element set. На втором уровне к 15 элементам добавлены два дополнительных элемента: Audience (целевая аудитория, категория пользователей) и Rights Holder (правообладатель). Кроме того, для повышения детальности и выразительности описаний на этом уровне вводятся и используются квалификаторы, уточняющие семантику элементов данных и уточняющие источники и способы представления их значений. Основное преимущество Дублинского ядра заключается в том, что если традиционные методы каталогизации требуют профессиональной подготовки для эффективного использования, то Дублинское ядро использовать относительно просто. Однако простота противоречит требованию точности отражения данных. Пятнадцати элементов явно недостаточно для информационных систем типа электронных библиотек. Для того, чтобы сохранить совместимость с простейшим описанием из 15 элементов и, в то же время, увеличить детализацию и сложность описаний, делаются попытки расширения, вводятся дополнительные квалификаторы для базовых элементов. Кроме того, не прекращаются споры относительно ценности этой системы метаданных. Основной тезис противников Дублинского ядра - это невозможность создания универсальной системы метаданных, равно пригодной для решения различных функциональных задач. Особенно критикуется Дублинское ядро за слабое отражение аспектов, связанных с управлением правами на цифровые объекты. Поэтому чаще всего критикуют Дублинское ядро специалисты, занятые электронной торговлей цифровыми объектами и специалисты по защите прав на эти объекты. MARC (Machine Readable Catalogue- машиночитаемый каталог) Если Дублинское ядро разработано для описания электронных документов в электронной среде, то MARC-формат был разработан для описания традиционных документов в электронной среде. Формат (в широком смысле) — это форма представления каких-либо данных, представляющая собой совокупность правил их записи и отражения в памяти компьютера, в базе данных, на экране монитора или на внешнем носителе (в том числе и человеко-читаемом). Автоматизация библиотечно-информационной технологии и, прежде всего каталогизации, развитие электронных каталогов обусловили появление форматов представления данных в машиночитаемой форме или машиночитаемых библиографических форматов. Они представляют собой совокупность взаимосвязанных элементов данных, которая служит для создания и обмена библиографическими записями в машиночитаемой форме. Машиночитаемые библиографические записи — это записи, которые могут быть прочитаны и интерпретированы компьютером; содержат библиографические данные, традиционно представляемые на каталожной карточке. Они составляют основу электронного каталога так как могут быть прочитаны и интерпретированы компьютером; и содержат библиографические данные, традиционно представляемые на каталожной карточке. Для того, чтобы создать электронный каталог, недостаточно просто ввести в компьютер информацию, которая традиционно содержится на каталожной карточке. На карточке элементы библиографического описания располагаются по определенным правилам: в установленном порядке (заголовок, основное заглавие, параллельное заглавие и т. д.) и отделяются друг от друга знаками пунктуации, регламентируются стандартами и правилами каталогизации. Однако если человек (каталогизатор) легко находит в составе библиографического описания имя автора, заглавие, выходные данные и т. п., то для компьютера нужны дополнительные сведения. Компьютеру для интерпретации данных необходимы четкие, формализованные инструкции. Эту задачу и решает машиночитаемый формат. Формат позволяет компьютеру структурировать библиографическую информацию, обеспечивает более компактное хранение информации, а также позволяет библиотекам осуществлять обмен информацией. В самом лаконичном виде история становления и развития машиночитаемых библиографических форматов может быть представлена следующим образом: • 1965-1966 гг. — разработка формата MARC (от англ. Machine-Readable Catalogue or Cataloguing — машиночитаемый каталог) в Библиотеке Конгресса США; • 1970-е гг. — появление более 20 версий форматов, ориентированных на национальные правила каталогизации, например, UKMARC, INTERMARC, USMARC, AUSMARC, CANMARC, DanMARC, LCMARC, Nor-MARC, SwaMARC и др.; • 1970-е — начало 1990-х гг. разработка и использование международного коммуникативного формата MECOF, служившего для информационного обмена библиографической информацией в социалистических странах (странах-членах Совета Экономической Взаимопомощи); • 1977г. — создание Международной федерацией библиотечных и информационных ассоциаций (ИФЛА) «Универсального формата MARC» — UNIMARC (от англ. Universal MARC Format). Цель UNIMARC — преодоление несовместимости существующих форматов и содействие международному обмену данными в машиночитаемой форме между национальными библиографическими службами; • 1995 г. — начало работ в рамках программы ЛИБНЕТ по адаптации UNIMARC в качестве российского обменного формата; • 1998 г. признание формата RUSMARC (приказ Министерства культуры РФ от 27.01.98 № 24) в качестве обязательного при организации обмена данными для подведомственных Министерству культуры России библиотек. В настоящее время формат RUSMARC — это система взаимосвязанных форматов, в которую входят: • Российский коммуникативный формат представления библиографических сведений. Он является, прежде всего, форматом обмена. Его назначение — способствовать передаче данных, создаваемых библиотеками и системами, использующими различные форматы; • Российский коммуникативный формат представления авторитетных записей. Его основное назначение — обеспечение обмена авторитетными/нормативными, а также ссылочными и справочными записями между библиографирующими учреждениями России; • Российский формат машиночитаемой каталогизации (формат перевода в машиночитаемую форму данных об объекте каталогизации); • Российский коммуникативный формат для представления классификационных данных. Семейство стандартов ONIX ONIX (Online Information eXchange) — это международная система метаданных, представляющая собой стандарт (формат) описания широкого круга товаров книжной индустрии (книги, периодика, электронные издания, компактные диски, аудио и видео кассеты и др.) в системе электронной торговли. Его разработку и поддержку осуществляет специальная рабочая группа по книготорговле в составе Международной организации EDItEUR, занимающейся координацией разработки и продвижения международных стандартов для электронной книжной коммерции. В эту организацию входят более 100 членов из 23 стран, включая Австралию, Канаду, Японию, США и большинство европейских стран. Посредником между EDItEUR и Национальной группой ONIX в России и СНГ выступает некоммерческое партнерство «Гильдия Книжников». Появившись в 2000 г. как версия «ONIX для книг» (ONIX for Books), в настоящее время ONIX представляет собой семейство международных стандартов, основанных на языке XML. Кроме «ONIX для книг» в него входят «ONIX для электронных книг» (ONIX for eBooks), «ONIX для сериальных изданий» (ONIX for Serials) и «ONIX для издательских лицензий» (ONIX for Publications Licenses, (ONIX-PL). ONIX-PL ориентирован на лицензии, в соответствии с которыми библиотеки и другие учреждения используют цифровые ресурсы, включая электронные журналы. Семейство международных стандартов ONIX предназначено для поддержки взаимодействия между всеми сторонами, вовлеченными в создание, распространение, лицензирование интеллектуальной собственности, независимо от формы доступа к ней — реального, физического или виртуального, электронного. В стандартах ONIX нашли логическое развитие идеи электронного обмена данными. Поскольку все стандарты ONIX базируются на языке XML, им присущи преимущества, обусловленные возможностями этого динамически развивающегося языка. Стандарты ONIX предназначены для обеспечения сокращения издержек на различных стадиях продвижения товара в книжной индустрии. Так как для принятия решения о покупке товара необходима определенная информация об этом товаре, то возникает потребность в создании массива информации, сформированного из стандартных описаний и пополняющийся за счет издателей. Для обеспечения оперативности получения информации о готовящихся изданиях всеми заинтересованными сторонами, издатель должен не просто сообщить, что собирается выпустить какие-то книги. Для потенциальных покупателей требуется представить некий набор стандартных данных о книгах, которые должны быть переданы на рынок. Эту возможность унифицированного описания как книжной продукции, так и электронных изданий, а также серийных, периодических изданий предоставляют стандарты ONIX, базирующиеся на языке XML. Их задача - представить книжную продукцию виртуально, то есть тогда, когда нет возможности реально познакомиться с книгой, полистать ее. Данные о книге поступают на компьютер, и их достаточно для того, чтобы понять, стоит покупать книгу или нет. ONIX позволяет передать не только библиографическое описание книги, но и, например, аннотацию, списки публикаций автора, фотографию, и так далее. Стандарты ONIX ориентированы преимущественно на товаропроводящие сети. По структуре полей они совместимы с семейством MARC, но не предназначены исключительно для библиотек. Семейство форматов ONIX является наиболее быстро и динамично развивающейся системой. Перспективы развития ONIX, объявленные разработчиками, позволяют говорить о том, что на базе именно этого стандарта будет делаться попытка объединения всех наиболее используемых сегодня национальных форматах электронного обмена данными. Резюме Среди множества систем метаданных, обладающих разным статусом (международные, национальные и отраслевые стандарты, корпоративные спецификации, спецификации международных консорциумов и др.), наибольшую известность в мире получила универсальная система метаданных «Дублинское ядро». В отличие от Дублинского ядра, разработанного для описания электронных документов в электронной среде, MARC-формат был разработан для описания традиционных документов в электронной среде. Их создание обеспечило компьютерное структурирование и обмен машиночитаемой библиографической информацией между библиотеками разных стран мира. В России в качестве обязательного при организации обмена данными для подведомственных Министерству культуры России библиотек используется единая система взаимосвязанных форматов RUSMARC. Одновременно с развитием систем метаданных и машиночитаемых форматов, предназначенных для использования в библиотеках, получила развитие международная система метаданных (формат) ONIX, предназначенная для описания широкого круга товаров книжной индустрии (книги, периодика, электронные издания, компактные диски, аудио и видео кассеты и др.) в системе электронной торговли. Вопросы 7) Какие требования предъявляются к системам метаданных? 8) С какой целью было создано Дублинское ядро метаданных? 9) Каков состав система взаимосвязанных форматов RUSMARC? 10) Каково назначение семейства стандартов ONIX?

БИБЛИОТЕЧНО-ИНФОРМАЦИОННАЯ ДЕЯТЕЛЬНОСТЬ

#Лекция

Информационно-поисковые языки (ипя): назначение, структура и принципы построения

Тебе могут подойти лекции

Информационно-поисковые языки (ИПЯ): Назначение, структура и принципы построения.

Дескрипторные информационно-поисковые языки (ИПЯ).

Дескрипторные информационно-поисковые языки (ИПЯ)

Основные понятия и классификация информационных систем и технологий

Информационные системы

Систематизация документов: теоретические и технологические аспекты

Информационно-поисковые тезаурусы: структура, назначение и порядок разработки

Индексирование документов как процесс аналитико–синтетической переработки информации

Технология создания и использования каталогов

Основы информатики

Информационно-поисковые языки (ипя): назначение, структура и принципы построения

Тебе могут подойти лекции

Другие гуманитарные предметы

Помощь с написанием учебных работ