Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 9. 1
ЛС автоматизированных БС
Лекция
9.
ЛИНГВИСТИЧЕСКИЕ
СРЕДСТВА
АВТОМАТИЗИРОВАННЫХ БИБЛИОТЕЧНЫХ СИСТЕМ
1. Лингвистическое обеспечение: ключевые определения.
2. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ И СОВМЕСТИМОСТИ
СРЕДСТВ ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ
Лингвистическое обеспечение— это комплекс языковых средств, а
также средства и методы их создания, ведения, использования и
контроля. Его основу составляет ИПЯ, а также методики их ведения и
вспомогательные средства: словари, таблицы, форматы и т. п.
Основная цель создания ЛО — повышение степени совместимости
лингвистических средств при их взаимодействии для сокращения затрат
на реализацию содержательной и технической переработки текстовой
информации.
Оно предназначено для выполнения следующих основных функции:
систематизации информационных массивов и информационных
изданий;
определения тематического охвата для рационального распределения
информационных
массивов
между
взаимодействующими
библиотеками;
индексирования документов и запросов для проведения различных
видов информационного поиска;
единообразного
формирования
информационных
массивов,
предназначенных для обмена;
регламентации процессов создания и применения языковых средств.
Развитие лингвистических средств направлено на однократное
индексирование
и
систематизацию
документов,
постепенную
унификацию и интеграцию используемых ИПЯ, создание целесообразной
минимальной их номенклатуры, учитывающей все потребности библиотек.
Общесистемное ЛО представляет собой совокупность обязательных
для всех библиотек лингвистических средств, обеспечивающих
функционирование в режиме сети.
Оно предназначено для реализации системных функций, связанных с
обменом информации
. Его основу составляют:
разработки общесистемных языковых средств,
типовых проектных решений
комплекса методических документов и стандартов,
определяющих порядок разработки,
базисных и отраслевых тезаурусов, макротезауруса
формирование
поисковых
образов
документов,
записываемых в коммуникативных форматах, порядок
представления в конкретных языковых средств.
Лекция 9. 2
ЛС автоматизированных БС
Создание,
функционирование
и
ведение
общесистемного
регламентируется соответствующими нормативными документами и
реализуется специально выделенными органами.
Ядро общесистемного ЛО составляют:
Методические документы и стандарты, определяющие создание,
использование и ведение общесистемных и локальных языковых средств,
формирование ПОДов, записываемых в коммуникативных форматах,
порядок представления конкретных языковых средств; типовые проектные
решения и программные модули по реализации процессов автоматической
обработки текстов; общесистемные средства фактографических ИПЯ;
базовый алфавит и правила его расширения и использования.
Локальное ЛО представляет собой совокупность конкретных ИПЯ
и
методических
материалов,
обеспечивающих
реализацию
информационных процессов в автономном режиме. Оно предназначено
для решения собственных (автономных) задач соответствующих организаций
и включает в свой состав комплекс ИПЯ классификационного и
дескрипторного типа и методические материалы по их применению. В
состав локального ЛО входят международные и национальные
классификации (УДК, ББК и т. п.), локальные рубрикаторы, классификаторы
и т. п.; ИПТ и другие виды словарей ИПЯ дескрипторного типа; инструкции
и методики по индексированию документов и (или) запросов в конкретной
библиотеке.
Комплекс нормативно-методических документов устанавливает
порядок и основные принципы создания ЛО и его отдельных блоков,
содержащий типовые проекты решений для создания и использования этих
блоков в сетевом режиме.
В составе этого комплекса можно условно выделить такие группы
документов, как стандарты, положения, инструкции, методические
указания.
Стандарты составляют весьма важную часть нормативнометодического обеспечения ЛО. Важнейшим из них является
Среди стандартов, регламентирующих средства ЛО, можно выделить
ГОСТы, регламентирующие процессы обработки документов (например,
систематизация и предметизация, библиографическое описание); состав и
структуру отдельных ИПЯ (Рубрикатора ГАСНТИ, информационнопоисковых тезаурусов); комуникативные форматы (структура и содержание
записи); порядок представления знаков и символов (представление
различных алфавитов, правила транслитерации букв и т.п.).
Главным документом, на основании которого создаются конкретные
нормативно-методические
документы,
является
«Положение
о
лингвистическом
обеспечении»,
утвержденное.
Оно
определяет
назначение, функции и состав, организацию его разработки и ведения,
закрепляет сложившиеся и апробированные на практике средства и
методы ЛО, намечает перспективы их развития и создания новых
Лекция 9. 3
ЛС автоматизированных БС
языковых средств, вызванных повышением степени автоматизации
информационных процессов.
В нем определяется состав и назначение общесистемного и
локального Л О.
Комплекс нормативно-методических документов охватывает в
основном все сферы разработки, использования и ведения различных
элементов ЛО, особенно тех, которые предназначены специально для работы
в режиме сети. Этот комплекс является организационной и методической
основой для работы с лингвистическим обеспечением на ближайшие годы.
Однако создание комплекса нельзя считать завершенным, поскольку
развитие автоматизированных информационно-библиотечных систем будет
неизбежно ставить и новые задачи в сфере лингвистического обеспечения.
Т.О. Элементы лингвистического обеспечения, как и вся система в
целом, не являются статистическим механизмом, а находятся в стадии
непрерывного изменения, развития, совершенствования, что вызвано
влиянием ряда факторов:
объективным процессом развития науки и техники,
дифференциации и интеграции научно-технических областей,
порождающим новую терминологию и новые семантические
связи между понятиями;
естественным
процессом
старения
научно-технической
литературы, сопровождающимся устареванием терминологии;
изменением в процессе функционирования библиотек ее задач и
структуры, круга абонентов и их информационных потребностей,
типов документов, вводимых в систему, их тематической
направленности и т. д., что может вызвать несоответствие между
используемыми лингвистическими средствами и условиями
эксплуатирования системы;
повышением уровня автоматизации технологических процессов,
реализуемых в системе.
2. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ И СОВМЕСТИМОСТИ
СРЕДСТВ ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ
Одним
из
основных
направлений
развития
современных
информационно-библиотечных систем является создание информационных
сетей. Под сетями понимаются различные формы объединения
информационно-библиотечных служб и систем, обеспечивающих
пользователям доступ ко многим базам данных, как создаваемым в
составе сети, так и получаемым извне.
Интеграция действий в области обработки и поставки информации
исключает огромные непроизводственные потери общественных ресурсов на
дублирование обработки одних и тех же документов в разных отраслях.
Лекция 9. 4
ЛС автоматизированных БС
Примером реализации такого подхода служат созданные в нашей стране
централизованные библиотечные системы (ЦБС) и сеть автоматизированных
информационных центров (САЦНТИ).
Реальная эксплуатация этих систем и сетей столкнулась с чрезвычайно
сложным препятствием на пути регулярного обмена информацией,
обработанной в отдельных звеньях такой системы. Это препятствие вызвано
многообразием применяемых ИПЯ, в результате чего взаимодействие
отдельных элементов, подсистем оказывается весьма затруднительным.
Обратимся к конкретному примеру. Так, реализация важнейшего
технологического процесса — комплектования фонда — предполагает, как
известно, использование тематико-типологического плана комплектования
(ТТПК), представляющего собой инструмент, с помощью которого ведется
определение соответствия смыслового содержания приобретаемого издания
профилю библиотеки.
Профиль комплектования задается средствами классификационных
ИПЯ (ББК, УДК,МКИ, КГС и др.).
В ТТПК центральных библиотек ЦБС используются для этой цели
рубрики ББК для массовых библиотек. Однако половина проспективной
(рекламной) информации для ЦБС, что составляет примерно 25 тыс.
библиографических описаний ежегодно, неиспользует данный ИПЯ, так как
содержит сведения, систематизированные с помощью другого ИПЯ — ЕКЛ.
Следовательно, для того чтобы провести сопоставление профиля
комплектования с проспективными данными, возникает необходимость
перевода (реклассификации) этих данных с языка ББК на язык ЕКЛ.
Учитывая, что таких ЦБС в рамках Министерства культуры СССР
насчитывается около 4 тыс., выполнение процедур реклассификации
предполагает значительные трудозатраты, для обеспечения которых
требуется не менее 5270 человек.
Данное обстоятельство осложняет также процесс координации
комплектования библиотек разных ведомств в рамках региона и создание
инструмента, его реализующего — сводного ТТПК региона. Особенно остро
это ощущается на процессах координации комплектования библиотек
системы Министерства культуры и научно-технических библиотек.
Приведенная в качестве примера ситуация характеризует проблему,
известную как проблема совместимости ИПЯ. В настоящее время
отсутствует единое определение понятия «совместимость ИПЯ», так же как и
отсутствует единство взглядов на пути решения этой проблемы. Термин
совместимость был заимствован из вычислительной техники, где под ним
понимается способность вычислительных машин разных типов
использовать без преобразования программы, написанные для другой
машины. Если распространять термин совместимость на ИПЯ, то значение
этого термина хотя и должно быть расширено, но в главном не должно
противоречить его смыслу в области вычислительной техники.
Лекция 9. 5
ЛС автоматизированных БС
Одной из первых попыток разрешить проблему совместимости
языковых средств в масштабе всей страны явились предпринятые по заданию
ГКНТ работы по созданию единой системы классификации печатных
изданий и документальных материалов.
Важнейшим результатом работ по этой проблеме, проводившихся в
1965—1970 гг., был вывод о том, что физически единой классификации, т. е.
единого ИПЯ, обязательного для всех и удовлетворяющего нужды
тематического поиска во всех органах НТИ, создать невозможно.
Исследования показали также, что конструктивно проблема обеспечения
языкового единства может быть решена путем упорядочения существующих
ИПЯ и создания на их основе комплекса средств индексирования документов
и запросов. Не увенчалось успехом использование УДК в качестве единого
ИПЯ. Кроме того, попытки создать и внедрить в качестве общесистемного
языкового средства базисный тезаурус САЦНТИ также не имели
практического результата. Общесистемным лингвистическим средством,
применяемым в САЦНТИ, является Рубрикатор ГАСНТИ. Однако, будучи
линейным и весьма грубым языком, Рубрикатор может осуществлять в сети
только вспомогательные функции, не заменяя основные ИПЯ, применяемые
для тематического поиска.
Весьма важно осознание принципиальной невозможности построения
единого ИПЯ, выполняющего одновременно все функции лингвистических
средств и обеспечивающег все информационные задачи, решаемые системой.
Оно означает понимание того, чтокаждый тип ИПЯ предназначен для
функционирования в строго определенных условиях и «настроен» на
удовлетворение информационных нужд определенного типа.
Многообразие используемых ИПЯ объясняется различиями в тематике,
характере информационных массивов и запросов, требованиях к полноте и
точности поиска, режиму работы системы. Поэтому попытки тем или иным
путем свести все типы ИПЯ к какому-то единому языку логически
необоснованны и практически неоправданны. Ведь если предположить, что
такой ИПЯ удалось построить, то, скорее всего, он определенно лишился бы
своих основных достоинств, сохранив и умножив имеющиеся недостатки.
Вместе с тем взаимодействие различных АСНТИ в информационных
сетях и других объединениях давно уже является реальностью как за
рубежом, так и в СССР, что усиливает актуальность проблемы
совместимости лингвистических средств.
Новая постановка проблемы совместимости вызвана приобретением
современными библотеками целого ряда новых свойств: развитие режима
диалога; одновременный поиск во многих базах данных, в том числе в
режиме сети, с помощью нескольких ИПЯ; интеграция ИПС с другими
системами:
библиотечными,
издательскими,
информационноуправляющими, автоматизированного проектирования и т. п.; создание
ИПС на основе систем управления базами данных и типовых пакетов
Лекция 9. 6
ЛС автоматизированных БС
прикладных программ; автоматизация вспомогательных процессов в
АСНТИ, в том числе задач управления, а также создания и ведения ЛО.
Прежде чем перейти к рассмотрению методов достижения
совместимости ЛО, необходимо дать краткую характеристику трех
основных способов взаимодействия ИПЯ в рамках библиотечнобиблиографической технологии.
Первый из них состоит в параллельном (автономном)
использовании нескольких ИПЯ.
Эту распространенную ситуацию иллюстрирует и уже приводившийся
пример с ТТПК, и такой результат централизованной каталогизации, как
печатная карточка ВКП. Например:
одновременное использование нескольких ИПЯ: УДК, ББК, ЕКЛ, ЯБО,
языка предметных рубрик, ИПЯ для поиска учетно-регистрационных данных
(ISBN, регистрационные и порядковые номера, даты) Этот пример
достаточно типичен для библиотечно-библиографической технологии,
ведение которой базируется на одновременном использовании целого
комплекса ИПЯ.
Одновременное использование нескольких ИПЯ обеспечивает быстрый
и разнообразный доступ потребителя к фонду того или иного подразделения
библиотеки.
Однако этот путь требует больших трудозатрат на параллельное
индексирование документов на всех ИПЯ, действующих в библиотеке,
особенно в условиях автоматизации библиотечно-библиографической
технологии.
Второй путь — совмещение, или интеграция, двух разнотипных
ИПЯ, когда в основной, например классификационный, ИПЯ включаются
особым способом элементы ИПЯ другого типа (например, предметные
рубрики, дескрипторы), которые обеспечивают увеличение семантической
силы ИПЯ в целом. Идея интеграции (непосредственного объединения)
языков различных типов с целью использования их взаимодополняющих
возможностей нашла свое воплощение в фасетизации УДК и ББК; создании
тезаурусофасетов,
представляющих
собой
интеграцию
фасетной
классификации и тезауруса.
Синтезирование элементов классификационного и дескрипторного
языка было достигнуто при разработке в научно-исследовательском секторе
ЛГИК им. Н. К.Крупской лингвистических средств для АСНТИ по культуре
и искусству. Результатом интеграции явился классификационнодескрипторный язык КЛАДЕС.
Достоинство совмещения или интеграции двух разнотипных ИПЯ
заключается в уменьшении трудозатрат на индексирование документов.
Однако этот путь приемлем не для всех ИПЯ, в частности, совместить
подобным образом два ИПЯ классификационного типа в одном невозможно.
Третий путь реализации взаимодействия между различными ИПЯ
— конверсия, т. е.автоматически осуществляемое преобразование
Лекция 9. 7
ЛС автоматизированных БС
записей на одном ИПЯ в записи на другом ИПЯ. На практике идея
конверсии чаще всего воплощается в создании таблиц перевода одного ИПЯ
в другой, т. е. таблиц соответствия. Целым комплексом таблиц соответствия
располагает такой ИПЯ, как МКИ, предполагающий постоянное ведение
таблиц соответствия между различными редакциями МКИ, между МКИ и
отдельныминационал ьными классификациями изобретений. Применение
Рубрикатора ГАСНТИ как средства ЛО тоже породило необходимость
создания таблиц соответствия между этим языком и, например, УДК, ББК,
МКИ, ЕКЛ.
Внедрение таблиц ББК в практику работы библиотек также
потребовало создания таблиц соответствия.
В случае разработки таблиц соответствия между двумя ИПЯ
появляется возможность использования одного, более эффективного с точки
зрения полноты и точности языка, на который с помощью таблиц
соответствия следует переключать запросы, сформулированные на другом
ИПЯ. Гораздо большие возможности предоставляют таблицы соответствия
между несколькими ИПЯ. Например, в АСУ НТБ Азербайджана
используется таблица соответствия между тремя яыками: КГС, ОКП и УДК
Таблицы соответствия, таким образом, реализуют возможность
перехода с одного ИПЯ на другой. Однако их разработка и ведение
представляет собой весьма трудоемкий и сложный процесс.
К числу методов совместимости ЛО, получивших наиболее
широкое применение вотечественной и зарубежной практике, принято
относить следующие:
1) концептуальная совместимость;
2) стандартизация и унификация компонентов ЛО;
3) создание языковых средств межсистемного (универсального)
применения, а также языков-посредников;
4) обмен языковыми средствами;
5) сопряжение языковых средств;
6) автоматическая трансляция (конверсия, перевод) с одного ИПЯ на
другой [25].
Концептуальная совместимость предполагает разработку и внедрение
единых принципов создания и внедрения ЛО систем, входящих в какое-либо
объединение (сеть, систему), а также способы их взаимодействия.
Обеспечение концептуальной совместимости достигается за счет внедрения
нормативно-методических документов, регламентирующих создание и
ведение языковых средств. Важнейшими из них являются «Положение о ЛО
ГАСНТИ» и НТП МЦНТИ 7.74 «Комплекс ИПЯ МСНТИ. Требования,
состав».
Стандартизация
и
унификация
является
наиболее
распространенным методом обеспечения совместимости различных
компонентов ЛО. Следует подчеркнуть, что большая часть нормативных
документов и стандартов МСНТИ, ИСО, связанных с автоматизированными
Лекция 9. 8
ЛС автоматизированных БС
системами, посвящена именно ЛО. Большинство международных и
национальных стандартов посвящено таким проблемам, как алфавиты,
транслитерация, язык библиографического описания и его элементы,
тезаурусы, терминология.
Создание языковых средств межсистемного (универсального)
применения ориентировано на обеспечение различных форм взаимодействия
автоматизированных систем. Наибольшую известность в нашей стране
получил Рубрикатор ГАСНТИ, выполняющий роль общесистемного
языкового
средства
и
совместимый
с
РубрикаторомМСНТИ,
обеспечивающим взаимодействие подсистем МСНТИ.
Обмен языковыми средствами получил развитие в СССР в связи с
созданием АСВИЯ— специальной службы, обеспечивающей все
информационные органы страны сведениями о разработанном ЛО АСНТИ и
выполняющей услуги по предоставлению собственно языковых средств,
хранящихся в этой службе. Так, в фонде АСВИЯ на конец 1989 г. было
зарегистрировано 125 тезаурусов органов ГАСНТИ в книжной форме и 33 —
на машиночитаемых носителях, 24 дескрипторных словаря, 105
рубрикаторов, несколько десятков методических материалов.
Сопряжение языковых средств характеризует такую ситуацию,
когда, отличаясь по лексическому составу, глубине иерархии классификации,
форме представления лексики или другим параметрам, ИПЯ тем не менее
допускает использование его в «чужих» системах либо непосредственно,
либо путем незначительных корректировок. Метод сопряжения явился
идеологической основой при разработке принципов совместимости
рубрикаторов ГАСНТИ (МСНТИ) с локальными рубрикаторами, базисных
тезаурусов —с рабочими, коммуникативного формата — с внутренними,
развитого алфавита — с упрощенным.
Сопряженные ИПЯ — это, по существу, языки, специально
разработанные для удобной автоматической трансляции.
Автоматическая трансляция (конверсия, перевод) с одного ИПЯ на
другой, как уже указывалось, сводится преимущественно к разработке
таблиц соответствия. Реализация этого метода связана с рядом трудностей,
что породило достаточно скептическое отношение исследователей к этому
методу. Так, по экспериментальным данным, для пары МКИ/Рубрикатор
ГАСНТИ при относительно равной глубине и равном числе рубрик
однозначное соответствие удается установить не более чем для 20 % рубрик.
Точно так же весьма невелика степень совпадения лексических единиц и при
сопряжении словарных ИПЯ: при таком переводе, напоминающем
пословный автоматический перевод с иностранных языков, количество
искажений составляет более 50 % переведенного текста.
Трудности
осуществления
конверсии
(создания
таблиц
соответствия) заключаются в следующем.
1. Влияние на ИПЯ прагматического фактора. Такие
принципиальные свойства ИПЯ,как объем лексики (словаря), степень
Лекция 9. 9
ЛС автоматизированных БС
предкоординации лексических единиц (слова или словосочетания, фразы),
используемые грамматические средства, конкретные методы индексирования
и многие другие — все они определяются характером решаемых в данной
системе задач, условиями ее создания и функционирования. Как уже
отмечалось, разработка лексико-семантической основы любого ИПЯ,
включая такие процессы, как отбор и нормализация лексики, построение
классов условной эквивалентности, реализация парадигматических
отношений и т. п., во многом определяются практическими соображениями,
исходят из профиля комплектования документального фонда и
информационных запросов потребителей информации. В связи с этим,
например, иерархические классификационные ИПЯ могут значительно
отличаться от научных классификаций по одной и той же отрасли, проблеме
и т. п. Точно так же одинаковые лексические единицы в ИПЯ разных систем
могут иметь различный статус, будучи связанными различными
парадигматическими отношениями. Например, установление отношений
тождества (синонимия) носит в разных ИПЯ весьма условный характер.
Одним из наиболее очевидных следствий прагматической ориентации
ИПЯ является высокая степень детализации понятий, принадлежащих к
тематике, профильной для потребителей конкретной системы, и, напротив —
значительное обобщение понятий, принадлежащих периферийным областям.
Важную роль играет и субъективный фактор — знания, умения,
навыки, опыт работы, квалификация создателей ИПЯ. Все вместе приводит к
существенному разбросу и неоднозначной интерпретации текстов на
естественном языке средствами разных ИПЯ.
2.Межотраслевая
полисемия.
Значительный
слой
научнотехнической терминологии многозначен: по имеющимся экспериментальным
данным, из 20 тыс. наиболее употребительных терминов политематического
ИПЯ многозначными являются 1600, или 8 % [28]. В результате тексты на
разных ИПЯ даже одного типа могут иметь различную интерпретацию.
Однако несмотря на то что трансляция как способ сопряжения
лингвистических средств является весьма сложным и трудоемким, иногда он
бывает единственно возможным для обеспечения обмена и взаимодействия
языковых средств.
Неразработанность проблемы совместимости средств ЛО еще раз
подчеркивает необходимость решения задачи рационального использования
всего богатства набора различных ИПЯ и выбора из этого множества таких
языков, которые в наибольшей степени отвечают потребностям конкретной
системы, предметной области, профилю информационных потребностей
обслуживаемых абонентов.