Включение текстов в полнотекстовую базу данных

Материал из Wikipedia
Перейти к: навигация, поиск

Включение текстов в базу и удаление текстов из базы приводят к изменению базы данных, при этом сами файлы полных текстов остаются в неизменном виде на файловой системе.

Правила заполнения полей полнотекстовой базы данных при включении текста в базу

Порядок извлечения текста и сохранение текста в 27 поле полнотекстовой базы

27 поле используется для хранения полного текста непосредственно в базе данных. Данное поле используется только для ссылок на страницы полного текста. Каждое предложение текста сохраняется в повторении поля.

Извлечение полного текста может осуществляться из полнотекстовой базы или файла с полным текстом.

После добавления текста в базу в первый раз извлечение осуществляется из файла с полным текстом. В дальнейшем, полный текст будет извлечён из 27 поля (при наличии).

Запись полного текста в данное поле осуществляется только в том случае, если поле отсутствует (то есть, не было записано ранее при создании словаря).

Запись прочих полей в зависимости от порядка извлечения текста

Запись в 20, 21, 22 поля осуществляется только при извлечении текста из файла с полным текстом.

Включение в полнотекстовую базу текстов из базы данных электронного каталога

Алгоритм получения ссылок из базы данных электронного каталога

Делается попытка получения ссылок на тексты из каждой записи базы данных электронного каталога.

Получение ссылок осуществляется в соответствии с форматом, если он задан.

Если формат не задан, то получение ссылок осуществляется из подполей A и I 951 поля, что соответствует местонахождению в базе данных электронного каталога ссылок на внешние объекты.

Формат задают при помощи параметра EC_IMPORT_PATH_FORMAT секции TEXTS.

Ссылки, полученные при помощи формата, интерпретируются следующим образом: если ссылка не соответствует формату UNC, то считается относительной. URL-ссылки не допустимы.

Если формат не задан, то: ссылки, полученные из подполя A считаются относительными; из подполя I – абсолютными.

Относительная адресация осуществляется в соответствии с правилами для относительных ссылок в полнотекстовых базах данных.

Отличия в зависимости от версии ИРБИС

Начиная с версии 2014.1

Добавлена возможность получения ссылок в соответствии с форматом.

В версии 2013.1

Предусмотрено включение в полнотекстовую базу данных ссылок на отдельные страницы многостраничного документа. Описание Dublin Core создаётся на основе библиографического описания, и прикрепляется к записи полнотекстовой БД, соответствующей первой странице документа.

Предусмотрено включение в полнотекстовую базу данных текстов с относительными путями в автоматическом режиме при указании местонахождения текстов в 11-й строке .par-файла. Относительные ссылки (из подполя A 951 поля) преобразуются в относительные, абсолютные (из подполя I) – в абсолютные .

Реализована возможность прикреплять описания Dublin Core к многостраничным документам, добавленным к БД с разбиением на страницы. Описание Dublin Core прикрепляется к записи полнотекстовой БД, соответствующей первой странице документа. Другие страницы связываются с описанием Dublin Core посредством записи словаря (инвертированного файла); для установления связи используется подполе 952^b.

До версии 2012.1 включительно

Включение в полнотекстовую базу ссылок на отдельные страницы многостраничного документа не предусмотрено.

Включение в полнотекстовую базу данных текстов с относительными путями требует ряда дополнительных шагов.

Об особенностях включения текстов из электронного каталога с относительными ссылками см. в соответствующем подразделе статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных

Исключение повторного добавления текстов

При включении текстов в базу данных повторное добавление исключается.

Если ссылка на текст (или страницу многостраничного документа) уже присутствует в базе данных, то данный текст пропускается.

Абсолютные и относительные ссылки считаются разными, то есть один и тот же текст может быть включён в базу данных с абсолютным и относительным путём.

При включении многостраничного текстового файла:

  • Начиная с версии 2014.1: проверяется наличие последней страницы документа. Если последняя страница присутствует, то файл пропускается. Если отсутствует, то проверяется наличие каждой страницы, и отсутствующие добавляются.
  • До версии 2013.1 включительно: проверяется наличие каждой страницы документа, и отсутствующие добавляются.

Ссылки

См. также: