Включение текстов в полнотекстовую базу данных

Материал из Wikipedia
Перейти к: навигация, поиск

Включение текстов в базу и удаление текстов из базы приводят к изменению базы данных, при этом сами файлы полных текстов остаются в неизменном виде на файловой системе.

Правила заполнения полей полнотекстовой базы данных при включении текста в базу

Порядок извлечения текста и сохранение текста в 27 поле полнотекстовой базы

Извлечение полного текста из внешнего файла обычно осуществляется однократно. При этом извлечённый текст сохраняется в поле 27. Исключение составляют те случаи, когда текст не был успешно извлечён.

Поле 27 используется для хранения полного текста непосредственно в базе данных в целях оптимизации: чтобы избегать повторного извлечения текста из внешнего файла.

Данное поле используется только для ссылок на страницы полного текста (страницы PDF и DJVU файлов).

Каждое предложение текста сохраняется в отдельном повторении данного поля.

Запись полного текста в данное поле осуществляется только в том случае, если выполняются следующие условия:

  • поле отсутствует (то есть, не было записано ранее при создании словаря),
  • текст был успешно извлечён из внешнего файла.

Практические следствия использования поля 27 и его особенностей:

  • создание словаря становится не столь затратной операцией, для тех записей, которые содержат поле 27,
  • если файл PDF не содержал текстовый слой (например, был не распознан), а затем текстовый появился (был распознан позже, уже после создания словаря), то необходимо и достаточно сделать создание словаря заново, чтобы текст был всё-таки взят из файла в индекс (словарь).

Запись прочих полей в зависимости от порядка извлечения текста

Запись в 20, 21, 22 поля осуществляется только при извлечении текста из файла с полным текстом.

Включение в полнотекстовую базу текстов из базы данных электронного каталога

Алгоритм получения ссылок из базы данных электронного каталога

Делается попытка получения ссылок на тексты из каждой записи базы данных электронного каталога.

Получение ссылок осуществляется в соответствии с форматом, если он задан.

Если формат не задан, то получение ссылок осуществляется из подполей A и I 951 поля, что соответствует местонахождению в базе данных электронного каталога ссылок на внешние объекты.

Формат задают при помощи параметра EC_IMPORT_PATH_FORMAT секции TEXTS.

Ссылки, полученные при помощи формата, интерпретируются следующим образом: если ссылка не соответствует формату UNC, то считается относительной. URL-ссылки не допустимы.

Если формат не задан, то: ссылки, полученные из подполя A считаются относительными; из подполя I – абсолютными.

Относительная адресация осуществляется в соответствии с правилами для относительных ссылок в полнотекстовых базах данных.

Отличия в зависимости от версии ИРБИС

Начиная с версии 2014.1

Добавлена возможность получения ссылок в соответствии с форматом.

В версии 2013.1

Предусмотрено включение в полнотекстовую базу данных ссылок на отдельные страницы многостраничного документа. Описание Dublin Core создаётся на основе библиографического описания, и прикрепляется к записи полнотекстовой БД, соответствующей первой странице документа.

Предусмотрено включение в полнотекстовую базу данных текстов с относительными путями в автоматическом режиме при указании местонахождения текстов в 11-й строке .par-файла. Относительные ссылки (из подполя A 951 поля) преобразуются в относительные, абсолютные (из подполя I) – в абсолютные .

Реализована возможность прикреплять описания Dublin Core к многостраничным документам, добавленным к БД с разбиением на страницы. Описание Dublin Core прикрепляется к записи полнотекстовой БД, соответствующей первой странице документа. Другие страницы связываются с описанием Dublin Core посредством записи словаря (инвертированного файла); для установления связи используется подполе 952^b.

До версии 2012.1 включительно

Включение в полнотекстовую базу ссылок на отдельные страницы многостраничного документа не предусмотрено.

Включение в полнотекстовую базу данных текстов с относительными путями требует ряда дополнительных шагов.

Об особенностях включения текстов из электронного каталога с относительными ссылками см. в соответствующем подразделе статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных

Исключение повторного добавления текстов

При включении текстов в базу данных повторное добавление исключается.

Если ссылка на текст (или страницу многостраничного документа) уже присутствует в базе данных, то данный текст пропускается.

Абсолютные и относительные ссылки считаются разными, то есть один и тот же текст может быть включён в базу данных с абсолютным и относительным путём.

При включении многостраничного текстового файла:

  • Начиная с версии 2014.1: проверяется наличие последней страницы документа. Если последняя страница присутствует, то файл пропускается. Если отсутствует, то проверяется наличие каждой страницы, и отсутствующие добавляются.
  • До версии 2013.1 включительно: проверяется наличие каждой страницы документа, и отсутствующие добавляются.

Ссылки

См. также: