Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
(Структура полнотекстовых баз данных ИРБИС)
Строка 120: Строка 120:
 
==Структура полнотекстовых баз данных ИРБИС==
 
==Структура полнотекстовых баз данных ИРБИС==
  
Структура полнотекстовых баз данных ИРБИС основывается на [[Базы данных ИРБИС#Модель баз данных ИРБИС|модели баз данных ИРБИС 64]].
+
Подробности см. в статье [[Схема полнотекстовой базы данных]].
 
 
Каждой записи базы данных соответствует [[#Объекты полнотекстового поиска в ИРБИС|объект полнотекстового поиска]].
 
 
 
Соответствие устанавливается при помощи специальных [[#Ссылки на полные тексты|ссылок]].
 
 
 
С объектом полнотекстового поиска могут быть [[#Схема хранения метаданных Dublin Core|связаны метаданные в формате Dublin Core]].
 
  
 
===Ссылки на полные тексты===
 
===Ссылки на полные тексты===
Строка 301: Строка 295:
 
Пример ссылки на документ в архиве <tt>.izp</tt>:
 
Пример ссылки на документ в архиве <tt>.izp</tt>:
 
  ^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
 
  ^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
 
===Схема хранения метаданных Dublin Core===
 
 
Метаданные Dublin Core хранятся в базе данных ИРБИС 64 в соответствии со следующей схемой:
 
{| class="standard"
 
!Метка поля||Элемент метаданных
 
|-
 
|1||Title — название
 
|-
 
|2||Creator — создатель
 
|-
 
|3||Subject — тема
 
|-
 
|4||Description — описание
 
|-
 
|5||Publisher — издатель
 
|-
 
|6||Contributor — внёсший вклад
 
|-
 
|7||Date — дата
 
|-
 
|8||Type — тип
 
|-
 
|9||Format — формат документа
 
|-
 
|10||Identifier — идентификатор
 
|-
 
|11||Source — источник
 
|-
 
|12||Language — язык
 
|-
 
|13||Relation — отношения
 
|-
 
|14||Coverage — покрытие
 
|-
 
|15||Rights — авторские права
 
|}
 
  
 
==Механизм доступа к объектам полнотекстового поиска==
 
==Механизм доступа к объектам полнотекстового поиска==

Версия 17:08, 19 декабря 2013

Полнотекстовые базы данных ИРБИС являются видом баз данных ИРБИС 64. Полнотекстовые базы данных ИРБИС и программные продукты ИРБИС 64 для полнотекстовых баз данных обеспечивают возможность ранжированного полнотекстового поиска по коллекциям текстовых документов.

Содержание

Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможности для создателей электронных коллекций текстовых документов:

  • Сформировать полнотекстовую базу данных ИРБИС, которая обеспечит возможность полнотекстового поиска по коллекции текстовых документов.
  • С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.

Возможности для пользователей: получить доступ к коллекции текстовых документов для ранжированного полнотекстового поиска и просмотра найденных документов.

Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64

Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:

  • АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
  • АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
  • Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.

Концепция полнотекстовых баз данных ИРБИС

Полнотекстовые базы данных ИРБИС отличаются возможностью индексирования текстов из внешних файлов. Что обеспечивает возможность организовать поиск этих текстов.

Эта концепция позволяет реализовать перечисленные выше возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Индексирование текстов из внешних файлов основывается на следующих идеях:

  • Связывать записи полнотекстовой базы данных с текстами из внешних файлов, чтобы воспользоваться механизмом индексирования в ИРБИС.
  • Реализовать специальный метод индексирования 9, позволяющий индексировать тексты из внешних файлов, связанные с записями полнотекстовой базы данных.

Для описания механизма связывания записи полнотекстовой базы данных с текстами из внешних файлов вводятся следующие понятия:

  • Понятие объекта полнотекстового поиска – что может быть связано с записью полнотекстовой базы данных (и впоследствии проиндексировано).
  • Понятие ссылки на объекта полнотекстового поиска, посредством которой запись полнотекстовой базы данных связывается с объектом полнотекстового поиска.

Формирование полнотекстовой базы данных

Формирование полнотекстовой базы данных предполагает добавление в полнотекстовую базу данных текстов (также принято называть включение текстов в базу данных) и их последующее индексирование.

Фактически, при добавлении текстов, они рассматриваются как объекты полнотекстового поиска, в соответствие каждому из которых в базе создаётся запись, содержащая ссылку на данный объект. Подробнее см. в подразделе Структура полнотекстовых баз данных ИРБИС.

Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. в подразделе Включение текстов в полнотекстовую базу данных статьи АРМ Администратор полнотекстовых БД.

Объекты полнотекстового поиска в ИРБИС

Концепция полнотекстовых баз данных ИРБИС предусматривает следующие виды объектов полнотекстового поиска:

Внешний текстовый файл

Файл допустимого типа. Список допустимых форматов приведён в подразделе Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Отдельная страница многостраничного документа

Отдельная страница многостраничного документа (формата PDF или DJVU).

Файл, ассоциированный с текстом-"подложкой"

Файл допустимого типа, сопровождающийся текстовым файлом, содержащим текстовый слой. Список допустимых форматов приведён в подразделе Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Понятие объекта полнотекстового поиска является одним из ключевых в концепции полнотекстовых баз данных:

  • в процессе формирования в базе данных сохраняется ссылка на объект полнотекстового поиска;
  • текст, связанный с объектом полнотекстового поиска подлежит индексированию;
  • список объектов полнотекстового поиска (соответствующих поисковому запросу) будет выдан конечному пользователю в качестве результатов поиска.

Функциональные возможности ИРБИС 64 для полнотекстовых баз данных

Добавление файлов в полнотекстовую базу данных

При добавлении файла в полнотекстовой базе данных создаётся запись, в которой сохраняется ссылка на внешний файл.

Файлы для добавления могут быть указаны выборочно или может быть указана папка, из которой будут добавлены файлы.

Можно установить список расширений, чтобы были добавлены только файлы соответствующих типов.

Добавление многостраничных документов с разбиением на страницы

Файл PDF или DJVU может быть добавлен в полнотекстовую базу с разбиением на страницы (если выбрана соответствующая опция).

В этом случае объектом полнотекстового поиска является отдельная страница PDF или DJVU документа.

В полнотекстовой базе данных создаётся запись, соответствующая каждой странице добавляемого файла, а в каждой записи сохраняется ссылка с указанием номера страницы.

Если пользователь в результате поиска получил отдельную страницу текста, он имеет возможность перейти к другим страницам.

Примечание: с разбиением на страницы НЕ могут быть добавлены файлы PDF или DJVU, находящиеся в архиве.

Индексирование полнотекстовой базы данных

Индексирование полнотекстовой базы данных – процесс наполнения словаря базы данных словами из текстов из внешних файлов, добавленных в базу данных.

Индексирование документов, из которых невозможно извлечение текста

Если при включении полнотекстового документа найдена соответствующая ему подложка, то в соответствующем подполе базы данных сохраняется ссылка на файл подложки. Таким образом происходит ассоциация полнотекстового документа с соответствующей подложкой.

Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.

Подробнее см. в подразделе Ассоциация текста-подложки с включаемым в полнотекстовую базу документом статьи АРМ Администратор полнотекстовых БД.

Индексирование файлов PDF, защищённых паролем

В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля. Подробнее см. в подразделе Извлечение текстовых данных из PDF-файлов, защищённых паролем статьи АРМ Администратор полнотекстовых БД.

Поисковые возможности

В ИРБИС для полнотекстовых БД предусмотрены следующие поисковые возможности:

  • полнотекстовый поиск;
  • поиск по элементам описания полных текстов (по умолчанию предусмотрен поиск по элементам Dublin Core);
  • полнотекстовый поиск, дополненный ограничением по элементам описания;
  • возможность уточнять полнотекстовый поиск при помощи поиска в найденном по элементам описания.

Структура полнотекстовых баз данных ИРБИС

Подробности см. в статье Схема полнотекстовой базы данных.

Ссылки на полные тексты

Ссылка на текст представляет собой структуру, предназначенную для хранения информации, достаточной для обеспечения доступа к объекту полнотекстового поиска.

Виды ссылок на полные тексты

Ссылки на тексты из внешних файлов различаются в зависимости от объекта полнотекстового поиска и особенностей доступа.

Виды ссылок по способу доступа к объектам полнотекстового поиска:

  • Объект полнотекстового поиска находится на файловой системе.
  • Текстовый файл доступен по URL (HTTP или FTP).

Виды ссылок по размещению объектов полнотекстового поиска на файловой системе:

  • Текстовый файл на файловой системе.
  • Текстовый файл в архиве ZIP или RAR.

Виды ссылок в зависимости от объекта полнотекстового поиска (только в случае размещения текстового файла непосредственно на файловой системе):

  • Текстовый файл.
  • Страница многостраничного документа PDF или DJVU.
  • Файл с текстовой "подложкой".

При нахождении текстового файла непосредственно на файловой системе ссылки различают по способу адресации:

  • относительные – в ссылке используется относительный путь (начинается с точки, например .\texts\irbis64_2008.doc);
  • абсолютные – в ссылке используется полный путь, включающий имя компьютера, в формате UNC (например, \\ComputerName\SharedFolder\Resource.pdf).

Относительный путь указывает местоположение файла относительно пути, указанного в 11-й строке .par-файла, по умолчанию – это папка базы данных.

При нахождении текстового файла в архиве ссылки также разделяются на относительные и абсолютные, в зависимости от того, используется ли в ссылке относительный или абсолютный путь к архиву.

Примечание: до введения в ИРБИС 2011.1 соответствующего запрета в АРМ Администратор было возможно введение абсолютных ссылок, начинающихся с имени диска.

Примечание: 11-я строка .par-файла появилась начиная с версии 2012.1, в более ранних версиях относительный путь указывает местоположение файла относительно папки базы данных.

Поле для хранения ссылки

Метка поля, используемого для хранения ссылки, задаётся в параметре Full_Text_Name конфигурационных файлов АРМ Администратор полнотекстовых БД и АРМ Читатель для полнотекстовых БД (описание параметра см. в статье Конфигурационные параметры ИРБИС для полнотекстовых БД).

По умолчанию, для хранения ссылки используется метка поля 952.

Данное поле не повторяющееся.

Поле доступно на рабочем листе Технологическая в АРМ Каталогизатор.

Элементы ссылки

Ссылка на объект полнотекстового поиска в общем случае содержит следующие структурные элементы:

  • URL
  • Путь к текстовому файлу
  • Номер страницы
  • Путь к файлу архива
  • Путь к файлу внутри архива
  • Имя файла с текстом-"подложкой"
  • Полный путь для относительной ссылки (является избыточным и поддерживается по историческим причинам)

В зависимости от вида ссылка содержит те или иные элементы.

Структура, используемая для хранения ссылки в базе данных

Структура, используемая для хранения ссылки в базе данных представляет собой совокупность подполей ^B^C^I^T^U:

  • B – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах .zip и .rar, а также в случае ссылок на отдельные страницы многостраничных документов .pdf и .djvu. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
  • C – полный путь к файлу zip/rar/pdf/djvu. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
  • I – URL текста, перенесённого из электронного каталога.
  • T – ссылка на файл подложки. Представляет собой имя текстового файла, подразумевается, что местонахождение файла подложки соответствует местонахождению полнотекстового документа.
  • U – введено для технологических целей в версии 2010.1. Подполе ^U было задумано как универсальная замена подполям ^B^C^I с возможностью расширения, однако было признано неудобным с точки зрения его разбора средствами языка форматирования. Как следствие, подполе ^U остаётся вспомогательным, и используется наряду с другими подполями.

Подполе ^U всегда начинается с префикса

uri:irbis:

Дальнейшее содержимое зависит от объекта полнотекстового поиска.

Примечание: особенность ссылок на отдельную страницу многостраничного документа (то же касается и текстов в архиве) в том, что относительные или абсолютные ссылки отличаются подполем ^B, а в подполе ^C в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была исправлена в версии 2011.1 (см. ошибочное использование абсолютного пути из подполя ^C в случае относительных ссылок с разбиением на страницы).

Составление ссылки

Ниже приведены примеры составления ссылки в зависимости от объекта полнотекстового поиска и особенностей доступа.

Ссылка на текстовый файл

Объект полнотекстового поиска: текстовый файл.

Доступ: на файловой системе.

Элементы ссылки: путь к текстовому файлу.

Пример относительной ссылки на текстовый файл:

^B.\texts\irbis64_2008.doc

Пример абсолютной ссылки на текстовый файл:

^B\\ComputerName\SharedFolder\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
Ссылка на отдельную страницу многостраничного документа

Объект полнотекстового поиска: отдельная страница многостраничного документа (формата PDF или DJVU).

Доступ: на файловой системе.

Элементы ссылки: путь к текстовому файлу, номер страницы.

Подполя: ^B^C^U.

Подполе ^B конструируется следующим образом:
<путь к файлу (без имени файла)> + <имя файла (без расширения)> + <суффикс> + <номер страницы> + <расширение файла>
где:

  • <путь к файлу (без имени файла)> – путь (относительный или абсолютный) к исходному многостраничному документу, без имени файла;
  • <имя файла (без расширения)> – имя файла исходного многостраничного документа без расширения;
  • <суффикс> – последовательность символов, которая отделяет имя файла от номера страницы (по умолчанию два знака подчёркивания __, вообще определяется конфигурационным параметром FULL_TEXT_FileNamePrefixDiv);
  • <номер страницы> – номер страницы, дополненный лидирующими нулями до 4 символов;
  • <расширение файла> – расширение исходного многостраничного документа .pdf или .djvu.

Подполе ^C представляет собой: АБСОЛЮТНЫЙ путь к файлу и имя исходного многостраничного файла. По историческим причинам в данном подполе хранится АБСОЛЮТНЫЙ путь даже в том случае, если ссылка является относительной. Примечание: хранение пути к файлу в подполях ^B и ^C представляет собой факт наличия избыточной информации; более того, АБСОЛЮТНЫЙ путь в относительной ссылке представляет собой не только избыточную, но также и потенциально недостоверную информацию, которая не должна использоваться (данная информация игнорируется при интерпретации ссылки).

Подполе ^U также содержит путь к текстовому файлу и номер страницы, и игнорируется при интерпретации ссылки.

Пример ссылки на 69-ю страницу pdf-документа (относительная ссылка на документ):

^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf

Пример ссылки на 1-ю страницу pdf-документа (абсолютная ссылка на документ):

^B\\ComputerName\SharedFolder\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^C\\ComputerName\SharedFolder\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
Ссылка на текстовый файл в архиве ZIP или RAR

Объект полнотекстового поиска: текстовый файл.

Доступ: на файловой системе, в архиве ZIP или RAR.

Элементы ссылки: путь к файлу архива, путь к файлу внутри архива.

Подполе ^B конструируется следующим образом:
<путь к файлу архива> + <путь к файлу внутри архива>
где:

  • <путь к файлу архива> – относительный или абсолютный путь к файлу архива, без имени архива (записывается с использованием символа "\" – обратный слэш, и завершается данным символом);
  • <путь к файлу внутри архива> – путь к файлу внутри архива, включая имя текстового файла (записывается с использованием символа "/" – прямой слэш).

Подполе ^C представляет собой: АБСОЛЮТНЫЙ полный путь к архиву (путь и имя). По историческим причинам в данном подполе хранится АБСОЛЮТНЫЙ путь даже в том случае, если ссылка является относительной. Примечание: хранение пути к архиву в подполях ^B и ^C представляет собой факт наличия избыточной информации; более того, АБСОЛЮТНЫЙ путь в относительной ссылке представляет собой не только избыточную, но также и потенциально недостоверную информацию, которая не должна использоваться (данная информация игнорируется при интерпретации ссылки).

Подполе ^U конструируется следующим образом: <путь к файлу архива> + ":" + <путь к файлу внутри архива>, и игнорируется при интерпретации ссылки.

Примечание: Одновременно с введением подполя ^U изменилась логика формирования подполя ^B. С этого момента в подполе ^B используются только символы \ и НЕ используются символы /. Следствием стало то, что в версиях 2010.1, 2011.1 и 2012.1 присутствует ошибка при интерпретации относительной ссылки, которая может проявляться случае перемещения базы данных. В такой ситуации проблема может быть решена при помощи глобальной корректировки: чтобы ошибка не проявлялась, в подполе ^C должен присутствовать полный путь к архиву. Именно для устранения данной ошибки в версии 2013.1 при разборе ссылки по возможности используется подполе ^U.

Пример:

^B\\ComputerName\SharedFolder\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^C\\ComputerName\SharedFolder\FullTexts\rar\ИРБИС_документация.rar
Ссылка на файл, ассоциированный с текстом-"подложкой"

Объект полнотекстового поиска: файл, ассоциированный с текстом-"подложкой".

Доступ: на файловой системе.

Элементы ссылки: путь к текстовому файлу, имя файла с текстом-"подложкой". Первый текстовый файл используется для показа пользователю, а индексированию подлежит текст из "подложки".

Подполя: ^B^T^U. Подполе ^B содержит путь к текстовому файлу (подполе ^U также содержит данный путь). Подполе ^T содержит имя файла с текстом-"подложкой".

Пример:

^B\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf^T1.pdf.txt^Uuri:irbis:\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf
Ссылка на текстовый файл, доступный по URL

Объект полнотекстового поиска: текстовый файл.

Доступ: по URL.

Элементы ссылки: URL.

Подполя: ^B^I. Подполе ^I содержит URL. Подполе ^B содержит дополнительную информацию.

Пример:

^Ihttp://www.sweden.se/ru/Start/Education/^Bindex.html : http://www.sweden.se/ru/Start/Education/
Устаревшие элементы структуры

Подполе – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением .izp, находящемся в папке базы данных. Начиная с версии 2010.1 данный вид ссылок не поддерживается.

Пример ссылки на документ в архиве .izp:

^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc

Механизм доступа к объектам полнотекстового поиска

Механизм доступа к объектам полнотекстового поиска обеспечивает:

В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).

Получение ссылки при использовании метода индексирования 9

Начиная с версии 2013.1 предусмотрена возможность получения ссылки на объект полнотекстового поиска из формата ТВП для инвертированного файла. Также возможно получение ссылки способом, реализованным в предыдущих версиях ИРБИС.

Для более ранних версий ИРБИС ссылка непосредственно считывается из соответствующего поля базы данных, предназначенного для хранения ссылки.

Получение ссылки на объект полнотекстового поиска через формат

Для включения/выключения данной возможности предназначен параметр method9_tryNotUseDirectDBAccess (описание параметра см. в статье Конфигурационные параметры ИРБИС для полнотекстовых БД).

Ожидается, что формат передаст ссылку в следующем виде: префикс "FT-DB-LNK:", после которого перечислены компоненты ссылки ^B^C^I^T^U в той же форме, в которой они хранятся в базе данных, например:

FT-DB-LNK:^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf

Интерпретация ссылки

При необходимости доступа к файлу полного текста (при индексации, отображении на экране) компоненты ссылки интерпретируются в соответствии с определёнными правилами, которые описаны ниже.

Ссылка на текстовый файл, доступный по URL

Если заполнено подполе ^I, то интерпретируем данную ссылку как ссылку на текстовый файл, доступный по URL. Содержимое подполя ^I является URL (HTTP или FTP).

Объект полнотекстового поиска – файл, доступный по указанному URL.

Примечание: при использовании HTTP-ссылок формат файла определяется по заголовку HTTP, во всех остальных случаях – по расширению файла.

Объект полнотекстового поиска находится на файловой системе

Иначе полагаем, что объект полнотекстового поиска находится на файловой системе.

Объект полнотекстового поиска – текстовый файл, находящийся непосредственно на файловой системе

Если подполе ^C не заполнено, то считается, что в подполе ^B хранится путь к текстовому файлу (относительный или абсолютный), и данный файл является объектом полнотекстового поиска.

Файл, ассоциированный с текстом-"подложкой"

Если при этом заполнено подполе ^T, то объект полнотекстового поиска – файл, ассоциированный с текстом-"подложкой".

Первый текстовый файл используется для показа пользователю, а индексированию подлежит текст из "подложки".

Подполе ^T содержит имя файла с текстом-"подложкой". Местонахождение файла подложки соответствует местонахождению основного файла.

Отдельная страница многостраничного документа или текстовый файл в архиве

Если подполе ^C заполнено, то объект полнотекстового поиска не доступен непосредственно, и является:

  • отдельной страницей многостраничного файла (.pdf или .djvu) или
  • текстом в архиве (.zip или .rar).

В этих случаях для доступа к объекту полнотекстового поиска необходимо соответственно:

  • извлечь страницу из исходного многостраничного файла (или из кеша извлечённых страниц), либо
  • извлечь текст из архива.

Необходимая для извлечения дополнительная информация содержится в подполях ^B и ^C.

Отдельная страница многостраничного документа

Если расширение файла в подполе ^C.pdf или .djvu, то объектом полнотекстового поиска является отдельная страница многостраничного документа.

Путь к текстовому файлу (полный, включая имя файла) можно получить следующим образом: из подполя ^B взять путь к файлу, а из подполя ^C взять имя файла.

Номер страницы можно получить из подполя ^B, которое, как описано в подразделе Составление ссылки, составляется следующим образом:
<путь к файлу (без имени файла)> + <имя файла (без расширения)> + <суффикс> + <номер страницы> + <расширение файла>

Текстовый файл в архиве

Если в подполе ^C расширение файла .zip или .rar, то объектом полнотекстового поиска является текстовый файл, находящийся в архиве.

НЕ допускаются ссылки на отдельные страницы многостраничного документа, находящегося в архиве.

Начиная с версии 2013.1 по возможности при интерпретации используется подполе ^U, иначе подполя ^B^C.

Получение пути к файлу архива и пути к файлу внутри архива из подполя ^U очевидно исходя из его описания в подразделе Составление ссылки.

Подполя ^B^C для получения пути к файлу архива и пути к файлу внутри архива используются следующим образом:

  • Подполе ^B разбирается в соответствии со следующими правилами: с последним вхождением символа \ (обратный слэш) заканчивается путь к архиву, дальше начинается относительный путь внутри архива; путь внутри архива записывается с использованием символа / (прямой слэш).
  • Подполе ^C содержит имя файла архива. Примечание: данное подполе также содержит также полный путь к архиву, что является, как минимум, избыточной информацией, а в случае использования относительных путей, также и недостоверной информацией.

Кэширование объектов полнотекстового поиска

АРМ Администратор полнотекстовых БД создаёт копии файлов PDF перед расшифровкой, разбиением на страницы и извлечением из них текста. Создание копий позволяет избежать проблем при работе утилит, связанных с ограничениями, накладываемыми на имена файлов (русские буквы, слишком длинные имена и т.п.). Кроме того, при работе с зашифрованными файлами PDF, АРМ Администратор полнотекстовых БД создаёт незашифрованную копию. Все эти временные копии удаляются сразу же после выполнения соответствующей операции.

Кроме этого, если в процессе работы АРМ Администратор полнотекстовых БД были извлечены страницы PDF- или DJVU-файла, то эти извлечённые страницы будут сохранены до окончания работы АРМ, и могут быть использованы, при необходимости, без повторного извлечения. Например, при добавлении в базу PDF-файлов с разбиением на страницы, все страницы будут извлечены. Если создавать словарь до выхода из программы, то страницы не будут извлекаться повторно. Если закрыть АРМ Администратор, извлечённые страницы PDF-документов будут удалены, и при новом запуске АРМ Администратор при создании словаря они будут извлекаться заново.

Устаревшие возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Ссылки

См. также:

Источники информации: