Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
(Виды ссылок на полные тексты)
Строка 91: Строка 91:
  
 
====Виды ссылок на полные тексты====
 
====Виды ссылок на полные тексты====
 +
 +
Ссылки на тексты из внешних файлов различаются в зависимости от [[#Объекты полнотекстового поиска в ИРБИС|объекта полнотекстового поиска]] и особенностей доступа.
  
 
Виды ссылок по способу доступа к [[#Объекты полнотекстового поиска в ИРБИС|объектам полнотекстового поиска]]:
 
Виды ссылок по способу доступа к [[#Объекты полнотекстового поиска в ИРБИС|объектам полнотекстового поиска]]:

Версия 13:35, 24 июля 2013

Полнотекстовые базы данных ИРБИС являются видом баз данных ИРБИС 64. Полнотекстовые базы данных ИРБИС и программные продукты ИРБИС 64 для полнотекстовых баз данных обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов.

Содержание

Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможности для создателей электронных коллекций текстовых документов:

  • Сформировать полнотекстовую базу данных ИРБИС, которая обеспечит возможность полнотекстового поиска по коллекции текстовых документов.
  • С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.

Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.

Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64

Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:

  • АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
  • АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
  • Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.

Концепция полнотекстовых баз данных ИРБИС

Полнотекстовые базы данных ИРБИС отличаются возможностью индексирования текстов из внешних файлов. Что обеспечивает возможность организовать поиск этих текстов.

Эта концепция позволяет реализовать перечисленные выше возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Индексирование текстов из внешних файлов основывается на следующих идеях:

  • Связывать записи полнотекстовой базы данных с текстами из внешних файлов, чтобы воспользоваться механизмом индексирования в ИРБИС.
  • Реализовать специальный метод индексирования 9, позволяющий индексировать тексты из внешних файлов, связанные с записями полнотекстовой базы данных.

Для описания механизма связывания записи полнотекстовой базы данных с текстами из внешних файлов вводятся следующие понятия:

  • Понятие объекта полнотекстового поиска – что может быть связано с записью полнотекстовой базы данных (и впоследствии проиндексировано).
  • Понятие ссылки на объекта полнотекстового поиска, посредством которой запись полнотекстовой базы данных связывается с объектом полнотекстового поиска.

Объекты полнотекстового поиска в ИРБИС

Система обеспечивает поиск и выдачу конечному пользователю в соответствии с поисковым запросом текстов, связанных с объектами следующих видов:

которые выступают в системе в качестве объекта полнотекстового поиска.

Понятие объекта полнотекстового поиска является одним из ключевых в концепции полнотекстовых баз данных:

  • в процессе формирования в базе данных сохраняется ссылка на объект полнотекстового поиска;
  • текст, связанный с объектом полнотекстового поиска подлежит индексированию;
  • список объектов полнотекстового поиска (соответствующих поисковому запросу) будет выдан конечному пользователю в качестве результатов поиска.

Формирование полнотекстовой базы данных

Формирование полнотекстовой базы данных предполагает добавление в полнотекстовую базу данных текстов (также принято называть включение текстов в базу данных) и их последующее индексирование.

Фактически, при добавлении текстов, они рассматриваются как объекты полнотекстового поиска, в соответствие каждому из которых в базе создаётся запись, содержащая ссылку на данный объект. Подробнее см. в подразделе Структура полнотекстовых баз данных ИРБИС.

Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. в подразделе Включение текстов в полнотекстовую базу данных статьи АРМ Администратор полнотекстовых БД.

Индексированием текстов (объектов полнотекстового поиска) называется процесс пополнения словаря полнотекстовой базы данных словами из этих текстов.

Индексирование текстов (объектов полнотекстового поиска), обеспечивает возможность полнотекстового поиска. Подробнее об индексировании см. в подразделе Индексирование полнотекстовых баз данных ИРБИС.

Особенности выбора вида объектов полнотекстового поиска

Для файлов PDF и DJVU выбор вида объектов полнотекстового поиска (текстовый файл целиком или отдельная страница) определяется при добавлении текстов в полнотекстовую базу в зависимости от выбранных опций.

В зависимости от этого в базу будут добавлены:

  • один объект полнотекстового поиска, соответствующий файлу, или
  • набор объектов полнотекстового поиска, соответствующий набору страниц текста.

При добавлении файлов других форматов такая возможность выбора отсутствует.

Если пользователь в результате поиска получил отдельную страницу текста, он имеет возможность перейти к другим страницам.

Структура полнотекстовых баз данных ИРБИС

Структура полнотекстовых баз данных ИРБИС основывается на возможностях логической структуры баз данных ИРБИС 64.

Каждой записи базы данных соответствует объект полнотекстового поиска.

Соответствие устанавливается при помощи специальных ссылок.

Ссылки на полные тексты

Виды ссылок на полные тексты

Ссылки на тексты из внешних файлов различаются в зависимости от объекта полнотекстового поиска и особенностей доступа.

Виды ссылок по способу доступа к объектам полнотекстового поиска:

  • Объект полнотекстового поиска находится на файловой системе.
  • Текстовый файл доступен по URL (HTTP или FTP).

Виды ссылок по размещению объектов полнотекстового поиска на файловой системе:

  • Текстовый файл на файловой системе.
  • Текстовый файл в архиве ZIP или RAR.

Виды ссылок в зависимости от объекта полнотекстового поиска (только в случае размещения текстового файла непосредственно на файловой системе):

  • Текстовый файл.
  • Страница многостраничного документа PDF или DJVU.
  • Файл с текстовой "подложкой".

При нахождении текстового файла непосредственно на файловой системе ссылки различают по способу адресации:

  • относительные – в ссылке используется относительный путь (начинается с точки, например .\texts\irbis64_2008.doc);
  • абсолютные – в ссылке используется полный путь, включающий имя компьютера, в формате UNC (например, \\ComputerName\SharedFolder\Resource.pdf).

Относительный путь указывает местоположение файла относительно пути, указанного в 11-й строке .par-файла, по умолчанию – это папка базы данных.

При нахождении текстового файла в архиве ссылки также разделяются на относительные и абсолютные, в зависимости от того, используется ли в ссылке относительный или абсолютный путь к архиву.

Примечание: до введения в ИРБИС 2011.1 соответствующего запрета в АРМ Администратор было возможно введение абсолютных ссылок, начинающихся с имени диска.

Примечание: 11-я строка .par-файла появилась начиная с версии 2012.1, в более ранних версиях относительный путь указывает местоположение файла относительно папки базы данных.

Компоненты ссылки

В каждой записи полнотекстовой базы данных ИРБИС хранится ссылка на один объект полнотекстового поиска.

Для хранения ссылки используется выбранное для этого поле (по умолчанию метка поля 952). Данное поле не повторяющееся.

Поле доступно на рабочем листе Технологическая в АРМ Каталогизатор.

Для хранения ссылки на объекты полнотекстового поиска в общем случае используются подполя ^B, ^C, ^I. В зависимости от вида объекта полнотекстового поиска и вида ссылки используются разные подполя. Об особенностях интерпретации ссылок см. в подразделе Интерпретация ссылки.

Для хранения ссылки на подложку используется подполе ^T. Об особенностях использования подложки см. в подразделе Порядок получения текста при индексировании с помощью 9 метода.

Подполя, содержащие ссылку на файл текста:

  • А – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением .izp, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
  • B – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах .zip и .rar, а также в случае ссылок на отдельные страницы многостраничных документов .pdf и .djvu. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
  • C – полный путь к файлу zip/rar/pdf/djvu. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
  • I – URL текста, перенесённого из электронного каталога.

Дополнительные подполя:

  • T – ссылка на файл подложки. Представляет собой имя текстового файла, подразумевается, что местонахождение файла подложки обязательно соответствует местонахождению полнотекстового документа.
  • U – введено для технологических целей в версии 2010.1, объединяет в себе информацию из подполей B, C и I. Фактически не используется.

Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем ^B, а в подполе ^C в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была исправлена в версии 2011.1 (см. ошибочное использование абсолютного пути из подполя ^C в случае относительных ссылок с разбиением на страницы).

Примеры заполнения подполей:

  • Относительная ссылка на документ
^B.\texts\irbis64_2008.doc
  • Абсолютная ссылка на документ
^B\\ComputerName\SharedFolder\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
  • Ссылка на 69-ю страницу pdf-документа (относительная ссылка на документ)
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  • Ссылка на 1-ю страницу pdf-документа (абсолютная ссылка на документ)
^B\\ComputerName\SharedFolder\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^C\\ComputerName\SharedFolder\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  • Ссылка на документ в архиве
^B\\ComputerName\SharedFolder\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^C\\ComputerName\SharedFolder\FullTexts\rar\ИРБИС_документация.rar
  • Ссылка на документ в архиве .izp
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
  • Абсолютная ссылка на текстовый документ с подложкой
^B\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf^T1.pdf.txt^Uuri:irbis:\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf

Интерпретация ссылки

При необходимости доступа к файлу полного текста (для индексации, отображении на экране) компоненты ссылки интерпретируются в соответствии с определёнными правилами, которые описаны ниже.

Если заполнено подполе ^I, то ссылка представляет собой URL (HTTP или FTP), который и содержится в данном подполе.

Если подполе ^C не заполнено, то считается, что в подполе ^B хранится относительная или абсолютная ссылка на текст целиком.

В этих случаях имеется прямая ссылка на файл, представляющий собой объект полнотекстового поиска.

Примечание: при использовании HTTP-ссылок формат файла определяется по заголовку HTTP; во всех остальных случаях по расширению файла.

Если подполе ^C заполнено, то объект полнотекстового поиска не доступен непосредственно, и является:

  • отдельной страницей многостраничного файла (.pdf или .djvu) или
  • текстом в архиве (.zip или .rar).

В этих случаях для доступа к объекту полнотекстового поиска необходимо соответственно:

  • извлечь страницу из исходного многостраничного файла (или из кеша извлечённых страниц), либо
  • извлечь текст из архива.

Необходимая для извлечения дополнительная информация содержится в компонентах ссылки ^B и ^C.

Если в подполе ^C "расширение файла" .pdf или .djvu, то объектом полнотекстового поиска является отдельная страница многостраничного документа.

Тогда, если из подполя ^B взять "путь к файлу", а из подполя ^C взять "имя файла", то получится путь и имя PDF или DJVU файла. Получить номер страницы можно, имея в виду следующее правило: виртуальное "имя файла" из подполя ^B представляет собой исходное имя PDF или DJVU файла + суффикс, отделяющий имя от номера страницы (по умолчанию два знака подчёркивания __) + номер страницы, дополненный лидирующими нулями до 4 символов + расширение исходного файла.

Если в подполе ^C "расширение файла" .zip или .rar, то объектом полнотекстового поиска является текст, находящийся в архиве.

Индексирование полнотекстовых баз данных ИРБИС

Возможность полнотекстового поиска обеспечивает механизм индексирования. Специально разработанный для полнотекстовых баз данных метод индексирования 9 позволяет индексировать включённые в базу данных файлы полных текстов.

В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).

Получение текста в пригодной для индексирования форме из файлов, включённых в базу данных, называется в данной документации извлечением текста.

Подробнее о возможностях АРМ Администратор ИРБИС полнотекстовых БД по работе со словарём см. в подразделе Обслуживание словаря базы данных ИРБИС статьи АРМ Администратор и в подразделе Обслуживание словаря полнотекстовых баз данных ИРБИС статьи АРМ Администратор полнотекстовых БД.

Индексирование документов, из которых невозможно извлечение текста

Если при включении полнотекстового документа найдена соответствующая ему подложка, то в соответствующем подполе базы данных сохраняется ссылка на файл подложки. Таким образом происходит ассоциация полнотекстового документа с соответствующей подложкой.

Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.

Подробнее см. в подразделе Ассоциация текста-подложки с включаемым в полнотекстовую базу документом статьи АРМ Администратор полнотекстовых БД.

Индексирование файлов PDF, защищённых паролем

В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля. Подробнее см. в подразделе Извлечение текстовых данных из PDF-файлов, защищённых паролем статьи АРМ Администратор полнотекстовых БД.

Порядок получения текста при индексировании с помощью 9 метода

Для версий ИРБИС 9 метод индексирования отличается от всех других (с 1 по 8) тем, что в нём используется непосредственный доступ к базе данных.

При индексировании полнотекстовой базы данных для каждого объекта полнотекстового поиска (то есть, для каждой записи) индексированию подлежит текст, получаемый из файла, соответствующего ссылке. Ссылка интерпретируется в соответствии с правилами, оговоренными в подразделе Интерпретация ссылки.

Если установлена ассоциация документа с текстом-подложкой, то индексированию подлежит текст из подложки. В этом случае (при индексировании) основной файл объекта полнотекстового поиска не используется. В соответствии со ссылкой на основной файл объекта полнотекстового поиска определяется местонахождение файла подложки.

О дальнейшем порядке индексирования в соответствии с методом 9 см. в подразделе Метод индексирования 9 статьи Таблица выбора полей.

Устаревшие возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Ссылки

См. также:

Источники информации: