АРМ Администратор полнотекстовых БД — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
Строка 37: Строка 37:
  
 
[[Связывание документов базы данных ИРБИС с внешними объектами#Возможности организации полнотекстового поиска по связанным с записями электронного каталога текстам|Включение ссылок на тексты из электронного каталога в полнотекстовую базу даёт возможность полнотекстового поиска по ним.]]
 
[[Связывание документов базы данных ИРБИС с внешними объектами#Возможности организации полнотекстового поиска по связанным с записями электронного каталога текстам|Включение ссылок на тексты из электронного каталога в полнотекстовую базу даёт возможность полнотекстового поиска по ним.]]
 +
 +
====Получение и преобразование ссылок на тексты при включении текстов из электронного каталога====
 +
 +
'''Начиная с [[Отличия ИРБИС 2014.1 от предыдущей версии|версии 2014.1]]'''
 +
 +
Добавлена возможность указывать формат для получения ссылок. В качестве результата работы формата ожидается либо абсолютная (в формате UNC), либо относительная ссылка. Допускается использование URL в 11-й строке <tt>.par</tt>-файла.
 +
 +
<small>'''В [[Отличия ИРБИС 2013.1 от предыдущей версии|версии 2013.1]]'''
 +
 +
Предусмотрено включение в полнотекстовую базу данных ссылок на отдельные страницы многостраничного документа. Описание Dublin Core создаётся на основе библиографического описания, и прикрепляется к записи полнотекстовой БД, соответствующей первой странице документа.
 +
 +
Предусмотрено включение в полнотекстовую базу данных текстов с относительными путями в автоматическом режиме при указании местонахождения текстов в 11-й строке <tt>.par</tt>-файла. Относительные ссылки (из подполя <tt>A</tt> 951 поля) преобразуются в относительные, абсолютные (из подполя <tt>I</tt>) – в абсолютные .
 +
 +
Реализована возможность прикреплять описания Dublin Core к многостраничным документам, добавленным к БД с разбиением на страницы. Описание Dublin Core прикрепляется к записи полнотекстовой БД, соответствующей первой странице документа. Другие страницы связываются с описанием Dublin Core посредством записи словаря (инвертированного файла); для установления связи используется подполе <tt>952^b</tt>.
 +
 +
'''До [[Отличия ИРБИС 2012.1 от предыдущей версии|версии 2012.1]] включительно'''
 +
 +
Включение в полнотекстовую базу ссылок на отдельные страницы многостраничного документа не предусмотрено.
 +
 +
Включение в полнотекстовую базу данных текстов с относительными путями требует ряда дополнительных шагов.
  
 
Об особенностях включения текстов из электронного каталога с относительными ссылками см. [[Установка и использование ИРБИС 64 для полнотекстовых баз данных#Включение текстов из электронного каталога с относительными ссылками|в соответствующем подразделе статьи ''Установка и использование ИРБИС 64 для полнотекстовых баз данных'']]
 
Об особенностях включения текстов из электронного каталога с относительными ссылками см. [[Установка и использование ИРБИС 64 для полнотекстовых баз данных#Включение текстов из электронного каталога с относительными ссылками|в соответствующем подразделе статьи ''Установка и использование ИРБИС 64 для полнотекстовых баз данных'']]
 +
</small>
  
 
===Возможности выбора текстов, которые необходимо включить в базу данных ИРБИС===
 
===Возможности выбора текстов, которые необходимо включить в базу данных ИРБИС===

Версия 05:09, 9 декабря 2014

АРМ Администратор полнотекстовых БД – версия АРМ Администратор, предназначенная для работы с полнотекстовыми базами данных ИРБИС. АРМ Администратор представляет собой рабочее место специалиста, выполняющего операции над базами данных системы в целом в целях поддержания их актуального состояния и сохранности. АРМ Администратор полнотекстовых БД также служит для включения полных текстов в базу данных и их исключению из базы.

В этой статье описаны только специфические возможности АРМ Администратор полнотекстовых БД. Общие возможности АРМ Администратор описаны в статье АРМ Администратор.

Содержание

Создание новой полнотекстовой базы данных

Необходимые действия для создания баз данных, в том числе полнотекстовых, описаны в соответствующем разделе статьи АРМ Администратор.

Рекомендации по созданию полнотекстовых баз данных ИРБИС см. в соответствующем подразделе статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.

Включение текстов в полнотекстовую базу данных

В АРМ Администратор предусмотрено два способа включения текстов в полнотекстовую базу данных:

  • выбор текстов путём указания их местоположения на файловой системе и
  • включение текстов из указанного электронного каталога.

Включение текстов в базу и удаление текстов из базы приводят к изменению базы данных, при этом сами файлы полных текстов остаются в неизменном виде на файловой системе.

Включение текстов в полнотекстовую базу данных осуществляется с помощью специальной формы, которая открывается при выборе пункта главного меню Полнотекстовый сервис – Добавить / удалить полнотекстовые документы (для версии 2009.1 Полнотекстовый сервис – Добавить (удалить) тексты в БД).

Графический интерфейс этой формы представляет собой:

  • набор вкладок и опций, относящихся к процессу включения текстов в базу данных ИРБИС;
  • список включённых в полнотекстовую базу данных текстов;
  • кнопки Добавить, Удалить, Обновить.

Процесс включения текстов начинается по нажатию кнопки Добавить и осуществляется в соответствии с выбранными опциями.

При нажатии кнопки Удалить происходит удаление из базы данных выбранных текстов.

Ниже описаны возможности, относящиеся к процессу включения текстов в базу данных ИРБИС.

Включение текстов из электронного каталога

В АРМ Администратор полнотекстовых баз данных предусмотрена возможность включения в полнотекстовую базу ссылок на тексты из электронного каталога. При включении текстов из электронного каталога в полнотекстовую базу добавляются все ссылки на тексты из выбранного электронного каталога.

Для включения текстов из электронного каталога необходимо выбрать вкладку Внешние объекты электронного каталога и пункт главного меню Добавить. В открывшемся диалоговом окне выбрать par-файл исходной базы данных электронного каталога.

Включение ссылок на тексты из электронного каталога в полнотекстовую базу даёт возможность полнотекстового поиска по ним.

Получение и преобразование ссылок на тексты при включении текстов из электронного каталога

Начиная с версии 2014.1

Добавлена возможность указывать формат для получения ссылок. В качестве результата работы формата ожидается либо абсолютная (в формате UNC), либо относительная ссылка. Допускается использование URL в 11-й строке .par-файла.

В версии 2013.1

Предусмотрено включение в полнотекстовую базу данных ссылок на отдельные страницы многостраничного документа. Описание Dublin Core создаётся на основе библиографического описания, и прикрепляется к записи полнотекстовой БД, соответствующей первой странице документа.

Предусмотрено включение в полнотекстовую базу данных текстов с относительными путями в автоматическом режиме при указании местонахождения текстов в 11-й строке .par-файла. Относительные ссылки (из подполя A 951 поля) преобразуются в относительные, абсолютные (из подполя I) – в абсолютные .

Реализована возможность прикреплять описания Dublin Core к многостраничным документам, добавленным к БД с разбиением на страницы. Описание Dublin Core прикрепляется к записи полнотекстовой БД, соответствующей первой странице документа. Другие страницы связываются с описанием Dublin Core посредством записи словаря (инвертированного файла); для установления связи используется подполе 952^b.

До версии 2012.1 включительно

Включение в полнотекстовую базу ссылок на отдельные страницы многостраничного документа не предусмотрено.

Включение в полнотекстовую базу данных текстов с относительными путями требует ряда дополнительных шагов.

Об особенностях включения текстов из электронного каталога с относительными ссылками см. в соответствующем подразделе статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных

Возможности выбора текстов, которые необходимо включить в базу данных ИРБИС

В зависимости от выбранной вкладки изменяется способ указания текстов, которые необходимо включить в полнотекстовую базу. Примечание: в версии 2009.1 таких вкладок нет.

В текущую базу данных могут быть включены:

  • Документы, явно указанные пользователем (вкладка Отдельные файлы, в версии 2009.1 снятый флажок Добавить директорию с текстами). После нажатия кнопки Добавить осуществляется выбор отдельных файлов.
  • Все документы из папки, указанной пользователем (вкладка Папки, в версии 2009.1 установленный флажок Добавить директорию с текстами). После нажатия кнопки Добавить осуществляется выбор папки.
  • Все документы из архива ZIP или RAR, указанного пользователем (вкладка Архивы). После нажатия кнопки Добавить осуществляется выбор архивов.
  • Тексты, связанные с базой данных электронного каталога ИРБИС в качестве внешних объектов (вкладка Внешние объекты электронного каталога, в версии 2009.1 кнопка Добавить тексты из ЭК). После нажатия кнопки Добавить осуществляется выбор электронного каталога.

Виды ссылок на тексты (относительные или абсолютные)

В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам полных текстов.

Использование относительных путей возможно в случае хранения полных текстов в папке базы данных.

Каждая страница файла как отдельный документ

Соответствующие опции предусмотрены для файлов формата PDF и DJVU и определяют объект полнотекстового поиска: получит ли пользователь в результате поиска ссылку на документ или на отдельную страницу документа.

Технически разбиение файлов на страницы (извлечение страниц) выполняется при добавлении текстов в базу, если выставлена соответствующая опция, а также при создании словаря (для текстов, являющихся страницами многостраничного PDF-файла или DJVU-файлв).

Извлечение страниц (разбиение на страницы) в случае PDF-файлов осуществляется с помощью одной из утилит: pdftk или pdf2pdf.

Выбор утилиты определяется параметрами конфигурационного файла АРМ Администратор ИРБИС:

  • Начиная с версии 2011.1 (а также в последних обновлениях версии 2010.1) подходящая утилита выбирается автоматически путём перебора. Перебор работает следующим образом: если с помощью одной утилиты не удалось извлечь страницу (разбить на страницы), то будет испробована другая. Порядок перебора задаётся с помощью параметра PDFSplitUtilityOrder.
  • В более ранних версиях утилита выбирается в соответствии со значением параметра PDFSplitter.

Описание известных решений проблем извлечения страниц из PDF-файлов см. в подразделе Разбиение PDF-файлов на страницы при добавлении в базу данных статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.

Ассоциация текста-подложки с включаемым в полнотекстовую базу документом

Если установлена опция Искать текст-'подложку', то при включении каждого документа в базу осуществляется проверка наличия подложки. Если соответствующая документу подложка найдена, то происходит ассоциация включаемого документа с подложкой.

Поиск подложки осуществляется в соответствии с правилом: файлы находятся в одной папке; имя файла подложки получается добавлением расширения .txt к имени документа. Например: документу example.pdf соответствует подложка example.pdf.txt.

Примечания:

  • Данная возможность поддерживается с версии 2011.1, а также присутствует в последних обновлениях версии 2010.1.
  • Если рядом с файлами текстов находятся файлы подложек, но при включении текстов НЕ установлена опция Искать текст-'подложку', то подложки могут быть включены в базу как самостоятельные текстовые документы. При включённой опции Искать текст-'подложку', файлы, определяемые как подложки, не будут включены в базу данных в качестве самостоятельных документов.

Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

В зависимости от выбранных опций, при включении документов в базу данных документы могут быть скопированы в специально предназначенный архив – файл с расширением .izp в папке базы данных.

Обслуживание словаря полнотекстовых баз данных ИРБИС

Об основных возможностях АРМ Администратор ИРБИС по работе со словарём, общих как для полнотекстовых баз данных, так и для обычных, см. в подразделе Обслуживание словаря базы данных ИРБИС статьи АРМ Администратор. В данном подразделе описаны особенности работы АРМ Администратор ИРБИС полнотекстовых БД в случае полнотекстовых баз данных.

Общие принципы индексирования полнотекстовых баз данных описаны в подразделе Индексирование полнотекстовой базы данных статьи Полнотекстовые базы данных ИРБИС.

Извлечение текстовых данных из PDF-файлов

Извлечение текста в процессе создания словаря осуществляется с помощью одной из утилит: pdftotext.exe или docs2text.exe.

Выбор утилиты определяется параметрами конфигурационного файла АРМ Администратор ИРБИС:

  • Начиная с версии 2011.1 (а также в последних обновлениях версии 2010.1) подходящая утилита выбирается автоматически путём перебора. Перебор работает следующим образом: если с помощью одной утилиты не удалось извлечь текст, то будет испробована другая. Порядок перебора задаётся с помощью параметра PDFTextExtractUtilityOrder.
  • В более ранних версиях утилита выбирается в соответствии со значением параметра Converter_PDF.

Примечание: используемые утилиты дополняют друг друга. Из некоторых PDF-файлов текст удаётся извлечь только с помощью pdftotext.exe, из других docs2text.exe. Существуют PDF-файлы, из которых не удаётся извлечь текст ни одной ни другой утилитой.

Описание известных решений проблем извлечения текста из PDF-файлов см. в подразделе Извлечение текста из PDF-файлов в процессе создания словаря статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.

Извлечение текстовых данных из PDF-файлов, защищённых паролем

Извлечение текстовых данных из PDF-файлов, защищённых паролем, позволяет индексировать такие PDF-файлы.

Перед извлечением текста в процессе создания словаря осуществляется снятие защиты с помощью утилиты pdftk.exe.

Для указания необходимости снятия защиты и указания пароля используются параметры isNeedDecryptPDF и PDFPassword в конфигурационном файле АРМ Администратор ИРБИС.

Примечания:

  • работа ИРБИС с защищёнными файлами возможна при их совместимости с "Acrobat 5.0". Если файлы совместимы с "Acrobat 6.0" или "Acrobat 7.0", то они не могут быть проиндексированы.
  • При указании необходимости работы с защищёнными файлами, незащищённые файлы также будут индексироваться как обычно.
  • После снятия защиты извлечение текста происходит так, как описано в подразделе Извлечение текстовых данных из PDF-файлов.
  • Не предусмотрена возможность работы с защищёнными файлами с разбиением на страницы. Для реализации данной возможности пришлось бы отдавать пользователю незащищённые страницы, либо выполнять защиту отдельных страниц.

Файл журнала

О местонахождении файла журнала см. в соответствующем подразделе статьи Файлы ИРБИС.

Файл журнала предназначен для регистрации некоторых событий, происходящих при работе АРМ Администратор:

  • начало работы программы;
  • окончание работы программы;
  • ошибки, происходящие при добавлении файлов в полнотекстовую базу данных;
  • сообщения, касающиеся выбора утилиты для разбиения файлов и извлечения текста.

Используемые утилиты

АРМ Администратор использует утилиты:

Возможность выполнения пакетных заданий

Подробнее о пакетных заданиях см. в подразделе Возможность выполнения пакетных заданий статьи АРМ Администратор.

Ниже перечислены специфические команды пакетных заданий, присущие именно АРМ Администратор полнотекстовых БД.

Импортировать записи из электронного каталога – ADDTEXTS_FROM_EK

Операнды: DbName, комментарий

Где:

DbName – имя БД электронного каталога.
комментарий – будет записан в каждую импортированную запись в соответствующее поле.

Пример использования:

ADDTEXTS_FROM_EK IBIS, Тексты из ЭК

Ссылки

См. также: