АРМ Администратор полнотекстовых БД — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
(Извлечение текстовых данных из PDF-файлов)
Строка 65: Строка 65:
  
 
'''''Примечание: данная возможность [[Отличия ИРБИС 2011.1 от предыдущей версии#Доработки|поддерживается с версии 2011.1]], а также присутствует в последних обновлениях версии 2010.1.'''''
 
'''''Примечание: данная возможность [[Отличия ИРБИС 2011.1 от предыдущей версии#Доработки|поддерживается с версии 2011.1]], а также присутствует в последних обновлениях версии 2010.1.'''''
 
Существует возможность включения в полнотекстовую базу документов с ассоциированным текстовым файлом. Будем называть такой ассоциированный текстовый файл "текст-''подложка''" или просто "''подложка''". В этом случае для отображения пользователю будет использован сам включённый в базу документ, а [[#Обслуживание словаря полнотекстовых баз данных ИРБИС|словарь будет построен на основе подложки]].
 
  
 
Если установлена опция ''Искать текст-'подложку''', то при включении каждого документа в базу осуществляется проверка наличия соответствующего текстового файла. Если соответствующий файл найден, то происходит ассоциация включаемого документа с этим текстовым файлом. Соответствие определяется так: файлы находятся в одной папке; имя ассоциируемого текстового файла получается добавлением расширения <tt>.txt</tt> к имени документа. Например: документу <tt>example.pdf</tt> соответствует подложка <tt>example.pdf.txt</tt>.
 
Если установлена опция ''Искать текст-'подложку''', то при включении каждого документа в базу осуществляется проверка наличия соответствующего текстового файла. Если соответствующий файл найден, то происходит ассоциация включаемого документа с этим текстовым файлом. Соответствие определяется так: файлы находятся в одной папке; имя ассоциируемого текстового файла получается добавлением расширения <tt>.txt</tt> к имени документа. Например: документу <tt>example.pdf</tt> соответствует подложка <tt>example.pdf.txt</tt>.
Строка 79: Строка 77:
 
==Обслуживание словаря полнотекстовых баз данных ИРБИС==
 
==Обслуживание словаря полнотекстовых баз данных ИРБИС==
  
При актуализации или создании словаря по [[Полнотекстовые базы данных ИРБИС#Ссылки на полные тексты|ссылкам на полные тексты]], которые были добавлены при включении текстов в базу, находятся соответствующие файлы. Из этих файлов [[Базы данных ИРБИС#Создание словаря базы данных ИРБИС|извлекаются текстовые данные]], на основе которых строится словарь базы данных.
+
При актуализации или создании словаря осуществляется [[Полнотекстовые базы данных ИРБИС#Извлечение текстовых данных|извлечение текстовых данных]], которые попадают в словарь.
 
 
В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения). Если установлена ассоциация документа с текстом-подложкой, то в словарь попадают только те термины, которые присутствуют в подложке.
 
  
 
===Извлечение текстовых данных из PDF-файлов===
 
===Извлечение текстовых данных из PDF-файлов===
Строка 94: Строка 90:
  
 
Описание известных решений проблем извлечения текста из PDF-файлов см. [[Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных#Извлечение текста из PDF-файлов в процессе создания словаря|в подразделе ''Извлечение текста из PDF-файлов в процессе создания словаря'' статьи ''Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных'']].
 
Описание известных решений проблем извлечения текста из PDF-файлов см. [[Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных#Извлечение текста из PDF-файлов в процессе создания словаря|в подразделе ''Извлечение текста из PDF-файлов в процессе создания словаря'' статьи ''Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных'']].
 +
 +
===Извлечение текстовых данных из PDF-файлов, защищённых паролем===
 +
 +
Снятие защиты при извлечении текста в процессе создания словаря осуществляется с помощью утилиты <tt>pdftk.exe</tt>.
 +
 +
После снятия защиты извлечение текста происходит так как описано в подразделе [[#Извлечение текстовых данных из PDF-файлов]].
  
 
==Ссылки==
 
==Ссылки==

Версия 01:23, 26 мая 2012

АРМ Администратор полнотекстовых БД – версия АРМ Администратор, предназначенная для работы с полнотекстовыми базами данных ИРБИС. АРМ Администратор представляет собой рабочее место специалиста, выполняющего операции над базами данных системы в целом в целях поддержания их актуального состояния и сохранности. АРМ Администратор полнотекстовых БД также служит для включения полных текстов в базу данных и их исключению из базы.

В этой статье описаны только специфические возможности АРМ Администратор полнотекстовых БД. Общие возможности АРМ Администратор описаны в статье АРМ Администратор.

Создание новой полнотекстовой базы данных

Необходимые действия для создания баз данных, в том числе полнотекстовых, описаны в соответствующем разделе статьи АРМ Администратор.

Рекомендации по созданию полнотекстовых баз данных ИРБИС см. в соответствующем подразделе статьи Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных.

Включение текстов в полнотекстовую базу данных

В АРМ Администратор предусмотрено два способа включения текстов в полнотекстовую базу данных:

  • выбор текстов на файловой системе путём указания конкретных файлов или папки и
  • включение текстов из указанного электронного каталога.

Включение текстов в базу и удаление текстов из базы приводят к изменению базы данных, при этом сами файлы полных текстов остаются в неизменном виде на файловой системе.

Включение текстов в полнотекстовую базу данных осуществляется с помощью специальной формы, которая открывается при выборе пункта главного меню Полнотекстовый сервис – Добавить / удалить полнотекстовые документы (для версии 2009.1 Полнотекстовый сервис – Добавить (удалить) тексты в БД).

Графический интерфейс этой формы представляет собой:

  • набор вкладок и опций, относящихся к процессу включения текстов в базу данных ИРБИС;
  • список включённых в полнотекстовую базу данных текстов;
  • кнопки Добавить, Удалить, Обновить.

Процесс включения текстов начинается по нажатию кнопки Добавить и осуществляется в соответствии с выбранными опциями.

При нажатии кнопки Удалить происходит удаление из базы данных выбранных текстов.

Ниже описаны опции, относящиеся к процессу включения текстов в базу данных ИРБИС.

Включение текстов из электронного каталога

В АРМ Администратор полнотекстовых баз данных предусмотрена возможность включения в полнотекстовую базу ссылок на тексты из электронного каталога. При включении текстов из электронного каталога в полнотекстовую базу добавляются все ссылки на тексты из выбранного электронного каталога.

Для включения текстов из электронного каталога необходимо выбрать вкладку Внешние объекты электронного каталога и пункт главного меню Добавить. В открывшемся диалоговом окне выбрать par-файл исходной базы данных электронного каталога.

Включение ссылок на тексты из электронного каталога в полнотекстовую базу даёт возможность полнотекстового поиска по ним.

Об особенностях включения текстов из электронного каталога с относительными ссылками см. в соответствующем подразделе статьи Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных

Возможности выбора полнотекстовых документов, которые необходимо включить в базу данных ИРБИС

В зависимости от выбранной вкладки изменяется способ указания текстов, которые необходимо включить в полнотекстовую базу. Примечание: в версии 2009.1 таких вкладок нет.

В текущую базу данных могут быть включены:

  • Документы, явно указанные пользователем (вкладка Отдельные файлы, в версии 2009.1 снятый флажок Добавить директорию с текстами). После нажатия кнопки Добавить осуществляется выбор отдельных файлов.
  • Все документы из папки, указанной пользователем (вкладка Папки, в версии 2009.1 установленный флажок Добавить директорию с текстами). После нажатия кнопки Добавить осуществляется выбор папки.
  • Все документы из архива ZIP или RAR, указанного пользователем (вкладка Архивы). После нажатия кнопки Добавить осуществляется выбор архивов.
  • полнотекстовые документы, связанные с базой данных электронного каталога ИРБИС в качестве внешних объектов (вкладка Внешние объекты электронного каталога, в версии 2009.1 кнопка Добавить тексты из ЭК). После нажатия кнопки Добавить осуществляется выбор электронного каталога.

Виды ссылок на полнотекстовые документы (относительные или абсолютные)

В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам полных текстов.

Использование относительных путей возможно в случае хранения полных текстов в папке базы данных.

Каждая страница файла как отдельный документ

Соответствующие опции предусмотрены для файлов формата PDF и DJVU. Они определяют объект полнотекстового поиска: получит ли пользователь в результате поиска ссылку на документ целиком или на отдельную страницу. Подробнее см. в подразделе Объекты полнотекстового поиска в ИРБИС статьи Полнотекстовые базы данных ИРБИС.

Технически разбиение файлов на страницы выполняется при добавлении текстов в базу, если выставлена соответствующая опция, а также при создании словаря (для текстов, являющихся страницами многостраничного PDF-файла).

Ассоциация текста-подложки с включаемым в полнотекстовую базу документом

Примечание: данная возможность поддерживается с версии 2011.1, а также присутствует в последних обновлениях версии 2010.1.

Если установлена опция Искать текст-'подложку', то при включении каждого документа в базу осуществляется проверка наличия соответствующего текстового файла. Если соответствующий файл найден, то происходит ассоциация включаемого документа с этим текстовым файлом. Соответствие определяется так: файлы находятся в одной папке; имя ассоциируемого текстового файла получается добавлением расширения .txt к имени документа. Например: документу example.pdf соответствует подложка example.pdf.txt.

Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

В зависимости от выбранных опций, при включении полнотекстовых документов в базу данных документы могут быть скопированы в специально предназначенный архив – файл с расширением .izp в папке базы данных.

Обслуживание словаря полнотекстовых баз данных ИРБИС

При актуализации или создании словаря осуществляется извлечение текстовых данных, которые попадают в словарь.

Извлечение текстовых данных из PDF-файлов

Извлечение текста в процессе создания словаря осуществляется с помощью одной из утилит: pdftotext.exe или docs2text.exe.

Указанные утилиты дополняют друг друга. Из некоторых PDF-файлов текст удаётся извлечь только с помощью pdftotext.exe, из других docs2text.exe. Существуют PDF-файлы, из которых не удаётся извлечь текст ни одной ни другой утилитой.

Утилита выбирается в соответствии со значением параметра Converter_PDF в конфигурационном файле АРМ Администратор ИРБИС.

С версии 2011.1 (а также в последних обновлениях версии 2010.1) добавлена возможность автоматического подбора подходящей утилиты для извлечения текстов из PDF-файлов. См. описание параметра PDFTextExtractUtilityOrder в статье Конфигурационный файл АРМ Администратор ИРБИС.

Описание известных решений проблем извлечения текста из PDF-файлов см. в подразделе Извлечение текста из PDF-файлов в процессе создания словаря статьи Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных.

Извлечение текстовых данных из PDF-файлов, защищённых паролем

Снятие защиты при извлечении текста в процессе создания словаря осуществляется с помощью утилиты pdftk.exe.

После снятия защиты извлечение текста происходит так как описано в подразделе #Извлечение текстовых данных из PDF-файлов.

Ссылки

См. также: