АРМ Администратор полнотекстовых БД — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
(Включение текстов из электронного каталога)
 
(не показаны 34 промежуточные версии этого же участника)
Строка 2: Строка 2:
  
 
В этой статье описаны только специфические возможности ''АРМ Администратор полнотекстовых БД''. Общие возможности АРМ Администратор описаны в статье [[АРМ Администратор|АРМ Администратор]].
 
В этой статье описаны только специфические возможности ''АРМ Администратор полнотекстовых БД''. Общие возможности АРМ Администратор описаны в статье [[АРМ Администратор|АРМ Администратор]].
 
Рекомендации по созданию полнотекстовых баз данных ИРБИС можно найти в статье [[Полнотекстовые базы данных ИРБИС]].
 
  
 
==Создание новой полнотекстовой базы данных==
 
==Создание новой полнотекстовой базы данных==
  
 
Необходимые действия для создания баз данных, в том числе полнотекстовых, описаны в [[АРМ Администратор#Создание новой базы данных|соответствующем разделе статьи АРМ Администратор]].
 
Необходимые действия для создания баз данных, в том числе полнотекстовых, описаны в [[АРМ Администратор#Создание новой базы данных|соответствующем разделе статьи АРМ Администратор]].
 +
 +
Рекомендации по созданию полнотекстовых баз данных ИРБИС см. в [[Установка и использование ИРБИС 64 для полнотекстовых баз данных#Рекомендации по созданию полнотекстовой базы данных|соответствующем подразделе статьи ''Установка и использование ИРБИС 64 для полнотекстовых баз данных'']].
  
 
==Включение текстов в полнотекстовую базу данных==
 
==Включение текстов в полнотекстовую базу данных==
  
В АРМ Администратор предусмотрено два способа [[Полнотекстовые базы данных ИРБИС#Включение текстовых документов в полнотекстовую базу данных ИРБИС|включения текстов в полнотекстовую базу данных]]:
+
Включение текстов в полнотекстовую базу осуществляется с помощью специальной формы, которая открывается при выборе пункта главного меню ''Полнотекстовый сервис – Добавить / удалить полнотекстовые документы'' (<small>для версии 2009.1 ''Полнотекстовый сервис – Добавить (удалить) тексты в БД''</small>).
* выбор текстов на файловой системе путём указания конкретных файлов или папки и
 
* включение текстов из указанного электронного каталога.
 
 
 
Включение текстов в базу и удаление текстов из базы приводят к изменению базы данных, при этом сами файлы полных текстов остаются в неизменном виде на файловой системе.
 
  
Включение текстов в полнотекстовую базу данных осуществляется с помощью специальной формы, которая открывается при выборе пункта главного меню ''Полнотекстовый сервис – Добавить / удалить полнотекстовые документы'' (<small>для версии 2009.1 ''Полнотекстовый сервис – Добавить (удалить) тексты в БД''</small>).
+
Предусмотрены следующие способы включения текстов в полнотекстовую базу данных:
 +
* выбор текстов путём указания их местоположения на файловой системе (непосредственно, либо в архиве ZIP или RAR; вкладки: ''Отдельные файлы'', ''Папки'' или ''Архивы'');
 +
* включение текстов из указанного электронного каталога (вкладка ''Внешние объекты электронного каталога'').
  
 
Графический интерфейс этой формы представляет собой:
 
Графический интерфейс этой формы представляет собой:
Строка 28: Строка 26:
 
При нажатии кнопки ''Удалить'' происходит удаление из базы данных выбранных текстов.
 
При нажатии кнопки ''Удалить'' происходит удаление из базы данных выбранных текстов.
  
Ниже описаны опции, относящиеся к процессу включения текстов в базу данных ИРБИС.
+
Ниже описаны возможности, относящиеся к процессу включения текстов в базу данных ИРБИС.
 +
 
 +
Подробнее см. [[Включение текстов в полнотекстовую базу данных]].
  
===Включение текстов из электронного каталога===
+
===Виды ссылок на тексты (относительные или абсолютные)===
  
В АРМ Администратор полнотекстовых баз данных предусмотрена возможность включения в полнотекстовую базу ссылок на тексты из электронного каталога. При включении текстов из электронного каталога в полнотекстовую базу добавляются все ссылки на тексты из выбранного электронного каталога.
+
В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам полных текстов.
  
Для [[Полнотекстовые базы данных ИРБИС#Включение текстов из электронного каталога|включения текстов из электронного каталога]] необходимо выбрать вкладку ''Внешние объекты электронного каталога'' и пункт главного меню ''Добавить''. В открывшемся диалоговом окне выбрать par-файл исходной базы данных электронного каталога.
+
Использование относительных путей возможно в случае хранения полных текстов в [[Файлы ИРБИС#Файлы баз данных ИРБИС|папке базы данных]].
  
[[Связывание документов базы данных ИРБИС с внешними объектами#Возможности организации полнотекстового поиска по связанным с записями электронного каталога текстам|Включение ссылок на тексты из электронного каталога в полнотекстовую базу даёт возможность полнотекстового поиска по ним.]]
+
===Включение текстов из электронного каталога===
  
Об особенностях включения текстов из электронного каталога с относительными ссылками см. [[Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных#Включение текстов из электронного каталога с относительными ссылками|в соответствующем подразделе статьи ''Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных'']]
+
Возможно включение текстов, являющихся [[Связывание документов базы данных ИРБИС с внешними объектами|внешними объектами электронного каталога]]. Если говорить точнее, возможно включение текстов, ссылки на которые содержатся в любой базе данных ИРБИС (начиная с [[Список изменений ИРБИС версии 2014.1|версии 2014.1]]).
  
===Возможности выбора полнотекстовых документов, которые необходимо включить в базу данных ИРБИС===
+
При этом в полнотекстовую базу добавляются все ссылки на тексты из выбранной базы данных.
  
В зависимости от выбранной вкладки изменяется способ указания текстов, которые необходимо включить в полнотекстовую базу. <small>Примечание: в версии 2009.1 таких вкладок нет.</small>
+
Чтобы воспользоваться этой возможностью, нужно выбрать вкладку ''Внешние объекты электронного каталога'' и пункт главного меню ''Добавить''. В открывшемся диалоговом окне выбрать par-файл исходной базы данных.
  
В текущую базу данных могут быть включены:
+
Подробнее об особенностях данной возможности см. [[Включение текстов в полнотекстовую базу данных#Включение в полнотекстовую базу текстов из базы данных электронного каталога|в подразделе ''Включение в полнотекстовую базу текстов из базы данных электронного каталога'' статьи ''Включение текстов в полнотекстовую базу данных'']].
* Документы, явно указанные пользователем (вкладка ''Отдельные файлы'', <small>в версии 2009.1 снятый флажок ''Добавить директорию с текстами''</small>). После нажатия кнопки ''Добавить'' осуществляется выбор отдельных файлов.
 
* Все документы из папки, указанной пользователем (вкладка ''Папки'', <small>в версии 2009.1 установленный флажок ''Добавить директорию с текстами''</small>). После нажатия кнопки ''Добавить'' осуществляется выбор папки.
 
* Все документы из архива ZIP или RAR, указанного пользователем (вкладка ''Архивы''). После нажатия кнопки ''Добавить'' осуществляется выбор архивов.
 
* полнотекстовые документы, [[Связывание документов базы данных ИРБИС с внешними объектами|связанные с базой данных электронного каталога ИРБИС в качестве внешних объектов]] (вкладка ''Внешние объекты электронного каталога'', <small>в версии 2009.1 кнопка ''Добавить тексты из ЭК''</small>). После нажатия кнопки ''Добавить'' осуществляется выбор электронного каталога.
 
  
===Виды ссылок на полнотекстовые документы (относительные или абсолютные)===
+
===Каждая страница файла как отдельный документ===
  
В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам полных текстов.
+
Соответствующие опции предусмотрены для файлов формата PDF и DJVU и определяют [[Полнотекстовые базы данных ИРБИС#Объекты полнотекстового поиска в ИРБИС|объект полнотекстового поиска]]: получит ли пользователь в результате поиска ссылку на документ или на отдельную страницу документа.
  
Использование относительных путей возможно в случае хранения полных текстов в [[Файлы ИРБИС#Файлы баз данных ИРБИС|папке базы данных]].
+
Технически разбиение файлов на страницы (извлечение страниц) выполняется при добавлении текстов в базу, если выставлена соответствующая опция, а также при создании словаря (для текстов, являющихся страницами многостраничного PDF-файла или DJVU-файлв).
  
===Каждая страница файла как отдельный документ===
+
Извлечение страниц (разбиение на страницы) в случае PDF-файлов осуществляется с помощью одной из [[#Используемые утилиты|утилит]]: <tt>pdftk</tt> или <tt>pdf2pdf</tt>.
  
Соответствующие опции предусмотрены для файлов формата PDF и DJVU. Они определяют объект полнотекстового поиска: получит ли пользователь в результате поиска ссылку на документ целиком или на отдельную страницу. Подробнее см. [[#подразделе ''Объекты полнотекстового поиска в ИРБИС'' статьи ''Полнотекстовые базы данных ИРБИС'']].
+
Выбор утилиты определяется параметрами [[Конфигурационные параметры ИРБИС для полнотекстовых БД|конфигурационного файла АРМ Администратор ИРБИС]]:
 +
* Начиная с [[Отличия ИРБИС 2011.1 от предыдущей версии#Доработки|версии 2011.1]] (а также в последних обновлениях версии 2010.1) подходящая утилита выбирается автоматически путём перебора. Перебор работает следующим образом: если с помощью одной утилиты не удалось извлечь страницу (разбить на страницы), то будет испробована другая. Порядок перебора задаётся с помощью параметра [[Конфигурационные параметры ИРБИС для полнотекстовых БД|<tt>PDFSplitUtilityOrder</tt>]].
 +
* В более ранних версиях утилита выбирается в соответствии со значением параметра [[Конфигурационные параметры ИРБИС для полнотекстовых БД|<tt>PDFSplitter</tt>]].
  
Технически разбиение файлов на страницы выполняется при добавлении текстов в базу, если выставлена соответствующая опция, а также при создании словаря (для текстов, являющихся страницами многостраничного PDF-файла).
+
Описание известных решений проблем извлечения страниц из PDF-файлов см. [[Установка и использование ИРБИС 64 для полнотекстовых баз данных#Разбиение PDF-файлов на страницы при добавлении в базу данных|в подразделе ''Разбиение PDF-файлов на страницы при добавлении в базу данных'' статьи ''Установка и использование ИРБИС 64 для полнотекстовых баз данных'']].
  
 
===Ассоциация текста-подложки с включаемым в полнотекстовую базу документом===
 
===Ассоциация текста-подложки с включаемым в полнотекстовую базу документом===
  
'''''Примечание: данная возможность [[Отличия ИРБИС 2011.1 от предыдущей версии#Доработки|поддерживается с версии 2011.1]], а также присутствует в последних обновлениях версии 2010.1.'''''
+
Если установлена опция ''Искать текст-'подложку''', то при включении каждого документа в базу осуществляется проверка наличия [[Полнотекстовые базы данных ИРБИС#Индексирование документов, из которых невозможно извлечение текста|подложки]]. Если соответствующая документу подложка найдена, то [[Полнотекстовые базы данных ИРБИС#Индексирование документов, из которых невозможно извлечение текста|происходит ''ассоциация'' включаемого документа с ''подложкой'']].
  
Существует возможность включения в полнотекстовую базу документов с ассоциированным текстовым файлом. Будем называть такой ассоциированный текстовый файл "текст-''подложка''" или просто "''подложка''". В этом случае для отображения пользователю будет использован сам включённый в базу документ, а [[#Обслуживание словаря полнотекстовых баз данных ИРБИС|словарь будет построен на основе подложки]].
+
Поиск подложки осуществляется в соответствии с правилом: файлы находятся в одной папке; имя файла подложки получается добавлением расширения <tt>.txt</tt> к имени документа. Например: документу <tt>example.pdf</tt> соответствует подложка <tt>example.pdf.txt</tt>.
  
Если установлена опция ''Искать текст-'подложку''', то при включении каждого документа в базу осуществляется проверка наличия соответствующего текстового файла. Если соответствующий файл найден, то происходит ассоциация включаемого документа с этим текстовым файлом. Соответствие определяется так: файлы находятся в одной папке; имя ассоциируемого текстового файла получается добавлением расширения <tt>.txt</tt> к имени документа. Например: документу <tt>example.pdf</tt> соответствует подложка <tt>example.pdf.txt</tt>.
+
''Примечания:
 +
* ''Данная возможность [[Отличия ИРБИС 2011.1 от предыдущей версии#Доработки|поддерживается с версии 2011.1]], а также присутствует в последних обновлениях версии 2010.1.''
 +
* ''Если рядом с файлами ''текстов'' находятся файлы подложек, но при включении ''текстов'' НЕ установлена опция Искать текст-'подложку', то подложки могут быть включены в базу как самостоятельные текстовые документы. При включённой опции Искать текст-'подложку', файлы, определяемые как подложки, не будут включены в базу данных в качестве самостоятельных документов.''
  
===Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)===
+
===Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)===
  
'''''Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.'''''
+
''Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.''
  
<small>В зависимости от выбранных опций, при включении полнотекстовых документов в базу данных
+
<small>В зависимости от выбранных опций, при включении документов в базу данных
 
документы могут быть скопированы в специально предназначенный архив – файл с расширением <tt>.izp</tt> в папке базы данных.</small>
 
документы могут быть скопированы в специально предназначенный архив – файл с расширением <tt>.izp</tt> в папке базы данных.</small>
  
 
==Обслуживание словаря полнотекстовых баз данных ИРБИС==
 
==Обслуживание словаря полнотекстовых баз данных ИРБИС==
  
При актуализации или создании словаря по [[Полнотекстовые базы данных ИРБИС#Ссылки на полные тексты|ссылкам на полные тексты]], которые были добавлены при включении текстов в базу, находятся соответствующие файлы. Из этих файлов [[Базы данных ИРБИС#Создание словаря базы данных ИРБИС|извлекаются текстовые данные]], на основе которых строится словарь базы данных.
+
Об основных возможностях АРМ Администратор ИРБИС по работе со словарём, общих как для полнотекстовых баз данных, так и для обычных, см. [[АРМ Администратор#Обслуживание словаря базы данных ИРБИС|в подразделе ''Обслуживание словаря базы данных ИРБИС'' статьи ''АРМ Администратор'']]. В данном подразделе описаны особенности работы АРМ Администратор ИРБИС полнотекстовых БД в случае полнотекстовых баз данных.
  
В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения). Если установлена ассоциация документа с текстом-подложкой, то в словарь попадают только те термины, которые присутствуют в подложке.
+
Общие принципы индексирования полнотекстовых баз данных описаны [[Полнотекстовые базы данных ИРБИС#Индексирование полнотекстовой базы данных|в подразделе ''Индексирование полнотекстовой базы данных'' статьи ''Полнотекстовые базы данных ИРБИС'']].
  
 
===Извлечение текстовых данных из PDF-файлов===
 
===Извлечение текстовых данных из PDF-файлов===
  
Извлечение текста в процессе создания словаря осуществляется с помощью одной из утилит: <tt>pdftotext.exe</tt> или <tt>docs2text.exe</tt>.
+
Извлечение текста в процессе создания словаря осуществляется с помощью одной из [[#Используемые утилиты|утилит]]: <tt>pdftotext.exe</tt> или <tt>docs2text.exe</tt>.
 +
 
 +
Выбор утилиты определяется параметрами [[Конфигурационные параметры ИРБИС для полнотекстовых БД|конфигурационного файла АРМ Администратор ИРБИС]]:
 +
* Начиная с [[Отличия ИРБИС 2011.1 от предыдущей версии#Доработки|версии 2011.1]] (а также в последних обновлениях версии 2010.1) подходящая утилита выбирается автоматически путём перебора. Перебор работает следующим образом: если с помощью одной утилиты не удалось извлечь текст, то будет испробована другая. Порядок перебора задаётся с помощью параметра [[Конфигурационные параметры ИРБИС для полнотекстовых БД|<tt>PDFTextExtractUtilityOrder</tt>]].
 +
* В более ранних версиях утилита выбирается в соответствии со значением параметра [[Конфигурационные параметры ИРБИС для полнотекстовых БД|<tt>Converter_PDF</tt>]].
 +
 
 +
''Примечание: используемые утилиты дополняют друг друга. Из некоторых PDF-файлов текст удаётся извлечь только с помощью <tt>pdftotext.exe</tt>, из других <tt>docs2text.exe</tt>. Существуют PDF-файлы, из которых не удаётся извлечь текст ни одной ни другой утилитой.''
 +
 
 +
Описание известных решений проблем извлечения текста из PDF-файлов см. [[Установка и использование ИРБИС 64 для полнотекстовых баз данных#Извлечение текста из PDF-файлов в процессе создания словаря|в подразделе ''Извлечение текста из PDF-файлов в процессе создания словаря'' статьи ''Установка и использование ИРБИС 64 для полнотекстовых баз данных'']].
 +
 
 +
===Извлечение текстовых данных из PDF-файлов, защищённых паролем===
 +
 
 +
Извлечение текстовых данных из PDF-файлов, защищённых паролем, позволяет [[Полнотекстовые базы данных ИРБИС#Индексирование файлов PDF, защищённых паролем|индексировать такие PDF-файлы]].
 +
 
 +
Перед извлечением текста в процессе создания словаря осуществляется снятие защиты с помощью [[#Используемые утилиты|утилиты]] <tt>pdftk.exe</tt>.
 +
 
 +
Для указания необходимости снятия защиты и указания пароля используются параметры <tt>isNeedDecryptPDF</tt> и <tt>PDFPassword</tt> в [[Конфигурационные параметры ИРБИС для полнотекстовых БД|конфигурационном файле АРМ Администратор ИРБИС]].
 +
 
 +
''Примечания:''
 +
* ''работа ИРБИС с защищёнными файлами возможна при их совместимости с "Acrobat 5.0". Если файлы совместимы с "Acrobat 6.0" или "Acrobat 7.0", то они не могут быть проиндексированы.
 +
* ''При указании необходимости работы с защищёнными файлами, незащищённые файлы также будут индексироваться как обычно.
 +
* ''После снятия защиты извлечение текста происходит так, как описано в подразделе [[#Извлечение текстовых данных из PDF-файлов|Извлечение текстовых данных из PDF-файлов]].
 +
* ''Не предусмотрена возможность работы с защищёнными файлами с разбиением на страницы. Для реализации данной возможности пришлось бы отдавать пользователю незащищённые страницы, либо выполнять защиту отдельных страниц.''
 +
 
 +
==Файл журнала==
 +
 
 +
О местонахождении файла журнала см. [[Файлы ИРБИС#Файл журнала АРМ Администратор полнотекстовых БД|в соответствующем подразделе статьи ''Файлы ИРБИС'']].
 +
 
 +
Файл журнала предназначен для регистрации некоторых событий, происходящих при работе АРМ Администратор:
 +
* начало работы программы;
 +
* окончание работы программы;
 +
* ошибки, происходящие при добавлении файлов в полнотекстовую базу данных;
 +
* сообщения, касающиеся выбора утилиты для разбиения файлов и извлечения текста.
 +
 
 +
==Используемые утилиты==
 +
 
 +
АРМ Администратор использует утилиты:
 +
* при [[#Каждая страница файла как отдельный документ|извлечении страниц из многостраничного документа и разбиении документа на страницы]];
 +
* при [[#Извлечение текстовых данных из PDF-файлов|извлечении текста из документов]];
 +
* при [[#Извлечение текстовых данных из PDF-файлов, защищённых паролем|обработке PDF-файлов, защищённых паролем]].
 +
 
 +
==Возможность выполнения пакетных заданий==
 +
 
 +
Подробнее о пакетных заданиях [[АРМ Администратор#Возможность выполнения пакетных заданий|см. в подразделе ''Возможность выполнения пакетных заданий'' статьи ''АРМ Администратор'']].
 +
 
 +
Ниже перечислены специфические команды пакетных заданий, присущие именно ''АРМ Администратор полнотекстовых БД''.
 +
 
 +
===Импортировать записи из электронного каталога – <tt>ADDTEXTS_FROM_EK</tt>===
 +
 
 +
'''Операнды:''' <tt>DbName, комментарий</tt>
  
Указанные утилиты дополняют друг друга. Из некоторых PDF-файлов текст удаётся извлечь только с помощью <tt>pdftotext.exe</tt>, из других <tt>docs2text.exe</tt>. Существуют PDF-файлы, из которых не удаётся извлечь текст ни одной ни другой утилитой.
+
Где:
  
Утилита выбирается в соответствии со значением параметра <tt>Converter_PDF</tt> в [[Конфигурационный файл АРМ Администратор ИРБИС#Секция TEXTS|конфигурационном файле АРМ Администратор ИРБИС]].
+
:<tt>DbName</tt> – имя БД электронного каталога.
  
[[Отличия ИРБИС 2011.1 от предыдущей версии#Доработки|С версии 2011.1]] (а также в последних обновлениях версии 2010.1) добавлена возможность автоматического подбора подходящей утилиты для извлечения текстов из PDF-файлов. См. описание параметра <tt>PDFTextExtractUtilityOrder</tt> в статье [[Конфигурационный файл АРМ Администратор ИРБИС#Секция TEXTS|Конфигурационный файл АРМ Администратор ИРБИС]].
+
:<tt>комментарий</tt> – будет записан в каждую импортированную запись в соответствующее поле.
  
Описание известных решений проблем извлечения текста из PDF-файлов см. [[Полнотекстовые базы данных ИРБИС#Извлечение текста из PDF-файлов в процессе создания словаря|в соответствующем разделе статьи ''Полнотекстовые базы данных ИРБИС'']].
+
'''Пример использования:'''
 +
ADDTEXTS_FROM_EK IBIS, Тексты из ЭК
  
 
==Ссылки==
 
==Ссылки==
  
 
См. также:
 
См. также:
 +
* [[АРМ Администратор]]
 
* [[Полнотекстовые базы данных ИРБИС]]
 
* [[Полнотекстовые базы данных ИРБИС]]
* [[Известные проблемы и их решения, касающиеся работы с полнотекстовыми базами ИРБИС]]
+
* [[Конфигурационные параметры ИРБИС для полнотекстовых БД]]
* [[АРМ Администратор]]
+
* [[Рекомендации по обслуживанию баз данных ИРБИС]]
  
 
[[Категория:АРМ Администратор]]
 
[[Категория:АРМ Администратор]]
 
[[Категория:Полнотекстовые базы данных ИРБИС]]
 
[[Категория:Полнотекстовые базы данных ИРБИС]]
 
[[Категория:Продукты ИРБИС для работы с полнотекстовыми базами данных]]
 
[[Категория:Продукты ИРБИС для работы с полнотекстовыми базами данных]]
[[Категория:Функциональные возможности ИРБИС]]
+
[[Категория:Тексты документации, поставляемой с системой ИРБИС 64]]

Текущая версия на 18:27, 15 июля 2015

АРМ Администратор полнотекстовых БД – версия АРМ Администратор, предназначенная для работы с полнотекстовыми базами данных ИРБИС. АРМ Администратор представляет собой рабочее место специалиста, выполняющего операции над базами данных системы в целом в целях поддержания их актуального состояния и сохранности. АРМ Администратор полнотекстовых БД также служит для включения полных текстов в базу данных и их исключению из базы.

В этой статье описаны только специфические возможности АРМ Администратор полнотекстовых БД. Общие возможности АРМ Администратор описаны в статье АРМ Администратор.

Создание новой полнотекстовой базы данных

Необходимые действия для создания баз данных, в том числе полнотекстовых, описаны в соответствующем разделе статьи АРМ Администратор.

Рекомендации по созданию полнотекстовых баз данных ИРБИС см. в соответствующем подразделе статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.

Включение текстов в полнотекстовую базу данных

Включение текстов в полнотекстовую базу осуществляется с помощью специальной формы, которая открывается при выборе пункта главного меню Полнотекстовый сервис – Добавить / удалить полнотекстовые документы (для версии 2009.1 Полнотекстовый сервис – Добавить (удалить) тексты в БД).

Предусмотрены следующие способы включения текстов в полнотекстовую базу данных:

  • выбор текстов путём указания их местоположения на файловой системе (непосредственно, либо в архиве ZIP или RAR; вкладки: Отдельные файлы, Папки или Архивы);
  • включение текстов из указанного электронного каталога (вкладка Внешние объекты электронного каталога).

Графический интерфейс этой формы представляет собой:

  • набор вкладок и опций, относящихся к процессу включения текстов в базу данных ИРБИС;
  • список включённых в полнотекстовую базу данных текстов;
  • кнопки Добавить, Удалить, Обновить.

Процесс включения текстов начинается по нажатию кнопки Добавить и осуществляется в соответствии с выбранными опциями.

При нажатии кнопки Удалить происходит удаление из базы данных выбранных текстов.

Ниже описаны возможности, относящиеся к процессу включения текстов в базу данных ИРБИС.

Подробнее см. Включение текстов в полнотекстовую базу данных.

Виды ссылок на тексты (относительные или абсолютные)

В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам полных текстов.

Использование относительных путей возможно в случае хранения полных текстов в папке базы данных.

Включение текстов из электронного каталога

Возможно включение текстов, являющихся внешними объектами электронного каталога. Если говорить точнее, возможно включение текстов, ссылки на которые содержатся в любой базе данных ИРБИС (начиная с версии 2014.1).

При этом в полнотекстовую базу добавляются все ссылки на тексты из выбранной базы данных.

Чтобы воспользоваться этой возможностью, нужно выбрать вкладку Внешние объекты электронного каталога и пункт главного меню Добавить. В открывшемся диалоговом окне выбрать par-файл исходной базы данных.

Подробнее об особенностях данной возможности см. в подразделе Включение в полнотекстовую базу текстов из базы данных электронного каталога статьи Включение текстов в полнотекстовую базу данных.

Каждая страница файла как отдельный документ

Соответствующие опции предусмотрены для файлов формата PDF и DJVU и определяют объект полнотекстового поиска: получит ли пользователь в результате поиска ссылку на документ или на отдельную страницу документа.

Технически разбиение файлов на страницы (извлечение страниц) выполняется при добавлении текстов в базу, если выставлена соответствующая опция, а также при создании словаря (для текстов, являющихся страницами многостраничного PDF-файла или DJVU-файлв).

Извлечение страниц (разбиение на страницы) в случае PDF-файлов осуществляется с помощью одной из утилит: pdftk или pdf2pdf.

Выбор утилиты определяется параметрами конфигурационного файла АРМ Администратор ИРБИС:

  • Начиная с версии 2011.1 (а также в последних обновлениях версии 2010.1) подходящая утилита выбирается автоматически путём перебора. Перебор работает следующим образом: если с помощью одной утилиты не удалось извлечь страницу (разбить на страницы), то будет испробована другая. Порядок перебора задаётся с помощью параметра PDFSplitUtilityOrder.
  • В более ранних версиях утилита выбирается в соответствии со значением параметра PDFSplitter.

Описание известных решений проблем извлечения страниц из PDF-файлов см. в подразделе Разбиение PDF-файлов на страницы при добавлении в базу данных статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.

Ассоциация текста-подложки с включаемым в полнотекстовую базу документом

Если установлена опция Искать текст-'подложку', то при включении каждого документа в базу осуществляется проверка наличия подложки. Если соответствующая документу подложка найдена, то происходит ассоциация включаемого документа с подложкой.

Поиск подложки осуществляется в соответствии с правилом: файлы находятся в одной папке; имя файла подложки получается добавлением расширения .txt к имени документа. Например: документу example.pdf соответствует подложка example.pdf.txt.

Примечания:

  • Данная возможность поддерживается с версии 2011.1, а также присутствует в последних обновлениях версии 2010.1.
  • Если рядом с файлами текстов находятся файлы подложек, но при включении текстов НЕ установлена опция Искать текст-'подложку', то подложки могут быть включены в базу как самостоятельные текстовые документы. При включённой опции Искать текст-'подложку', файлы, определяемые как подложки, не будут включены в базу данных в качестве самостоятельных документов.

Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

В зависимости от выбранных опций, при включении документов в базу данных документы могут быть скопированы в специально предназначенный архив – файл с расширением .izp в папке базы данных.

Обслуживание словаря полнотекстовых баз данных ИРБИС

Об основных возможностях АРМ Администратор ИРБИС по работе со словарём, общих как для полнотекстовых баз данных, так и для обычных, см. в подразделе Обслуживание словаря базы данных ИРБИС статьи АРМ Администратор. В данном подразделе описаны особенности работы АРМ Администратор ИРБИС полнотекстовых БД в случае полнотекстовых баз данных.

Общие принципы индексирования полнотекстовых баз данных описаны в подразделе Индексирование полнотекстовой базы данных статьи Полнотекстовые базы данных ИРБИС.

Извлечение текстовых данных из PDF-файлов

Извлечение текста в процессе создания словаря осуществляется с помощью одной из утилит: pdftotext.exe или docs2text.exe.

Выбор утилиты определяется параметрами конфигурационного файла АРМ Администратор ИРБИС:

  • Начиная с версии 2011.1 (а также в последних обновлениях версии 2010.1) подходящая утилита выбирается автоматически путём перебора. Перебор работает следующим образом: если с помощью одной утилиты не удалось извлечь текст, то будет испробована другая. Порядок перебора задаётся с помощью параметра PDFTextExtractUtilityOrder.
  • В более ранних версиях утилита выбирается в соответствии со значением параметра Converter_PDF.

Примечание: используемые утилиты дополняют друг друга. Из некоторых PDF-файлов текст удаётся извлечь только с помощью pdftotext.exe, из других docs2text.exe. Существуют PDF-файлы, из которых не удаётся извлечь текст ни одной ни другой утилитой.

Описание известных решений проблем извлечения текста из PDF-файлов см. в подразделе Извлечение текста из PDF-файлов в процессе создания словаря статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.

Извлечение текстовых данных из PDF-файлов, защищённых паролем

Извлечение текстовых данных из PDF-файлов, защищённых паролем, позволяет индексировать такие PDF-файлы.

Перед извлечением текста в процессе создания словаря осуществляется снятие защиты с помощью утилиты pdftk.exe.

Для указания необходимости снятия защиты и указания пароля используются параметры isNeedDecryptPDF и PDFPassword в конфигурационном файле АРМ Администратор ИРБИС.

Примечания:

  • работа ИРБИС с защищёнными файлами возможна при их совместимости с "Acrobat 5.0". Если файлы совместимы с "Acrobat 6.0" или "Acrobat 7.0", то они не могут быть проиндексированы.
  • При указании необходимости работы с защищёнными файлами, незащищённые файлы также будут индексироваться как обычно.
  • После снятия защиты извлечение текста происходит так, как описано в подразделе Извлечение текстовых данных из PDF-файлов.
  • Не предусмотрена возможность работы с защищёнными файлами с разбиением на страницы. Для реализации данной возможности пришлось бы отдавать пользователю незащищённые страницы, либо выполнять защиту отдельных страниц.

Файл журнала

О местонахождении файла журнала см. в соответствующем подразделе статьи Файлы ИРБИС.

Файл журнала предназначен для регистрации некоторых событий, происходящих при работе АРМ Администратор:

  • начало работы программы;
  • окончание работы программы;
  • ошибки, происходящие при добавлении файлов в полнотекстовую базу данных;
  • сообщения, касающиеся выбора утилиты для разбиения файлов и извлечения текста.

Используемые утилиты

АРМ Администратор использует утилиты:

Возможность выполнения пакетных заданий

Подробнее о пакетных заданиях см. в подразделе Возможность выполнения пакетных заданий статьи АРМ Администратор.

Ниже перечислены специфические команды пакетных заданий, присущие именно АРМ Администратор полнотекстовых БД.

Импортировать записи из электронного каталога – ADDTEXTS_FROM_EK

Операнды: DbName, комментарий

Где:

DbName – имя БД электронного каталога.
комментарий – будет записан в каждую импортированную запись в соответствующее поле.

Пример использования:

ADDTEXTS_FROM_EK IBIS, Тексты из ЭК

Ссылки

См. также: