АРМ Администратор полнотекстовых БД — различия между версиями
Sokv (обсуждение | вклад) (→Ссылки) |
Sokv (обсуждение | вклад) (→Включение текстов из электронного каталога) |
||
(не показано 12 промежуточных версий этого же участника) | |||
Строка 7: | Строка 7: | ||
Необходимые действия для создания баз данных, в том числе полнотекстовых, описаны в [[АРМ Администратор#Создание новой базы данных|соответствующем разделе статьи АРМ Администратор]]. | Необходимые действия для создания баз данных, в том числе полнотекстовых, описаны в [[АРМ Администратор#Создание новой базы данных|соответствующем разделе статьи АРМ Администратор]]. | ||
− | Рекомендации по созданию полнотекстовых баз данных ИРБИС см. в [[ | + | Рекомендации по созданию полнотекстовых баз данных ИРБИС см. в [[Установка и использование ИРБИС 64 для полнотекстовых баз данных#Рекомендации по созданию полнотекстовой базы данных|соответствующем подразделе статьи ''Установка и использование ИРБИС 64 для полнотекстовых баз данных'']]. |
==Включение текстов в полнотекстовую базу данных== | ==Включение текстов в полнотекстовую базу данных== | ||
− | + | Включение текстов в полнотекстовую базу осуществляется с помощью специальной формы, которая открывается при выборе пункта главного меню ''Полнотекстовый сервис – Добавить / удалить полнотекстовые документы'' (<small>для версии 2009.1 ''Полнотекстовый сервис – Добавить (удалить) тексты в БД''</small>). | |
− | |||
− | |||
− | + | Предусмотрены следующие способы включения текстов в полнотекстовую базу данных: | |
− | + | * выбор текстов путём указания их местоположения на файловой системе (непосредственно, либо в архиве ZIP или RAR; вкладки: ''Отдельные файлы'', ''Папки'' или ''Архивы''); | |
− | + | * включение текстов из указанного электронного каталога (вкладка ''Внешние объекты электронного каталога''). | |
Графический интерфейс этой формы представляет собой: | Графический интерфейс этой формы представляет собой: | ||
Строка 30: | Строка 28: | ||
Ниже описаны возможности, относящиеся к процессу включения текстов в базу данных ИРБИС. | Ниже описаны возможности, относящиеся к процессу включения текстов в базу данных ИРБИС. | ||
− | + | Подробнее см. [[Включение текстов в полнотекстовую базу данных]]. | |
− | + | ===Виды ссылок на тексты (относительные или абсолютные)=== | |
− | + | В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам полных текстов. | |
− | [[ | + | Использование относительных путей возможно в случае хранения полных текстов в [[Файлы ИРБИС#Файлы баз данных ИРБИС|папке базы данных]]. |
− | + | ===Включение текстов из электронного каталога=== | |
− | + | Возможно включение текстов, являющихся [[Связывание документов базы данных ИРБИС с внешними объектами|внешними объектами электронного каталога]]. Если говорить точнее, возможно включение текстов, ссылки на которые содержатся в любой базе данных ИРБИС (начиная с [[Список изменений ИРБИС версии 2014.1|версии 2014.1]]). | |
− | + | При этом в полнотекстовую базу добавляются все ссылки на тексты из выбранной базы данных. | |
− | + | Чтобы воспользоваться этой возможностью, нужно выбрать вкладку ''Внешние объекты электронного каталога'' и пункт главного меню ''Добавить''. В открывшемся диалоговом окне выбрать par-файл исходной базы данных. | |
− | |||
− | |||
− | |||
− | |||
− | + | Подробнее об особенностях данной возможности см. [[Включение текстов в полнотекстовую базу данных#Включение в полнотекстовую базу текстов из базы данных электронного каталога|в подразделе ''Включение в полнотекстовую базу текстов из базы данных электронного каталога'' статьи ''Включение текстов в полнотекстовую базу данных'']]. | |
− | |||
− | |||
− | |||
− | |||
===Каждая страница файла как отдельный документ=== | ===Каждая страница файла как отдельный документ=== | ||
Строка 68: | Строка 58: | ||
* В более ранних версиях утилита выбирается в соответствии со значением параметра [[Конфигурационные параметры ИРБИС для полнотекстовых БД|<tt>PDFSplitter</tt>]]. | * В более ранних версиях утилита выбирается в соответствии со значением параметра [[Конфигурационные параметры ИРБИС для полнотекстовых БД|<tt>PDFSplitter</tt>]]. | ||
− | Описание известных решений проблем извлечения страниц из PDF-файлов см. [[ | + | Описание известных решений проблем извлечения страниц из PDF-файлов см. [[Установка и использование ИРБИС 64 для полнотекстовых баз данных#Разбиение PDF-файлов на страницы при добавлении в базу данных|в подразделе ''Разбиение PDF-файлов на страницы при добавлении в базу данных'' статьи ''Установка и использование ИРБИС 64 для полнотекстовых баз данных'']]. |
===Ассоциация текста-подложки с включаемым в полнотекстовую базу документом=== | ===Ассоциация текста-подложки с включаемым в полнотекстовую базу документом=== | ||
Строка 91: | Строка 81: | ||
Об основных возможностях АРМ Администратор ИРБИС по работе со словарём, общих как для полнотекстовых баз данных, так и для обычных, см. [[АРМ Администратор#Обслуживание словаря базы данных ИРБИС|в подразделе ''Обслуживание словаря базы данных ИРБИС'' статьи ''АРМ Администратор'']]. В данном подразделе описаны особенности работы АРМ Администратор ИРБИС полнотекстовых БД в случае полнотекстовых баз данных. | Об основных возможностях АРМ Администратор ИРБИС по работе со словарём, общих как для полнотекстовых баз данных, так и для обычных, см. [[АРМ Администратор#Обслуживание словаря базы данных ИРБИС|в подразделе ''Обслуживание словаря базы данных ИРБИС'' статьи ''АРМ Администратор'']]. В данном подразделе описаны особенности работы АРМ Администратор ИРБИС полнотекстовых БД в случае полнотекстовых баз данных. | ||
− | Общие принципы индексирования полнотекстовых баз данных описаны [[Полнотекстовые базы данных ИРБИС#Индексирование | + | Общие принципы индексирования полнотекстовых баз данных описаны [[Полнотекстовые базы данных ИРБИС#Индексирование полнотекстовой базы данных|в подразделе ''Индексирование полнотекстовой базы данных'' статьи ''Полнотекстовые базы данных ИРБИС'']]. |
===Извлечение текстовых данных из PDF-файлов=== | ===Извлечение текстовых данных из PDF-файлов=== | ||
Строка 103: | Строка 93: | ||
''Примечание: используемые утилиты дополняют друг друга. Из некоторых PDF-файлов текст удаётся извлечь только с помощью <tt>pdftotext.exe</tt>, из других <tt>docs2text.exe</tt>. Существуют PDF-файлы, из которых не удаётся извлечь текст ни одной ни другой утилитой.'' | ''Примечание: используемые утилиты дополняют друг друга. Из некоторых PDF-файлов текст удаётся извлечь только с помощью <tt>pdftotext.exe</tt>, из других <tt>docs2text.exe</tt>. Существуют PDF-файлы, из которых не удаётся извлечь текст ни одной ни другой утилитой.'' | ||
− | Описание известных решений проблем извлечения текста из PDF-файлов см. [[ | + | Описание известных решений проблем извлечения текста из PDF-файлов см. [[Установка и использование ИРБИС 64 для полнотекстовых баз данных#Извлечение текста из PDF-файлов в процессе создания словаря|в подразделе ''Извлечение текста из PDF-файлов в процессе создания словаря'' статьи ''Установка и использование ИРБИС 64 для полнотекстовых баз данных'']]. |
===Извлечение текстовых данных из PDF-файлов, защищённых паролем=== | ===Извлечение текстовых данных из PDF-файлов, защищённых паролем=== | ||
Строка 119: | Строка 109: | ||
* ''Не предусмотрена возможность работы с защищёнными файлами с разбиением на страницы. Для реализации данной возможности пришлось бы отдавать пользователю незащищённые страницы, либо выполнять защиту отдельных страниц.'' | * ''Не предусмотрена возможность работы с защищёнными файлами с разбиением на страницы. Для реализации данной возможности пришлось бы отдавать пользователю незащищённые страницы, либо выполнять защиту отдельных страниц.'' | ||
− | == | + | ==Файл журнала== |
− | + | О местонахождении файла журнала см. [[Файлы ИРБИС#Файл журнала АРМ Администратор полнотекстовых БД|в соответствующем подразделе статьи ''Файлы ИРБИС'']]. | |
+ | |||
+ | Файл журнала предназначен для регистрации некоторых событий, происходящих при работе АРМ Администратор: | ||
+ | * начало работы программы; | ||
+ | * окончание работы программы; | ||
+ | * ошибки, происходящие при добавлении файлов в полнотекстовую базу данных; | ||
+ | * сообщения, касающиеся выбора утилиты для разбиения файлов и извлечения текста. | ||
+ | |||
+ | ==Используемые утилиты== | ||
АРМ Администратор использует утилиты: | АРМ Администратор использует утилиты: | ||
Строка 128: | Строка 126: | ||
* при [[#Извлечение текстовых данных из PDF-файлов, защищённых паролем|обработке PDF-файлов, защищённых паролем]]. | * при [[#Извлечение текстовых данных из PDF-файлов, защищённых паролем|обработке PDF-файлов, защищённых паролем]]. | ||
− | === | + | ==Возможность выполнения пакетных заданий== |
+ | |||
+ | Подробнее о пакетных заданиях [[АРМ Администратор#Возможность выполнения пакетных заданий|см. в подразделе ''Возможность выполнения пакетных заданий'' статьи ''АРМ Администратор'']]. | ||
+ | |||
+ | Ниже перечислены специфические команды пакетных заданий, присущие именно ''АРМ Администратор полнотекстовых БД''. | ||
+ | |||
+ | ===Импортировать записи из электронного каталога – <tt>ADDTEXTS_FROM_EK</tt>=== | ||
+ | |||
+ | '''Операнды:''' <tt>DbName, комментарий</tt> | ||
+ | |||
+ | Где: | ||
+ | |||
+ | :<tt>DbName</tt> – имя БД электронного каталога. | ||
− | + | :<tt>комментарий</tt> – будет записан в каждую импортированную запись в соответствующее поле. | |
− | + | '''Пример использования:''' | |
+ | ADDTEXTS_FROM_EK IBIS, Тексты из ЭК | ||
==Ссылки== | ==Ссылки== | ||
Строка 139: | Строка 150: | ||
* [[АРМ Администратор]] | * [[АРМ Администратор]] | ||
* [[Полнотекстовые базы данных ИРБИС]] | * [[Полнотекстовые базы данных ИРБИС]] | ||
− | |||
− | |||
* [[Конфигурационные параметры ИРБИС для полнотекстовых БД]] | * [[Конфигурационные параметры ИРБИС для полнотекстовых БД]] | ||
+ | * [[Рекомендации по обслуживанию баз данных ИРБИС]] | ||
[[Категория:АРМ Администратор]] | [[Категория:АРМ Администратор]] |
Текущая версия на 18:27, 15 июля 2015
АРМ Администратор полнотекстовых БД – версия АРМ Администратор, предназначенная для работы с полнотекстовыми базами данных ИРБИС. АРМ Администратор представляет собой рабочее место специалиста, выполняющего операции над базами данных системы в целом в целях поддержания их актуального состояния и сохранности. АРМ Администратор полнотекстовых БД также служит для включения полных текстов в базу данных и их исключению из базы.
В этой статье описаны только специфические возможности АРМ Администратор полнотекстовых БД. Общие возможности АРМ Администратор описаны в статье АРМ Администратор.
Содержание
- 1 Создание новой полнотекстовой базы данных
- 2 Включение текстов в полнотекстовую базу данных
- 2.1 Виды ссылок на тексты (относительные или абсолютные)
- 2.2 Включение текстов из электронного каталога
- 2.3 Каждая страница файла как отдельный документ
- 2.4 Ассоциация текста-подложки с включаемым в полнотекстовую базу документом
- 2.5 Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)
- 3 Обслуживание словаря полнотекстовых баз данных ИРБИС
- 4 Файл журнала
- 5 Используемые утилиты
- 6 Возможность выполнения пакетных заданий
- 7 Ссылки
Создание новой полнотекстовой базы данных
Необходимые действия для создания баз данных, в том числе полнотекстовых, описаны в соответствующем разделе статьи АРМ Администратор.
Рекомендации по созданию полнотекстовых баз данных ИРБИС см. в соответствующем подразделе статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.
Включение текстов в полнотекстовую базу данных
Включение текстов в полнотекстовую базу осуществляется с помощью специальной формы, которая открывается при выборе пункта главного меню Полнотекстовый сервис – Добавить / удалить полнотекстовые документы (для версии 2009.1 Полнотекстовый сервис – Добавить (удалить) тексты в БД).
Предусмотрены следующие способы включения текстов в полнотекстовую базу данных:
- выбор текстов путём указания их местоположения на файловой системе (непосредственно, либо в архиве ZIP или RAR; вкладки: Отдельные файлы, Папки или Архивы);
- включение текстов из указанного электронного каталога (вкладка Внешние объекты электронного каталога).
Графический интерфейс этой формы представляет собой:
- набор вкладок и опций, относящихся к процессу включения текстов в базу данных ИРБИС;
- список включённых в полнотекстовую базу данных текстов;
- кнопки Добавить, Удалить, Обновить.
Процесс включения текстов начинается по нажатию кнопки Добавить и осуществляется в соответствии с выбранными опциями.
При нажатии кнопки Удалить происходит удаление из базы данных выбранных текстов.
Ниже описаны возможности, относящиеся к процессу включения текстов в базу данных ИРБИС.
Подробнее см. Включение текстов в полнотекстовую базу данных.
Виды ссылок на тексты (относительные или абсолютные)
В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам полных текстов.
Использование относительных путей возможно в случае хранения полных текстов в папке базы данных.
Включение текстов из электронного каталога
Возможно включение текстов, являющихся внешними объектами электронного каталога. Если говорить точнее, возможно включение текстов, ссылки на которые содержатся в любой базе данных ИРБИС (начиная с версии 2014.1).
При этом в полнотекстовую базу добавляются все ссылки на тексты из выбранной базы данных.
Чтобы воспользоваться этой возможностью, нужно выбрать вкладку Внешние объекты электронного каталога и пункт главного меню Добавить. В открывшемся диалоговом окне выбрать par-файл исходной базы данных.
Подробнее об особенностях данной возможности см. в подразделе Включение в полнотекстовую базу текстов из базы данных электронного каталога статьи Включение текстов в полнотекстовую базу данных.
Каждая страница файла как отдельный документ
Соответствующие опции предусмотрены для файлов формата PDF и DJVU и определяют объект полнотекстового поиска: получит ли пользователь в результате поиска ссылку на документ или на отдельную страницу документа.
Технически разбиение файлов на страницы (извлечение страниц) выполняется при добавлении текстов в базу, если выставлена соответствующая опция, а также при создании словаря (для текстов, являющихся страницами многостраничного PDF-файла или DJVU-файлв).
Извлечение страниц (разбиение на страницы) в случае PDF-файлов осуществляется с помощью одной из утилит: pdftk или pdf2pdf.
Выбор утилиты определяется параметрами конфигурационного файла АРМ Администратор ИРБИС:
- Начиная с версии 2011.1 (а также в последних обновлениях версии 2010.1) подходящая утилита выбирается автоматически путём перебора. Перебор работает следующим образом: если с помощью одной утилиты не удалось извлечь страницу (разбить на страницы), то будет испробована другая. Порядок перебора задаётся с помощью параметра PDFSplitUtilityOrder.
- В более ранних версиях утилита выбирается в соответствии со значением параметра PDFSplitter.
Описание известных решений проблем извлечения страниц из PDF-файлов см. в подразделе Разбиение PDF-файлов на страницы при добавлении в базу данных статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.
Ассоциация текста-подложки с включаемым в полнотекстовую базу документом
Если установлена опция Искать текст-'подложку', то при включении каждого документа в базу осуществляется проверка наличия подложки. Если соответствующая документу подложка найдена, то происходит ассоциация включаемого документа с подложкой.
Поиск подложки осуществляется в соответствии с правилом: файлы находятся в одной папке; имя файла подложки получается добавлением расширения .txt к имени документа. Например: документу example.pdf соответствует подложка example.pdf.txt.
Примечания:
- Данная возможность поддерживается с версии 2011.1, а также присутствует в последних обновлениях версии 2010.1.
- Если рядом с файлами текстов находятся файлы подложек, но при включении текстов НЕ установлена опция Искать текст-'подложку', то подложки могут быть включены в базу как самостоятельные текстовые документы. При включённой опции Искать текст-'подложку', файлы, определяемые как подложки, не будут включены в базу данных в качестве самостоятельных документов.
Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)
Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.
В зависимости от выбранных опций, при включении документов в базу данных документы могут быть скопированы в специально предназначенный архив – файл с расширением .izp в папке базы данных.
Обслуживание словаря полнотекстовых баз данных ИРБИС
Об основных возможностях АРМ Администратор ИРБИС по работе со словарём, общих как для полнотекстовых баз данных, так и для обычных, см. в подразделе Обслуживание словаря базы данных ИРБИС статьи АРМ Администратор. В данном подразделе описаны особенности работы АРМ Администратор ИРБИС полнотекстовых БД в случае полнотекстовых баз данных.
Общие принципы индексирования полнотекстовых баз данных описаны в подразделе Индексирование полнотекстовой базы данных статьи Полнотекстовые базы данных ИРБИС.
Извлечение текстовых данных из PDF-файлов
Извлечение текста в процессе создания словаря осуществляется с помощью одной из утилит: pdftotext.exe или docs2text.exe.
Выбор утилиты определяется параметрами конфигурационного файла АРМ Администратор ИРБИС:
- Начиная с версии 2011.1 (а также в последних обновлениях версии 2010.1) подходящая утилита выбирается автоматически путём перебора. Перебор работает следующим образом: если с помощью одной утилиты не удалось извлечь текст, то будет испробована другая. Порядок перебора задаётся с помощью параметра PDFTextExtractUtilityOrder.
- В более ранних версиях утилита выбирается в соответствии со значением параметра Converter_PDF.
Примечание: используемые утилиты дополняют друг друга. Из некоторых PDF-файлов текст удаётся извлечь только с помощью pdftotext.exe, из других docs2text.exe. Существуют PDF-файлы, из которых не удаётся извлечь текст ни одной ни другой утилитой.
Описание известных решений проблем извлечения текста из PDF-файлов см. в подразделе Извлечение текста из PDF-файлов в процессе создания словаря статьи Установка и использование ИРБИС 64 для полнотекстовых баз данных.
Извлечение текстовых данных из PDF-файлов, защищённых паролем
Извлечение текстовых данных из PDF-файлов, защищённых паролем, позволяет индексировать такие PDF-файлы.
Перед извлечением текста в процессе создания словаря осуществляется снятие защиты с помощью утилиты pdftk.exe.
Для указания необходимости снятия защиты и указания пароля используются параметры isNeedDecryptPDF и PDFPassword в конфигурационном файле АРМ Администратор ИРБИС.
Примечания:
- работа ИРБИС с защищёнными файлами возможна при их совместимости с "Acrobat 5.0". Если файлы совместимы с "Acrobat 6.0" или "Acrobat 7.0", то они не могут быть проиндексированы.
- При указании необходимости работы с защищёнными файлами, незащищённые файлы также будут индексироваться как обычно.
- После снятия защиты извлечение текста происходит так, как описано в подразделе Извлечение текстовых данных из PDF-файлов.
- Не предусмотрена возможность работы с защищёнными файлами с разбиением на страницы. Для реализации данной возможности пришлось бы отдавать пользователю незащищённые страницы, либо выполнять защиту отдельных страниц.
Файл журнала
О местонахождении файла журнала см. в соответствующем подразделе статьи Файлы ИРБИС.
Файл журнала предназначен для регистрации некоторых событий, происходящих при работе АРМ Администратор:
- начало работы программы;
- окончание работы программы;
- ошибки, происходящие при добавлении файлов в полнотекстовую базу данных;
- сообщения, касающиеся выбора утилиты для разбиения файлов и извлечения текста.
Используемые утилиты
АРМ Администратор использует утилиты:
- при извлечении страниц из многостраничного документа и разбиении документа на страницы;
- при извлечении текста из документов;
- при обработке PDF-файлов, защищённых паролем.
Возможность выполнения пакетных заданий
Подробнее о пакетных заданиях см. в подразделе Возможность выполнения пакетных заданий статьи АРМ Администратор.
Ниже перечислены специфические команды пакетных заданий, присущие именно АРМ Администратор полнотекстовых БД.
Импортировать записи из электронного каталога – ADDTEXTS_FROM_EK
Операнды: DbName, комментарий
Где:
- DbName – имя БД электронного каталога.
- комментарий – будет записан в каждую импортированную запись в соответствующее поле.
Пример использования:
ADDTEXTS_FROM_EK IBIS, Тексты из ЭК
Ссылки
См. также: