Конфигурационные параметры ИРБИС для полнотекстовых БД — различия между версиями
Sokv (обсуждение | вклад) (Новая страница: «==Параметры АРМ Администратор для полнотекстовых БД== ==Параметры АРМ Читатель для полноте…») |
Sokv (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
==Параметры АРМ Администратор для полнотекстовых БД== | ==Параметры АРМ Администратор для полнотекстовых БД== | ||
+ | |||
+ | ===Секция <tt>TEXTS</tt>=== | ||
+ | |||
+ | Секция <tt>TEXTS</tt> имеет отношение [[АРМ Администратор#Версии АРМ Администратор|только к '''АРМ Администратор полнотекстовых БД''']]. | ||
+ | |||
+ | В секции <tt>TEXTS</tt> присутствует ряд параметров, определяющих обработку файлов полных текстов. Описание данных параметров см. [[Конфигурационные параметры, определяющие обработку файлов полных текстов|в статье ''Конфигурационные параметры, определяющие обработку файлов полных текстов'']] | ||
+ | |||
+ | Параметры, служащие для указания местонахождения на файловой системе, параметризуют размещение некоторых файлов и папок. | ||
+ | |||
+ | Обычно эти параметры представляют собой относительный путь, начинающийся со знака "<tt>.</tt>" (со знака ''точка''). Знак ''точка'' обозначает местонахождение исполняемого файла, использующего данный конфигурационный файл. | ||
+ | |||
+ | * Параметр <tt>Converter_Word</tt>. В зависимости от значения этого параметра происходит выбор способа извлечения текста из <tt>DOC</tt>-файлов. Возможные значения этого параметра: <tt>0</tt> – использовать утилиту <tt>docs2text.exe</tt>; <tt>1</tt> – использовать программу Microsoft Word (по технологии Ole Automation). Значение по умолчанию – <tt>0</tt>. ''Примечание: если данный параметр отсутствует, то используется утилита <tt>docs2text.exe</tt>.'' | ||
+ | |||
+ | * Параметр <tt>isNeedRefreshBriefText</tt>. В зависимости от значения этого параметра изменяется логика обновления поля 22 (первые строки текста) при создании и актуализации словаря. Возможные значения этого параметра: <tt>0</tt> – не обновлять, если в поле уже есть текст; <tt>1</tt> – обновлять поле безусловно. Значение по умолчанию – <tt>1</tt>. ''Примечание: если данный параметр отсутствует, то подставляется значение <tt>1</tt>.'' ''Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].'' | ||
+ | |||
+ | * Параметр <tt>isNeedSplitInsteadExtract</tt>. Этот параметр касается некоторых особенностей использования утилит по разбиению PDF-файлов на страницы. Значение этого параметра определяет, как будет происходить получение страницы из PDF-файла при обработке ссылки на страницу: 1) будет ли извлечена конкретная страница (при значении параметра <tt>0</tt>) или 2) одной командой утилите скопом будут извлечены все страницы из PDF-файла (при значении параметра <tt>1</tt>). По умолчанию – параметр отсутствует. При отсутствии параметра в конфигурационном файле, в программе его значение приравнивается <tt>1</tt>. Время извлечения всех страниц скопом может быть значительно меньше времени извлечения каждой страницы, особенно это заметно на больших файлах. Благодаря [[АРМ Администратор полнотекстовых БД#Создание временных копий объектов полнотекстового поиска|механизму хранения извлечённых страниц]], соответствующие страницы будут использованы, когда дойдёт очередь до их обработки. Поскольку, в большинстве случаев необходимо обработать все страницы PDF-документов, эффективнее использовать значение параметра <tt>1</tt>. ''Параметр введён [[Отличия ИРБИС 2012.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2012.1]].'' ''Примечание: используемая утилита по извлечению страниц из DJVU-файлов не имеет соответствующей операции по извлечению страниц скопом, поэтому к DJVU-файлам данная логика не применима.'' | ||
+ | |||
+ | * Параметр <tt>isSboychakovThemeDictionaryEnable</tt>. Управляет построением тематического словаря. Возможные значения этого параметра: <tt>0</tt> – не строить тематический словарь; <tt>1</tt> – строить тематический словарь. Исходное значение параметра в конфигурационном файле и значение по умолчанию – <tt>0</tt>. ''Примечание: работа с тематическими словарями более не поддерживается, поэтому рекомендуется не включать данную функциональность.'' | ||
+ | |||
+ | * Параметр <tt>method9_tryNotUseDirectDBAccess</tt>. Включение данного параметра значит, что требуется в 9 методе ТВП по возможности не использовать непосредственное чтение ссылки на текст из БД. Это возможно, если соответствующий элемент (результат работы формата в ТВП) является ссылкой на полный текст в формате БД, предварённой префиксом "FT-DB-LNK:". При этом параметр FULL_TEXT_Name не используется. Если нет возможности не использовать непосредственное чтение ссылки на текст из БД, то работает старый алгоритм (новая реализация старого алгоритма). Если значение параметра method9_tryNotUseDirectDBAccess=0, то работает старый алгоритм (старая реализация старого алгоритма). | ||
+ | |||
+ | ===Секция <tt>ABBY</tt>=== | ||
+ | |||
+ | Секция <tt>ABBY</tt> имеет отношение [[АРМ Администратор#Версии АРМ Администратор|только к '''АРМ Администратор полнотекстовых БД''']], и используется при создании имидж-каталога. | ||
+ | |||
+ | * Параметр <tt>EngineDllPath</tt> – полный путь к библиотеке <tt>FREngine.dll</tt>. | ||
+ | |||
+ | * Параметр <tt>DeveloperSN</tt> – серийный номер, указанный на USB-ключе. | ||
+ | |||
+ | * Параметр <tt>FR_LANGUAGES</tt> – список предполагаемых языков, используемый при распознавании. ''Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].'' ''Примечание: если данный параметр пустой или отсутствует, то используются языки <tt>Russian,English,Ukrainian</tt>.'' | ||
==Параметры АРМ Читатель для полнотекстовых БД== | ==Параметры АРМ Читатель для полнотекстовых БД== |
Версия 16:22, 15 февраля 2013
Содержание
Параметры АРМ Администратор для полнотекстовых БД
Секция TEXTS
Секция TEXTS имеет отношение только к АРМ Администратор полнотекстовых БД.
В секции TEXTS присутствует ряд параметров, определяющих обработку файлов полных текстов. Описание данных параметров см. в статье Конфигурационные параметры, определяющие обработку файлов полных текстов
Параметры, служащие для указания местонахождения на файловой системе, параметризуют размещение некоторых файлов и папок.
Обычно эти параметры представляют собой относительный путь, начинающийся со знака "." (со знака точка). Знак точка обозначает местонахождение исполняемого файла, использующего данный конфигурационный файл.
- Параметр Converter_Word. В зависимости от значения этого параметра происходит выбор способа извлечения текста из DOC-файлов. Возможные значения этого параметра: 0 – использовать утилиту docs2text.exe; 1 – использовать программу Microsoft Word (по технологии Ole Automation). Значение по умолчанию – 0. Примечание: если данный параметр отсутствует, то используется утилита docs2text.exe.
- Параметр isNeedRefreshBriefText. В зависимости от значения этого параметра изменяется логика обновления поля 22 (первые строки текста) при создании и актуализации словаря. Возможные значения этого параметра: 0 – не обновлять, если в поле уже есть текст; 1 – обновлять поле безусловно. Значение по умолчанию – 1. Примечание: если данный параметр отсутствует, то подставляется значение 1. Параметр введён в версии ИРБИС 2011.1.
- Параметр isNeedSplitInsteadExtract. Этот параметр касается некоторых особенностей использования утилит по разбиению PDF-файлов на страницы. Значение этого параметра определяет, как будет происходить получение страницы из PDF-файла при обработке ссылки на страницу: 1) будет ли извлечена конкретная страница (при значении параметра 0) или 2) одной командой утилите скопом будут извлечены все страницы из PDF-файла (при значении параметра 1). По умолчанию – параметр отсутствует. При отсутствии параметра в конфигурационном файле, в программе его значение приравнивается 1. Время извлечения всех страниц скопом может быть значительно меньше времени извлечения каждой страницы, особенно это заметно на больших файлах. Благодаря механизму хранения извлечённых страниц, соответствующие страницы будут использованы, когда дойдёт очередь до их обработки. Поскольку, в большинстве случаев необходимо обработать все страницы PDF-документов, эффективнее использовать значение параметра 1. Параметр введён в версии ИРБИС 2012.1. Примечание: используемая утилита по извлечению страниц из DJVU-файлов не имеет соответствующей операции по извлечению страниц скопом, поэтому к DJVU-файлам данная логика не применима.
- Параметр isSboychakovThemeDictionaryEnable. Управляет построением тематического словаря. Возможные значения этого параметра: 0 – не строить тематический словарь; 1 – строить тематический словарь. Исходное значение параметра в конфигурационном файле и значение по умолчанию – 0. Примечание: работа с тематическими словарями более не поддерживается, поэтому рекомендуется не включать данную функциональность.
- Параметр method9_tryNotUseDirectDBAccess. Включение данного параметра значит, что требуется в 9 методе ТВП по возможности не использовать непосредственное чтение ссылки на текст из БД. Это возможно, если соответствующий элемент (результат работы формата в ТВП) является ссылкой на полный текст в формате БД, предварённой префиксом "FT-DB-LNK:". При этом параметр FULL_TEXT_Name не используется. Если нет возможности не использовать непосредственное чтение ссылки на текст из БД, то работает старый алгоритм (новая реализация старого алгоритма). Если значение параметра method9_tryNotUseDirectDBAccess=0, то работает старый алгоритм (старая реализация старого алгоритма).
Секция ABBY
Секция ABBY имеет отношение только к АРМ Администратор полнотекстовых БД, и используется при создании имидж-каталога.
- Параметр EngineDllPath – полный путь к библиотеке FREngine.dll.
- Параметр DeveloperSN – серийный номер, указанный на USB-ключе.
- Параметр FR_LANGUAGES – список предполагаемых языков, используемый при распознавании. Параметр введён в версии ИРБИС 2011.1. Примечание: если данный параметр пустой или отсутствует, то используются языки Russian,English,Ukrainian.
Параметры АРМ Читатель для полнотекстовых БД
Секция с именем базы данных
В секции с именем базы данных содержаться параметры, относящиеся только к данной базе.
- Параметр SearchFrames. Значение этого параметра – список имён форматов, перечисленных через запятую без пробелов, формирующих "заголовок" и "подвал" HTML-страницы с результатами поиска. По умолчанию – параметр отсутствует. При отсутствии параметра используется значение search_header.pft,Result,search_Footer.pft. Один или несколько форматов до слова Result формируют "заголовок". Один или несколько форматов после слова Result формируют "подвал". Само слово Result служит разделителем.
Секция MAIN
В секции MAIN присутствует ряд параметров, определяющих обработку файлов полных текстов. Описание данных параметров см. в статье Конфигурационные параметры, определяющие обработку файлов полных текстов
- Параметр BriefPft. Значение этого параметра – имя формата (без расширения), формирующего "середину" HTML-страницы с результатами поиска. Исходное значение параметра в конфигурационном файле – BriefHTML.
- Параметр WORKDIR. Исходное значение параметра в конфигурационном файле – C:\irbiswrk. Если значение параметра не задано или параметр отсутствует, то для хранения временных файлов используется временная папка Windows. Общее описание параметра WORKDIR см. в подразделе Параметры, общие для разных АРМ статьи Параметры настройки системы.
Секция SearchResultHTML
- Параметр SearchEmpty. Значение этого параметра – имя формата, формирующего HTML-страницу с пустым результатом поиска. По умолчанию – параметр отсутствует. При отсутствии параметра используется значение search_empty.pft.
- Параметр SearchFooter. Значение этого параметра – имя формата (или список имён форматов, перечисленных через запятую без пробелов), формирующего "подвал" HTML-страницы с результатами поиска. По умолчанию – параметр отсутствует. При отсутствии данного параметра и параметра SearchHeader используется значение параметра SearchFrames из секции соответствующей базы данных.
- Параметр SearchHeader. Значение этого параметра – имя формата (или список имён форматов, перечисленных через запятую без пробелов), формирующего "заголовок" HTML-страницы с результатами поиска. По умолчанию – параметр отсутствует. При отсутствии данного параметра и параметра SearchFooter используется значение параметра SearchFrames из секции соответствующей базы данных.
- Параметр IsNeedAddSomeTags. Признак того, составит ли АРМ Читатель для полнотекстовых баз данных HTML-страницу с результатами поиска исключительно из результатов работы соответствующих форматов, или же будет добавлять некоторые теги. Возможные значения: 1 – добавлять теги к результату работы формата, 0 – не добавлять теги. По умолчанию – параметр отсутствует. Отсутствие параметра эквивалентно случаю IsNeedAddSomeTags=1. Параметр введён в версии ИРБИС 2010.1.