Конфигурационные параметры ИРБИС для полнотекстовых БД — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
Строка 19: Строка 19:
 
{{Описание параметра инициализационного файла для HLPINI
 
{{Описание параметра инициализационного файла для HLPINI
 
|name=Converter_Word
 
|name=Converter_Word
 +
|iniFiles=irbisa_fulltext.ini
 +
|sectionName=TEXTS
 
|descr=В зависимости от значения этого параметра происходит выбор способа извлечения текста из <tt>DOC</tt>-файлов.
 
|descr=В зависимости от значения этого параметра происходит выбор способа извлечения текста из <tt>DOC</tt>-файлов.
 
|using=Возможные значения этого параметра: <tt>0</tt> – использовать утилиту <tt>docs2text.exe</tt>; <tt>1</tt> – использовать программу Microsoft Word (по технологии Ole Automation). Если данный параметр отсутствует – использовать утилиту <tt>docs2text.exe</tt>.
 
|using=Возможные значения этого параметра: <tt>0</tt> – использовать утилиту <tt>docs2text.exe</tt>; <tt>1</tt> – использовать программу Microsoft Word (по технологии Ole Automation). Если данный параметр отсутствует – использовать утилиту <tt>docs2text.exe</tt>.
 
|defaultValue=0
 
|defaultValue=0
|iniFiles=irbisa_fulltext.ini
 
|sectionName=TEXTS
 
 
}}
 
}}
  
 
{{Описание параметра инициализационного файла для HLPINI
 
{{Описание параметра инициализационного файла для HLPINI
 
|name=isNeedRefreshBriefText
 
|name=isNeedRefreshBriefText
 +
|iniFiles=irbisa_fulltext.ini
 +
|sectionName=TEXTS
 
|descr=В зависимости от значения этого параметра изменяется логика обновления поля 22 (первые строки текста) при создании и актуализации словаря.
 
|descr=В зависимости от значения этого параметра изменяется логика обновления поля 22 (первые строки текста) при создании и актуализации словаря.
|using=Возможные значения этого параметра: <tt>0</tt> – не обновлять, если в поле уже есть текст; <tt>1</tt> – обновлять поле безусловно. Если данный параметр отсутствует, то подставляется значение <tt>1</tt>.
+
|using=Возможные значения этого параметра: <tt>0</tt> – не обновлять, если в поле уже есть текст; <tt>1</tt> – обновлять поле безусловно. При отсутствии параметра используется значение <tt>1</tt>.
 
|defaultValue=1
 
|defaultValue=1
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].
 +
}}
 +
 +
{{Описание параметра инициализационного файла для HLPINI
 +
|name=isNeedSplitInsteadExtract
 
|iniFiles=irbisa_fulltext.ini
 
|iniFiles=irbisa_fulltext.ini
 
|sectionName=TEXTS
 
|sectionName=TEXTS
 +
|descr=Этот параметр касается некоторых особенностей использования утилит по разбиению PDF-файлов на страницы.
 +
|using=Значение этого параметра определяет, как будет происходить получение страницы из PDF-файла при обработке ссылки на страницу: 1) будет ли извлечена конкретная страница (при значении параметра <tt>0</tt>) или 2) одной командой утилите скопом будут извлечены все страницы из PDF-файла (при значении параметра <tt>1</tt>). При отсутствии параметра используется значение <tt>1</tt>.
 +
|defaultParametrIsAbsent
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2012.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2012.1]].
 
}}
 
}}
  
* Параметр <tt>isNeedRefreshBriefText</tt>. В зависимости от значения этого параметра изменяется логика обновления поля 22 (первые строки текста) при создании и актуализации словаря. Возможные значения этого параметра: <tt>0</tt> – не обновлять, если в поле уже есть текст; <tt>1</tt> – обновлять поле безусловно. Значение по умолчанию – <tt>1</tt>. ''Примечание: если данный параметр отсутствует, то подставляется значение <tt>1</tt>.'' ''Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].''
+
Время извлечения всех страниц скопом может быть значительно меньше времени извлечения каждой страницы, особенно это заметно на больших файлах. Благодаря [[АРМ Администратор полнотекстовых БД#Создание временных копий объектов полнотекстового поиска|механизму хранения извлечённых страниц]], соответствующие страницы будут использованы, когда дойдёт очередь до их обработки. Поскольку, в большинстве случаев необходимо обработать все страницы PDF-документов, эффективнее использовать значение параметра <tt>1</tt>.
  
* Параметр <tt>isNeedSplitInsteadExtract</tt>. Этот параметр касается некоторых особенностей использования утилит по разбиению PDF-файлов на страницы. Значение этого параметра определяет, как будет происходить получение страницы из PDF-файла при обработке ссылки на страницу: 1) будет ли извлечена конкретная страница (при значении параметра <tt>0</tt>) или 2) одной командой утилите скопом будут извлечены все страницы из PDF-файла (при значении параметра <tt>1</tt>). По умолчанию – параметр отсутствует. При отсутствии параметра в конфигурационном файле, в программе его значение приравнивается <tt>1</tt>. Время извлечения всех страниц скопом может быть значительно меньше времени извлечения каждой страницы, особенно это заметно на больших файлах. Благодаря [[АРМ Администратор полнотекстовых БД#Создание временных копий объектов полнотекстового поиска|механизму хранения извлечённых страниц]], соответствующие страницы будут использованы, когда дойдёт очередь до их обработки. Поскольку, в большинстве случаев необходимо обработать все страницы PDF-документов, эффективнее использовать значение параметра <tt>1</tt>. ''Параметр введён [[Отличия ИРБИС 2012.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2012.1]].'' ''Примечание: используемая утилита по извлечению страниц из DJVU-файлов не имеет соответствующей операции по извлечению страниц скопом, поэтому к DJVU-файлам данная логика не применима.''
+
''Примечание: используемая утилита по извлечению страниц из DJVU-файлов не имеет соответствующей операции по извлечению страниц скопом, поэтому к DJVU-файлам данная логика не применима.''
  
* Параметр <tt>isSboychakovThemeDictionaryEnable</tt>. Управляет построением тематического словаря. Возможные значения этого параметра: <tt>0</tt> – не строить тематический словарь; <tt>1</tt> – строить тематический словарь. Исходное значение параметра в конфигурационном файле и значение по умолчанию – <tt>0</tt>. ''Примечание: работа с тематическими словарями более не поддерживается, поэтому рекомендуется не включать данную функциональность.''
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=isSboychakovThemeDictionaryEnable
 +
|iniFiles=irbisa_fulltext.ini
 +
|sectionName=TEXTS
 +
|descr=Управляет построением тематического словаря.
 +
|using=Возможные значения этого параметра: <tt>0</tt> – не строить тематический словарь; <tt>1</tt> – строить тематический словарь. При отсутствии параметра используется значение <tt>0</tt>.
 +
|defaultValue=1
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].
 +
}}
  
* Параметр <tt>method9_tryNotUseDirectDBAccess</tt>. Включение данного параметра значит, что требуется в 9 методе ТВП по возможности не использовать непосредственное чтение ссылки на текст из БД. Это возможно, если соответствующий элемент (результат работы формата в ТВП) является ссылкой на полный текст в формате БД, предварённой префиксом "FT-DB-LNK:". При этом параметр FULL_TEXT_Name не используется. Если нет возможности не использовать непосредственное чтение ссылки на текст из БД, то работает старый алгоритм (новая реализация старого алгоритма). Если значение параметра method9_tryNotUseDirectDBAccess=0, то работает старый алгоритм (старая реализация старого алгоритма).
+
''Примечание: работа с тематическими словарями более не поддерживается, поэтому рекомендуется не включать данную функциональность.''
 +
 
 +
{{Описание параметра инициализационного файла для HLPINI
 +
|name=method9_tryNotUseDirectDBAccess
 +
|iniFiles=irbisa_fulltext.ini
 +
|sectionName=TEXTS
 +
|descr=Управляет интерпретацией ссылок на полные тексты.
 +
|using=Включение данного параметра значит, что требуется в 9 методе ТВП по возможности не использовать непосредственное чтение ссылки на текст из БД. Это возможно, если соответствующий элемент (результат работы формата в ТВП) является ссылкой на полный текст в формате БД, предварённой префиксом "FT-DB-LNK:". При этом параметр FULL_TEXT_Name не используется. Если нет возможности не использовать непосредственное чтение ссылки на текст из БД, то работает старый алгоритм (новая реализация старого алгоритма). Если значение параметра method9_tryNotUseDirectDBAccess=0, то работает старый алгоритм (старая реализация старого алгоритма). При отсутствии параметра используется значение <tt>0</tt>.
 +
|defaultValue=0
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2012.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2012.1]].
 +
}}
  
 
===Секция <tt>ABBY</tt>===
 
===Секция <tt>ABBY</tt>===
Строка 47: Строка 76:
 
Секция <tt>ABBY</tt> имеет отношение [[АРМ Администратор#Версии АРМ Администратор|только к '''АРМ Администратор полнотекстовых БД''']], и используется при создании имидж-каталога.
 
Секция <tt>ABBY</tt> имеет отношение [[АРМ Администратор#Версии АРМ Администратор|только к '''АРМ Администратор полнотекстовых БД''']], и используется при создании имидж-каталога.
  
* Параметр <tt>EngineDllPath</tt> – полный путь к библиотеке <tt>FREngine.dll</tt>.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=EngineDllPath
 +
|iniFiles=irbisa_fulltext.ini
 +
|sectionName=ABBY
 +
|descr=Полный путь к библиотеке <tt>FREngine.dll</tt>.
 +
}}
  
* Параметр <tt>DeveloperSN</tt> – серийный номер, указанный на USB-ключе.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=DeveloperSN
 +
|iniFiles=irbisa_fulltext.ini
 +
|sectionName=ABBY
 +
|descr=Серийный номер, указанный на USB-ключе.
 +
}}
  
* Параметр <tt>FR_LANGUAGES</tt> – список предполагаемых языков, используемый при распознавании. ''Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].'' ''Примечание: если данный параметр пустой или отсутствует, то используются языки <tt>Russian,English,Ukrainian</tt>.''
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=FR_LANGUAGES
 +
|iniFiles=irbisa_fulltext.ini
 +
|sectionName=ABBY
 +
|descr=Cписок предполагаемых языков, используемый при распознавании.
 +
|using=Если данный параметр пустой или отсутствует, то используются языки <tt>Russian,English,Ukrainian</tt>.
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].
 +
}}
  
 
==Параметры АРМ Читатель для полнотекстовых БД==
 
==Параметры АРМ Читатель для полнотекстовых БД==
Строка 59: Строка 105:
 
В секции с именем базы данных содержаться параметры, относящиеся только к данной базе.
 
В секции с именем базы данных содержаться параметры, относящиеся только к данной базе.
  
* Параметр <tt>SearchFrames</tt>. Значение этого параметра – список имён форматов, перечисленных через запятую без пробелов, формирующих [[Отображение результатов поиска в полнотекстовой версии ИРБИС|"заголовок" и "подвал" HTML-страницы с результатами поиска]]. По умолчанию – параметр отсутствует. При отсутствии параметра используется значение <tt>search_header.pft,Result,search_Footer.pft</tt>. Один или несколько форматов до слова <tt>Result</tt> формируют "заголовок". Один или несколько форматов после слова <tt>Result</tt> формируют "подвал". Само слово <tt>Result</tt> служит разделителем.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=SearchFrames
 +
|iniFiles=irbisr_fulltext.ini
 +
|sectionName=имя_базы_данных
 +
|descr=Значение этого параметра – список имён форматов, перечисленных через запятую без пробелов, формирующих [[Отображение результатов поиска в полнотекстовой версии ИРБИС|"заголовок" и "подвал" HTML-страницы с результатами поиска]].
 +
|using=По умолчанию – параметр отсутствует. При отсутствии параметра используется значение <tt>search_header.pft,Result,search_Footer.pft</tt>. Один или несколько форматов до слова <tt>Result</tt> формируют "заголовок". Один или несколько форматов после слова <tt>Result</tt> формируют "подвал". Само слово <tt>Result</tt> служит разделителем.
 +
}}
  
 
===Секция <tt>MAIN</tt>===
 
===Секция <tt>MAIN</tt>===
Строка 65: Строка 117:
 
В секции <tt>MAIN</tt> присутствует ряд параметров, определяющих обработку файлов полных текстов. Описание данных параметров см. [[#Конфигурационные параметры, определяющие обработку файлов полных текстов|в подразделе ''Конфигурационные параметры, определяющие обработку файлов полных текстов'']]
 
В секции <tt>MAIN</tt> присутствует ряд параметров, определяющих обработку файлов полных текстов. Описание данных параметров см. [[#Конфигурационные параметры, определяющие обработку файлов полных текстов|в подразделе ''Конфигурационные параметры, определяющие обработку файлов полных текстов'']]
  
* Параметр <tt>BriefPft</tt>. Значение этого параметра – имя формата (без расширения), формирующего [[Отображение результатов поиска в полнотекстовой версии ИРБИС|"середину" HTML-страницы с результатами поиска]]. Исходное значение параметра в конфигурационном файле – <tt>BriefHTML</tt>.
+
{{Описание параметра инициализационного файла для HLPINI
 
+
|name=BriefPft
{{Описание параметра инициализационного файла
+
|iniFiles=irbisr_fulltext.ini
|name=WORKDIR
+
|sectionName=MAIN
|descr=. Исходное значение параметра в конфигурационном файле – [[Файлы ИРБИС#Папка для хранения временных файлов, используемых при работе АРМ Читатель ИРБИС|<tt>C:\irbiswrk</tt>]]. Если значение параметра не задано или параметр отсутствует, то для хранения временных файлов используется временная папка Windows.
+
|descr=Значение этого параметра – имя формата (без расширения), формирующего [[Отображение результатов поиска в полнотекстовой версии ИРБИС|"середину" HTML-страницы с результатами поиска]].
|seeDescription=1
+
|using=Исходное значение параметра в конфигурационном файле – <tt>BriefHTML</tt>.
 
}}
 
}}
  
 
===Секция <tt>SearchResultHTML</tt>===
 
===Секция <tt>SearchResultHTML</tt>===
  
* Параметр <tt>SearchEmpty</tt>. Значение этого параметра – имя формата, формирующего [[Отображение результатов поиска в полнотекстовой версии ИРБИС|HTML-страницу с пустым результатом поиска]]. По умолчанию – параметр отсутствует. При отсутствии параметра используется значение <tt>search_empty.pft</tt>.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=SearchEmpty
 +
|iniFiles=irbisr_fulltext.ini
 +
|sectionName=SearchResultHTML
 +
|descr=Значение этого параметра – имя формата, формирующего [[Отображение результатов поиска в полнотекстовой версии ИРБИС|HTML-страницу с пустым результатом поиска]].
 +
|using=По умолчанию – параметр отсутствует. При отсутствии параметра используется значение <tt>search_empty.pft</tt>.
 +
}}
  
* Параметр <tt>SearchFooter</tt>. Значение этого параметра – имя формата (или список имён форматов, перечисленных через запятую без пробелов), формирующего [[Отображение результатов поиска в полнотекстовой версии ИРБИС|"подвал" HTML-страницы с результатами поиска]]. По умолчанию – параметр отсутствует. При отсутствии данного параметра и параметра <tt>SearchHeader</tt> используется значение параметра <tt>SearchFrames</tt> из секции соответствующей базы данных.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=SearchFooter
 +
|iniFiles=irbisr_fulltext.ini
 +
|sectionName=SearchResultHTML
 +
|descr=Значение этого параметра – имя формата (или список имён форматов, перечисленных через запятую без пробелов), формирующего [[Отображение результатов поиска в полнотекстовой версии ИРБИС|"подвал" HTML-страницы с результатами поиска]].
 +
|using=По умолчанию – параметр отсутствует. При отсутствии данного параметра и параметра <tt>SearchHeader</tt> используется значение параметра <tt>SearchFrames</tt> из секции соответствующей базы данных.
 +
}}
  
* Параметр <tt>SearchHeader</tt>. Значение этого параметра – имя формата (или список имён форматов, перечисленных через запятую без пробелов), формирующего [[Отображение результатов поиска в полнотекстовой версии ИРБИС|"заголовок" HTML-страницы с результатами поиска]]. По умолчанию – параметр отсутствует. При отсутствии данного параметра и параметра <tt>SearchFooter</tt> используется значение параметра <tt>SearchFrames</tt> из секции соответствующей базы данных.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=SearchHeader
 +
|iniFiles=irbisr_fulltext.ini
 +
|sectionName=SearchResultHTML
 +
|descr=Значение этого параметра – имя формата (или список имён форматов, перечисленных через запятую без пробелов), формирующего [[Отображение результатов поиска в полнотекстовой версии ИРБИС|"заголовок" HTML-страницы с результатами поиска]].
 +
|using=По умолчанию – параметр отсутствует. При отсутствии данного параметра и параметра <tt>SearchFooter</tt> используется значение параметра <tt>SearchFrames</tt> из секции соответствующей базы данных.
 +
}}
  
* Параметр <tt>IsNeedAddSomeTags</tt>. Признак того, [[Отображение результатов поиска в полнотекстовой версии ИРБИС|составит ли АРМ Читатель для полнотекстовых баз данных HTML-страницу с результатами поиска]] исключительно из результатов работы соответствующих форматов, или же будет добавлять некоторые теги. Возможные значения: 1 – добавлять теги к результату работы формата, 0 – не добавлять теги. По умолчанию – параметр отсутствует. Отсутствие параметра эквивалентно случаю <tt>IsNeedAddSomeTags=1</tt>. ''Параметр введён [[Отличия ИРБИС 2010.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2010.1]].''
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=IsNeedAddSomeTags
 +
|iniFiles=irbisr_fulltext.ini
 +
|sectionName=SearchResultHTML
 +
|descr=Признак того, [[Отображение результатов поиска в полнотекстовой версии ИРБИС|составит ли АРМ Читатель для полнотекстовых баз данных HTML-страницу с результатами поиска]] исключительно из результатов работы соответствующих форматов, или же будет добавлять некоторые теги.
 +
|using=Возможные значения: 1 – добавлять теги к результату работы формата, 0 – не добавлять теги. По умолчанию – параметр отсутствует. Отсутствие параметра эквивалентно случаю <tt>IsNeedAddSomeTags=1</tt>.
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2010.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2010.1]].
 +
}}
  
 
==Конфигурационные параметры, определяющие обработку файлов полных текстов==
 
==Конфигурационные параметры, определяющие обработку файлов полных текстов==
Строка 89: Строка 166:
 
Список параметров, применимых для [[Конфигурационный файл АРМ Администратор ИРБИС|АРМ Администратор полнотекстовых БД]] и [[Конфигурационный файл АРМ Читатель для полнотекстовых БД|АРМ Читатель для полнотекстовых БД]]:
 
Список параметров, применимых для [[Конфигурационный файл АРМ Администратор ИРБИС|АРМ Администратор полнотекстовых БД]] и [[Конфигурационный файл АРМ Читатель для полнотекстовых БД|АРМ Читатель для полнотекстовых БД]]:
  
* Параметр <tt>PDFSplitter</tt>. В зависимости от значения этого параметра происходит выбор утилиты, разбивающей файл в формате PDF на отдельные страницы. Возможные значения этого параметра: <tt>PDFTK</tt> и <tt>PDF2PDF</tt>. Исходное значение параметра в конфигурационном файле – <tt>PDFTK</tt>. ''Примечание: если данный параметр отсутствует, то используется утилита PDF2PDF.'' ''Параметр введён [[Отличия ИРБИС 2009.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2009.1]].'' [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|В версии ИРБИС 2011.1]] параметр теряет актуальность в связи с появлением параметра <tt>PDFSplitUtilityOrder</tt>.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=PDFSplitter
 +
|iniFiles=irbisa_fulltext.ini,irbisr_fulltext.ini
 +
|sectionName=TEXTS,MAIN
 +
|descr=В зависимости от значения этого параметра происходит выбор утилиты, разбивающей файл в формате PDF на отдельные страницы.
 +
|using=Возможные значения этого параметра: <tt>PDFTK</tt> и <tt>PDF2PDF</tt>. Отсутствие параметра эквивалентно <tt>PDFSplitter=PDF2PDF</tt>. Исходное значение параметра в конфигурационном файле – <tt>PDFTK</tt>.
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2009.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2009.1]]. [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|В версии ИРБИС 2011.1]] параметр теряет актуальность в связи с появлением параметра <tt>PDFSplitUtilityOrder</tt>.
 +
}}
  
* Параметр <tt>PDFSplitUtilityOrder</tt>. Значение этого параметра задаёт очерёдность применения утилит для разбиения PDF-файлов на страницы. Параметр составляется из условных обозначений утилит, перечисленных через запятую. Допустимые обозначения утилит: <tt>PDF2PDF</tt> – утилита <tt>PDF2PDF.exe</tt>; <tt>PDFTK</tt> – утилита <tt>PDFTK.exe</tt>. Значение по умолчанию – <tt>PDFTK,PDF2PDF</tt>. ''Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].'' ''Примечание: при наличии <tt>PDFSplitUtilityOrder</tt> значение параметра <tt>PDFSplitter</tt> не играет роли; при отсутствии <tt>PDFSplitUtilityOrder</tt> используется утилита, соответствующая значению параметра <tt>PDFSplitter</tt>.''
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=PDFSplitUtilityOrder
 +
|iniFiles=irbisa_fulltext.ini,irbisr_fulltext.ini
 +
|sectionName=TEXTS,MAIN
 +
|descr=Значение этого параметра задаёт очерёдность применения утилит для разбиения PDF-файлов на страницы.
 +
|using=Параметр составляется из условных обозначений утилит, перечисленных через запятую. Допустимые обозначения утилит: <tt>PDF2PDF</tt> – утилита <tt>PDF2PDF.exe</tt>; <tt>PDFTK</tt> – утилита <tt>PDFTK.exe</tt>. При наличии <tt>PDFSplitUtilityOrder</tt> значение параметра <tt>PDFSplitter</tt> не играет роли; при отсутствии <tt>PDFSplitUtilityOrder</tt> используется утилита, соответствующая значению параметра <tt>PDFSplitter</tt>. Исходное значение параметра в конфигурационном файле – <tt>PDFTK,PDF2PDF</tt>.
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].
 +
}}
  
* Параметр <tt>PDFTK</tt>. Значение этого параметра – относительный путь к файлу <tt>pdftk.exe</tt> (утилите, разбивающей файл в формате PDF на отдельные страницы). Значение по умолчанию – <tt>.\Converters\PDFTK\</tt>. ''Параметр введён [[Отличия ИРБИС 2009.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2009.1]].''
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=PDFTK
 +
|iniFiles=irbisa_fulltext.ini,irbisr_fulltext.ini
 +
|sectionName=TEXTS,MAIN
 +
|descr=Значение этого параметра – относительный путь к файлу <tt>pdftk.exe</tt> (утилите, разбивающей файл в формате PDF на отдельные страницы).
 +
|using=Исходное значение параметра в конфигурационном файле – <tt>.\Converters\PDFTK\</tt>.
 +
|versionInfo=Параметр введён [[Отличия ИРБИС 2009.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2009.1]].
 +
}}
  
* Параметр <tt>PDF2PDF</tt>. Значение этого параметра – относительный путь к файлу <tt>pdf2pdf.exe</tt> (утилите, разбивающей файл в формате PDF на отдельные страницы). Значение по умолчанию – <tt>.\Converters\PDF2PDF\</tt>.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=PDF2PDF
 +
|iniFiles=irbisa_fulltext.ini,irbisr_fulltext.ini
 +
|sectionName=TEXTS,MAIN
 +
|descr=Значение этого параметра – относительный путь к файлу <tt>pdf2pdf.exe</tt> (утилите, разбивающей файл в формате PDF на отдельные страницы).
 +
|using=Исходное значение параметра в конфигурационном файле – <tt>.\Converters\PDF2PDF\</tt>.
 +
}}
  
* Параметр <tt>DJVU2DJVU</tt>. Значение этого параметра – относительный путь к файлам: <tt>djvutxt.exe</tt> (утилите, преобразующей файл в формате DJVU в текстовый формат) и <tt>djvused.exe</tt> (утилите, разбивающей файл в формате DJVU на отдельные страницы). Значение по умолчанию – <tt>.\Converters\djvu2djvu\</tt>.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=DJVU2DJVU
 +
|iniFiles=irbisa_fulltext.ini,irbisr_fulltext.ini
 +
|sectionName=TEXTS,MAIN
 +
|descr=Значение этого параметра – относительный путь к файлам: <tt>djvutxt.exe</tt> (утилите, преобразующей файл в формате DJVU в текстовый формат) и <tt>djvused.exe</tt> (утилите, разбивающей файл в формате DJVU на отдельные страницы).
 +
|using=Исходное значение параметра в конфигурационном файле – <tt>.\Converters\djvu2djvu\</tt>.
 +
}}
  
* Параметр <tt>FULL_TEXT_FileNamePrefixDiv</tt>. Разделитель имени файла и номера страницы, используемый для записи ссылок на полные тексты в базе данных. Значение по умолчанию – <tt>__</tt>. При отсутствии параметра в конфигурационном файле, в программе его значение приравнивается <tt>__</tt>.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=FULL_TEXT_FileNamePrefixDiv
 +
|iniFiles=irbisa_fulltext.ini,irbisr_fulltext.ini
 +
|sectionName=TEXTS,MAIN
 +
|descr=Разделитель имени файла и номера страницы, используемый для записи ссылок на полные тексты в базе данных.
 +
|using=Отсутствие параметра эквивалентно <tt>FULL_TEXT_FileNamePrefixDiv=__</tt>. Исходное значение параметра в конфигурационном файле <tt>__</tt>.
 +
}}
  
 
Список параметров, применимых только для [[Конфигурационный файл АРМ Администратор ИРБИС|АРМ Администратор полнотекстовых БД]]:
 
Список параметров, применимых только для [[Конфигурационный файл АРМ Администратор ИРБИС|АРМ Администратор полнотекстовых БД]]:
  
* Параметр <tt>Converter_PDF</tt>. В зависимости от значения этого параметра происходит выбор утилиты, преобразующей файл в формате PDF в текстовый формат. Возможные значения этого параметра: <tt>0</tt> – использовать утилиту <tt>docs2text.exe</tt>; <tt>1</tt> – использовать утилиту <tt>pdftotext.exe</tt>. Исходное значение параметра в конфигурационном файле – <tt>1</tt>. Значение параметра по умолчанию – <tt>0</tt>. [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|В версии ИРБИС 2011.1]] параметр теряет актуальность в связи с появлением параметра <tt>PDFTextExtractUtilityOrder</tt>.
+
{{Описание параметра инициализационного файла для HLPINI
 +
|name=Converter_PDF
 +
|iniFiles=irbisa_fulltext.ini
 +
|sectionName=TEXTS
 +
|descr=В зависимости от значения этого параметра происходит выбор утилиты, преобразующей файл в формате PDF в текстовый формат.
 +
|using=Возможные значения этого параметра: <tt>0</tt> – использовать утилиту <tt>docs2text.exe</tt>; <tt>1</tt> – использовать утилиту <tt>pdftotext.exe</tt>. Отсутствие параметра эквивалентно <tt>Converter_PDF=0</tt>. Исходное значение параметра в конфигурационном файле – <tt>1</tt>.
 +
|versionInfo=[[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|В версии ИРБИС 2011.1]] параметр теряет актуальность в связи с появлением параметра <tt>PDFTextExtractUtilityOrder</tt>.
 +
}}
  
 
* Параметр <tt>PDFTextExtractUtilityOrder</tt>. Значение этого параметра задаёт очерёдность применения утилит для извлечения текста из PDF-файлов. Параметр составляется из условных обозначений утилит, перечисленных через запятую. Допустимые обозначения утилит: <tt>PDFToText</tt> – утилита <tt>pdftotext.exe</tt>; <tt>Docs2Text</tt> – утилита <tt>docs2text.exe</tt>. Значение по умолчанию – <tt>PDFToText,Docs2Text</tt>. ''Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].'' ''Примечание: при наличии <tt>PDFTextExtractUtilityOrder</tt> значение параметра <tt>Converter_PDF</tt> не играет роли; при отсутствии <tt>PDFTextExtractUtilityOrder</tt> используется утилита, соответствующая значению параметра <tt>Converter_PDF</tt>.''
 
* Параметр <tt>PDFTextExtractUtilityOrder</tt>. Значение этого параметра задаёт очерёдность применения утилит для извлечения текста из PDF-файлов. Параметр составляется из условных обозначений утилит, перечисленных через запятую. Допустимые обозначения утилит: <tt>PDFToText</tt> – утилита <tt>pdftotext.exe</tt>; <tt>Docs2Text</tt> – утилита <tt>docs2text.exe</tt>. Значение по умолчанию – <tt>PDFToText,Docs2Text</tt>. ''Параметр введён [[Отличия ИРБИС 2011.1 от предыдущей версии#Продукты ИРБИС для работы с полнотекстовыми базами данных|в версии ИРБИС 2011.1]].'' ''Примечание: при наличии <tt>PDFTextExtractUtilityOrder</tt> значение параметра <tt>Converter_PDF</tt> не играет роли; при отсутствии <tt>PDFTextExtractUtilityOrder</tt> используется утилита, соответствующая значению параметра <tt>Converter_PDF</tt>.''

Версия 17:55, 19 февраля 2013

Есть ряд конфигурационных файлов, содержащих параметры, специфичные для ИРБИС для полнотекстовых БД:

  • Конфигурационный файл для АРМ Администратор ИРБИС для полнотекстовых БД. Местонахождение и имя этого конфигурационного файла описано в статье Файлы ИРБИС.
  • Конфигурационный файл для АРМ Читатель ИРБИС для полнотекстовых БД. Местонахождение и имя этого конфигурационного файла описано в статье Файлы ИРБИС.

Эти конфигурационные файлы являются стандартными ini-файлами и состоят из набора секций.

Параметры АРМ Администратор для полнотекстовых БД

Секция TEXTS

Секция TEXTS имеет отношение только к АРМ Администратор полнотекстовых БД.

В секции TEXTS присутствует ряд параметров, определяющих обработку файлов полных текстов. Описание данных параметров см. в подразделе Конфигурационные параметры, определяющие обработку файлов полных текстов

Параметры, служащие для указания местонахождения на файловой системе, параметризуют размещение некоторых файлов и папок.

Обычно эти параметры представляют собой относительный путь, начинающийся со знака "." (со знака точка). Знак точка обозначает местонахождение исполняемого файла, использующего данный конфигурационный файл.


Converter_Word
irbisa_fulltext.ini, секция TEXTS
Назначение: В зависимости от значения этого параметра происходит выбор способа извлечения текста из DOC-файлов.
Использование: Возможные значения этого параметра: 0 – использовать утилиту docs2text.exe; 1 – использовать программу Microsoft Word (по технологии Ole Automation). Если данный параметр отсутствует – использовать утилиту docs2text.exe.

isNeedRefreshBriefText
irbisa_fulltext.ini, секция TEXTS
Назначение: В зависимости от значения этого параметра изменяется логика обновления поля 22 (первые строки текста) при создании и актуализации словаря.
Использование: Возможные значения этого параметра: 0 – не обновлять, если в поле уже есть текст; 1 – обновлять поле безусловно. При отсутствии параметра используется значение 1.
Информация о версиях: Параметр введён в версии ИРБИС 2011.1.

isNeedSplitInsteadExtract
irbisa_fulltext.ini, секция TEXTS
Назначение: Этот параметр касается некоторых особенностей использования утилит по разбиению PDF-файлов на страницы.
Использование: Значение этого параметра определяет, как будет происходить получение страницы из PDF-файла при обработке ссылки на страницу: 1) будет ли извлечена конкретная страница (при значении параметра 0) или 2) одной командой утилите скопом будут извлечены все страницы из PDF-файла (при значении параметра 1). При отсутствии параметра используется значение 1.
Информация о версиях: Параметр введён в версии ИРБИС 2012.1.

Время извлечения всех страниц скопом может быть значительно меньше времени извлечения каждой страницы, особенно это заметно на больших файлах. Благодаря механизму хранения извлечённых страниц, соответствующие страницы будут использованы, когда дойдёт очередь до их обработки. Поскольку, в большинстве случаев необходимо обработать все страницы PDF-документов, эффективнее использовать значение параметра 1.

Примечание: используемая утилита по извлечению страниц из DJVU-файлов не имеет соответствующей операции по извлечению страниц скопом, поэтому к DJVU-файлам данная логика не применима.


isSboychakovThemeDictionaryEnable
irbisa_fulltext.ini, секция TEXTS
Назначение: Управляет построением тематического словаря.
Использование: Возможные значения этого параметра: 0 – не строить тематический словарь; 1 – строить тематический словарь. При отсутствии параметра используется значение 0.
Информация о версиях: Параметр введён в версии ИРБИС 2011.1.

Примечание: работа с тематическими словарями более не поддерживается, поэтому рекомендуется не включать данную функциональность.


method9_tryNotUseDirectDBAccess
irbisa_fulltext.ini, секция TEXTS
Назначение: Управляет интерпретацией ссылок на полные тексты.
Использование: Включение данного параметра значит, что требуется в 9 методе ТВП по возможности не использовать непосредственное чтение ссылки на текст из БД. Это возможно, если соответствующий элемент (результат работы формата в ТВП) является ссылкой на полный текст в формате БД, предварённой префиксом "FT-DB-LNK:". При этом параметр FULL_TEXT_Name не используется. Если нет возможности не использовать непосредственное чтение ссылки на текст из БД, то работает старый алгоритм (новая реализация старого алгоритма). Если значение параметра method9_tryNotUseDirectDBAccess=0, то работает старый алгоритм (старая реализация старого алгоритма). При отсутствии параметра используется значение 0.
Информация о версиях: Параметр введён в версии ИРБИС 2012.1.

Секция ABBY

Секция ABBY имеет отношение только к АРМ Администратор полнотекстовых БД, и используется при создании имидж-каталога.


EngineDllPath
irbisa_fulltext.ini, секция ABBY
Назначение: Полный путь к библиотеке FREngine.dll.

DeveloperSN
irbisa_fulltext.ini, секция ABBY
Назначение: Серийный номер, указанный на USB-ключе.

FR_LANGUAGES
irbisa_fulltext.ini, секция ABBY
Назначение: Cписок предполагаемых языков, используемый при распознавании.
Использование: Если данный параметр пустой или отсутствует, то используются языки Russian,English,Ukrainian.
Информация о версиях: Параметр введён в версии ИРБИС 2011.1.

Параметры АРМ Читатель для полнотекстовых БД

Секция с именем базы данных

В секции с именем базы данных содержаться параметры, относящиеся только к данной базе.


SearchFrames
irbisr_fulltext.ini, секция имя_базы_данных
Назначение: Значение этого параметра – список имён форматов, перечисленных через запятую без пробелов, формирующих "заголовок" и "подвал" HTML-страницы с результатами поиска.
Использование: По умолчанию – параметр отсутствует. При отсутствии параметра используется значение search_header.pft,Result,search_Footer.pft. Один или несколько форматов до слова Result формируют "заголовок". Один или несколько форматов после слова Result формируют "подвал". Само слово Result служит разделителем.

Секция MAIN

В секции MAIN присутствует ряд параметров, определяющих обработку файлов полных текстов. Описание данных параметров см. в подразделе Конфигурационные параметры, определяющие обработку файлов полных текстов


BriefPft
irbisr_fulltext.ini, секция MAIN
Назначение: Значение этого параметра – имя формата (без расширения), формирующего "середину" HTML-страницы с результатами поиска.
Использование: Исходное значение параметра в конфигурационном файле – BriefHTML.

Секция SearchResultHTML


SearchEmpty
irbisr_fulltext.ini, секция SearchResultHTML
Назначение: Значение этого параметра – имя формата, формирующего HTML-страницу с пустым результатом поиска.
Использование: По умолчанию – параметр отсутствует. При отсутствии параметра используется значение search_empty.pft.

SearchFooter
irbisr_fulltext.ini, секция SearchResultHTML
Назначение: Значение этого параметра – имя формата (или список имён форматов, перечисленных через запятую без пробелов), формирующего "подвал" HTML-страницы с результатами поиска.
Использование: По умолчанию – параметр отсутствует. При отсутствии данного параметра и параметра SearchHeader используется значение параметра SearchFrames из секции соответствующей базы данных.

SearchHeader
irbisr_fulltext.ini, секция SearchResultHTML
Назначение: Значение этого параметра – имя формата (или список имён форматов, перечисленных через запятую без пробелов), формирующего "заголовок" HTML-страницы с результатами поиска.
Использование: По умолчанию – параметр отсутствует. При отсутствии данного параметра и параметра SearchFooter используется значение параметра SearchFrames из секции соответствующей базы данных.

IsNeedAddSomeTags
irbisr_fulltext.ini, секция SearchResultHTML
Назначение: Признак того, составит ли АРМ Читатель для полнотекстовых баз данных HTML-страницу с результатами поиска исключительно из результатов работы соответствующих форматов, или же будет добавлять некоторые теги.
Использование: Возможные значения: 1 – добавлять теги к результату работы формата, 0 – не добавлять теги. По умолчанию – параметр отсутствует. Отсутствие параметра эквивалентно случаю IsNeedAddSomeTags=1.
Информация о версиях: Параметр введён в версии ИРБИС 2010.1.

Конфигурационные параметры, определяющие обработку файлов полных текстов

В конфигурационном файле АРМ Администратор полнотекстовых БД данные параметры находятся в секции TEXTS, в конфигурационном файле АРМ Читатель для полнотекстовых БД данные параметры находятся в секции MAIN.

Список параметров, применимых для АРМ Администратор полнотекстовых БД и АРМ Читатель для полнотекстовых БД:


PDFSplitter
irbisa_fulltext.ini,irbisr_fulltext.ini, секция TEXTS,MAIN
Назначение: В зависимости от значения этого параметра происходит выбор утилиты, разбивающей файл в формате PDF на отдельные страницы.
Использование: Возможные значения этого параметра: PDFTK и PDF2PDF. Отсутствие параметра эквивалентно PDFSplitter=PDF2PDF. Исходное значение параметра в конфигурационном файле – PDFTK.
Информация о версиях: Параметр введён в версии ИРБИС 2009.1. В версии ИРБИС 2011.1 параметр теряет актуальность в связи с появлением параметра PDFSplitUtilityOrder.

PDFSplitUtilityOrder
irbisa_fulltext.ini,irbisr_fulltext.ini, секция TEXTS,MAIN
Назначение: Значение этого параметра задаёт очерёдность применения утилит для разбиения PDF-файлов на страницы.
Использование: Параметр составляется из условных обозначений утилит, перечисленных через запятую. Допустимые обозначения утилит: PDF2PDF – утилита PDF2PDF.exe; PDFTK – утилита PDFTK.exe. При наличии PDFSplitUtilityOrder значение параметра PDFSplitter не играет роли; при отсутствии PDFSplitUtilityOrder используется утилита, соответствующая значению параметра PDFSplitter. Исходное значение параметра в конфигурационном файле – PDFTK,PDF2PDF.
Информация о версиях: Параметр введён в версии ИРБИС 2011.1.

PDFTK
irbisa_fulltext.ini,irbisr_fulltext.ini, секция TEXTS,MAIN
Назначение: Значение этого параметра – относительный путь к файлу pdftk.exe (утилите, разбивающей файл в формате PDF на отдельные страницы).
Использование: Исходное значение параметра в конфигурационном файле – .\Converters\PDFTK\.
Информация о версиях: Параметр введён в версии ИРБИС 2009.1.

PDF2PDF
irbisa_fulltext.ini,irbisr_fulltext.ini, секция TEXTS,MAIN
Назначение: Значение этого параметра – относительный путь к файлу pdf2pdf.exe (утилите, разбивающей файл в формате PDF на отдельные страницы).
Использование: Исходное значение параметра в конфигурационном файле – .\Converters\PDF2PDF\.

DJVU2DJVU
irbisa_fulltext.ini,irbisr_fulltext.ini, секция TEXTS,MAIN
Назначение: Значение этого параметра – относительный путь к файлам: djvutxt.exe (утилите, преобразующей файл в формате DJVU в текстовый формат) и djvused.exe (утилите, разбивающей файл в формате DJVU на отдельные страницы).
Использование: Исходное значение параметра в конфигурационном файле – .\Converters\djvu2djvu\.

FULL_TEXT_FileNamePrefixDiv
irbisa_fulltext.ini,irbisr_fulltext.ini, секция TEXTS,MAIN
Назначение: Разделитель имени файла и номера страницы, используемый для записи ссылок на полные тексты в базе данных.
Использование: Отсутствие параметра эквивалентно FULL_TEXT_FileNamePrefixDiv=__. Исходное значение параметра в конфигурационном файле – __.

Список параметров, применимых только для АРМ Администратор полнотекстовых БД:


Converter_PDF
irbisa_fulltext.ini, секция TEXTS
Назначение: В зависимости от значения этого параметра происходит выбор утилиты, преобразующей файл в формате PDF в текстовый формат.
Использование: Возможные значения этого параметра: 0 – использовать утилиту docs2text.exe; 1 – использовать утилиту pdftotext.exe. Отсутствие параметра эквивалентно Converter_PDF=0. Исходное значение параметра в конфигурационном файле – 1.
Информация о версиях: В версии ИРБИС 2011.1 параметр теряет актуальность в связи с появлением параметра PDFTextExtractUtilityOrder.
  • Параметр PDFTextExtractUtilityOrder. Значение этого параметра задаёт очерёдность применения утилит для извлечения текста из PDF-файлов. Параметр составляется из условных обозначений утилит, перечисленных через запятую. Допустимые обозначения утилит: PDFToText – утилита pdftotext.exe; Docs2Text – утилита docs2text.exe. Значение по умолчанию – PDFToText,Docs2Text. Параметр введён в версии ИРБИС 2011.1. Примечание: при наличии PDFTextExtractUtilityOrder значение параметра Converter_PDF не играет роли; при отсутствии PDFTextExtractUtilityOrder используется утилита, соответствующая значению параметра Converter_PDF.
  • Параметр PDF2TXT. Значение этого параметра – относительный путь к файлу pdftotext.exe (утилите, преобразующей файл в формате PDF в текстовый формат). Значение по умолчанию – .\Converters\PDF2TXT\.
  • Параметр isNeedDecryptPDF. Признак использования защищённых PDF-файлов. Возможные значения этого параметра: 0 – не снимать защиту; 1 – снимать защиту в процессе индексирования. Исходное значение параметра в конфигурационном файле и значение по умолчанию – 0. Примечание: для снятия защиты используется пароль, указанный в параметре PDFPassword. Параметр введён в версии ИРБИС 2012.1.
  • Параметр PDFPassword. Пароль, с помощью которого защищены PDF-файлы. Примечание: данный параметр используется в связке с параметром isNeedDecryptPDF. Параметр введён в версии ИРБИС 2012.1.


Ссылки

См. также:

Источники информации: