Список изменений ИРБИС версии 2014.1 — различия между версиями

Версия 19:18, 10 декабря 2014

Содержание

1 Продукты ИРБИС для работы с полнотекстовыми базами данных
- 1.1 Версия 2014.1 (в разработке)
  - 1.1.1 Доработки
2 Ссылки

Продукты ИРБИС для работы с полнотекстовыми базами данных

Версия 2014.1 (в разработке)

Доработки

Оптимизирован процесс создания словаря: при создании словаря текстовый слой сохраняется в БД, если не был сохранён ранее; если текстовый слой ранее был сохранён в БД, то он не извлекается. Это позволяет избежать повторного извлечения текста из тех текстовых документов, из которых он был извлечён ранее. Например, это ускоряет процесс создания словаря в том случае, если в БД были добавлены тексты, и осуществляется Создание словаря заново.

Для хранения текстового слоя в БД была изменена схема полнотекстовой БД: было добавлено поле 27.

Также, если текстовый слой ранее был сохранён в БД, то не обновляются: индекс естественно-тематического классификатора (поле 21), первые строки текста (поле 22), количество слов в тексте (поле 20). Соответственно, утратил актуальность параметр isNeedRefreshBriefText.

Изменения, касающиеся таблицы добавленных текстов в форме добавления текстов:
- Устранено "зависание" формы (необходимость длительного ожидания), проявлявшееся с увеличением количества добавленных текстов (тысячи). В результате, для устранения "зависания" решено, что могут быть показаны не все добавленные тексты: форма показывает количество текстов, не превышающее количество, указанное в параметре FT_LIST_PORTION_SIZE секции MAIN (отсутствие параметра эквивалентно указанию 1000). При необходимости добавлена кнопка Показать больше текстов.
- Повышена выразительность: теперь в таблице одному PDF файлу соответствует одна запись (не показывается ссылка на каждую страницу PDF-файла).

Повышена гибкость алгоритма импорта текстов из электронного каталога. Обычно для поиска ссылок на тексты используется подполе v951^A. Ранее данное правило было жёстко закреплено. Теперь для получения ссылок используется формат, который можно указать в параметре EC_IMPORT_PATH_FORMAT секции TEXTS.

Проверка присутствия текста в БД для многостраничного документа:
- Определяется номер последней страницы в документе (равный количеству страниц). Если количество страниц не удалось определить (для DJVU не определяется), то номер последней страницы считается равным 1.
- Если последняя страница присутствует в базе, то считается, что данный многостраничный документ присутствует, и он пропускается.
- В противном случае производится попытка добавить каждую страницу документа.

Для файлов PDF при добавлении документа не производится разбиение на страницы. Впрочем, нельзя однозначно считать это оптимизацией. Поскольку извлечённые страницы сохраняются в кеше (до закрытия АРМ Администратор, или на постоянной основе, если настроен кеш). При построении словаря всё равно возникает необходимость извлекать страницы. Разница в том, процесс отбора может быть многопроцессным. С другой стороны, в зависимости от настроек, при отборе может происходить разбиение на страницы (что быстрее, но теряет силу аргумент ускорения за счёт многопроцессного отбора), или извлекаться отдельные страницы (что значительно медленнее).

Текст NO_TEXT_AT_PAGE для нераспознанных страниц и соответствующий параметр.

Ссылки

См. также:

@@ Строка 15: / Строка 15: @@
 ** Повышена выразительность: теперь в таблице одному PDF файлу соответствует одна запись (не показывается ссылка на каждую страницу PDF-файла).
-* Повышена гибкость алгоритма импорта текстов из электронного каталога. Обычно для поиска ссылок на тексты используется подполе <tt>v951^A</tt>. Ранее данное правило было жёстко закреплено. [[Теперь для получения ссылок используется формат, который можно указать в параметре]] <tt>EC_IMPORT_PATH_FORMAT</tt> секции <tt>TEXTS</tt> (отсутствие параметра эквивалентно указанию <tt>v951^A</tt>).
+* [[Включение в полнотекстовую базу текстов из базы данных электронного каталога|Повышена гибкость алгоритма импорта текстов из электронного каталога.]] Обычно для поиска ссылок на тексты используется подполе <tt>v951^A</tt>. Ранее данное правило было жёстко закреплено. [[Теперь для получения ссылок используется формат, который можно указать в параметре]] <tt>EC_IMPORT_PATH_FORMAT</tt> секции <tt>TEXTS</tt>.
 * Проверка присутствия текста в БД для многостраничного документа:

Список изменений ИРБИС версии 2014.1 — различия между версиями

Версия 19:18, 10 декабря 2014

Содержание

Продукты ИРБИС для работы с полнотекстовыми базами данных

Версия 2014.1 (в разработке)

Доработки

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты