Список изменений ИРБИС версии 2014.1 — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
Строка 16: Строка 16:
  
 
* Повышена гибкость алгоритма импорта текстов из электронного каталога. Обычно для поиска ссылок на тексты используется подполе <tt>v951^A</tt>. Ранее данное правило было жёстко закреплено. [[Теперь для получения ссылок используется формат, который можно указать в параметре]] <tt>EC_IMPORT_PATH_FORMAT</tt> секции <tt>TEXTS</tt> (отсутствие параметра эквивалентно указанию <tt>v951^A</tt>).
 
* Повышена гибкость алгоритма импорта текстов из электронного каталога. Обычно для поиска ссылок на тексты используется подполе <tt>v951^A</tt>. Ранее данное правило было жёстко закреплено. [[Теперь для получения ссылок используется формат, который можно указать в параметре]] <tt>EC_IMPORT_PATH_FORMAT</tt> секции <tt>TEXTS</tt> (отсутствие параметра эквивалентно указанию <tt>v951^A</tt>).
 +
 +
* Проверка присутствия текста в БД для многостраничного документа:
 +
** Определяется номер последней страницы в документе (равный количеству страниц). Если количество страниц не удалось определить (для DJVU не определяется), то номер последней страницы считается равным 1.
 +
** Если последняя страница присутствует в базе, то считается, что данный многостраничный документ присутствует, и он пропускается.
 +
** В противном случае производится попытка добавить каждую страницу документа.
 +
 +
* Для файлов PDF при добавлении документа не производится разбиение на страницы. Впрочем, нельзя однозначно считать это оптимизацией. Поскольку извлечённые страницы сохраняются в кеше (до закрытия АРМ Администратор, или на постоянной основе, если настроен кеш). При построении словаря всё равно возникает необходимость извлекать страницы. Разница в том, процесс отбора может быть многопроцессным. С другой стороны, в зависимости от настроек, при отборе может происходить разбиение на страницы (что быстрее, но теряет силу аргумент ускорения за счёт многопроцессного отбора), или извлекаться отдельные страницы (что значительно медленнее).
  
 
==Ссылки==
 
==Ссылки==

Версия 07:45, 9 декабря 2014

Продукты ИРБИС для работы с полнотекстовыми базами данных

Версия 2014.1 (в разработке)

Доработки

  • Оптимизирован процесс создания словаря: при создании словаря текстовый слой сохраняется в БД, если не был сохранён ранее; если текстовый слой ранее был сохранён в БД, то он не извлекается. Это позволяет избежать повторного извлечения текста из тех текстовых документов, из которых он был извлечён ранее. Например, это ускоряет процесс создания словаря в том случае, если в БД были добавлены тексты, и осуществляется Создание словаря заново.

Для хранения текстового слоя в БД была изменена схема полнотекстовой БД: было добавлено поле 27.

Также, если текстовый слой ранее был сохранён в БД, то не обновляются: индекс естественно-тематического классификатора (поле 21), первые строки текста (поле 22), количество слов в тексте (поле 20). Соответственно, утратил актуальность параметр isNeedRefreshBriefText.

  • Изменения, касающиеся таблицы добавленных текстов в форме добавления текстов:
    • Устранено "зависание" формы (необходимость длительного ожидания), проявлявшееся с увеличением количества добавленных текстов (тысячи). В результате, для устранения "зависания" решено, что могут быть показаны не все добавленные тексты: форма показывает количество текстов, не превышающее количество, указанное в параметре FT_LIST_PORTION_SIZE секции MAIN (отсутствие параметра эквивалентно указанию 1000). При необходимости добавлена кнопка Показать больше текстов.
    • Повышена выразительность: теперь в таблице одному PDF файлу соответствует одна запись (не показывается ссылка на каждую страницу PDF-файла).
  • Проверка присутствия текста в БД для многостраничного документа:
    • Определяется номер последней страницы в документе (равный количеству страниц). Если количество страниц не удалось определить (для DJVU не определяется), то номер последней страницы считается равным 1.
    • Если последняя страница присутствует в базе, то считается, что данный многостраничный документ присутствует, и он пропускается.
    • В противном случае производится попытка добавить каждую страницу документа.
  • Для файлов PDF при добавлении документа не производится разбиение на страницы. Впрочем, нельзя однозначно считать это оптимизацией. Поскольку извлечённые страницы сохраняются в кеше (до закрытия АРМ Администратор, или на постоянной основе, если настроен кеш). При построении словаря всё равно возникает необходимость извлекать страницы. Разница в том, процесс отбора может быть многопроцессным. С другой стороны, в зависимости от настроек, при отборе может происходить разбиение на страницы (что быстрее, но теряет силу аргумент ускорения за счёт многопроцессного отбора), или извлекаться отдельные страницы (что значительно медленнее).

Ссылки

См. также: