Полнотекстовая база данных (вид баз данных ИРБИС)

Материал из Wikipedia
Версия от 13:23, 30 мая 2014; Sokv (обсуждение | вклад) (Новая страница: «''Полнотекстовая база данных ИРБИС'' – версия баз данных ИРБИС 64, доработанная для обеспеч…»)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Полнотекстовая база данных ИРБИС – версия баз данных ИРБИС 64, доработанная для обеспечения ранжированного полнотекстового поиска по коллекциям текстовых документов в программном решении Полнотекстовые базы данных ИРБИС.

Механизм доступа к объектам полнотекстового поиска

Механизм доступа к объектам полнотекстового поиска обеспечивает:

В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).

Получение ссылки при использовании метода индексирования 9

Начиная с версии 2013.1 предусмотрена возможность получения ссылки на объект полнотекстового поиска из формата ТВП для инвертированного файла. Также возможно получение ссылки способом, реализованным в предыдущих версиях ИРБИС.

Для более ранних версий ИРБИС ссылка непосредственно считывается из соответствующего поля базы данных, предназначенного для хранения ссылки.

Получение ссылки на объект полнотекстового поиска через формат

Для включения/выключения данной возможности предназначен параметр method9_tryNotUseDirectDBAccess (описание параметра см. в статье Конфигурационные параметры ИРБИС для полнотекстовых БД).

Ожидается, что формат передаст ссылку в следующем виде: префикс "FT-DB-LNK:", после которого перечислены компоненты ссылки ^B^C^I^T^U в той же форме, в которой они хранятся в базе данных, например:

FT-DB-LNK:^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf

Кэширование объектов полнотекстового поиска

АРМ Администратор полнотекстовых БД создаёт копии файлов PDF перед расшифровкой, разбиением на страницы и извлечением из них текста. Создание копий позволяет избежать проблем при работе утилит, связанных с ограничениями, накладываемыми на имена файлов (русские буквы, слишком длинные имена и т.п.). Кроме того, при работе с зашифрованными файлами PDF, АРМ Администратор полнотекстовых БД создаёт незашифрованную копию. Все эти временные копии удаляются сразу же после выполнения соответствующей операции.

Кроме этого, если в процессе работы АРМ Администратор полнотекстовых БД были извлечены страницы PDF- или DJVU-файла, то эти извлечённые страницы будут сохранены до окончания работы АРМ, и могут быть использованы, при необходимости, без повторного извлечения. Например, при добавлении в базу PDF-файлов с разбиением на страницы, все страницы будут извлечены. Если создавать словарь до выхода из программы, то страницы не будут извлекаться повторно. Если закрыть АРМ Администратор, извлечённые страницы PDF-документов будут удалены, и при новом запуске АРМ Администратор при создании словаря они будут извлекаться заново.

Ссылки

См. также:

Источники информации: