Полнотекстовая база данных (вид баз данных ИРБИС)
Полнотекстовая база данных ИРБИС – версия баз данных ИРБИС 64, доработанная для обеспечения ранжированного полнотекстового поиска по коллекциям текстовых документов в программном решении Полнотекстовые базы данных ИРБИС.
Примечание: особенностью полнотекстовой базы данных ИРБИС является возможность полнотекстового поиска в текстовых файлах, то есть вне базы данных.
Содержание
Модель связывания полнотекстовой базы данных ИРБИС с внешними текстовыми документами
Объект полнотекстового поиска
Объект, имеющий собственный поисковый образ, и представленный в качестве самостоятельной единицы в списке результатов полнотекстового поиска, будем называть объект полнотекстового поиска.
В полнотекстовой базе данных ИРБИС имеет место связь между записями базы данных и текстовыми файлами, устанавливаемая при помощи специальных ссылок.
Это позволяет совместить использование механизмов обычных баз данных ИРБИС 64 с возможностью индексирования для обеспечения ранжированного полнотекстового поиска текстов, находящихся вне базы данных.
Механизм доступа к объектам полнотекстового поиска
Механизм доступа к объектам полнотекстового поиска обеспечивает:
- получение текста из внешних файлов при индексировании полнотекстовой базы данных (подробнее об индексировании см. в подразделе Метод индексирования 9 статьи Таблица выбора полей);
- показ найденного текста пользователю.
В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).
Получение ссылки при использовании метода индексирования 9
Начиная с версии 2013.1 предусмотрена возможность получения ссылки на объект полнотекстового поиска из формата ТВП для инвертированного файла. Также возможно получение ссылки способом, реализованным в предыдущих версиях ИРБИС.
Для более ранних версий ИРБИС ссылка непосредственно считывается из соответствующего поля базы данных, предназначенного для хранения ссылки.
Получение ссылки на объект полнотекстового поиска через формат
Для включения/выключения данной возможности предназначен параметр method9_tryNotUseDirectDBAccess (описание параметра см. в статье Конфигурационные параметры ИРБИС для полнотекстовых БД).
Ожидается, что формат передаст ссылку в следующем виде: префикс "FT-DB-LNK:", после которого перечислены компоненты ссылки ^B^C^I^T^U в той же форме, в которой они хранятся в базе данных, например:
FT-DB-LNK:^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
Кэширование объектов полнотекстового поиска
АРМ Администратор полнотекстовых БД создаёт копии файлов PDF перед расшифровкой, разбиением на страницы и извлечением из них текста. Создание копий позволяет избежать проблем при работе утилит, связанных с ограничениями, накладываемыми на имена файлов (русские буквы, слишком длинные имена и т.п.). Кроме того, при работе с зашифрованными файлами PDF, АРМ Администратор полнотекстовых БД создаёт незашифрованную копию. Все эти временные копии удаляются сразу же после выполнения соответствующей операции.
Кроме этого, если в процессе работы АРМ Администратор полнотекстовых БД были извлечены страницы PDF- или DJVU-файла, то эти извлечённые страницы будут сохранены до окончания работы АРМ, и могут быть использованы, при необходимости, без повторного извлечения. Например, при добавлении в базу PDF-файлов с разбиением на страницы, все страницы будут извлечены. Если создавать словарь до выхода из программы, то страницы не будут извлекаться повторно. Если закрыть АРМ Администратор, извлечённые страницы PDF-документов будут удалены, и при новом запуске АРМ Администратор при создании словаря они будут извлекаться заново.
Ссылки
См. также:
- Полнотекстовые базы данных ИРБИС
- Базы данных ИРБИС
- Схема полнотекстовой базы данных
- Метод индексирования 9
Источники информации: