Полнотекстовая база данных (вид баз данных ИРБИС)

Материал из Wikipedia
Версия от 17:30, 4 июня 2014; Sokv (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Полнотекстовая база данных ИРБИС – версия баз данных ИРБИС 64, доработанная для обеспечения ранжированного полнотекстового поиска по коллекциям текстовых документов в программном решении Полнотекстовые базы данных ИРБИС.

Примечание: особенностью полнотекстовой базы данных ИРБИС является возможность полнотекстового поиска в текстовых файлах, то есть вне базы данных.

Модель связывания полнотекстовой базы данных ИРБИС с внешними текстовыми документами

Объект полнотекстового поиска

Объект, имеющий собственный поисковый образ, и представленный в качестве самостоятельной единицы в списке результатов полнотекстового поиска, будем называть объект полнотекстового поиска.

В полнотекстовой базе данных ИРБИС имеет место связь между записями базы данных и текстовыми файлами, устанавливаемая при помощи специальных ссылок.

Это позволяет совместить использование механизмов обычных баз данных ИРБИС 64 с возможностью индексирования для обеспечения ранжированного полнотекстового поиска текстов, находящихся вне базы данных.

Механизм доступа к объектам полнотекстового поиска

Механизм доступа к объектам полнотекстового поиска обеспечивает:

В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).

Получение ссылки при использовании метода индексирования 9

Начиная с версии 2013.1 предусмотрена возможность получения ссылки на объект полнотекстового поиска из формата ТВП для инвертированного файла. Также возможно получение ссылки способом, реализованным в предыдущих версиях ИРБИС.

Для более ранних версий ИРБИС ссылка непосредственно считывается из соответствующего поля базы данных, предназначенного для хранения ссылки.

Получение ссылки на объект полнотекстового поиска через формат

Для включения/выключения данной возможности предназначен параметр method9_tryNotUseDirectDBAccess (описание параметра см. в статье Конфигурационные параметры ИРБИС для полнотекстовых БД).

Ожидается, что формат передаст ссылку в следующем виде: префикс "FT-DB-LNK:", после которого перечислены компоненты ссылки ^B^C^I^T^U в той же форме, в которой они хранятся в базе данных, например:

FT-DB-LNK:^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf

Кэширование объектов полнотекстового поиска

АРМ Администратор полнотекстовых БД создаёт копии файлов PDF перед расшифровкой, разбиением на страницы и извлечением из них текста. Создание копий позволяет избежать проблем при работе утилит, связанных с ограничениями, накладываемыми на имена файлов (русские буквы, слишком длинные имена и т.п.). Кроме того, при работе с зашифрованными файлами PDF, АРМ Администратор полнотекстовых БД создаёт незашифрованную копию. Все эти временные копии удаляются сразу же после выполнения соответствующей операции.

Кроме этого, если в процессе работы АРМ Администратор полнотекстовых БД были извлечены страницы PDF- или DJVU-файла, то эти извлечённые страницы будут сохранены до окончания работы АРМ, и могут быть использованы, при необходимости, без повторного извлечения. Например, при добавлении в базу PDF-файлов с разбиением на страницы, все страницы будут извлечены. Если создавать словарь до выхода из программы, то страницы не будут извлекаться повторно. Если закрыть АРМ Администратор, извлечённые страницы PDF-документов будут удалены, и при новом запуске АРМ Администратор при создании словаря они будут извлекаться заново.

Ссылки

См. также:

Источники информации: