Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
(Ссылки)
 
(не показано 50 промежуточных версий этого же участника)
Строка 1: Строка 1:
''Полнотекстовые базы данных ИРБИС'' являются видом [[Базы данных ИРБИС#Виды баз данных ИРБИС 64|баз данных ИРБИС 64]]. ''Полнотекстовые базы данных ИРБИС'' и программные продукты ''ИРБИС 64 для полнотекстовых баз данных'' обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов.
+
''Полнотекстовые базы данных ИРБИС'' – [http://intranet.gpntb.ru/subscribe/?journal=ntb&year=2005&num=11&art=13 решение, обеспечивающее возможность ранжированного полнотекстового поиска по коллекциям текстовых документов].
 +
 
 +
В основе данного решения:
 +
* программные продукты ''ИРБИС 64 для полнотекстовых баз данных'', в которых реализован [[Механизм полнотекстового поиска]] и
 +
* [[Полнотекстовая база данных (вид баз данных ИРБИС)|''полнотекстовые базы данных ИРБИС'']] – как вид [[Базы данных ИРБИС#Виды баз данных ИРБИС 64|баз данных ИРБИС 64]].
  
 
==Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
 
==Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
  
Возможности для создателей электронных коллекций текстовых документов:
+
'''Возможности для создателей электронных коллекций текстовых документов''':
* Сформировать полнотекстовую базу данных ИРБИС, которая обеспечит возможность полнотекстового поиска по коллекции текстовых документов.
+
* Сформировать полнотекстовую базу данных ИРБИС – указать текстовые документы, по которым система обеспечит возможность полнотекстового поиска.
 
* С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.
 
* С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.
  
Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.
+
'''Возможности для пользователей''': получить доступ к коллекции текстовых документов для ранжированного полнотекстового поиска и просмотра найденных документов.
  
 
Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.
 
Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.
Строка 31: Строка 35:
 
==Концепция полнотекстовых баз данных ИРБИС==
 
==Концепция полнотекстовых баз данных ИРБИС==
  
===Объекты полнотекстового поиска в ИРБИС===
+
Полнотекстовые базы данных ИРБИС отличаются возможностью индексирования текстов из внешних файлов. Что обеспечивает возможность организовать поиск этих текстов.
 
 
Полнотекстовые базы отличаются тем, что обеспечивают возможность поиска ''текстов''.
 
  
Поиск ''текстов'' реализован как поиск неких ''объектов полнотекстового поиска''. ''Объект полнотекстового поиска'' (текст или часть текста) рассматривается как некая самостоятельная единица, которая может быть найдена и выдана по запросу пользователя.
+
Эта концепция позволяет реализовать перечисленные выше [[#Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных|возможности ИРБИС 64 по работе с полнотекстовыми базами данных]].
  
В ИРБИС предусмотрены ''объекты полнотекстового поиска'' следующих видов:
+
Индексирование текстов из внешних файлов основывается на следующих идеях:
* текстовые файлы целиком (любого формата из списка, приведённого [[#Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных|в подразделе ''Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных'']]) и
+
* Связывать ''записи'' полнотекстовой базы данных с текстами из внешних файлов, чтобы воспользоваться механизмом индексирования в ИРБИС.
* отдельные страницы текстовых файлов (формата PDF или DJVU).
+
* Реализовать специальный [[Таблица выбора полей#Метод индексирования 9|''метод индексирования 9'']], позволяющий индексировать тексты из внешних файлов, связанные с ''записями'' полнотекстовой базы данных.
  
Понятие ''объекта полнотекстового поиска'' является одним из ключевых в концепции полнотекстовых баз данных:
+
Для описания механизма связывания ''записи'' полнотекстовой базы данных с текстами из внешних файлов вводятся следующие понятия:
* в процессе формирования в базе данных сохраняются ссылки на ''объекты полнотекстового поиска'';
+
* Понятие ''объекта полнотекстового поиска'' – что может быть связано с ''записью'' полнотекстовой базы данных (и впоследствии проиндексировано).
* именно они подлежат [[#Индексирование полнотекстовых баз данных ИРБИС|индексированию]];
+
* Понятие ссылки на ''объекта полнотекстового поиска'', посредством которой ''запись'' полнотекстовой базы данных связывается с ''объектом полнотекстового поиска''.
* и именно ''объекты полнотекстового поиска'' (соответствующие поисковому запросу) будут выданы конечному пользователю в качестве результатов поиска.
 
  
 
===Формирование полнотекстовой базы данных===
 
===Формирование полнотекстовой базы данных===
  
Формирование полнотекстовой базы данных предполагает добавление в полнотекстовую базу данных [[#Ссылки на полные тексты|''ссылок'']] на ''тексты'' и последующее индексирование ''текстов''.
+
Формирование полнотекстовой базы данных предполагает добавление в полнотекстовую базу данных ''текстов'' (также принято называть ''включение текстов в базу данных'') и их последующее индексирование.
  
Добавление в полнотекстовую базу данных ссылки на ''текст'' (''объект полнотекстового поиска'') принято называть ''включением текста в базу данных'' или ''добавлением текста в базу данных''.
+
Фактически, при добавлении ''текстов'', они рассматриваются как [[#Объекты полнотекстового поиска в ИРБИС|объекты полнотекстового поиска]], в соответствие каждому из которых в базе создаётся ''запись'', содержащая [[Схема полнотекстовой базы данных#Ссылка на объект полнотекстового поиска|ссылку]] на данный объект. Подробнее см. в [[Схема полнотекстовой базы данных|статье ''Схема полнотекстовой базы данных'']].
  
 
Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. [[АРМ Администратор полнотекстовых БД#Включение текстов в полнотекстовую базу данных|в подразделе ''Включение текстов в полнотекстовую базу данных'' статьи ''АРМ Администратор полнотекстовых БД'']].
 
Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. [[АРМ Администратор полнотекстовых БД#Включение текстов в полнотекстовую базу данных|в подразделе ''Включение текстов в полнотекстовую базу данных'' статьи ''АРМ Администратор полнотекстовых БД'']].
  
''Индексированием'' ''текстов'' (''объектов полнотекстового поиска'') называется процесс пополнения словаря полнотекстовой базы данных словами из этих ''текстов''.
+
===Объекты полнотекстового поиска в ИРБИС===
  
Индексирование ''текстов'' (''объектов полнотекстового поиска''), обеспечивает возможность полнотекстового поиска. Подробнее об индексировании см. [[#Индексирование полнотекстовых баз данных ИРБИС|в подразделе ''Индексирование полнотекстовых баз данных ИРБИС'']].
+
Концепция полнотекстовых баз данных ИРБИС предусматривает следующие виды ''объектов полнотекстового поиска'':
  
===Особенности выбора вида объектов полнотекстового поиска===
+
'''Внешний текстовый файл'''
  
Для файлов PDF и DJVU выбор вида объектов полнотекстового поиска (текстовый файл целиком или отдельная страница) определяется при добавлении ''текстов'' в полнотекстовую базу в зависимости от [[АРМ Администратор полнотекстовых БД#Каждая страница файла как отдельный документ|выбранных опций]].
+
Файл допустимого типа. Список допустимых форматов приведён [[#Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных|в подразделе ''Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных'']].
  
В зависимости от этого в базу будут добавлены:
+
'''Отдельная страница многостраничного документа'''
* один объект полнотекстового поиска, соответствующий файлу, или
 
* набор объектов полнотекстового поиска, соответствующий набору страниц текста.
 
  
При добавлении файлов других форматов такая возможность выбора отсутствует.
+
Отдельная страница многостраничного документа (формата PDF или DJVU).
  
Если пользователь в результате поиска получил отдельную страницу текста, он имеет возможность перейти к другим страницам.
+
'''Файл, ассоциированный с текстом-"''подложкой''"'''
  
==Структура полнотекстовых баз данных ИРБИС==
+
Файл допустимого типа, сопровождающийся текстовым файлом, содержащим текстовый слой. Список допустимых форматов приведён [[#Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных|в подразделе ''Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных'']].
  
Структура полнотекстовых баз данных ИРБИС основывается на возможностях [[Базы данных ИРБИС#Структура баз данных ИРБИС|логической структуры баз данных ИРБИС 64]].
+
Понятие ''объекта полнотекстового поиска'' является одним из ключевых в концепции полнотекстовых баз данных:
 +
* в процессе формирования в базе данных сохраняется ссылка на ''объект полнотекстового поиска'';
 +
* текст, связанный с ''объектом полнотекстового поиска'' подлежит [[Таблица выбора полей#Метод индексирования 9|индексированию]];
 +
* список ''объектов полнотекстового поиска'' (соответствующих поисковому запросу) будет выдан конечному пользователю в качестве результатов поиска.
  
При формировании полнотекстовой базы в соответствие каждому [[#Объекты полнотекстового поиска в ИРБИС|объекту полнотекстового поиска]] в базе создаётся ''запись'', содержащая ссылку на соответствующий файл.
+
==Функциональные возможности ИРБИС 64 для полнотекстовых баз данных==
  
Каждому объекту полнотекстового поиска соответствует одна ссылка на файл. За исключением случаев использования [[#Индексирование документов, из которых невозможно извлечение текста|"подложек"]], представляющих собой текстовый слой, вынесенный в отдельный файл.
+
===Добавление файлов в полнотекстовую базу данных===
  
===Ссылки на полные тексты===
+
При добавлении файла в полнотекстовой базе данных создаётся запись, в которой сохраняется ссылка на внешний файл.
  
====Виды ссылок на полные тексты====
+
Файлы для добавления могут быть указаны выборочно или может быть указана папка, из которой будут добавлены файлы.
  
В полнотекстовых базах данных ИРБИС используется несколько видов ссылок на ''тексты'' ([[#Объекты полнотекстового поиска в ИРБИС|объекты полнотекстового поиска]]).
+
Можно установить список расширений, чтобы были добавлены только файлы соответствующих типов.
  
Виды ссылок по видам [[#Объекты полнотекстового поиска в ИРБИС|объектов полнотекстового поиска]]:
+
===Добавление многостраничных документов с разбиением на страницы===
* ссылка на текст целиком,
 
* ссылка на страницу текста (для документов в формате PDF и DJVU).
 
  
Виды ссылок по способу адресации:
+
Файл PDF или DJVU может быть добавлен в полнотекстовую базу с разбиением на страницы (если выбрана [[АРМ Администратор полнотекстовых БД#Каждая страница файла как отдельный документ|соответствующая опция]]).
* ''относительные'' – ссылки на тексты, находящиеся в папке базы данных (начинаются с точки, например <tt>.\texts\irbis64_2008.doc</tt>);
 
* ''абсолютные'' – полный путь, включающий имя компьютера, в формате UNC (например, <tt>\\ComputerName\SharedFolder\Resource.pdf</tt>);
 
* ссылки в формате URL (HTTP или FTP);
 
* ссылки на тексты, находящиеся в архиве (<tt>.zip</tt> или <tt>.rar</tt>).
 
  
Для ссылок на файлы в архиве пути к архиву подразделяются на:
+
В этом случае объектом полнотекстового поиска является отдельная страница PDF или DJVU документа.
* ''относительные'';
 
* ''абсолютные''.
 
  
Дополнительно к основной ссылке может [[#Индексирование документов, из которых невозможно извлечение текста|может присутствовать ссылка на ''подложку'']].
+
В полнотекстовой базе данных создаётся запись, соответствующая каждой странице добавляемого файла, а в каждой записи сохраняется ссылка с указанием номера страницы.
  
''Примечание: до введения в ИРБИС 2011.1 [[Отличия ИРБИС 2011.1 от предыдущей версии|соответствующего запрета в АРМ Администратор]] было возможно введение абсолютных ссылок, начинающихся с имени диска.''
+
Если пользователь в результате поиска получил отдельную страницу текста, он имеет возможность перейти к другим страницам.
 
 
====Форма записи ссылок на полные тексты в базе данных====
 
 
 
В каждой записи полнотекстовой базы данных ИРБИС хранится ссылка на один объект полнотекстового поиска.
 
 
 
Для хранения ссылки используется выбранное для этого поле (по умолчанию [[Использование в ИРБИС полей из блока локального использования формата RUSMARC|метка поля <tt>952</tt>]]). Данное поле не повторяющееся.
 
  
Поле доступно на рабочем листе ''Технологическая'' в [[АРМ Каталогизатор]].
+
''Примечание: с разбиением на страницы НЕ могут быть добавлены файлы PDF или DJVU, находящиеся в архиве.''
  
Для хранения ссылки на объекты полнотекстового поиска в общем случае используются подполя <tt>^B</tt>, <tt>^C</tt>, <tt>^I</tt>. В зависимости от [[#Виды ссылок на полные тексты|вида объекта полнотекстового поиска и вида ссылки]] используются разные подполя. Об особенностях интерпретации ссылок см. [[#Интерпретация ссылок|в подразделе ''Интерпретация ссылок'']].
+
===Индексирование полнотекстовой базы данных===
  
Для хранения ссылки на ''подложку'' используется подполе <tt>^T</tt>. Об особенностях использования подложки см. [[#Интерпретация ссылок|в подразделе ''Порядок получения текста при индексировании с помощью 9 метода'']].
+
Индексирование полнотекстовой базы данных – процесс наполнения словаря базы данных словами из текстов из внешних файлов, добавленных в базу данных.
 
 
Подполя, содержащие ссылку на файл текста:
 
* <tt>А</tt> – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением <tt>.izp</tt>, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
 
* <tt>B</tt> в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах <tt>.zip</tt> и <tt>.rar</tt>, а также в случае ссылок на отдельные страницы многостраничных документов <tt>.pdf</tt> и <tt>.djvu</tt>. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
 
* <tt>C</tt> – полный путь к файлу <tt>zip/rar/pdf/djvu</tt>. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
 
* <tt>I</tt> – URL текста, перенесённого из электронного каталога.
 
 
 
Дополнительные подполя:
 
* <tt>T</tt> – ссылка на файл [[АРМ Администратор полнотекстовых БД#Ассоциация текста-подложки с включаемым в полнотекстовую базу документом|подложки]]. Представляет собой имя текстового файла, подразумевается, что местонахождение файла подложки обязательно соответствует местонахождению полнотекстового документа.
 
* <tt>U</tt> – введено для технологических целей [[Отличия ИРБИС 2010.1 от предыдущей версии|в версии 2010.1]], объединяет в себе информацию из подполей <tt>B</tt>, <tt>C</tt> и <tt>I</tt>. Фактически не используется.
 
 
 
''Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем <tt>^B</tt>, а в подполе <tt>^C</tt> в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была [[Отличия ИРБИС 2011.1 от предыдущей версии#Исправления ошибок|исправлена в версии 2011.1 (см. ''ошибочное использование абсолютного пути из подполя <tt>^C</tt> в случае относительных ссылок с разбиением на страницы'')]].''
 
 
 
'''Примеры заполнения подполей''':
 
 
 
* '''Относительная ссылка на документ'''
 
 
 
^B.\texts\irbis64_2008.doc
 
 
 
* '''Абсолютная ссылка на документ'''
 
 
 
^B\\ComputerName\SharedFolder\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
 
 
 
* '''Ссылка на 69-ю страницу <tt>pdf</tt>-документа (относительная ссылка на документ)'''
 
 
 
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
 
 
 
* '''Ссылка на 1-ю страницу <tt>pdf</tt>-документа (абсолютная ссылка на документ)'''
 
 
 
^B\\ComputerName\SharedFolder\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^C\\ComputerName\SharedFolder\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
 
 
 
* '''Ссылка на документ в архиве'''
 
 
 
^B\\ComputerName\SharedFolder\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^C\\ComputerName\SharedFolder\FullTexts\rar\ИРБИС_документация.rar
 
 
 
* '''Ссылка на документ в архиве <tt>.izp</tt>'''
 
 
 
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
 
 
 
* '''Абсолютная ссылка на текстовый документ с подложкой'''
 
 
 
^B\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf^T1.pdf.txt^Uuri:irbis:\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf
 
 
 
====Интерпретация ссылок====
 
 
 
Порядок интерпретации ссылки на ''текст'' в полнотекстовых базах данных ИРБИС в общих чертах понятен исходя из [[#Форма записи ссылок на полные тексты в базе данных|формы записи этих ссылок]].
 
 
 
Описание алгоритма интерпретации ссылки системой ИРБИС позволяет снять неоднозначности в деталях.
 
 
 
Если заполнено подполе <tt>^I</tt>, то ссылка представляет собой URL (HTTP или FTP), который и содержится в данном подполе.
 
 
 
Если подполе <tt>^C</tt> не заполнено, то считается, что в подполе <tt>^B</tt> хранится относительная или абсолютная ссылка на текст целиком.
 
 
 
Если подполе <tt>^C</tt> заполнено, то совокупность подполей <tt>^B</tt> и <tt>^C</tt> содержит ссылку на текст в архиве или на страницу PDF или DJVU документа.
 
 
 
В этих случаях в подполях <tt>^B</tt> и <tt>^C</tt> хранятся значения, которые можно рассматривать как некие виртуальные ссылки "в формате Windows" (совокупность пути и имени файла).
 
 
 
Если в подполе <tt>^C</tt> "расширение файла" <tt>.pdf</tt> или <tt>.djvu</tt>, то в этих подполях ссылка на страницу PDF или DJVU документа.
 
 
 
Тогда, если из подполя <tt>^B</tt> взять "путь к файлу", а из подполя <tt>^C</tt> взять "имя файла", то получится путь и имя PDF или DJVU файла. Получить номер страницы можно, имея в виду следующее правило: виртуальное "имя файла" из подполя <tt>^B</tt> представляет собой исходное имя PDF или DJVU файла + суффикс, отделяющий имя от номера страницы (по умолчанию два знака подчёркивания __) + номер страницы, дополненный лидирующими нулями до 4 символов + расширение исходного файла.
 
 
 
При использовании HTTP-ссылок формат файла определяется по заголовку HTTP. Во всех остальных случаях по расширению файла.
 
 
 
==Индексирование полнотекстовых баз данных ИРБИС==
 
 
 
Возможность полнотекстового поиска обеспечивает механизм индексирования. Специально разработанный для полнотекстовых баз данных [[Таблица выбора полей#Метод индексирования 9|''метод индексирования 9'']] позволяет индексировать включённые в базу данных файлы полных текстов.
 
 
 
В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).
 
 
 
Получение текста в пригодной для индексирования форме из файлов, включённых в базу данных, называется в данной документации ''извлечением текста''.
 
 
 
Подробнее о возможностях АРМ Администратор ИРБИС полнотекстовых БД по работе со словарём см. [[АРМ Администратор#Обслуживание словаря базы данных ИРБИС|в подразделе ''Обслуживание словаря базы данных ИРБИС'' статьи ''АРМ Администратор'']] и [[АРМ Администратор полнотекстовых БД#Обслуживание словаря полнотекстовых баз данных ИРБИС|в подразделе ''Обслуживание словаря полнотекстовых баз данных ИРБИС'' статьи ''АРМ Администратор полнотекстовых БД'']].
 
  
 
===Индексирование документов, из которых невозможно извлечение текста===
 
===Индексирование документов, из которых невозможно извлечение текста===
  
Если при включении полнотекстового документа найдена соответствующая ему подложка, то [[#Форма записи ссылок на полные тексты в базе данных|в соответствующем подполе базы данных сохраняется ссылка на файл подложки]]. Таким образом происходит ''ассоциация'' полнотекстового документа с соответствующей ''подложкой''.
+
Если при включении полнотекстового документа найдена соответствующая ему подложка, то [[#Компоненты ссылки|в соответствующем подполе базы данных сохраняется ссылка на файл подложки]]. Таким образом происходит ''ассоциация'' полнотекстового документа с соответствующей ''подложкой''.
  
 
Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.
 
Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.
Строка 198: Строка 114:
 
В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля. Подробнее см. [[АРМ Администратор полнотекстовых БД#Извлечение текстовых данных из PDF-файлов, защищённых паролем|в подразделе ''Извлечение текстовых данных из PDF-файлов, защищённых паролем'' статьи ''АРМ Администратор полнотекстовых БД'']].
 
В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля. Подробнее см. [[АРМ Администратор полнотекстовых БД#Извлечение текстовых данных из PDF-файлов, защищённых паролем|в подразделе ''Извлечение текстовых данных из PDF-файлов, защищённых паролем'' статьи ''АРМ Администратор полнотекстовых БД'']].
  
===Порядок получения текста при индексировании с помощью 9 метода===
+
===Поисковые возможности===
 
 
Для версий ИРБИС 9 метод индексирования отличается от всех других (с 1 по 8) тем, что в нём используется непосредственный доступ к базе данных.
 
 
 
При индексировании полнотекстовой базы данных для каждого [[#Объекты полнотекстового поиска в ИРБИС|объекта полнотекстового поиска]] (то есть, для каждой ''записи'') индексированию подлежит текст, получаемый из файла, соответствующего ссылке. Ссылка [[#Интерпретация ссылок|интерпретируется в соответствии с правилами, оговоренными в подразделе ''Интерпретация ссылок'']].
 
 
 
Если установлена ассоциация документа с текстом-подложкой, то индексированию подлежит текст из ''подложки''. В этом случае (при индексировании) основной файл объекта полнотекстового поиска не используется. В соответствии со ссылкой на основной файл объекта полнотекстового поиска определяется местонахождение файла ''подложки''.
 
  
О дальнейшем порядке индексирования в соответствии с методом 9 см. [[Таблица выбора полей#Метод индексирования 9|в подразделе ''Метод индексирования 9'' статьи ''Таблица выбора полей'']].
+
В ИРБИС для полнотекстовых БД предусмотрены следующие поисковые возможности:
 +
* полнотекстовый поиск;
 +
* поиск по элементам описания полных текстов (по умолчанию предусмотрен поиск по элементам Dublin Core);
 +
* полнотекстовый поиск, дополненный ограничением по элементам описания;
 +
* возможность уточнять полнотекстовый поиск при помощи ''поиска в найденном'' по элементам описания.
  
 
==Устаревшие возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
 
==Устаревшие возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
  
==Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)==
+
===Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)===
  
 
'''''Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.'''''
 
'''''Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.'''''
Строка 228: Строка 142:
  
 
См. также:
 
См. также:
* [[Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных]]
+
* [[АРМ Администратор полнотекстовых БД]]
 +
* [[АРМ Читатель для полнотекстовых БД]]
 +
* [[Установка и использование ИРБИС 64 для полнотекстовых баз данных]]
 +
* [[Возможности АРМ Каталогизатор по работе с полнотекстовыми базами данных]]
 
* [[Известные проблемы и их решения, касающиеся работы с полнотекстовыми базами ИРБИС]]
 
* [[Известные проблемы и их решения, касающиеся работы с полнотекстовыми базами ИРБИС]]
* [[Базы данных ИРБИС]]
 
* [[АРМ Администратор полнотекстовых БД]]
 
* [[АРМ Администратор]]
 
 
* [[Рекомендации по обслуживанию баз данных ИРБИС]]
 
* [[Рекомендации по обслуживанию баз данных ИРБИС]]
 
* [[Связывание документов базы данных ИРБИС с внешними объектами]]
 
* [[Связывание документов базы данных ИРБИС с внешними объектами]]
* [[Таблица выбора полей#Метод индексирования 9|Метод индексирования 9]]
+
* [[Механизм полнотекстового поиска]]
 +
* [[Полнотекстовая база данных (вид баз данных ИРБИС)]]
 +
* [[Схема полнотекстовой базы данных]]
  
 
Источники информации:
 
Источники информации:
Строка 242: Строка 158:
 
[[Категория:Полнотекстовые базы данных ИРБИС]]
 
[[Категория:Полнотекстовые базы данных ИРБИС]]
 
[[Категория:Функциональные возможности ИРБИС]]
 
[[Категория:Функциональные возможности ИРБИС]]
 +
[[Категория:Тексты документации, поставляемой с системой ИРБИС 64]]
 
[[Категория:Анонсированные статьи]]
 
[[Категория:Анонсированные статьи]]
[[Категория:Последние анонсированные статьи]]
 

Текущая версия на 01:37, 17 февраля 2016

Полнотекстовые базы данных ИРБИСрешение, обеспечивающее возможность ранжированного полнотекстового поиска по коллекциям текстовых документов.

В основе данного решения:

Содержание

Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможности для создателей электронных коллекций текстовых документов:

  • Сформировать полнотекстовую базу данных ИРБИС – указать текстовые документы, по которым система обеспечит возможность полнотекстового поиска.
  • С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.

Возможности для пользователей: получить доступ к коллекции текстовых документов для ранжированного полнотекстового поиска и просмотра найденных документов.

Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64

Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:

  • АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
  • АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
  • Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.

Концепция полнотекстовых баз данных ИРБИС

Полнотекстовые базы данных ИРБИС отличаются возможностью индексирования текстов из внешних файлов. Что обеспечивает возможность организовать поиск этих текстов.

Эта концепция позволяет реализовать перечисленные выше возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Индексирование текстов из внешних файлов основывается на следующих идеях:

  • Связывать записи полнотекстовой базы данных с текстами из внешних файлов, чтобы воспользоваться механизмом индексирования в ИРБИС.
  • Реализовать специальный метод индексирования 9, позволяющий индексировать тексты из внешних файлов, связанные с записями полнотекстовой базы данных.

Для описания механизма связывания записи полнотекстовой базы данных с текстами из внешних файлов вводятся следующие понятия:

  • Понятие объекта полнотекстового поиска – что может быть связано с записью полнотекстовой базы данных (и впоследствии проиндексировано).
  • Понятие ссылки на объекта полнотекстового поиска, посредством которой запись полнотекстовой базы данных связывается с объектом полнотекстового поиска.

Формирование полнотекстовой базы данных

Формирование полнотекстовой базы данных предполагает добавление в полнотекстовую базу данных текстов (также принято называть включение текстов в базу данных) и их последующее индексирование.

Фактически, при добавлении текстов, они рассматриваются как объекты полнотекстового поиска, в соответствие каждому из которых в базе создаётся запись, содержащая ссылку на данный объект. Подробнее см. в статье Схема полнотекстовой базы данных.

Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. в подразделе Включение текстов в полнотекстовую базу данных статьи АРМ Администратор полнотекстовых БД.

Объекты полнотекстового поиска в ИРБИС

Концепция полнотекстовых баз данных ИРБИС предусматривает следующие виды объектов полнотекстового поиска:

Внешний текстовый файл

Файл допустимого типа. Список допустимых форматов приведён в подразделе Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Отдельная страница многостраничного документа

Отдельная страница многостраничного документа (формата PDF или DJVU).

Файл, ассоциированный с текстом-"подложкой"

Файл допустимого типа, сопровождающийся текстовым файлом, содержащим текстовый слой. Список допустимых форматов приведён в подразделе Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Понятие объекта полнотекстового поиска является одним из ключевых в концепции полнотекстовых баз данных:

  • в процессе формирования в базе данных сохраняется ссылка на объект полнотекстового поиска;
  • текст, связанный с объектом полнотекстового поиска подлежит индексированию;
  • список объектов полнотекстового поиска (соответствующих поисковому запросу) будет выдан конечному пользователю в качестве результатов поиска.

Функциональные возможности ИРБИС 64 для полнотекстовых баз данных

Добавление файлов в полнотекстовую базу данных

При добавлении файла в полнотекстовой базе данных создаётся запись, в которой сохраняется ссылка на внешний файл.

Файлы для добавления могут быть указаны выборочно или может быть указана папка, из которой будут добавлены файлы.

Можно установить список расширений, чтобы были добавлены только файлы соответствующих типов.

Добавление многостраничных документов с разбиением на страницы

Файл PDF или DJVU может быть добавлен в полнотекстовую базу с разбиением на страницы (если выбрана соответствующая опция).

В этом случае объектом полнотекстового поиска является отдельная страница PDF или DJVU документа.

В полнотекстовой базе данных создаётся запись, соответствующая каждой странице добавляемого файла, а в каждой записи сохраняется ссылка с указанием номера страницы.

Если пользователь в результате поиска получил отдельную страницу текста, он имеет возможность перейти к другим страницам.

Примечание: с разбиением на страницы НЕ могут быть добавлены файлы PDF или DJVU, находящиеся в архиве.

Индексирование полнотекстовой базы данных

Индексирование полнотекстовой базы данных – процесс наполнения словаря базы данных словами из текстов из внешних файлов, добавленных в базу данных.

Индексирование документов, из которых невозможно извлечение текста

Если при включении полнотекстового документа найдена соответствующая ему подложка, то в соответствующем подполе базы данных сохраняется ссылка на файл подложки. Таким образом происходит ассоциация полнотекстового документа с соответствующей подложкой.

Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.

Подробнее см. в подразделе Ассоциация текста-подложки с включаемым в полнотекстовую базу документом статьи АРМ Администратор полнотекстовых БД.

Индексирование файлов PDF, защищённых паролем

В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля. Подробнее см. в подразделе Извлечение текстовых данных из PDF-файлов, защищённых паролем статьи АРМ Администратор полнотекстовых БД.

Поисковые возможности

В ИРБИС для полнотекстовых БД предусмотрены следующие поисковые возможности:

  • полнотекстовый поиск;
  • поиск по элементам описания полных текстов (по умолчанию предусмотрен поиск по элементам Dublin Core);
  • полнотекстовый поиск, дополненный ограничением по элементам описания;
  • возможность уточнять полнотекстовый поиск при помощи поиска в найденном по элементам описания.

Устаревшие возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Ссылки

См. также:

Источники информации: