Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
(Ссылки)
 
(не показано 77 промежуточных версий этого же участника)
Строка 1: Строка 1:
''Полнотекстовые базы данных ИРБИС'' и соответствующие программные продукты ИРБИС обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов.
+
''Полнотекстовые базы данных ИРБИС'' – [http://intranet.gpntb.ru/subscribe/?journal=ntb&year=2005&num=11&art=13 решение, обеспечивающее возможность ранжированного полнотекстового поиска по коллекциям текстовых документов].
  
''Полнотекстовые базы данных ИРБИС'' являются видом [[Базы данных ИРБИС#Виды баз данных ИРБИС 64|баз данных ИРБИС 64]] и отличаются возможностью индексирования текстовых документов, находящихся вне базы данных.
+
В основе данного решения:
 +
* программные продукты ''ИРБИС 64 для полнотекстовых баз данных'', в которых реализован [[Механизм полнотекстового поиска]] и
 +
* [[Полнотекстовая база данных (вид баз данных ИРБИС)|''полнотекстовые базы данных ИРБИС'']] – как вид [[Базы данных ИРБИС#Виды баз данных ИРБИС 64|баз данных ИРБИС 64]].
  
 
==Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
 
==Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
  
Возможности для создателей электронных коллекций текстовых документов:
+
'''Возможности для создателей электронных коллекций текстовых документов''':
* Сформировать полнотекстовую базу данных ИРБИС, которая обеспечит возможность полнотекстового поиска по коллекции текстовых документов.
+
* Сформировать полнотекстовую базу данных ИРБИС – указать текстовые документы, по которым система обеспечит возможность полнотекстового поиска.
 
* С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.
 
* С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.
  
Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.
+
'''Возможности для пользователей''': получить доступ к коллекции текстовых документов для ранжированного полнотекстового поиска и просмотра найденных документов.
  
 
Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.
 
Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.
  
===Включение текстовых документов в полнотекстовую базу данных ИРБИС===
+
==Отличие возможности ''включения полнотекстовых документов в базу данных'' от возможности ''связывания документов базы данных с внешними объектами''==
  
Полнотекстовая база данных ИРБИС обеспечивает возможность поиска по тем текстовым документам, ссылки на которые были добавлены при формировании базы, и которые были [[#Индексирование полнотекстовых баз данных ИРБИС|проиндексированы]] при построении словаря.
+
Не следует путать ''возможность включения полнотекстовых документов'' с ''возможностью [[Связывание документов базы данных ИРБИС с внешними объектами|связывания документов базы данных с внешними объектами]]''.
  
Добавление в полнотекстовую базу данных ссылки на текстовый документ принято называть ''включением текста в базу данных'' или ''добавлением текста в базу данных''.
+
'''Сходства возможностей:'''
 +
* Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
  
===Объекты полнотекстового поиска в ИРБИС===
+
'''Различия возможностей:'''
 
+
* ''Возможность связывания документов базы данных с внешними объектами'' ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
В полнотекстовых базах данных ИРБИС в качестве результатов поиска пользователь получает текстовый документ целиком, либо конкретную страницу файлов PDF и DJVU (с возможностью перейти к другим страницам документа).
+
* ''Возможность включения полнотекстовых документов в базу данных'' обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
 
 
Вид объектов полнотекстового поиска (документ целиком или отдельная страница) зависит от [[АРМ Администратор полнотекстовых БД#Каждая страница файла как отдельный документ|опций, выбранных администратором при формировании базы данных]]. При включении в полнотекстовую базу файлов PDF и DJVU, администратор имеет возможность выбора, будет ли добавлена ссылка на документ целиком, или на каждую страницу документа. Для других видов файлов такая возможность выбора отсутствует.
 
 
 
Подробнее об использовании в полнотекстовых базах ИРБИС ссылок на текстовые документы см. в подразделе [[#Ссылки на полные тексты|''Ссылки на полные тексты'']].
 
  
===Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64===
+
==Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64==
  
 
Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:
 
Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:
* [[АРМ Администратор полнотекстовых БД|''АРМ Администратор полнотекстовых БД'']] – рабочее место специалиста, которое позволяет создавать полнотекстовые базы данных и обслуживать их.
+
* [[АРМ Администратор полнотекстовых БД|''АРМ Администратор полнотекстовых БД'']] – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
 
* ''АРМ Читатель для полнотекстовых БД'' – рабочее место пользователя электронных коллекций.
 
* ''АРМ Читатель для полнотекстовых БД'' – рабочее место пользователя электронных коллекций.
 
* [[Веб-ИРБИС#Версии Веб-шлюза ИРБИС|Веб-шлюз ИРБИС для полнотекстовых БД]] – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.
 
* [[Веб-ИРБИС#Версии Веб-шлюза ИРБИС|Веб-шлюз ИРБИС для полнотекстовых БД]] – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.
  
==Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов==
+
==Концепция полнотекстовых баз данных ИРБИС==
  
Для создания или пополнения электронной коллекции полнотекстовых документов необходимо выполнить следующие действия:
+
Полнотекстовые базы данных ИРБИС отличаются возможностью индексирования текстов из внешних файлов. Что обеспечивает возможность организовать поиск этих текстов.
* [[АРМ Администратор#Установка текущей базы данных|Выбор существующей]] или [[АРМ Администратор#Создание новой базы данных|создание новой]] полнотекстовой базы данных, куда будут добавлены тексты.
 
* [[АРМ Администратор полнотекстовых БД#Включение полнотекстовых документов в базу данных ИРБИС|Добавление текстов в базу данных]].
 
* [[АРМ Администратор#Актуализация словаря базы данных ИРБИС|Актуализация]] или [[АРМ Администратор#Создание словаря базы данных ИРБИС|создание словаря базы данных]] (рекомендуется ознакомиться с [[АРМ Администратор полнотекстовых БД#Обслуживание словаря полнотекстовых баз данных ИРБИС|особенностями обслуживания словаря полнотекстовых баз данных]]).
 
  
==Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор==
+
Эта концепция позволяет реализовать перечисленные выше [[#Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных|возможности ИРБИС 64 по работе с полнотекстовыми базами данных]].
  
===Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС===
+
Индексирование текстов из внешних файлов основывается на следующих идеях:
 +
* Связывать ''записи'' полнотекстовой базы данных с текстами из внешних файлов, чтобы воспользоваться механизмом индексирования в ИРБИС.
 +
* Реализовать специальный [[Таблица выбора полей#Метод индексирования 9|''метод индексирования 9'']], позволяющий индексировать тексты из внешних файлов, связанные с ''записями'' полнотекстовой базы данных.
  
Для текстов, связанных с [[Базы данных ИРБИС#Виды баз данных ИРБИС 64|базой данных электронного каталога ИРБИС]] в качестве [[Связывание документов базы данных ИРБИС с внешними объектами|внешних объектов электронного каталога]], предусмотрена [[АРМ Администратор полнотекстовых БД#Возможности выбора полнотекстовых документов, которые необходимо включить в базу данных ИРБИС|специальная возможность включения в полнотекстовую базу таких текстов из указанного электронного каталога]].
+
Для описания механизма связывания ''записи'' полнотекстовой базы данных с текстами из внешних файлов вводятся следующие понятия:
 +
* Понятие ''объекта полнотекстового поиска'' – что может быть связано с ''записью'' полнотекстовой базы данных (и впоследствии проиндексировано).
 +
* Понятие ссылки на ''объекта полнотекстового поиска'', посредством которой ''запись'' полнотекстовой базы данных связывается с ''объектом полнотекстового поиска''.
  
===Использование относительных путей в качестве ссылок на полнотекстовые документы===
+
===Формирование полнотекстовой базы данных===
  
Использование относительных путей является возможным и рекомендуется для файлов полнотекстовых документов, которые хранятся ''внутри'' папки соответствующей базы данных (непосредственно или в одной из вложенных папок).
+
Формирование полнотекстовой базы данных предполагает добавление в полнотекстовую базу данных ''текстов'' (также принято называть ''включение текстов в базу данных'') и их последующее индексирование.
  
'''Достоинства:'''
+
Фактически, при добавлении ''текстов'', они рассматриваются как [[#Объекты полнотекстового поиска в ИРБИС|объекты полнотекстового поиска]], в соответствие каждому из которых в базе создаётся ''запись'', содержащая [[Схема полнотекстовой базы данных#Ссылка на объект полнотекстового поиска|ссылку]] на данный объект. Подробнее см. в [[Схема полнотекстовой базы данных|статье ''Схема полнотекстовой базы данных'']].
* тексты будут доступны при переносе базы данных;
 
* тексты будут доступны через Веб-ИРБИС.
 
  
'''Недостатки:'''
+
Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. [[АРМ Администратор полнотекстовых БД#Включение текстов в полнотекстовую базу данных|в подразделе ''Включение текстов в полнотекстовую базу данных'' статьи ''АРМ Администратор полнотекстовых БД'']].
* Хранение полнотекстовых документов ''внутри'' папки соответствующей базы данных не всегда удобно.
 
  
===Использование полных путей в качестве ссылок на полнотекстовые документы===
+
===Объекты полнотекстового поиска в ИРБИС===
  
Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.
+
Концепция полнотекстовых баз данных ИРБИС предусматривает следующие виды ''объектов полнотекстового поиска'':
  
'''Недостатки:'''
+
'''Внешний текстовый файл'''
* тексты не будут доступны через Веб-ИРБИС.
 
  
Если эти тексты имеют URL-адреса, то для обеспечения доступа к ним через Веб-ИРБИС можно использовать перенаправление (при котором происходит замена их сетевых адресов на URL).
+
Файл допустимого типа. Список допустимых форматов приведён [[#Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных|в подразделе ''Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных'']].
  
Для этого в файле <tt>irbis_server.ini</tt>, который был создан при инсталляции в папке Веб-сервера для Веб-шлюза ИРБИС, в секции <tt>MAIN</tt> задать параметры (приведен пример значений параметров):
+
'''Отдельная страница многостраничного документа'''
  
FullTextPathDbn=\\Alio1\irbiswrk\lusia\PDF_text\
+
Отдельная страница многостраничного документа (формата PDF или DJVU).
FullTextPathWeb=ftp:\\ftp.gpntb.ru\pub\irbis\
 
  
В первом параметре следует указать сетевой путь на тексты, которые располагались по этому пути при их добавлении, в примере это - <tt>\\Alio1\irbiswrk\lusia\PDF_text\</tt>. Во втором параметре следует указать часть URL текстов (до их названия) их расположения. В примере это - <tt>ftp:\\ftp.gpntb.ru\pub\irbis\</tt>.
+
'''Файл, ассоциированный с текстом-"''подложкой''"'''
  
В формате <tt>BRIEFHTML_ft.pft</tt> имеется вставка (если нет, добавить), которая замещает в адресе текста (в подполе <tt>952^B</tt>) путь на файл при создании на URL местоположения текста. Часть формата:
+
Файл допустимого типа, сопровождающийся текстовым файлом, содержащим текстовый слой. Список допустимых форматов приведён [[#Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных|в подразделе ''Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных'']].
  
<nowiki>
+
Понятие ''объекта полнотекстового поиска'' является одним из ключевых в концепции полнотекстовых баз данных:
/* возможность замены формата через параметры irbis_server.ini из cgi
+
* в процессе формирования в базе данных сохраняется ссылка на ''объект полнотекстового поиска'';
      if &uf('IMAIN,FullTextPathDbn,')<>'' and &uf('IMAIN,FullTextPathWeb,')<>''
+
* текст, связанный с ''объектом полнотекстового поиска'' подлежит [[Таблица выбора полей#Метод индексирования 9|индексированию]];
          then
+
* список ''объектов полнотекстового поиска'' (соответствующих поисковому запросу) будет выдан конечному пользователю в качестве результатов поиска.
&uf('+7W10#',&uf('+9I?',,&uf('IMAIN,FullTextPathDbn,'),,'?#',,&uf('IMAIN,FullTextPathWeb,'),,'#',v952^B)),
 
          '<a  style="border:0px;font-size:12px;" target=_blank href="',G10,
 
          else
 
/*
 
</nowiki>
 
  
Здесь использован форматный выход <tt>&uf('+9I?исходная строка?#выходная строка#строка где замена)</tt>. Ограничители <tt>?</tt> и <tt>#</tt> могут быть любыми символами с кодом меньше <tt>128</tt>.
+
==Функциональные возможности ИРБИС 64 для полнотекстовых баз данных==
  
===Полнотекстовые базы в Веб-ИРБИС===
+
===Добавление файлов в полнотекстовую базу данных===
  
Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.
+
При добавлении файла в полнотекстовой базе данных создаётся запись, в которой сохраняется ссылка на внешний файл.
  
===Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)===
+
Файлы для добавления могут быть указаны выборочно или может быть указана папка, из которой будут добавлены файлы.
  
'''''Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.'''''
+
Можно установить список расширений, чтобы были добавлены только файлы соответствующих типов.
  
'''Опции включения полнотекстовых документов, совместимые с данной:'''
+
===Добавление многостраничных документов с разбиением на страницы===
* Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.
 
  
'''Достоинства:'''
+
Файл PDF или DJVU может быть добавлен в полнотекстовую базу с разбиением на страницы (если выбрана [[АРМ Администратор полнотекстовых БД#Каждая страница файла как отдельный документ|соответствующая опция]]).
* Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
 
* При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).
 
  
'''Недостатки:'''
+
В этом случае объектом полнотекстового поиска является отдельная страница PDF или DJVU документа.
* Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
 
* Тексты не доступны через Веб-ИРБИС.
 
  
==Отличие возможности ''включения полнотекстовых документов в базу данных'' от возможности ''связывания документов базы данных с внешними объектами''==
+
В полнотекстовой базе данных создаётся запись, соответствующая каждой странице добавляемого файла, а в каждой записи сохраняется ссылка с указанием номера страницы.
  
Не следует путать ''возможность включения полнотекстовых документов'' с ''возможностью [[Связывание документов базы данных ИРБИС с внешними объектами|связывания документов базы данных с внешними объектами]]''.
+
Если пользователь в результате поиска получил отдельную страницу текста, он имеет возможность перейти к другим страницам.
  
'''Сходства возможностей:'''
+
''Примечание: с разбиением на страницы НЕ могут быть добавлены файлы PDF или DJVU, находящиеся в архиве.''
* Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
 
  
'''Различия возможностей:'''
+
===Индексирование полнотекстовой базы данных===
* ''Возможность связывания документов базы данных с внешними объектами'' ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
 
* ''Возможность включения полнотекстовых документов в базу данных'' обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
 
  
==Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря==
+
Индексирование полнотекстовой базы данных – процесс наполнения словаря базы данных словами из текстов из внешних файлов, добавленных в базу данных.
  
===Разбиение PDF-файлов на страницы при добавлении в базу данных===
+
===Индексирование документов, из которых невозможно извлечение текста===
  
[[АРМ Администратор полнотекстовых БД#Каждая страница файла как отдельный документ|Разбиение на страницы]] осуществляется с помощью одной из утилит: <tt>pdftk</tt> или <tt>pdf2pdf</tt>.
+
Если при включении полнотекстового документа найдена соответствующая ему подложка, то [[#Компоненты ссылки|в соответствующем подполе базы данных сохраняется ссылка на файл подложки]]. Таким образом происходит ''ассоциация'' полнотекстового документа с соответствующей ''подложкой''.
  
Утилита выбирается в соответствии со значением параметра <tt>PDFSplitter</tt> в [[Конфигурационный файл АРМ Администратор ИРБИС#Секция TEXTS|конфигурационном файле АРМ Администратор ИРБИС]].
+
Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.
  
'''Известные проблемы:'''
+
Подробнее см. [[АРМ Администратор полнотекстовых БД#Ассоциация текста-подложки с включаемым в полнотекстовую базу документом|в подразделе ''Ассоциация текста-подложки с включаемым в полнотекстовую базу документом'' статьи ''АРМ Администратор полнотекстовых БД'']].
* Утилита <tt>pdftk</tt> не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты <tt>pdf2pdf</tt>.
 
* Утилита <tt>pdf2pdf</tt> не разбивает некоторые файлы. Такие файлы следует разбивать с помощью утилиты <tt>pdftk</tt>.
 
  
===Извлечение текста из <tt>PDF</tt>-файлов в процессе создания словаря===
+
===Индексирование файлов PDF, защищённых паролем===
  
Для лучшего понимания проблем извлечения текста из <tt>PDF</tt>-файлов следует ознакомиться с [[АРМ Администратор полнотекстовых БД#Извлечение текстовых данных из PDF-файлов|соответствующим разделом статьи ''АРМ Администратор полнотекстовых БД'']].
+
В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля. Подробнее см. [[АРМ Администратор полнотекстовых БД#Извлечение текстовых данных из PDF-файлов, защищённых паролем|в подразделе ''Извлечение текстовых данных из PDF-файлов, защищённых паролем'' статьи ''АРМ Администратор полнотекстовых БД'']].
  
'''Известные проблемы:'''
+
===Поисковые возможности===
* Если в словарь не попадают термины из PDF-файла, то в первую очередь необходимо убедиться в наличии в PDF-файле текстовых данных и возможности их извлечения. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Текст должен выделяться мышью побуквенно; слова из текста должен находить Arcobat Reader своей встроенной системой поиска. Если эти условия выполняются, то текст может быть извлечён, иначе – не может быть извлечён. Если текст может быть извлечён, то следует продолжить диагностировать проблему. Если текст не может быть извлечён, то следует либо подготовить другой PDF-файл вместо проблемного, либо использовать [[АРМ Администратор полнотекстовых БД#Ассоциация текста-подложки с включаемым в полнотекстовую базу документом|текстовые подложки]].
 
* В случае использования утилиты <tt>docs2text.exe</tt> в системе должна быть зарегистрирована библиотека <tt>docs2text.dll</tt>. Случается так, что библиотека оказывается не зарегистрирована. Если это произошло, то следует её [[Известные проблемы и их решения, касающиеся работы с полнотекстовыми базами ИРБИС#При создании словаря появляется сообщение об ошибке Exception EOleSysError in module docs2text.exe...|зарегистрировать с помощью инструмента Windows <tt>Regsvr32.exe</tt>]].
 
* Если утилиты <tt>pdftotext.exe</tt> и <tt>docs2text.exe</tt> не могут извлечь текст из PDF-файла, то можно рекомендовать попробовать изменить версию PDF-файла, использовать файлы [http://ru.wikipedia.org/wiki/PDF/A стандарта PDF/A, специально предназначенного для долгосрочного архивного хранения документов].
 
  
===Извлечение текста из <tt>DOC</tt>-файлов===
+
В ИРБИС для полнотекстовых БД предусмотрены следующие поисковые возможности:
 +
* полнотекстовый поиск;
 +
* поиск по элементам описания полных текстов (по умолчанию предусмотрен поиск по элементам Dublin Core);
 +
* полнотекстовый поиск, дополненный ограничением по элементам описания;
 +
* возможность уточнять полнотекстовый поиск при помощи ''поиска в найденном'' по элементам описания.
  
Извлечение текста из <tt>DOC</tt>-файлов выполняется при создании словаря.
+
==Устаревшие возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
  
Извлечение текста осуществляется с помощью утилиты <tt>docs2text.exe</tt> или с помощью программы Microsoft Word (с использованием технологии Ole Automation).
+
===Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)===
  
Способ извлечения текста выбирается в соответствии со значением параметра <tt>Converter_Word</tt> в [[Конфигурационный файл АРМ Администратор ИРБИС#Секция TEXTS|конфигурационном файле АРМ Администратор ИРБИС]].
+
'''''Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.'''''
  
'''Следует иметь в виду:'''
+
<small>'''Опции включения полнотекстовых документов, совместимые с данной:'''
* Для извлечения текста вторым способом необходимо наличие установленного приложения Microsoft Word.
+
* Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.
* В случае использования утилиты <tt>docs2text.exe</tt> в системе должна быть зарегистрирована библиотека <tt>docs2text.dll</tt>. Для регистрации библиотеки используется инструмент Windows <tt>Regsvr32.exe</tt>.
 
  
'''Известные проблемы:'''
+
'''Достоинства:'''
* Практика показывает, что утилита <tt>docs2text.exe</tt> не извлекает текст из файлов, содержащих много графических изображений, файлов большого размера (например, десятки мегабайт). При извлечении текста из таких файлов следует выбирать способ с использованием программы Microsoft Word.
+
* Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
* Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты <tt>docs2text.exe</tt>.
+
* При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).
  
==Индексирование полнотекстовых баз данных ИРБИС==
+
'''Недостатки:'''
 
+
* Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
Полнотекстовые базы данных предусматривают механизм индексирования текстов, находящихся вне базы данных. В базе данных содержатся ссылки на текстовые документы, а специальный [[Таблица выбора полей#Метод индексирования 9|''метод индексирования 9'']] индексирует тексты, полученные по ссылкам.
+
* Тексты не доступны через Веб-ИРБИС.</small>
 
 
===Ссылки на полные тексты===
 
 
 
====Виды ссылок на полные тексты====
 
 
 
В полнотекстовых базах данных ИРБИС используется несколько видов ссылок на полные тексты.
 
 
 
Виды ссылок по [[#Объекты полнотекстового поиска в ИРБИС|объекту полнотекстового поиска]]:
 
* ссылка на текст целиком,
 
* ссылка на страницу текста (для документов в формате PDF и DJVU).
 
 
 
Виды ссылок по месту нахождения текста:
 
* ''относительные'' – ссылки на тексты, находящиеся в папке базы данных,
 
* ''абсолютные'' – полный путь, включающий имя компьютера, в формате UNC.
 
 
 
====Форма записи ссылок на полные тексты в базе данных====
 
 
 
Для ссылок на файлы полных текстов в полнотекстовой базе данных используется выбранное для этого поле (по умолчанию [[Использование в ИРБИС полей из блока локального использования формата RUSMARC|метка поля <tt>952</tt>]]).
 
 
 
Поле доступно на рабочем листе ''Технологическая'' в [[АРМ Каталогизатор]].
 
 
 
Для описания ссылки на полнотекстовый документ предлагаются подполя:
 
* <tt>А</tt> – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением <tt>.izp</tt>, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
 
* <tt>B</tt> – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах <tt>.zip</tt> и <tt>.rar</tt>, а также в случае ссылок на отдельные страницы многостраничных документов <tt>.pdf</tt> и <tt>.djvu</tt>. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
 
* <tt>C</tt> – полный путь к файлу <tt>zip/rar/pdf/djvu</tt>. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
 
* <tt>I</tt> – URL текста, перенесённого из электронного каталога.
 
 
 
'''Примеры заполнения подполей''':
 
 
 
* '''Относительная ссылка на документ'''
 
 
 
^B.\texts\irbis64_2008.doc
 
 
 
* '''Абсолютная ссылка на документ'''
 
 
 
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
 
 
 
* '''Ссылка на 69-ю страницу <tt>pdf</tt>-документа (относительная ссылка на документ)'''
 
 
 
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
 
 
 
* '''Ссылка на 1-ю страницу <tt>pdf</tt>-документа (абсолютная ссылка на документ)'''
 
 
 
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
 
 
 
* '''Ссылка на документ в архиве'''
 
 
 
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
 
 
 
* '''Ссылка на документ в архиве <tt>.izp</tt>'''
 
 
 
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
 
 
 
''Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем <tt>^B</tt>, а в подполе <tt>^C</tt> в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была [[Отличия ИРБИС 2011.1 от предыдущей версии#Исправления ошибок|исправлена в версии 2011.1 (см. ''ошибочное использование абсолютного пути из подполя <tt>^C</tt> в случае относительных ссылок с разбиением на страницы'')]].''
 
  
 
==Ссылки==
 
==Ссылки==
  
 
См. также:
 
См. также:
 +
* [[АРМ Администратор полнотекстовых БД]]
 +
* [[АРМ Читатель для полнотекстовых БД]]
 +
* [[Установка и использование ИРБИС 64 для полнотекстовых баз данных]]
 +
* [[Возможности АРМ Каталогизатор по работе с полнотекстовыми базами данных]]
 
* [[Известные проблемы и их решения, касающиеся работы с полнотекстовыми базами ИРБИС]]
 
* [[Известные проблемы и их решения, касающиеся работы с полнотекстовыми базами ИРБИС]]
* [[Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных]]
 
* [[Базы данных ИРБИС]]
 
* [[АРМ Администратор полнотекстовых БД]]
 
* [[АРМ Администратор]]
 
 
* [[Рекомендации по обслуживанию баз данных ИРБИС]]
 
* [[Рекомендации по обслуживанию баз данных ИРБИС]]
 
* [[Связывание документов базы данных ИРБИС с внешними объектами]]
 
* [[Связывание документов базы данных ИРБИС с внешними объектами]]
* [[Таблица выбора полей#Метод индексирования 9|Метод индексирования 9]]
+
* [[Механизм полнотекстового поиска]]
 +
* [[Полнотекстовая база данных (вид баз данных ИРБИС)]]
 +
* [[Схема полнотекстовой базы данных]]
 +
 
 +
Источники информации:
 +
* [http://irbis.gpntb.ru/read.php?48,17749 Полнотекстовые базы данных в ИРБИС64]
  
 
[[Категория:Полнотекстовые базы данных ИРБИС]]
 
[[Категория:Полнотекстовые базы данных ИРБИС]]
[[Категория:Продукты ИРБИС для работы с полнотекстовыми базами данных]]
 
[[Категория:Работа с ИРБИС]]
 
 
[[Категория:Функциональные возможности ИРБИС]]
 
[[Категория:Функциональные возможности ИРБИС]]
 +
[[Категория:Тексты документации, поставляемой с системой ИРБИС 64]]
 +
[[Категория:Анонсированные статьи]]

Текущая версия на 01:37, 17 февраля 2016

Полнотекстовые базы данных ИРБИСрешение, обеспечивающее возможность ранжированного полнотекстового поиска по коллекциям текстовых документов.

В основе данного решения:

Содержание

Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможности для создателей электронных коллекций текстовых документов:

  • Сформировать полнотекстовую базу данных ИРБИС – указать текстовые документы, по которым система обеспечит возможность полнотекстового поиска.
  • С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.

Возможности для пользователей: получить доступ к коллекции текстовых документов для ранжированного полнотекстового поиска и просмотра найденных документов.

Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64

Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:

  • АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
  • АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
  • Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.

Концепция полнотекстовых баз данных ИРБИС

Полнотекстовые базы данных ИРБИС отличаются возможностью индексирования текстов из внешних файлов. Что обеспечивает возможность организовать поиск этих текстов.

Эта концепция позволяет реализовать перечисленные выше возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Индексирование текстов из внешних файлов основывается на следующих идеях:

  • Связывать записи полнотекстовой базы данных с текстами из внешних файлов, чтобы воспользоваться механизмом индексирования в ИРБИС.
  • Реализовать специальный метод индексирования 9, позволяющий индексировать тексты из внешних файлов, связанные с записями полнотекстовой базы данных.

Для описания механизма связывания записи полнотекстовой базы данных с текстами из внешних файлов вводятся следующие понятия:

  • Понятие объекта полнотекстового поиска – что может быть связано с записью полнотекстовой базы данных (и впоследствии проиндексировано).
  • Понятие ссылки на объекта полнотекстового поиска, посредством которой запись полнотекстовой базы данных связывается с объектом полнотекстового поиска.

Формирование полнотекстовой базы данных

Формирование полнотекстовой базы данных предполагает добавление в полнотекстовую базу данных текстов (также принято называть включение текстов в базу данных) и их последующее индексирование.

Фактически, при добавлении текстов, они рассматриваются как объекты полнотекстового поиска, в соответствие каждому из которых в базе создаётся запись, содержащая ссылку на данный объект. Подробнее см. в статье Схема полнотекстовой базы данных.

Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. в подразделе Включение текстов в полнотекстовую базу данных статьи АРМ Администратор полнотекстовых БД.

Объекты полнотекстового поиска в ИРБИС

Концепция полнотекстовых баз данных ИРБИС предусматривает следующие виды объектов полнотекстового поиска:

Внешний текстовый файл

Файл допустимого типа. Список допустимых форматов приведён в подразделе Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Отдельная страница многостраничного документа

Отдельная страница многостраничного документа (формата PDF или DJVU).

Файл, ассоциированный с текстом-"подложкой"

Файл допустимого типа, сопровождающийся текстовым файлом, содержащим текстовый слой. Список допустимых форматов приведён в подразделе Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных.

Понятие объекта полнотекстового поиска является одним из ключевых в концепции полнотекстовых баз данных:

  • в процессе формирования в базе данных сохраняется ссылка на объект полнотекстового поиска;
  • текст, связанный с объектом полнотекстового поиска подлежит индексированию;
  • список объектов полнотекстового поиска (соответствующих поисковому запросу) будет выдан конечному пользователю в качестве результатов поиска.

Функциональные возможности ИРБИС 64 для полнотекстовых баз данных

Добавление файлов в полнотекстовую базу данных

При добавлении файла в полнотекстовой базе данных создаётся запись, в которой сохраняется ссылка на внешний файл.

Файлы для добавления могут быть указаны выборочно или может быть указана папка, из которой будут добавлены файлы.

Можно установить список расширений, чтобы были добавлены только файлы соответствующих типов.

Добавление многостраничных документов с разбиением на страницы

Файл PDF или DJVU может быть добавлен в полнотекстовую базу с разбиением на страницы (если выбрана соответствующая опция).

В этом случае объектом полнотекстового поиска является отдельная страница PDF или DJVU документа.

В полнотекстовой базе данных создаётся запись, соответствующая каждой странице добавляемого файла, а в каждой записи сохраняется ссылка с указанием номера страницы.

Если пользователь в результате поиска получил отдельную страницу текста, он имеет возможность перейти к другим страницам.

Примечание: с разбиением на страницы НЕ могут быть добавлены файлы PDF или DJVU, находящиеся в архиве.

Индексирование полнотекстовой базы данных

Индексирование полнотекстовой базы данных – процесс наполнения словаря базы данных словами из текстов из внешних файлов, добавленных в базу данных.

Индексирование документов, из которых невозможно извлечение текста

Если при включении полнотекстового документа найдена соответствующая ему подложка, то в соответствующем подполе базы данных сохраняется ссылка на файл подложки. Таким образом происходит ассоциация полнотекстового документа с соответствующей подложкой.

Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.

Подробнее см. в подразделе Ассоциация текста-подложки с включаемым в полнотекстовую базу документом статьи АРМ Администратор полнотекстовых БД.

Индексирование файлов PDF, защищённых паролем

В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля. Подробнее см. в подразделе Извлечение текстовых данных из PDF-файлов, защищённых паролем статьи АРМ Администратор полнотекстовых БД.

Поисковые возможности

В ИРБИС для полнотекстовых БД предусмотрены следующие поисковые возможности:

  • полнотекстовый поиск;
  • поиск по элементам описания полных текстов (по умолчанию предусмотрен поиск по элементам Dublin Core);
  • полнотекстовый поиск, дополненный ограничением по элементам описания;
  • возможность уточнять полнотекстовый поиск при помощи поиска в найденном по элементам описания.

Устаревшие возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможность размещения текстов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Ссылки

См. также:

Источники информации: