Полнотекстовые базы данных ИРБИС
На платформе ИРБИС 64 есть возможность создания электронных коллекций текстовых документов и полнотекстового поиска в этих коллекциях. Для этого в ИРБИС реализованы полнотекстовые базы данных и набор программных продуктов для работы с полнотекстовыми базами данных.
Полнотекстовые базы данных ИРБИС являются доработанной версией произвольных баз данных и отличаются возможностями включения полнотекстовых документов в БД: добавления полнотекстовых документов в базу (добавления ссылок на полнотекстовые документы) и построения индекса на основе текстового содержимого добавленных в базу полнотекстовых документов.
Содержание
- 1 Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных
- 2 Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64
- 3 Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов
- 4 Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор
- 4.1 Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС
- 4.2 Использование относительных путей в качестве ссылок на полнотекстовые документы
- 4.3 Использование полных путей в качестве ссылок на полнотекстовые документы
- 4.4 Полнотекстовые базы в Веб-ИРБИС
- 4.5 Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)
- 5 Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами
- 6 Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря
- 7 Ссылки на файлы полнотекстовых документов
- 8 Ссылки
Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных
Возможности для создателей электронных коллекций:
- сформировать электронную коллекцию – создать полнотекстовую базу данных из имеющихся полнотекстовых документов;
- предоставить её пользователям в локальной сети, Интернет или на CD/DVD.
Возможности для пользователей электронных коллекций: осуществлять полнотекстовый поиск и просмотр найденных документов.
В полнотекстовые базы данных ИРБИС могут быть включены полнотекстовые документы в форматах HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.
Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64
Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:
- АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет создавать полнотекстовые базы данных и обслуживать их.
- АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
- Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.
Примечание: об особенностях организации доступа пользователей к коллекциям полнотекстовых документов см. подразделы Файловый доступ к коллекциям полнотекстовых документов с помощью АРМ Читатель полнотекстовых БД и Доступ к коллекциям полнотекстовых документов через веб-браузер с помощью веб-шлюза ИРБИС для полнотекстовых БД статьи Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных.
Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов
Для создания или пополнения электронной коллекции полнотекстовых документов необходимо выполнить следующие действия:
- Выбор существующей или создание новой полнотекстовой базы данных, куда будут добавлены тексты.
- Добавление текстов в базу данных.
- Актуализация или создание словаря базы данных (рекомендуется ознакомиться с особенностями обслуживания словаря полнотекстовых баз данных).
Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор
Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС
Для текстов, связанных с базой данных электронного каталога ИРБИС в качестве внешних объектов электронного каталога, предусмотрена специальная возможность включения в полнотекстовую базу таких текстов из указанного электронного каталога.
Использование относительных путей в качестве ссылок на полнотекстовые документы
Использование относительных путей является возможным и рекомендуется для файлов полнотекстовых документов, которые хранятся внутри папки соответствующей базы данных (непосредственно или в одной из вложенных папок).
Достоинства:
- тексты будут доступны при переносе базы данных;
- тексты будут доступны через Веб-ИРБИС.
Недостатки:
- Хранение полнотекстовых документов внутри папки соответствующей базы данных не всегда удобно.
Использование полных путей в качестве ссылок на полнотекстовые документы
Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.
Недостатки:
- тексты не будут доступны через Веб-ИРБИС.
Если эти тексты имеют URL-адреса, то для обеспечения доступа к ним через Веб-ИРБИС можно использовать перенаправление (при котором происходит замена их сетевых адресов на URL).
Для этого в файле irbis_server.ini, который был создан при инсталляции в папке Веб-сервера для Веб-шлюза ИРБИС, в секции MAIN задать параметры (приведен пример значений параметров):
FullTextPathDbn=\\Alio1\irbiswrk\lusia\PDF_text\ FullTextPathWeb=ftp:\\ftp.gpntb.ru\pub\irbis\
В первом параметре следует указать сетевой путь на тексты, которые располагались по этому пути при их добавлении, в примере это - \\Alio1\irbiswrk\lusia\PDF_text\. Во втором параметре следует указать часть URL текстов (до их названия) их расположения. В примере это - ftp:\\ftp.gpntb.ru\pub\irbis\.
В формате BRIEFHTML_ft.pft имеется вставка (если нет, добавить), которая замещает в адресе текста (в подполе 952^B) путь на файл при создании на URL местоположения текста. Часть формата:
/* возможность замены формата через параметры irbis_server.ini из cgi if &uf('IMAIN,FullTextPathDbn,')<>'' and &uf('IMAIN,FullTextPathWeb,')<>'' then &uf('+7W10#',&uf('+9I?',,&uf('IMAIN,FullTextPathDbn,'),,'?#',,&uf('IMAIN,FullTextPathWeb,'),,'#',v952^B)), '<a style="border:0px;font-size:12px;" target=_blank href="',G10, else /*
Здесь использован форматный выход &uf('+9I?исходная строка?#выходная строка#строка где замена). Ограничители ? и # могут быть любыми символами с кодом меньше 128.
Полнотекстовые базы в Веб-ИРБИС
Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.
Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)
Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.
Опции включения полнотекстовых документов, совместимые с данной:
- Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.
Достоинства:
- Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
- При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).
Недостатки:
- Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
- Тексты не доступны через Веб-ИРБИС.
Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами
Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.
Сходства возможностей:
- Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
Различия возможностей:
- Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
- Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря
Разбиение PDF-файлов на страницы при добавлении в базу данных
Разбиение на страницы осуществляется с помощью одной из утилит: pdftk или pdf2pdf.
Утилита выбирается в соответствии со значением параметра PDFSplitter в конфигурационном файле АРМ Администратор ИРБИС.
Известные проблемы:
- Утилита pdftk не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты pdf2pdf.
- Утилита pdf2pdf не разбивает некоторые файлы. Такие файлы следует разбивать с помощью утилиты pdftk.
Извлечение текста из PDF-файлов в процессе создания словаря
Для лучшего понимания проблем извлечения текста из PDF-файлов следует ознакомиться с соответствующим разделом статьи АРМ Администратор полнотекстовых БД.
Известные проблемы:
- Если в словарь не попадают термины из PDF-файла, то в первую очередь необходимо убедиться в наличии в PDF-файле текстовых данных и возможности их извлечения. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Текст должен выделяться мышью побуквенно; слова из текста должен находить Arcobat Reader своей встроенной системой поиска. Если эти условия выполняются, то текст может быть извлечён, иначе – не может быть извлечён. Если текст может быть извлечён, то следует продолжить диагностировать проблему. Если текст не может быть извлечён, то следует либо подготовить другой PDF-файл вместо проблемного, либо использовать текстовые подложки.
- В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Случается так, что библиотека оказывается не зарегистрирована. Если это произошло, то следует её зарегистрировать с помощью инструмента Windows Regsvr32.exe.
- Если утилиты pdftotext.exe и docs2text.exe не могут извлечь текст из PDF-файла, то можно рекомендовать попробовать изменить версию PDF-файла, использовать файлы стандарта PDF/A, специально предназначенного для долгосрочного архивного хранения документов.
Извлечение текста из DOC-файлов
Извлечение текста из DOC-файлов выполняется при создании словаря.
Извлечение текста осуществляется с помощью утилиты docs2text.exe или с помощью программы Microsoft Word (с использованием технологии Ole Automation).
Способ извлечения текста выбирается в соответствии со значением параметра Converter_Word в конфигурационном файле АРМ Администратор ИРБИС.
Следует иметь в виду:
- Для извлечения текста вторым способом необходимо наличие установленного приложения Microsoft Word.
- В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.
Известные проблемы:
- Практика показывает, что утилита docs2text.exe не извлекает текст из файлов, содержащих много графических изображений, файлов большого размера (например, десятки мегабайт). При извлечении текста из таких файлов следует выбирать способ с использованием программы Microsoft Word.
- Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты docs2text.exe.
Ссылки на файлы полнотекстовых документов
Для ссылок на файлы полных текстов в полнотекстовой базе данных используется выбранное для этого поле (по умолчанию метка поля 952).
Поле доступно на рабочем листе Технологическая в АРМ Каталогизатор.
Для описания ссылки на полнотекстовый документ предлагаются подполя:
- А – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением .izp, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
- B – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах .zip и .rar, а также в случае ссылок на отдельные страницы многостраничных документов .pdf и .djvu. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
- C – полный путь к файлу zip/rar/pdf/djvu. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
- I – URL текста, перенесённого из электронного каталога.
Примеры заполнения подполей:
- Относительная ссылка на документ
^B.\texts\irbis64_2008.doc
- Абсолютная ссылка на документ
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
- Ссылка на 69-ю страницу pdf-документа (относительная ссылка на документ)
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
- Ссылка на 1-ю страницу pdf-документа (абсолютная ссылка на документ)
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
- Ссылка на документ в архиве
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
- Ссылка на документ в архиве .izp
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
Ссылки
См. также:
- Известные проблемы и их решения, касающиеся работы с полнотекстовыми базами ИРБИС
- Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных
- Базы данных ИРБИС
- АРМ Администратор полнотекстовых БД
- АРМ Администратор
- Рекомендации по обслуживанию баз данных ИРБИС
- Связывание документов базы данных ИРБИС с внешними объектами