Полнотекстовые базы данных ИРБИС
В этой статье изложены рекомендации по созданию полнотекстовых баз данных ИРБИС.
Содержание
- 1 Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов
- 2 Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор
- 2.1 Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС
- 2.2 Использование относительных путей в качестве ссылок на полнотекстовые документы
- 2.3 Использование полных путей в качестве ссылок на полнотекстовые документы
- 2.4 Включение указанных пользователем документов или всех документов из указанной пользователем папки
- 2.5 Включение полнотекстовых документов с копированием в специально предназначенный архив в версии 2009.1
- 2.6 Полнотекстовые базы в Веб-ИРБИС
- 3 Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами
- 4 Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря
- 5 Ссылки
Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов
Для создания или пополнения электронной коллекции полнотекстовых документов необходимо выполнить следующие действия:
- Выбор существующей или создание новой полнотекстовой базы данных, куда будут добавлены тексты.
- Добавление текстов в базу данных.
- Актуализация или создание словаря базы данных.
При добавлении текстов в базу данных добавляются соответствующие записи, содержащие ссылки на файлы с полными текстами. При этом тексты (текстовые данные) не извлекаются из файлов, а сами файлы остаются в неизменном виде на файловой системе.
При актуализации или создании словаря по содержащихся в записях базы ссылкам находятся соответствующие файлы (содержащие полные тексты), и тексты извлекаются из них. На основе извлечённых текстов строится словарь базы данных.
Следует иметь в виду:
- В словарь попадут только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).
Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор
Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС
Если существует база данных электронного каталога ИРБИС, в которой есть ссылки на текстовые документы, то эти тексты могут быть добавлены в полнотекстовую базу данных.
Использование относительных путей в качестве ссылок на полнотекстовые документы
Использование относительных путей является возможным и рекомендуется для файлов полнотекстовых документов, которые хранятся внутри папки соответствующей базы данных (непосредственно или в одной из вложенных папок).
Достоинства:
- тексты будут доступны при переносе базы данных;
- тексты будут доступны через Веб-ИРБИС.
Недостатки:
- Хранение полнотекстовых документов внутри папки соответствующей базы данных не всегда удобно.
Использование полных путей в качестве ссылок на полнотекстовые документы
Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.
Недостатки:
- тексты не будут доступны через Веб-ИРБИС.
Если эти тексты имеют URL-адреса, то для обеспечения доступа к ним через Веб-ИРБИС можно использовать перенаправление (при котором происходит замена их сетевых адресов на URL).
Для этого в файле irbis_server.ini, который был создан при инсталляции в папке Веб-сервера для Веб-шлюза ИРБИС, в секции MAIN задать параметры (приведен пример значений параметров):
FullTextPathDbn=\\Alio1\irbiswrk\lusia\PDF_text\ FullTextPathWeb=ftp:\\ftp.gpntb.ru\pub\irbis\
В первом параметре следует указать сетевой путь на тексты, которые располагались по этому пути при их добавлении, в примере это - \\Alio1\irbiswrk\lusia\PDF_text\. Во втором параметре следует указать часть URL текстов (до их названия) их расположения. В примере это - ftp:\\ftp.gpntb.ru\pub\irbis\.
В формате BRIEFHTML_ft.pft имеется вставка (если нет, добавить), которая замещает в адресе текста (в подполе 952^B) путь на файл при создании на URL местоположения текста. Часть формата:
/* возможность замены формата через параметры irbis_server.ini из cgi if &uf('IMAIN,FullTextPathDbn,')<>'' and &uf('IMAIN,FullTextPathWeb,')<>'' then &uf('+7W10#',&uf('+9I?',,&uf('IMAIN,FullTextPathDbn,'),,'?#',,&uf('IMAIN,FullTextPathWeb,'),,'#',v952^B)), '<a style="border:0px;font-size:12px;" target=_blank href="',G10, else /*
Здесь использован форматный выход &uf('+9I?исходная строка?#выходная строка#строка где замена). Ограничители ? и # могут быть любыми символами с кодом меньше 128.
Включение указанных пользователем документов или всех документов из указанной пользователем папки
Выбор одного из вариантов осуществляется с помощью флажка Добавить директорию с текстами.
Включение полнотекстовых документов с копированием в специально предназначенный архив в версии 2009.1
Примечание: начиная с версии 2010.1 планируется отказ от поддержки данной возможности в связи с недостатками. В связи с чем не рекомендуется использовать эту возможность.
Опции включения полнотекстовых документов, совместимые с данной:
- Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.
Достоинства:
- Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
- При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).
Недостатки:
- Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
- Тексты не доступны через Веб-ИРБИС.
Полнотекстовые базы в Веб-ИРБИС
Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.
Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами
Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.
Сходства возможностей:
- Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
Различия возможностей:
- Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
- Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря
Разбиение PDF-файлов на страницы при добавлении в базу данных
Разбиение на страницы осуществляется с помощью одной из утилит: pdftk или pdf2pdf.
Утилита выбирается в соответствии со значением параметра PDFSplitter в конфигурационном файле АРМ Администратор ИРБИС.
Известные проблемы:
- Утилита pdftk не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты pdf2pdf.
- Утилита pdf2pdf не разбивает файлы версии 1.6. Такие файлы следует разбивать с помощью утилиты pdftk.
Извлечение текста из PDF-файлов в процессе создания словаря
Извлечение текста в процессе создания словаря осуществляется с помощью одной из утилит: pdftotext.exe или docs2text.exe.
Утилита выбирается в соответствии со значением параметра Converter_PDF в конфигурационном файле АРМ Администратор ИРБИС.
Следует иметь в виду:
- В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.
Известные проблемы:
- Утилита docs2text.exe не извлекает текст из файлов версии 1.6. Такие файлы следует обрабатывать с помощью утилиты pdftotext.exe.
Извлечение текста из DOC-файлов
Извлечение текста из DOC-файлов выполняется при создании словаря.
Извлечение текста осуществляется с помощью утилиты docs2text.exe или с помощью программы Microsoft Word (с использованием технологии Ole Automation).
Способ извлечения текста выбирается в соответствии со значением параметра Converter_Word в конфигурационном файле АРМ Администратор ИРБИС.
Следует иметь в виду:
- Для извлечения текста вторым способом необходимо наличие установленного приложения Microsoft Word.
- В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.
Известные проблемы:
- Практика показывает, что утилита docs2text.exe не извлекает текст из файлов, содержащих много графических изображений, файлов большого размера (например, десятки мегабайт). При извлечении текста из таких файлов следует выбирать способ с использованием программы Microsoft Word.
- Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты docs2text.exe.
Ссылки
См. также: