Полнотекстовые базы данных ИРБИС — различия между версиями

Версия 20:22, 27 декабря 2010

В этой статье изложены рекомендации по созданию полнотекстовых баз данных ИРБИС.

Содержание

1 Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов
2 Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор
3 Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами
4 Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря
5 Ссылки

Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов

Для создания или пополнения электронной коллекции полнотекстовых документов необходимо выполнить следующие действия:

Выбор существующей или создание новой полнотекстовой базы данных, куда будут добавлены тексты.
Добавление текстов в базу данных.
Актуализация или создание словаря базы данных (рекомендуется ознакомиться с особенностями обслуживания словаря полнотекстовых баз данных).

Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор

Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС

Для текстов, связанных с базой данных электронного каталога ИРБИС в качестве внешних объектов электронного каталога, предусмотрена специальная возможность включения в полнотекстовую базу таких текстов из указанного электронного каталога.

Использование относительных путей в качестве ссылок на полнотекстовые документы

Использование относительных путей является возможным и рекомендуется для файлов полнотекстовых документов, которые хранятся внутри папки соответствующей базы данных (непосредственно или в одной из вложенных папок).

Достоинства:

тексты будут доступны при переносе базы данных;
тексты будут доступны через Веб-ИРБИС.

Недостатки:

Хранение полнотекстовых документов внутри папки соответствующей базы данных не всегда удобно.

Использование полных путей в качестве ссылок на полнотекстовые документы

Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.

Недостатки:

тексты не будут доступны через Веб-ИРБИС.

Если эти тексты имеют URL-адреса, то для обеспечения доступа к ним через Веб-ИРБИС можно использовать перенаправление (при котором происходит замена их сетевых адресов на URL).

Для этого в файле irbis_server.ini, который был создан при инсталляции в папке Веб-сервера для Веб-шлюза ИРБИС, в секции MAIN задать параметры (приведен пример значений параметров):

FullTextPathDbn=\\Alio1\irbiswrk\lusia\PDF_text\
FullTextPathWeb=ftp:\\ftp.gpntb.ru\pub\irbis\

В первом параметре следует указать сетевой путь на тексты, которые располагались по этому пути при их добавлении, в примере это - \\Alio1\irbiswrk\lusia\PDF_text\. Во втором параметре следует указать часть URL текстов (до их названия) их расположения. В примере это - ftp:\\ftp.gpntb.ru\pub\irbis\.

В формате BRIEFHTML_ft.pft имеется вставка (если нет, добавить), которая замещает в адресе текста (в подполе 952^B) путь на файл при создании на URL местоположения текста. Часть формата:

 /* возможность замены формата через параметры irbis_server.ini из cgi
       if &uf('IMAIN,FullTextPathDbn,')<>'' and &uf('IMAIN,FullTextPathWeb,')<>''  
          then
 &uf('+7W10#',&uf('+9I?',,&uf('IMAIN,FullTextPathDbn,'),,'?#',,&uf('IMAIN,FullTextPathWeb,'),,'#',v952^B)),
           '<a  style="border:0px;font-size:12px;" target=_blank href="',G10,
          else 
 /*

Здесь использован форматный выход &uf('+9I?исходная строка?#выходная строка#строка где замена). Ограничители ? и # могут быть любыми символами с кодом меньше 128.

Полнотекстовые базы в Веб-ИРБИС

Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.

Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
Тексты не доступны через Веб-ИРБИС.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря

Разбиение PDF-файлов на страницы при добавлении в базу данных

Разбиение на страницы осуществляется с помощью одной из утилит: pdftk или pdf2pdf.

Утилита выбирается в соответствии со значением параметра PDFSplitter в конфигурационном файле АРМ Администратор ИРБИС.

Известные проблемы:

Утилита pdftk не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты pdf2pdf.
Утилита pdf2pdf не разбивает некоторые файлы. Такие файлы следует разбивать с помощью утилиты pdftk.

Извлечение текста из `PDF`-файлов в процессе создания словаря

Для лучшего понимания проблем извлечения текста из PDF-файлов следует ознакомиться с соответствующим разделом статьи Особенности работы АРМ Администратор с полнотекстовыми базами.

Известные проблемы:

Если в словарь не попадают термины из PDF-файла, то в первую очередь необходимо убедиться в наличии в PDF-файле текстовых данных и возможности их извлечения. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Текст должен выделяться мышью побуквенно; слова из текста должен находить Arcobat Reader своей встроенной системой поиска. Если эти условия выполняются, то текст может быть извлечён, иначе – не может быть извлечён. Если текст может быть извлечён, то следует продолжить диагностировать проблему. Если текст не может быть извлечён, то следует либо подготовить другой PDF-файл вместо проблемного, либо использовать текстовые подложки.
В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Случается так, что библиотека оказывается не зарегистрирована. Если это произошло, то следует её зарегистрировать с помощью инструмента Windows Regsvr32.exe.
Если утилиты pdftotext.exe и docs2text.exe не могут извлечь текст из PDF-файла, то можно рекомендовать попробовать изменить версию PDF-файла, использовать файлы стандарта PDF/A, специально предназначенного для долгосрочного архивного хранения документов.

Извлечение текста из `DOC`-файлов

Извлечение текста из DOC-файлов выполняется при создании словаря.

Извлечение текста осуществляется с помощью утилиты docs2text.exe или с помощью программы Microsoft Word (с использованием технологии Ole Automation).

Способ извлечения текста выбирается в соответствии со значением параметра Converter_Word в конфигурационном файле АРМ Администратор ИРБИС.

Следует иметь в виду:

Для извлечения текста вторым способом необходимо наличие установленного приложения Microsoft Word.
В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.

Известные проблемы:

Практика показывает, что утилита docs2text.exe не извлекает текст из файлов, содержащих много графических изображений, файлов большого размера (например, десятки мегабайт). При извлечении текста из таких файлов следует выбирать способ с использованием программы Microsoft Word.
Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты docs2text.exe.

Ссылки

См. также:

@@ Строка 95: / Строка 95: @@
 '''Известные проблемы:'''
 * Утилита <tt>pdftk</tt> не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты <tt>pdf2pdf</tt>.
-* Утилита <tt>pdf2pdf</tt> не разбивает файлы версии 1.6. Такие файлы следует разбивать с помощью утилиты <tt>pdftk</tt>.
+* Утилита <tt>pdf2pdf</tt> не разбивает некоторые файлы. Такие файлы следует разбивать с помощью утилиты <tt>pdftk</tt>.
 ===Извлечение текста из <tt>PDF</tt>-файлов в процессе создания словаря===
-Некоторые проблемы извлечения текста из <tt>PDF</tt>-файлов описаны в [[Особенности работы АРМ Администратор с полнотекстовыми базами#Извлечение текстовых данных из PDF-файлов|соответствующем разделе статьи ''Особенности работы АРМ Администратор с полнотекстовыми базами'']].
+Для лучшего понимания проблем извлечения текста из <tt>PDF</tt>-файлов следует ознакомиться с [[Особенности работы АРМ Администратор с полнотекстовыми базами#Извлечение текстовых данных из PDF-файлов|соответствующим разделом статьи ''Особенности работы АРМ Администратор с полнотекстовыми базами'']].
-'''Следует иметь в виду:'''
+'''Известные проблемы:'''
-* В случае использования утилиты <tt>docs2text.exe</tt> в системе должна быть зарегистрирована библиотека <tt>docs2text.dll</tt>. Если библиотека оказалась не зарегистрирована, то следует её зарегистрировать с помощью инструмента Windows <tt>Regsvr32.exe</tt>.
+* Если в словарь не попадают термины из PDF-файла, то в первую очередь необходимо убедиться в наличии в PDF-файле текстовых данных и возможности их извлечения. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Текст должен выделяться мышью побуквенно; слова из текста должен находить Arcobat Reader своей встроенной системой поиска. Если эти условия выполняются, то текст может быть извлечён, иначе – не может быть извлечён. Если текст может быть извлечён, то следует продолжить диагностировать проблему. Если текст не может быть извлечён, то следует либо подготовить другой PDF-файл вместо проблемного, либо использовать [[Особенности работы АРМ Администратор с полнотекстовыми базами#Ассоциация текста-подложки с включаемым в полнотекстовую базу документом|текстовые подложки]].
+* В случае использования утилиты <tt>docs2text.exe</tt> в системе должна быть зарегистрирована библиотека <tt>docs2text.dll</tt>. Случается так, что библиотека оказывается не зарегистрирована. Если это произошло, то следует её зарегистрировать с помощью инструмента Windows <tt>Regsvr32.exe</tt>.
+* Если утилиты <tt>pdftotext.exe</tt> и <tt>docs2text.exe</tt> не могут извлечь текст из PDF-файла, то можно рекомендовать попробовать изменить версию PDF-файла, использовать файлы [http://ru.wikipedia.org/wiki/PDF/A стандарта PDF/A, специально предназначенного для долгосрочного архивного хранения документов].
 ===Извлечение текста из <tt>DOC</tt>-файлов===

Полнотекстовые базы данных ИРБИС — различия между версиями

Версия 20:22, 27 декабря 2010

Содержание

Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов

Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор

Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС

Использование относительных путей в качестве ссылок на полнотекстовые документы

Использование полных путей в качестве ссылок на полнотекстовые документы

Полнотекстовые базы в Веб-ИРБИС

Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря

Разбиение PDF-файлов на страницы при добавлении в базу данных

Извлечение текста из `PDF`-файлов в процессе создания словаря

Извлечение текста из `DOC`-файлов

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты

Полнотекстовые базы данных ИРБИС — различия между версиями

Версия 20:22, 27 декабря 2010

Содержание

Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов

Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор

Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС

Использование относительных путей в качестве ссылок на полнотекстовые документы

Использование полных путей в качестве ссылок на полнотекстовые документы

Полнотекстовые базы в Веб-ИРБИС

Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря

Разбиение PDF-файлов на страницы при добавлении в базу данных

Извлечение текста из PDF-файлов в процессе создания словаря

Извлечение текста из DOC-файлов

Ссылки

Навигация

Поиск

Извлечение текста из `PDF`-файлов в процессе создания словаря

Извлечение текста из `DOC`-файлов