Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
Строка 95: Строка 95:
 
'''Известные проблемы:'''
 
'''Известные проблемы:'''
 
* Утилита <tt>pdftk</tt> не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты <tt>pdf2pdf</tt>.
 
* Утилита <tt>pdftk</tt> не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты <tt>pdf2pdf</tt>.
* Утилита <tt>pdf2pdf</tt> не разбивает файлы версии 1.6. Такие файлы следует разбивать с помощью утилиты <tt>pdftk</tt>.
+
* Утилита <tt>pdf2pdf</tt> не разбивает некоторые файлы. Такие файлы следует разбивать с помощью утилиты <tt>pdftk</tt>.
  
 
===Извлечение текста из <tt>PDF</tt>-файлов в процессе создания словаря===
 
===Извлечение текста из <tt>PDF</tt>-файлов в процессе создания словаря===
  
Некоторые проблемы извлечения текста из <tt>PDF</tt>-файлов описаны в [[Особенности работы АРМ Администратор с полнотекстовыми базами#Извлечение текстовых данных из PDF-файлов|соответствующем разделе статьи ''Особенности работы АРМ Администратор с полнотекстовыми базами'']].
+
Для лучшего понимания проблем извлечения текста из <tt>PDF</tt>-файлов следует ознакомиться с [[Особенности работы АРМ Администратор с полнотекстовыми базами#Извлечение текстовых данных из PDF-файлов|соответствующим разделом статьи ''Особенности работы АРМ Администратор с полнотекстовыми базами'']].
  
'''Следует иметь в виду:'''
+
'''Известные проблемы:'''
* В случае использования утилиты <tt>docs2text.exe</tt> в системе должна быть зарегистрирована библиотека <tt>docs2text.dll</tt>. Если библиотека оказалась не зарегистрирована, то следует её зарегистрировать с помощью инструмента Windows <tt>Regsvr32.exe</tt>.
+
* Если в словарь не попадают термины из PDF-файла, то в первую очередь необходимо убедиться в наличии в PDF-файле текстовых данных и возможности их извлечения. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Текст должен выделяться мышью побуквенно; слова из текста должен находить Arcobat Reader своей встроенной системой поиска. Если эти условия выполняются, то текст может быть извлечён, иначе – не может быть извлечён. Если текст может быть извлечён, то следует продолжить диагностировать проблему. Если текст не может быть извлечён, то следует либо подготовить другой PDF-файл вместо проблемного, либо использовать [[Особенности работы АРМ Администратор с полнотекстовыми базами#Ассоциация текста-подложки с включаемым в полнотекстовую базу документом|текстовые подложки]].
 +
* В случае использования утилиты <tt>docs2text.exe</tt> в системе должна быть зарегистрирована библиотека <tt>docs2text.dll</tt>. Случается так, что библиотека оказывается не зарегистрирована. Если это произошло, то следует её зарегистрировать с помощью инструмента Windows <tt>Regsvr32.exe</tt>.
 +
* Если утилиты <tt>pdftotext.exe</tt> и <tt>docs2text.exe</tt> не могут извлечь текст из PDF-файла, то можно рекомендовать попробовать изменить версию PDF-файла, использовать файлы [http://ru.wikipedia.org/wiki/PDF/A стандарта PDF/A, специально предназначенного для долгосрочного архивного хранения документов].
  
 
===Извлечение текста из <tt>DOC</tt>-файлов===
 
===Извлечение текста из <tt>DOC</tt>-файлов===

Версия 20:22, 27 декабря 2010

В этой статье изложены рекомендации по созданию полнотекстовых баз данных ИРБИС.

Содержание

Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов

Для создания или пополнения электронной коллекции полнотекстовых документов необходимо выполнить следующие действия:

Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор

Включение в полнотекстовую базу данных текстов, связанных с электронным каталогом ИРБИС

Для текстов, связанных с базой данных электронного каталога ИРБИС в качестве внешних объектов электронного каталога, предусмотрена специальная возможность включения в полнотекстовую базу таких текстов из указанного электронного каталога.

Использование относительных путей в качестве ссылок на полнотекстовые документы

Использование относительных путей является возможным и рекомендуется для файлов полнотекстовых документов, которые хранятся внутри папки соответствующей базы данных (непосредственно или в одной из вложенных папок).

Достоинства:

  • тексты будут доступны при переносе базы данных;
  • тексты будут доступны через Веб-ИРБИС.

Недостатки:

  • Хранение полнотекстовых документов внутри папки соответствующей базы данных не всегда удобно.

Использование полных путей в качестве ссылок на полнотекстовые документы

Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.

Недостатки:

  • тексты не будут доступны через Веб-ИРБИС.

Если эти тексты имеют URL-адреса, то для обеспечения доступа к ним через Веб-ИРБИС можно использовать перенаправление (при котором происходит замена их сетевых адресов на URL).

Для этого в файле irbis_server.ini, который был создан при инсталляции в папке Веб-сервера для Веб-шлюза ИРБИС, в секции MAIN задать параметры (приведен пример значений параметров):

FullTextPathDbn=\\Alio1\irbiswrk\lusia\PDF_text\
FullTextPathWeb=ftp:\\ftp.gpntb.ru\pub\irbis\

В первом параметре следует указать сетевой путь на тексты, которые располагались по этому пути при их добавлении, в примере это - \\Alio1\irbiswrk\lusia\PDF_text\. Во втором параметре следует указать часть URL текстов (до их названия) их расположения. В примере это - ftp:\\ftp.gpntb.ru\pub\irbis\.

В формате BRIEFHTML_ft.pft имеется вставка (если нет, добавить), которая замещает в адресе текста (в подполе 952^B) путь на файл при создании на URL местоположения текста. Часть формата:

 /* возможность замены формата через параметры irbis_server.ini из cgi
       if &uf('IMAIN,FullTextPathDbn,')<>'' and &uf('IMAIN,FullTextPathWeb,')<>''  
          then
 &uf('+7W10#',&uf('+9I?',,&uf('IMAIN,FullTextPathDbn,'),,'?#',,&uf('IMAIN,FullTextPathWeb,'),,'#',v952^B)),
           '<a  style="border:0px;font-size:12px;" target=_blank href="',G10,
          else 
 /*
 

Здесь использован форматный выход &uf('+9I?исходная строка?#выходная строка#строка где замена). Ограничители ? и # могут быть любыми символами с кодом меньше 128.

Полнотекстовые базы в Веб-ИРБИС

Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.

Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря

Разбиение PDF-файлов на страницы при добавлении в базу данных

Разбиение на страницы осуществляется с помощью одной из утилит: pdftk или pdf2pdf.

Утилита выбирается в соответствии со значением параметра PDFSplitter в конфигурационном файле АРМ Администратор ИРБИС.

Известные проблемы:

  • Утилита pdftk не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты pdf2pdf.
  • Утилита pdf2pdf не разбивает некоторые файлы. Такие файлы следует разбивать с помощью утилиты pdftk.

Извлечение текста из PDF-файлов в процессе создания словаря

Для лучшего понимания проблем извлечения текста из PDF-файлов следует ознакомиться с соответствующим разделом статьи Особенности работы АРМ Администратор с полнотекстовыми базами.

Известные проблемы:

  • Если в словарь не попадают термины из PDF-файла, то в первую очередь необходимо убедиться в наличии в PDF-файле текстовых данных и возможности их извлечения. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Текст должен выделяться мышью побуквенно; слова из текста должен находить Arcobat Reader своей встроенной системой поиска. Если эти условия выполняются, то текст может быть извлечён, иначе – не может быть извлечён. Если текст может быть извлечён, то следует продолжить диагностировать проблему. Если текст не может быть извлечён, то следует либо подготовить другой PDF-файл вместо проблемного, либо использовать текстовые подложки.
  • В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Случается так, что библиотека оказывается не зарегистрирована. Если это произошло, то следует её зарегистрировать с помощью инструмента Windows Regsvr32.exe.
  • Если утилиты pdftotext.exe и docs2text.exe не могут извлечь текст из PDF-файла, то можно рекомендовать попробовать изменить версию PDF-файла, использовать файлы стандарта PDF/A, специально предназначенного для долгосрочного архивного хранения документов.

Извлечение текста из DOC-файлов

Извлечение текста из DOC-файлов выполняется при создании словаря.

Извлечение текста осуществляется с помощью утилиты docs2text.exe или с помощью программы Microsoft Word (с использованием технологии Ole Automation).

Способ извлечения текста выбирается в соответствии со значением параметра Converter_Word в конфигурационном файле АРМ Администратор ИРБИС.

Следует иметь в виду:

  • Для извлечения текста вторым способом необходимо наличие установленного приложения Microsoft Word.
  • В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.

Известные проблемы:

  • Практика показывает, что утилита docs2text.exe не извлекает текст из файлов, содержащих много графических изображений, файлов большого размера (например, десятки мегабайт). При извлечении текста из таких файлов следует выбирать способ с использованием программы Microsoft Word.
  • Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты docs2text.exe.

Ссылки

См. также: