Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
(Извлечение текста из PDF-файлов)
Строка 1: Строка 1:
В версии '''АРМ Администратор полнотекстовых БД''' присутствует функциональная возможность включения полнотекстовых документов в базу данных ИРБИС.
+
==Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов==
  
Идея включения полнотекстовых документов в базу данных ИРБИС – предоставить пользователю возможность осуществлять полнотекстовый поиск и просмотр найденных документов.
+
Для создания или пополнения электронной коллекции полнотекстовых документов необходимо выполнить следующие действия:
 
+
* [[АРМ Администратор#Установка текущей базы данных|Выбор существующей]] или [[АРМ Администратор#Создание новой базы данных|создание новой]] полнотекстовой базы данных, куда будут добавлены тексты.
В полнотекстовые базы данных ИРБИС могут быть включены полнотекстовые документы в форматах HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.
+
* [[Особенности работы АРМ Администратор с полнотекстовыми базами#Включение полнотекстовых документов в базу данных ИРБИС|Добавление текстов в базу данных]].
 
+
* [[АРМ Администратор#Актуализация словаря базы данных ИРБИС|Актуализация]] или [[АРМ Администратор#Создание словаря базы данных ИРБИС|создание словаря базы данных]].
==Отличие возможности ''включения полнотекстовых документов в базу данных'' от возможности ''связывания документов базы данных с внешними объектами''==
 
 
 
Не следует путать ''возможность включения полнотекстовых документов'' с ''возможностью [[Связывание документов базы данных ИРБИС с внешними объектами|связывания документов базы данных с внешними объектами]]''.
 
 
 
'''Сходства возможностей:'''
 
* Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
 
 
 
'''Различия возможностей:'''
 
* ''Возможность связывания документов базы данных с внешними объектами'' ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
 
* ''Возможность включения полнотекстовых документов в базу данных'' обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
 
 
 
==Включение полнотекстовых документов в базу данных с точки зрения администратора системы ИРБИС==
 
 
 
К процессу включения полнотекстовых документов в базу данных ИРБИС относятся следующие действия:
 
* добавление текстов в базу данных,
 
* актуализация или создание словаря базы данных.
 
  
 
При добавлении текстов в базу данных добавляются соответствующие записи, содержащие ссылки на файлы с полными текстами. При этом тексты (текстовые данные) не извлекаются из файлов, а сами файлы остаются в неизменном виде на файловой системе.
 
При добавлении текстов в базу данных добавляются соответствующие записи, содержащие ссылки на файлы с полными текстами. При этом тексты (текстовые данные) не извлекаются из файлов, а сами файлы остаются в неизменном виде на файловой системе.
Строка 28: Строка 12:
 
'''Следует иметь в виду:'''
 
'''Следует иметь в виду:'''
 
* В словарь попадут только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).
 
* В словарь попадут только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).
 
==Настройки, доступные при включении полнотекстовых документов в базу данных ИРБИС==
 
 
===Возможности выбора полнотекстовых документов, которые необходимо включить в базу данных ИРБИС===
 
 
В зависимости от выбранных опций, в текущую базу данных могут быть включены:
 
* Документы, явно указанные пользователем.
 
* Все документы из папки, указанной пользователем.
 
* Все документы из архива ZIP или RAR, указанного пользователем.
 
* полнотекстовые документы, на которые имеются [[Связывание документов базы данных ИРБИС с внешними объектами|ссылки в <tt>951</tt> поле указанной пользователем базы данных ИРБИС]].
 
 
===Виды ссылок на полнотекстовые документы (относительные или абсолютные)===
 
 
В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам.
 
 
===Возможность размещения полнотекстовых документов в специально предназначенном архиве===
 
 
'''''Примечание: начиная с версии 2010.1 планируется отказ от поддержки данной возможности в связи с недостатками. В связи с чем не рекомендуется использовать эту возможность.'''''
 
 
В зависимости от выбранных опций, при включении полнотекстовых документов в базу данных
 
документы могут быть скопированы в специально предназначенный архив – файл с расширением <tt>.izp</tt> в папке базы данных.
 
 
==Информация, вносимая в базу данных при включении полнотекстовых документов==
 
 
===Ссылки на файлы полнотекстовых документов===
 
 
Для ссылок на файлы полных текстов в полнотекстовой базе данных предлагается специальное поле (по умолчанию [[Использование в ИРБИС полей из блока локального использования формата RUSMARC|метка поля <tt>952</tt>]]).
 
 
Поле доступно на рабочем листе ''Технологическая'' в [[АРМ Каталогизатор]].
 
 
Для описания ссылки на полнотекстовый документ предлагаются подполя:
 
* <tt>А</tt> – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением <tt>.izp</tt>, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
 
* <tt>B</tt> – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах <tt>.zip</tt> и <tt>.rar</tt>, а также в случае ссылок на отдельные страницы многостраничных документов <tt>.pdf</tt> и <tt>.djvu</tt>. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
 
* <tt>C</tt> – полный путь к файлу <tt>zip/rar/pdf/djvu</tt>. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
 
* <tt>I</tt> – URL текста, перенесённого из электронного каталога.
 
 
'''Примеры заполнения подполей''':
 
 
* '''Относительная ссылка на документ'''
 
 
^B.\texts\irbis64_2008.doc
 
 
* '''Абсолютная ссылка на документ'''
 
 
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
 
 
* '''Ссылка на 69-ю страницу <tt>pdf</tt>-документа (относительная ссылка на документ)'''
 
 
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
 
 
* '''Ссылка на 1-ю страницу <tt>pdf</tt>-документа (абсолютная ссылка на документ)'''
 
 
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
 
 
* '''Ссылка на документ в архиве'''
 
 
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
 
 
* '''Ссылка на документ в архиве <tt>.izp</tt>'''
 
 
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
 
  
 
==Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор==
 
==Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор==
Строка 164: Строка 87:
  
 
Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.
 
Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.
 +
 +
==Отличие возможности ''включения полнотекстовых документов в базу данных'' от возможности ''связывания документов базы данных с внешними объектами''==
 +
 +
Не следует путать ''возможность включения полнотекстовых документов'' с ''возможностью [[Связывание документов базы данных ИРБИС с внешними объектами|связывания документов базы данных с внешними объектами]]''.
 +
 +
'''Сходства возможностей:'''
 +
* Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
 +
 +
'''Различия возможностей:'''
 +
* ''Возможность связывания документов базы данных с внешними объектами'' ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
 +
* ''Возможность включения полнотекстовых документов в базу данных'' обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
  
 
==Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря==
 
==Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря==
Строка 212: Строка 146:
  
 
См. также:
 
См. также:
 +
* [[Электронные коллекции полнотекстовых документов на платформе ИРБИС 64]]
 
* [[АРМ Администратор]]
 
* [[АРМ Администратор]]
* [[Связывание документов базы данных ИРБИС с внешними объектами]]
+
* [[Особенности работы АРМ Администратор с полнотекстовыми базами]]
 
* [[Конфигурационный файл АРМ Администратор ИРБИС]]
 
* [[Конфигурационный файл АРМ Администратор ИРБИС]]
 +
* [[Полнотекстовые базы данных ИРБИС]]
  
 
[[Категория:АРМ Администратор]]
 
[[Категория:АРМ Администратор]]
Строка 220: Строка 156:
 
[[Категория:Продукты ИРБИС для работы с полнотекстовыми базами данных]]
 
[[Категория:Продукты ИРБИС для работы с полнотекстовыми базами данных]]
 
[[Категория:Работа с ИРБИС]]
 
[[Категория:Работа с ИРБИС]]
[[Категория:Функциональные возможности ИРБИС]]
 

Версия 06:27, 29 ноября 2010

Содержание

Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов

Для создания или пополнения электронной коллекции полнотекстовых документов необходимо выполнить следующие действия:

При добавлении текстов в базу данных добавляются соответствующие записи, содержащие ссылки на файлы с полными текстами. При этом тексты (текстовые данные) не извлекаются из файлов, а сами файлы остаются в неизменном виде на файловой системе.

При актуализации или создании словаря по содержащихся в записях базы ссылкам находятся соответствующие файлы (содержащие полные тексты), и тексты извлекаются из них. На основе извлечённых текстов строится словарь базы данных.

Следует иметь в виду:

  • В словарь попадут только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).

Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор

Включение полнотекстовых документов в базу данных ИРБИС осуществляется с помощью специального диалогового окна, которое открывается при вызове пункта главного меню Полнотекстовый сервис – Добавить / удалить полнотекстовые документы (или Полнотекстовый сервис – Добавить (удалить) тексты в БД в версиях до 2010.1).

Собственно включение полнотекстовых документов в базу данных ИРБИС происходит после нажатия кнопки Добавить.

Существует ряд настроек, касающихся особенностей включения полнотекстовых документов в базу данных ИРБИС, которым посвящены следующие подразделы.

Включение в полнотекстовую базу полнотекстовых документов, на которые имеются ссылки в 951 поле другой базы данных ИРБИС

Возможность осуществляется с помощью кнопки Добавить тексты из ЭК.

Данная возможность предусмотрена для следующего случая: если в полнотекстовую базу данных нужно включить полнотекстовые документы, которые уже связаны с существующей базой данных ИРБИС через 951 поле.

Использование относительных путей в качестве ссылок на полнотекстовые документы

Относительные пути рекомендуется использовать в тех случаях, когда файлы полнотекстовых документов хранятся внутри папки соответствующей базы данных (непосредственно или в одной из вложенных папок).

Достоинства:

  • тексты будут доступны при переносе базы данных;
  • тексты будут доступны через Веб-ИРБИС.

Использование полных путей в качестве ссылок на полнотекстовые документы

Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.

Недостатки:

  • тексты не будут доступны через Веб-ИРБИС.

Если эти тексты имеют URL-адреса, то для обеспечения доступа к ним через Веб-ИРБИС можно использовать перенаправление (при котором происходит замена их сетевых адресов на URL).

Для этого в файле irbis_server.ini, который был создан при инсталляции в папке Веб-сервера для Веб-шлюза ИРБИС, в секции MAIN задать параметры (приведен пример значений параметров):

FullTextPathDbn=\\Alio1\irbiswrk\lusia\PDF_text\
FullTextPathWeb=ftp:\\ftp.gpntb.ru\pub\irbis\

В первом параметре следует указать сетевой путь на тексты, которые располагались по этому пути при их добавлении, в примере это - \\Alio1\irbiswrk\lusia\PDF_text\. Во втором параметре следует указать часть URL текстов (до их названия) их расположения. В примере это - ftp:\\ftp.gpntb.ru\pub\irbis\.

В формате BRIEFHTML_ft.pft имеется вставка (если нет, добавить), которая замещает в адресе текста (в подполе 952^B) путь на файл при создании на URL местоположения текста. Часть формата:

 /* возможность замены формата через параметры irbis_server.ini из cgi
       if &uf('IMAIN,FullTextPathDbn,')<>'' and &uf('IMAIN,FullTextPathWeb,')<>''  
          then
 &uf('+7W10#',&uf('+9I?',,&uf('IMAIN,FullTextPathDbn,'),,'?#',,&uf('IMAIN,FullTextPathWeb,'),,'#',v952^B)),
           '<a  style="border:0px;font-size:12px;" target=_blank href="',G10,
          else 
 /*
 

Здесь использован форматный выход &uf('+9I?исходная строка?#выходная строка#строка где замена). Ограничители ? и # могут быть любыми символами с кодом меньше 128.

Включение указанных пользователем документов или всех документов из указанной пользователем папки

Выбор одного из вариантов осуществляется с помощью флажка Добавить директорию с текстами.

Включение полнотекстовых документов с копированием в специально предназначенный архив в версии 2009.1

Примечание: начиная с версии 2010.1 планируется отказ от поддержки данной возможности в связи с недостатками. В связи с чем не рекомендуется использовать эту возможность.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Полнотекстовые базы в Веб-ИРБИС

Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря

Разбиение PDF-файлов на страницы

Разбиение PDF-файлов на страницы выполняется при добавлении текстов в базу, если выставлена соответствующая опция, а также при создании словаря (для текстов, являющихся страницами многостраничного PDF-файла).

Разбиение на страницы осуществляется с помощью одной из утилит: pdftk или pdf2pdf.

Утилита выбирается в соответствии со значением параметра PDFSplitter в конфигурационном файле АРМ Администратор ИРБИС.

Известные проблемы:

  • Утилита pdftk не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты pdf2pdf.
  • Утилита pdf2pdf не разбивает файлы версии 1.6. Такие файлы следует разбивать с помощью утилиты pdftk.

Извлечение текста из PDF-файлов

Извлечение текста из PDF-файлов выполняется при создании словаря.

Извлечение текста осуществляется с помощью одной из утилит: pdftotext.exe или docs2text.exe.

Утилита выбирается в соответствии со значением параметра Converter_PDF в конфигурационном файле АРМ Администратор ИРБИС.

Следует иметь в виду:

  • В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.

Известные проблемы:

  • Утилита docs2text.exe не извлекает текст из файлов версии 1.6. Такие файлы следует обрабатывать с помощью утилиты pdftotext.exe.

Извлечение текста из DOC-файлов

Извлечение текста из DOC-файлов выполняется при создании словаря.

Извлечение текста осуществляется с помощью утилиты docs2text.exe или с помощью программы Microsoft Word (с использованием технологии Ole Automation).

Способ извлечения текста выбирается в соответствии со значением параметра Converter_Word в конфигурационном файле АРМ Администратор ИРБИС.

Следует иметь в виду:

  • Для извлечения текста вторым способом необходимо наличие установленного приложения Microsoft Word.
  • В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.

Известные проблемы:

  • Практика показывает, что утилита docs2text.exe не извлекает текст из файлов, содержащих много графических изображений, файлов большого размера (например, десятки мегабайт). При извлечении текста из таких файлов следует выбирать способ с использованием программы Microsoft Word.
  • Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты docs2text.exe.

Ссылки

См. также: