Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
Строка 25: Строка 25:
 
* ''Возможность включения полнотекстовых документов в базу данных'' обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
 
* ''Возможность включения полнотекстовых документов в базу данных'' обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
  
==Возможные варианты включения полнотекстовых документов в базу данных ИРБИС==
+
==Настройки, доступные при включении полнотекстовых документов в базу данных ИРБИС==
  
===Будут ли полнотекстовые документы явно указаны пользователем, или ссылки на полнотекстовые документы будут взяты из существующей базы данных===
+
===Возможности выбора полнотекстовых документов, которые необходимо включить в базу данных ИРБИС===
 
 
В зависимости от выбранных опций, в текущую базу данных могут быть включены:
 
* полнотекстовые документы, местонахождение которых на файловой системе непосредственно указывает пользователь;
 
* полнотекстовые документы, на которые имеются [[Связывание документов базы данных ИРБИС с внешними объектами|ссылки в <tt>951</tt> поле существующей базы данных ИРБИС]], которую указывает пользователь (см. раздел данной статьи [[#Включение в полнотекстовую базу полнотекстовых документов, на которые имеются ссылки в 951 поле другой базы данных ИРБИС]]).
 
 
 
===Будут ли включены указанные пользователем документы или все документы из указанной пользователем папки===
 
  
 
В зависимости от выбранных опций, в текущую базу данных могут быть включены:
 
В зависимости от выбранных опций, в текущую базу данных могут быть включены:
 
* Документы, явно указанные пользователем.
 
* Документы, явно указанные пользователем.
 
* Все документы из папки, указанной пользователем.
 
* Все документы из папки, указанной пользователем.
 +
* полнотекстовые документы, на которые имеются [[Связывание документов базы данных ИРБИС с внешними объектами|ссылки в <tt>951</tt> поле указанной пользователем базы данных ИРБИС]].
  
===Будут ли ссылки на полнотекстовые документы относительными или абсолютными===
+
===Виды ссылок на полнотекстовые документы (относительные или абсолютные)===
  
В зависимости от выбранных опций могут использоваться относительные или абсолютные пути к файлам.
+
В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам.
  
===Будут ли полнотекстовые документы скопированы в специально предназначенный архив, или связь будет установлена с документами в их текущем местонахождении===
+
===Возможность размещения полнотекстовых документов в специально предназначенном архиве===
 +
 
 +
'''''Примечание: начиная с версии 2010.1 планируется отказ от поддержки данной возможности в связи с недостатками. В связи с чем не рекомендуется использовать эту возможность.'''''
  
 
В зависимости от выбранных опций, при включении полнотекстовых документов в базу данных:
 
В зависимости от выбранных опций, при включении полнотекстовых документов в базу данных:
Строка 71: Строка 68:
 
  ^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
 
  ^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
  
==Инструкция по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор==
+
==Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор==
  
 
Включение полнотекстовых документов в базу данных ИРБИС осуществляется с помощью специального диалогового окна, которое открывается при вызове пункта главного меню ''Полнотекстовый сервис – Добавить (удалить) тексты в БД''.
 
Включение полнотекстовых документов в базу данных ИРБИС осуществляется с помощью специального диалогового окна, которое открывается при вызове пункта главного меню ''Полнотекстовый сервис – Добавить (удалить) тексты в БД''.
Строка 123: Строка 120:
 
Здесь использован форматный выход <tt>&uf('+9I?исходная строка?#выходная строка#строка где замена)</tt>. Ограничители <tt>?</tt> и <tt>#</tt> могут быть любыми символами с кодом меньше <tt>128</tt>.
 
Здесь использован форматный выход <tt>&uf('+9I?исходная строка?#выходная строка#строка где замена)</tt>. Ограничители <tt>?</tt> и <tt>#</tt> могут быть любыми символами с кодом меньше <tt>128</tt>.
  
===Включение полнотекстовых документов с копированием в специально предназначенный архив===
+
===Включение указанных пользователем документов или всех документов из указанной пользователем папки===
 +
 
 +
Выбор одного из вариантов осуществляется с помощью флажка ''Добавить директорию с текстами''.
 +
 
 +
===Включение полнотекстовых документов с копированием в специально предназначенный архив в версии 2009.1===
 +
 
 +
'''''Примечание: начиная с версии 2010.1 планируется отказ от поддержки данной возможности в связи с недостатками. В связи с чем не рекомендуется использовать эту возможность.'''''
  
 
'''Опции включения полнотекстовых документов, совместимые с данной:'''
 
'''Опции включения полнотекстовых документов, совместимые с данной:'''
Строка 135: Строка 138:
 
* Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
 
* Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
 
* Тексты не доступны через Веб-ИРБИС.
 
* Тексты не доступны через Веб-ИРБИС.
 
===Включение указанных пользователем документов или всех документов из указанной пользователем папки===
 
 
Выбор одного из вариантов осуществляется с помощью флажка ''Добавить директорию с текстами''.
 
  
 
===Полнотекстовые базы в Веб-ИРБИС===
 
===Полнотекстовые базы в Веб-ИРБИС===
Строка 152: Строка 151:
 
[[Категория:АРМ Администратор]]
 
[[Категория:АРМ Администратор]]
 
[[Категория:Полнотекстовые базы данных ИРБИС]]
 
[[Категория:Полнотекстовые базы данных ИРБИС]]
 +
[[Категория:Продукты ИРБИС для работы с полнотекстовыми базами данных]]
 
[[Категория:Работа с ИРБИС]]
 
[[Категория:Работа с ИРБИС]]
 
[[Категория:Функциональные возможности ИРБИС]]
 
[[Категория:Функциональные возможности ИРБИС]]

Версия 17:10, 2 июля 2010

В версии АРМ Администратор полнотекстовых БД присутствует функциональная возможность включения полнотекстовых документов в базу данных ИРБИС.

Идея включения полнотекстовых документов в базу данных ИРБИС – предоставить пользователю возможность осуществлять полнотекстовый поиск и просмотр найденных документов.

Содержание

Особенности включения полнотекстовых документов в базу данных ИРБИС

В полнотекстовые базы данных ИРБИС могут быть включены полнотекстовые документы в форматах HTML, DOC, PDF и DJVU.

При включении полнотекстовых документов в базу данных ИРБИС:

  • в соответствие каждому добавленному полнотекстовому документу в базе создаётся запись;
  • в словарь попадают термины из добавленных полнотекстовых документов;
  • в полнотекстовой базе данных хранятся пути (полные или относительные) к добавленным полнотекстовым документам; сами полнотекстовые документы остаются в виде файлов на файловой системе или попадают в архивный файл (в зависимости от выбранного режима при добавлении).

Следует иметь в виду, что в словарь попадут только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Настройки, доступные при включении полнотекстовых документов в базу данных ИРБИС

Возможности выбора полнотекстовых документов, которые необходимо включить в базу данных ИРБИС

В зависимости от выбранных опций, в текущую базу данных могут быть включены:

Виды ссылок на полнотекстовые документы (относительные или абсолютные)

В зависимости от выбранных опций в базе данных ИРБИС могут быть сохранены относительные или абсолютные пути к файлам.

Возможность размещения полнотекстовых документов в специально предназначенном архиве

Примечание: начиная с версии 2010.1 планируется отказ от поддержки данной возможности в связи с недостатками. В связи с чем не рекомендуется использовать эту возможность.

В зависимости от выбранных опций, при включении полнотекстовых документов в базу данных:

  • Документы могут быть связаны с базой данных в их текущем местонахождении.
  • Документы могут быть скопированы в специально предназначенный архив – файл с расширением .izp в папке базы данных.

Информация, вносимая в базу данных при включении полнотекстовых документов

Ссылки на файлы полнотекстовых документов

Для ссылок на файлы полных текстов в полнотекстовой базе данных предлагается специальное поле (по умолчанию метка поля 952).

Поле доступно на рабочем листе Технологическая.

Для описания ссылки на полнотекстовый документ предлагаются подполя:

  • А – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением .izp, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
  • B – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах .zip и .rar, а также в случае ссылок на отдельные страницы многостраничных документов .pdf и .djvu. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
  • C – полный путь к файлу zip/rar/pdf/djvu. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
  • I – URL текста, перенесённого из электронного каталога.

Примеры заполнения подполей:

^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
^B.\texts\irbis64_2008.doc
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc

Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор

Включение полнотекстовых документов в базу данных ИРБИС осуществляется с помощью специального диалогового окна, которое открывается при вызове пункта главного меню Полнотекстовый сервис – Добавить (удалить) тексты в БД.

Собственно включение полнотекстовых документов в базу данных ИРБИС происходит после нажатия кнопки Добавить.

Существует ряд настроек, касающихся особенностей включения полнотекстовых документов в базу данных ИРБИС, которым посвящены следующие подразделы.

Включение в полнотекстовую базу полнотекстовых документов, на которые имеются ссылки в 951 поле другой базы данных ИРБИС

Возможность осуществляется с помощью кнопки Добавить тексты из ЭК.

Данная возможность предусмотрена для следующего случая: если в полнотекстовую базу данных нужно включить полнотекстовые документы, которые уже связаны с существующей базой данных ИРБИС через 951 поле.

Использование относительных путей в качестве ссылок на полнотекстовые документы

Относительные пути рекомендуется использовать в тех случаях, когда файлы полнотекстовых документов хранятся внутри папки соответствующей базы данных (непосредственно или в одной из вложенных папок).

Достоинства:

  • тексты будут доступны при переносе базы данных;
  • тексты будут доступны через Веб-ИРБИС.

Использование полных путей в качестве ссылок на полнотекстовые документы

Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.

Недостатки:

  • тексты не будут доступны через Веб-ИРБИС.

Если эти тексты имеют URL-адреса, то для обеспечения доступа к ним через Веб-ИРБИС можно использовать перенаправление (при котором происходит замена их сетевых адресов на URL).

Для этого в файле irbis_server.ini, который был создан при инсталляции в папке Веб-сервера для Веб-шлюза ИРБИС, в секции MAIN задать параметры (приведен пример значений параметров):

FullTextPathDbn=\\Alio1\irbiswrk\lusia\PDF_text\
FullTextPathWeb=ftp:\\ftp.gpntb.ru\pub\irbis\

В первом параметре следует указать сетевой путь на тексты, которые располагались по этому пути при их добавлении, в примере это - \\Alio1\irbiswrk\lusia\PDF_text\. Во втором параметре следует указать часть URL текстов (до их названия) их расположения. В примере это - ftp:\\ftp.gpntb.ru\pub\irbis\.

В формате BRIEFHTML_ft.pft имеется вставка (если нет, добавить), которая замещает в адресе текста (в подполе 952^B) путь на файл при создании на URL местоположения текста. Часть формата:

 /* возможность замены формата через параметры irbis_server.ini из cgi
       if &uf('IMAIN,FullTextPathDbn,')<>'' and &uf('IMAIN,FullTextPathWeb,')<>''  
          then
 &uf('+7W10#',&uf('+9I?',,&uf('IMAIN,FullTextPathDbn,'),,'?#',,&uf('IMAIN,FullTextPathWeb,'),,'#',v952^B)),
           '<a  style="border:0px;font-size:12px;" target=_blank href="',G10,
          else 
 /*
 

Здесь использован форматный выход &uf('+9I?исходная строка?#выходная строка#строка где замена). Ограничители ? и # могут быть любыми символами с кодом меньше 128.

Включение указанных пользователем документов или всех документов из указанной пользователем папки

Выбор одного из вариантов осуществляется с помощью флажка Добавить директорию с текстами.

Включение полнотекстовых документов с копированием в специально предназначенный архив в версии 2009.1

Примечание: начиная с версии 2010.1 планируется отказ от поддержки данной возможности в связи с недостатками. В связи с чем не рекомендуется использовать эту возможность.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Полнотекстовые базы в Веб-ИРБИС

Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.

Ссылки

См. также: