Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
Строка 35: Строка 35:
  
 
Подробнее об использовании в полнотекстовых базах ИРБИС ссылок на текстовые документы см. в подразделе [[#Ссылки на полные тексты|''Ссылки на полные тексты'']].
 
Подробнее об использовании в полнотекстовых базах ИРБИС ссылок на текстовые документы см. в подразделе [[#Ссылки на полные тексты|''Ссылки на полные тексты'']].
 +
 +
==Отличие возможности ''включения полнотекстовых документов в базу данных'' от возможности ''связывания документов базы данных с внешними объектами''==
 +
 +
Не следует путать ''возможность включения полнотекстовых документов'' с ''возможностью [[Связывание документов базы данных ИРБИС с внешними объектами|связывания документов базы данных с внешними объектами]]''.
 +
 +
'''Сходства возможностей:'''
 +
* Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
 +
 +
'''Различия возможностей:'''
 +
* ''Возможность связывания документов базы данных с внешними объектами'' ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
 +
* ''Возможность включения полнотекстовых документов в базу данных'' обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
  
 
==Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов==
 
==Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов==
Строка 43: Строка 54:
 
* [[АРМ Администратор#Актуализация словаря базы данных ИРБИС|Актуализация]] или [[АРМ Администратор#Создание словаря базы данных ИРБИС|создание словаря базы данных]] (рекомендуется ознакомиться с [[АРМ Администратор полнотекстовых БД#Обслуживание словаря полнотекстовых баз данных ИРБИС|особенностями обслуживания словаря полнотекстовых баз данных]]).
 
* [[АРМ Администратор#Актуализация словаря базы данных ИРБИС|Актуализация]] или [[АРМ Администратор#Создание словаря базы данных ИРБИС|создание словаря базы данных]] (рекомендуется ознакомиться с [[АРМ Администратор полнотекстовых БД#Обслуживание словаря полнотекстовых баз данных ИРБИС|особенностями обслуживания словаря полнотекстовых баз данных]]).
  
==Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор==
+
==Индексирование полнотекстовых баз данных ИРБИС==
 +
 
 +
Полнотекстовые базы данных предусматривают механизм индексирования текстов, находящихся вне базы данных. В базе данных содержатся ссылки на текстовые документы, а специальный [[Таблица выбора полей#Метод индексирования 9|''метод индексирования 9'']] индексирует тексты, полученные по ссылкам.
 +
 
 +
===Ссылки на полные тексты===
 +
 
 +
====Виды ссылок на полные тексты====
 +
 
 +
В полнотекстовых базах данных ИРБИС используется несколько видов ссылок на полные тексты.
 +
 
 +
Виды ссылок по [[#Объекты полнотекстового поиска в ИРБИС|объекту полнотекстового поиска]]:
 +
* ссылка на текст целиком,
 +
* ссылка на страницу текста (для документов в формате PDF и DJVU).
 +
 
 +
Виды ссылок по месту нахождения текста:
 +
* ''относительные'' – ссылки на тексты, находящиеся в папке базы данных,
 +
* ''абсолютные'' – полный путь, включающий имя компьютера, в формате UNC.
  
===Использование относительных путей в качестве ссылок на полнотекстовые документы===
+
=====Использование относительных путей в качестве ссылок на полнотекстовые документы=====
  
 
Использование относительных путей является возможным и рекомендуется для файлов полнотекстовых документов, которые хранятся ''внутри'' папки соответствующей базы данных (непосредственно или в одной из вложенных папок).
 
Использование относительных путей является возможным и рекомендуется для файлов полнотекстовых документов, которые хранятся ''внутри'' папки соответствующей базы данных (непосредственно или в одной из вложенных папок).
Строка 56: Строка 83:
 
* Хранение полнотекстовых документов ''внутри'' папки соответствующей базы данных не всегда удобно.
 
* Хранение полнотекстовых документов ''внутри'' папки соответствующей базы данных не всегда удобно.
  
===Использование полных путей в качестве ссылок на полнотекстовые документы===
+
=====Использование полных путей в качестве ссылок на полнотекстовые документы=====
  
 
Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.
 
Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.
Строка 86: Строка 113:
 
Здесь использован форматный выход <tt>&uf('+9I?исходная строка?#выходная строка#строка где замена)</tt>. Ограничители <tt>?</tt> и <tt>#</tt> могут быть любыми символами с кодом меньше <tt>128</tt>.
 
Здесь использован форматный выход <tt>&uf('+9I?исходная строка?#выходная строка#строка где замена)</tt>. Ограничители <tt>?</tt> и <tt>#</tt> могут быть любыми символами с кодом меньше <tt>128</tt>.
  
===Полнотекстовые базы в Веб-ИРБИС===
+
====Форма записи ссылок на полные тексты в базе данных====
 +
 
 +
Для ссылок на файлы полных текстов в полнотекстовой базе данных используется выбранное для этого поле (по умолчанию [[Использование в ИРБИС полей из блока локального использования формата RUSMARC|метка поля <tt>952</tt>]]).
 +
 
 +
Поле доступно на рабочем листе ''Технологическая'' в [[АРМ Каталогизатор]].
 +
 
 +
Для описания ссылки на полнотекстовый документ предлагаются подполя:
 +
* <tt>А</tt> – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением <tt>.izp</tt>, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
 +
* <tt>B</tt> – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах <tt>.zip</tt> и <tt>.rar</tt>, а также в случае ссылок на отдельные страницы многостраничных документов <tt>.pdf</tt> и <tt>.djvu</tt>. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
 +
* <tt>C</tt> – полный путь к файлу <tt>zip/rar/pdf/djvu</tt>. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
 +
* <tt>I</tt> – URL текста, перенесённого из электронного каталога.
 +
 
 +
'''Примеры заполнения подполей''':
 +
 
 +
* '''Относительная ссылка на документ'''
 +
 
 +
^B.\texts\irbis64_2008.doc
 +
 
 +
* '''Абсолютная ссылка на документ'''
  
Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.
+
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
  
===Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)===
+
* '''Ссылка на 69-ю страницу <tt>pdf</tt>-документа (относительная ссылка на документ)'''
  
'''''Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.'''''
+
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  
'''Опции включения полнотекстовых документов, совместимые с данной:'''
+
* '''Ссылка на 1-ю страницу <tt>pdf</tt>-документа (абсолютная ссылка на документ)'''
* Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.
 
  
'''Достоинства:'''
+
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
* Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
 
* При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).
 
  
'''Недостатки:'''
+
* '''Ссылка на документ в архиве'''
* Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
 
* Тексты не доступны через Веб-ИРБИС.
 
  
==Отличие возможности ''включения полнотекстовых документов в базу данных'' от возможности ''связывания документов базы данных с внешними объектами''==
+
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
  
Не следует путать ''возможность включения полнотекстовых документов'' с ''возможностью [[Связывание документов базы данных ИРБИС с внешними объектами|связывания документов базы данных с внешними объектами]]''.
+
* '''Ссылка на документ в архиве <tt>.izp</tt>'''
  
'''Сходства возможностей:'''
+
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
* Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
 
  
'''Различия возможностей:'''
+
''Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем <tt>^B</tt>, а в подполе <tt>^C</tt> в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была [[Отличия ИРБИС 2011.1 от предыдущей версии#Исправления ошибок|исправлена в версии 2011.1 (см. ''ошибочное использование абсолютного пути из подполя <tt>^C</tt> в случае относительных ссылок с разбиением на страницы'')]].''
* ''Возможность связывания документов базы данных с внешними объектами'' ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
 
* ''Возможность включения полнотекстовых документов в базу данных'' обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
 
  
 
==Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря==
 
==Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря==
Строка 153: Строка 190:
 
* Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты <tt>docs2text.exe</tt>.
 
* Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты <tt>docs2text.exe</tt>.
  
==Индексирование полнотекстовых баз данных ИРБИС==
+
==Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор==
  
Полнотекстовые базы данных предусматривают механизм индексирования текстов, находящихся вне базы данных. В базе данных содержатся ссылки на текстовые документы, а специальный [[Таблица выбора полей#Метод индексирования 9|''метод индексирования 9'']] индексирует тексты, полученные по ссылкам.
+
===Полнотекстовые базы в Веб-ИРБИС===
  
===Ссылки на полные тексты===
+
Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.
  
====Виды ссылок на полные тексты====
+
===Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)===
  
В полнотекстовых базах данных ИРБИС используется несколько видов ссылок на полные тексты.
+
'''''Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.'''''
  
Виды ссылок по [[#Объекты полнотекстового поиска в ИРБИС|объекту полнотекстового поиска]]:
+
'''Опции включения полнотекстовых документов, совместимые с данной:'''
* ссылка на текст целиком,
+
* Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.
* ссылка на страницу текста (для документов в формате PDF и DJVU).
 
  
Виды ссылок по месту нахождения текста:
+
'''Достоинства:'''
* ''относительные'' – ссылки на тексты, находящиеся в папке базы данных,
+
* Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
* ''абсолютные'' – полный путь, включающий имя компьютера, в формате UNC.
+
* При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).
  
====Форма записи ссылок на полные тексты в базе данных====
+
'''Недостатки:'''
 
+
* Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
Для ссылок на файлы полных текстов в полнотекстовой базе данных используется выбранное для этого поле (по умолчанию [[Использование в ИРБИС полей из блока локального использования формата RUSMARC|метка поля <tt>952</tt>]]).
+
* Тексты не доступны через Веб-ИРБИС.
 
 
Поле доступно на рабочем листе ''Технологическая'' в [[АРМ Каталогизатор]].
 
 
 
Для описания ссылки на полнотекстовый документ предлагаются подполя:
 
* <tt>А</tt> – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением <tt>.izp</tt>, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
 
* <tt>B</tt> – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах <tt>.zip</tt> и <tt>.rar</tt>, а также в случае ссылок на отдельные страницы многостраничных документов <tt>.pdf</tt> и <tt>.djvu</tt>. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
 
* <tt>C</tt> – полный путь к файлу <tt>zip/rar/pdf/djvu</tt>. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
 
* <tt>I</tt> – URL текста, перенесённого из электронного каталога.
 
 
 
'''Примеры заполнения подполей''':
 
 
 
* '''Относительная ссылка на документ'''
 
 
 
^B.\texts\irbis64_2008.doc
 
 
 
* '''Абсолютная ссылка на документ'''
 
 
 
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
 
 
 
* '''Ссылка на 69-ю страницу <tt>pdf</tt>-документа (относительная ссылка на документ)'''
 
 
 
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
 
 
 
* '''Ссылка на 1-ю страницу <tt>pdf</tt>-документа (абсолютная ссылка на документ)'''
 
 
 
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
 
 
 
* '''Ссылка на документ в архиве'''
 
 
 
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
 
 
 
* '''Ссылка на документ в архиве <tt>.izp</tt>'''
 
 
 
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
 
 
 
''Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем <tt>^B</tt>, а в подполе <tt>^C</tt> в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была [[Отличия ИРБИС 2011.1 от предыдущей версии#Исправления ошибок|исправлена в версии 2011.1 (см. ''ошибочное использование абсолютного пути из подполя <tt>^C</tt> в случае относительных ссылок с разбиением на страницы'')]].''
 
  
 
==Ссылки==
 
==Ссылки==

Версия 22:48, 26 декабря 2011

Полнотекстовые базы данных ИРБИС и соответствующие программные продукты ИРБИС обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов.

Полнотекстовые базы данных ИРБИС являются видом баз данных ИРБИС 64 и отличаются возможностью индексирования текстовых документов, находящихся вне базы данных.

Содержание

Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможности для создателей электронных коллекций текстовых документов:

  • Сформировать полнотекстовую базу данных ИРБИС, которая обеспечит возможность полнотекстового поиска по коллекции текстовых документов.
  • С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.

Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.

Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.

Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64

Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:

  • АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
  • АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
  • Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.

Включение текстовых документов в полнотекстовую базу данных ИРБИС

Полнотекстовая база данных ИРБИС обеспечивает возможность поиска по тем текстовым документам, ссылки на которые были добавлены при формировании базы, и которые были проиндексированы при построении словаря.

Добавление в полнотекстовую базу данных ссылки на текстовый документ принято называть включением текста в базу данных или добавлением текста в базу данных.

Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. в подразделе Включение текстов в полнотекстовую базу данных статьи АРМ Администратор полнотекстовых БД.

Объекты полнотекстового поиска в ИРБИС

В полнотекстовых базах данных ИРБИС в качестве результатов поиска пользователь получает текстовый документ целиком, либо конкретную страницу файлов PDF и DJVU (с возможностью перейти к другим страницам документа).

Вид объектов полнотекстового поиска (документ целиком или отдельная страница) зависит от опций, выбранных администратором при формировании базы данных. При включении в полнотекстовую базу файлов PDF и DJVU, администратор имеет возможность выбора, будет ли добавлена ссылка на документ целиком, или на каждую страницу документа. Для других видов файлов такая возможность выбора отсутствует.

Подробнее об использовании в полнотекстовых базах ИРБИС ссылок на текстовые документы см. в подразделе Ссылки на полные тексты.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Действия администратора системы ИРБИС, необходимые для создания электронной коллекции полнотекстовых документов

Для создания или пополнения электронной коллекции полнотекстовых документов необходимо выполнить следующие действия:

Индексирование полнотекстовых баз данных ИРБИС

Полнотекстовые базы данных предусматривают механизм индексирования текстов, находящихся вне базы данных. В базе данных содержатся ссылки на текстовые документы, а специальный метод индексирования 9 индексирует тексты, полученные по ссылкам.

Ссылки на полные тексты

Виды ссылок на полные тексты

В полнотекстовых базах данных ИРБИС используется несколько видов ссылок на полные тексты.

Виды ссылок по объекту полнотекстового поиска:

  • ссылка на текст целиком,
  • ссылка на страницу текста (для документов в формате PDF и DJVU).

Виды ссылок по месту нахождения текста:

  • относительные – ссылки на тексты, находящиеся в папке базы данных,
  • абсолютные – полный путь, включающий имя компьютера, в формате UNC.
Использование относительных путей в качестве ссылок на полнотекстовые документы

Использование относительных путей является возможным и рекомендуется для файлов полнотекстовых документов, которые хранятся внутри папки соответствующей базы данных (непосредственно или в одной из вложенных папок).

Достоинства:

  • тексты будут доступны при переносе базы данных;
  • тексты будут доступны через Веб-ИРБИС.

Недостатки:

  • Хранение полнотекстовых документов внутри папки соответствующей базы данных не всегда удобно.
Использование полных путей в качестве ссылок на полнотекстовые документы

Для обеспечения работоспособности ссылок в локальной сети рекомендуется использовать полные сетевые пути с указанием имени компьютера.

Недостатки:

  • тексты не будут доступны через Веб-ИРБИС.

Если эти тексты имеют URL-адреса, то для обеспечения доступа к ним через Веб-ИРБИС можно использовать перенаправление (при котором происходит замена их сетевых адресов на URL).

Для этого в файле irbis_server.ini, который был создан при инсталляции в папке Веб-сервера для Веб-шлюза ИРБИС, в секции MAIN задать параметры (приведен пример значений параметров):

FullTextPathDbn=\\Alio1\irbiswrk\lusia\PDF_text\
FullTextPathWeb=ftp:\\ftp.gpntb.ru\pub\irbis\

В первом параметре следует указать сетевой путь на тексты, которые располагались по этому пути при их добавлении, в примере это - \\Alio1\irbiswrk\lusia\PDF_text\. Во втором параметре следует указать часть URL текстов (до их названия) их расположения. В примере это - ftp:\\ftp.gpntb.ru\pub\irbis\.

В формате BRIEFHTML_ft.pft имеется вставка (если нет, добавить), которая замещает в адресе текста (в подполе 952^B) путь на файл при создании на URL местоположения текста. Часть формата:

 /* возможность замены формата через параметры irbis_server.ini из cgi
       if &uf('IMAIN,FullTextPathDbn,')<>'' and &uf('IMAIN,FullTextPathWeb,')<>''  
          then
 &uf('+7W10#',&uf('+9I?',,&uf('IMAIN,FullTextPathDbn,'),,'?#',,&uf('IMAIN,FullTextPathWeb,'),,'#',v952^B)),
           '<a  style="border:0px;font-size:12px;" target=_blank href="',G10,
          else 
 /*
 

Здесь использован форматный выход &uf('+9I?исходная строка?#выходная строка#строка где замена). Ограничители ? и # могут быть любыми символами с кодом меньше 128.

Форма записи ссылок на полные тексты в базе данных

Для ссылок на файлы полных текстов в полнотекстовой базе данных используется выбранное для этого поле (по умолчанию метка поля 952).

Поле доступно на рабочем листе Технологическая в АРМ Каталогизатор.

Для описания ссылки на полнотекстовый документ предлагаются подполя:

  • А – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением .izp, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
  • B – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах .zip и .rar, а также в случае ссылок на отдельные страницы многостраничных документов .pdf и .djvu. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
  • C – полный путь к файлу zip/rar/pdf/djvu. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
  • I – URL текста, перенесённого из электронного каталога.

Примеры заполнения подполей:

  • Относительная ссылка на документ
^B.\texts\irbis64_2008.doc
  • Абсолютная ссылка на документ
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
  • Ссылка на 69-ю страницу pdf-документа (относительная ссылка на документ)
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  • Ссылка на 1-ю страницу pdf-документа (абсолютная ссылка на документ)
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  • Ссылка на документ в архиве
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
  • Ссылка на документ в архиве .izp
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc

Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем ^B, а в подполе ^C в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была исправлена в версии 2011.1 (см. ошибочное использование абсолютного пути из подполя ^C в случае относительных ссылок с разбиением на страницы).

Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря

Разбиение PDF-файлов на страницы при добавлении в базу данных

Разбиение на страницы осуществляется с помощью одной из утилит: pdftk или pdf2pdf.

Утилита выбирается в соответствии со значением параметра PDFSplitter в конфигурационном файле АРМ Администратор ИРБИС.

Известные проблемы:

  • Утилита pdftk не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты pdf2pdf.
  • Утилита pdf2pdf не разбивает некоторые файлы. Такие файлы следует разбивать с помощью утилиты pdftk.

Извлечение текста из PDF-файлов в процессе создания словаря

Для лучшего понимания проблем извлечения текста из PDF-файлов следует ознакомиться с соответствующим разделом статьи АРМ Администратор полнотекстовых БД.

Известные проблемы:

  • Если в словарь не попадают термины из PDF-файла, то в первую очередь необходимо убедиться в наличии в PDF-файле текстовых данных и возможности их извлечения. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Текст должен выделяться мышью побуквенно; слова из текста должен находить Arcobat Reader своей встроенной системой поиска. Если эти условия выполняются, то текст может быть извлечён, иначе – не может быть извлечён. Если текст может быть извлечён, то следует продолжить диагностировать проблему. Если текст не может быть извлечён, то следует либо подготовить другой PDF-файл вместо проблемного, либо использовать текстовые подложки.
  • В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Случается так, что библиотека оказывается не зарегистрирована. Если это произошло, то следует её зарегистрировать с помощью инструмента Windows Regsvr32.exe.
  • Если утилиты pdftotext.exe и docs2text.exe не могут извлечь текст из PDF-файла, то можно рекомендовать попробовать изменить версию PDF-файла, использовать файлы стандарта PDF/A, специально предназначенного для долгосрочного архивного хранения документов.

Извлечение текста из DOC-файлов

Извлечение текста из DOC-файлов выполняется при создании словаря.

Извлечение текста осуществляется с помощью утилиты docs2text.exe или с помощью программы Microsoft Word (с использованием технологии Ole Automation).

Способ извлечения текста выбирается в соответствии со значением параметра Converter_Word в конфигурационном файле АРМ Администратор ИРБИС.

Следует иметь в виду:

  • Для извлечения текста вторым способом необходимо наличие установленного приложения Microsoft Word.
  • В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.

Известные проблемы:

  • Практика показывает, что утилита docs2text.exe не извлекает текст из файлов, содержащих много графических изображений, файлов большого размера (например, десятки мегабайт). При извлечении текста из таких файлов следует выбирать способ с использованием программы Microsoft Word.
  • Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты docs2text.exe.

Рекомендации по включению полнотекстовых документов в базу данных ИРБИС с помощью АРМ Администратор

Полнотекстовые базы в Веб-ИРБИС

Если в полнотекстовом документе в формате HTML имеются ссылки на изображения или другие страницы, то они должны быть указаны в форме URL.

Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Ссылки

См. также: