Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
Строка 78: Строка 78:
 
===Индексирование документов, из которых невозможно извлечение текста===
 
===Индексирование документов, из которых невозможно извлечение текста===
  
ИРБИС предусматривает возможность индексирования документов, из которых невозможно извлечение текста. Например, это могут быть PDF-файлы без текстового слоя. Это возможно при наличии текстового файла, ассоциированного с исходным документом. Будем называть такой ассоциированный текстовый файл "текст-''подложка''" или просто "''подложка''". В этом случае для показа пользователю будет использован сам включённый в базу документ, а для построения словаря соответствующая подложка.
+
ИРБИС предусматривает возможность индексирования документов, из которых невозможно извлечение текста. Например, это могут быть PDF-файлы без текстового слоя. Индексирование таких документов возможно при наличии текстового файла, который можно ''ассоциировать'' с исходным документом. Будем называть такой текстовый файл "текст-''подложка''" или просто "''подложка''".
  
Если установлена ассоциация документа с текстом-подложкой, то в словарь попадают только те термины, которые присутствуют в подложке.
+
Если при включении полнотекстового документа найдена соответствующая ему подложка, то [[#Ссылка на файл подложки|в базе данных сохраняется ссылка на файл подложки, в качестве которой используется имя файла подложки]]. Таким образом происходит ''ассоциация'' полнотекстового документа с соответствующей ''подложкой''.
 +
 
 +
Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.
 +
 
 +
Подробнее см. [[АРМ Администратор полнотекстовых БД#Ассоциация текста-подложки с включаемым в полнотекстовую базу документом|в подразделе ''Ассоциация текста-подложки с включаемым в полнотекстовую базу документом'' статьи ''АРМ Администратор полнотекстовых БД'']].
 +
 
 +
'''''Примечание: следует иметь в виду, что если установлена ассоциация документа с текстом-подложкой, то в словарь попадают только те термины, которые присутствуют в подложке.'''''
  
 
===Индексирование файлов PDF, защищённых паролем===
 
===Индексирование файлов PDF, защищённых паролем===
Строка 142: Строка 148:
  
 
''Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем <tt>^B</tt>, а в подполе <tt>^C</tt> в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была [[Отличия ИРБИС 2011.1 от предыдущей версии#Исправления ошибок|исправлена в версии 2011.1 (см. ''ошибочное использование абсолютного пути из подполя <tt>^C</tt> в случае относительных ссылок с разбиением на страницы'')]].''
 
''Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем <tt>^B</tt>, а в подполе <tt>^C</tt> в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была [[Отличия ИРБИС 2011.1 от предыдущей версии#Исправления ошибок|исправлена в версии 2011.1 (см. ''ошибочное использование абсолютного пути из подполя <tt>^C</tt> в случае относительных ссылок с разбиением на страницы'')]].''
 +
 +
====Ссылка на файл подложки====
 +
 +
Ссылка на файл подложки представляет собой имя текстового файла и сохраняется в подполе <tt>^T</tt>.
 +
 +
При этом подразумевается, что местонахождение файла подложки обязательно соответствует местонахождению полнотекстового документа.
 +
 +
Пример абсолютной ссылки на полнотекстовый документ, с подложкой:
 +
^B\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf^Uuri:irbis:\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf^T1.pdf.txt
  
 
==Ссылки==
 
==Ссылки==

Версия 22:58, 6 июня 2012

Полнотекстовые базы данных ИРБИС являются видом баз данных ИРБИС 64. Полнотекстовые базы данных ИРБИС и соответствующие программные продукты ИРБИС обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов. Возможность полнотекстового поиска обеспечивает механизм индексирования текстовых документов, предварительно включённых в базу данных в форме ссылок.

Содержание

Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможности для создателей электронных коллекций текстовых документов:

  • Сформировать полнотекстовую базу данных ИРБИС, которая обеспечит возможность полнотекстового поиска по коллекции текстовых документов.
  • С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.

Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.

Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.

Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64

Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:

  • АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
  • АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
  • Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.

Включение текстовых документов в полнотекстовую базу данных ИРБИС

Добавление в полнотекстовую базу данных ссылки на текстовый документ принято называть включением текста в базу данных или добавлением текста в базу данных.

Включение текстовых документов в полнотекстовую базу данных ИРБИС обеспечивает возможность их индексирования.

Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. в подразделе Включение текстов в полнотекстовую базу данных статьи АРМ Администратор полнотекстовых БД.

Индексирование текстовых документов, включённых в полнотекстовую базу данных ИРБИС

Индексированием текстовых документов называется процесс пополнения словаря полнотекстовой базы данных словами из этих документов. Проиндексированы могут быть документы, включённые в полнотекстовую базу данных.

Индексирование (наличие словаря) обеспечивает возможность полнотекстового поиска. Подробнее об индексировании см. в подразделе Индексирование полнотекстовых баз данных ИРБИС.

Объекты полнотекстового поиска в ИРБИС

В полнотекстовых базах данных ИРБИС в качестве результатов поиска пользователь получает текстовый документ целиком, либо конкретную страницу файлов PDF и DJVU (с возможностью перейти к другим страницам документа).

Вид объектов полнотекстового поиска (документ целиком или отдельная страница) зависит от опций, выбранных администратором при формировании базы данных. При включении в полнотекстовую базу файлов PDF и DJVU, администратор имеет возможность выбора, будет ли добавлена ссылка на документ целиком, или на каждую страницу документа. Для других видов файлов такая возможность выбора отсутствует.

Подробнее об использовании в полнотекстовых базах ИРБИС ссылок на текстовые документы см. в подразделе Ссылки на полные тексты.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Индексирование полнотекстовых баз данных ИРБИС

Возможность полнотекстового поиска обеспечивает механизм индексирования. Специально разработанный для полнотекстовых баз данных метод индексирования 9 позволяет индексировать включённые в базу данных файлы полных текстов.

В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).

Получение текста в пригодной для индексирования форме из файлов, включённых в базу данных, называется в данной документации извлечением текста.

Подробнее о возможностях АРМ Администратор ИРБИС полнотекстовых БД по работе со словарём см. в подразделе Обслуживание словаря базы данных ИРБИС статьи АРМ Администратор и в подразделе Обслуживание словаря полнотекстовых баз данных ИРБИС статьи АРМ Администратор полнотекстовых БД.

Индексирование документов, из которых невозможно извлечение текста

ИРБИС предусматривает возможность индексирования документов, из которых невозможно извлечение текста. Например, это могут быть PDF-файлы без текстового слоя. Индексирование таких документов возможно при наличии текстового файла, который можно ассоциировать с исходным документом. Будем называть такой текстовый файл "текст-подложка" или просто "подложка".

Если при включении полнотекстового документа найдена соответствующая ему подложка, то в базе данных сохраняется ссылка на файл подложки, в качестве которой используется имя файла подложки. Таким образом происходит ассоциация полнотекстового документа с соответствующей подложкой.

Если с полнотекстовым документом ассоциирована подложка, то при построении словаря будет использован содержащийся в подложке текст. Для показа пользователю будет использован сам включённый в базу документ.

Подробнее см. в подразделе Ассоциация текста-подложки с включаемым в полнотекстовую базу документом статьи АРМ Администратор полнотекстовых БД.

Примечание: следует иметь в виду, что если установлена ассоциация документа с текстом-подложкой, то в словарь попадают только те термины, которые присутствуют в подложке.

Индексирование файлов PDF, защищённых паролем

В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля. Подробнее см. в подразделе Извлечение текстовых данных из PDF-файлов, защищённых паролем статьи АРМ Администратор полнотекстовых БД.

Ссылки на полные тексты

Виды ссылок на полные тексты

В полнотекстовых базах данных ИРБИС используется несколько видов ссылок на полные тексты.

Виды ссылок по объекту полнотекстового поиска:

  • ссылка на текст целиком,
  • ссылка на страницу текста (для документов в формате PDF и DJVU).

Виды ссылок по способу адресации:

  • относительные – ссылки на тексты, находящиеся в папке базы данных;
  • абсолютные – полный путь, включающий имя компьютера, в формате UNC;
  • ссылки в формате URL.

Примечание: до введения в ИРБИС 2011.1 соответствующего запрета в АРМ Администратор было возможно введение абсолютных ссылок, начинающихся с имени диска.

Форма записи ссылок на полные тексты в базе данных

Для ссылок на файлы полных текстов в полнотекстовой базе данных используется выбранное для этого поле (по умолчанию метка поля 952).

Поле доступно на рабочем листе Технологическая в АРМ Каталогизатор.

Для описания ссылки на полнотекстовый документ предлагаются подполя:

  • А – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением .izp, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
  • B – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах .zip и .rar, а также в случае ссылок на отдельные страницы многостраничных документов .pdf и .djvu. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
  • C – полный путь к файлу zip/rar/pdf/djvu. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
  • I – URL текста, перенесённого из электронного каталога.

Примеры заполнения подполей:

  • Относительная ссылка на документ
^B.\texts\irbis64_2008.doc
  • Абсолютная ссылка на документ
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
  • Ссылка на 69-ю страницу pdf-документа (относительная ссылка на документ)
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  • Ссылка на 1-ю страницу pdf-документа (абсолютная ссылка на документ)
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  • Ссылка на документ в архиве
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
  • Ссылка на документ в архиве .izp
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc

Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем ^B, а в подполе ^C в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была исправлена в версии 2011.1 (см. ошибочное использование абсолютного пути из подполя ^C в случае относительных ссылок с разбиением на страницы).

Ссылка на файл подложки

Ссылка на файл подложки представляет собой имя текстового файла и сохраняется в подполе ^T.

При этом подразумевается, что местонахождение файла подложки обязательно соответствует местонахождению полнотекстового документа.

Пример абсолютной ссылки на полнотекстовый документ, с подложкой:

^B\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf^Uuri:irbis:\\127.0.0.1\FullTexts\!test cases\pdf\external text layer\1.pdf^T1.pdf.txt

Ссылки

См. также:

Источники информации: