Полнотекстовые базы данных ИРБИС — различия между версиями

Материал из Wikipedia
Перейти к: навигация, поиск
(Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных)
Строка 1: Строка 1:
''Полнотекстовые базы данных ИРБИС'' и соответствующие программные продукты ИРБИС обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов.
+
''Полнотекстовые базы данных ИРБИС'' являются видом [[Базы данных ИРБИС#Виды баз данных ИРБИС 64|баз данных ИРБИС 64]]. ''Полнотекстовые базы данных ИРБИС'' и соответствующие программные продукты ИРБИС обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов. Возможность полнотекстового поиска обеспечивает механизм индексирования текстовых документов, предварительно включённых в базу данных в форме ссылок.
 
 
''Полнотекстовые базы данных ИРБИС'' являются видом [[Базы данных ИРБИС#Виды баз данных ИРБИС 64|баз данных ИРБИС 64]] и отличаются возможностью индексирования текстовых документов, находящихся вне базы данных.
 
  
 
==Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
 
==Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных==
Строка 11: Строка 9:
 
Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.
 
Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.
  
Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT. Возможно индексирование файлов PDF, защищённых паролем.
+
Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.
  
 
===Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64===
 
===Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64===
Строка 22: Строка 20:
 
===Включение текстовых документов в полнотекстовую базу данных ИРБИС===
 
===Включение текстовых документов в полнотекстовую базу данных ИРБИС===
  
Полнотекстовая база данных ИРБИС обеспечивает возможность поиска по тем текстовым документам, ссылки на которые были добавлены при формировании базы, и которые были [[#Индексирование полнотекстовых баз данных ИРБИС|проиндексированы]] при построении словаря.
+
Добавление в полнотекстовую базу данных ссылки на текстовый документ принято называть ''включением текста в базу данных'' или ''добавлением текста в базу данных''.
  
Добавление в полнотекстовую базу данных ссылки на текстовый документ принято называть ''включением текста в базу данных'' или ''добавлением текста в базу данных''.
+
Включение текстовых документов в полнотекстовую базу данных ИРБИС обеспечивает возможность их индексирования.
  
 
Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. [[АРМ Администратор полнотекстовых БД#Включение текстов в полнотекстовую базу данных|в подразделе ''Включение текстов в полнотекстовую базу данных'' статьи ''АРМ Администратор полнотекстовых БД'']].
 
Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. [[АРМ Администратор полнотекстовых БД#Включение текстов в полнотекстовую базу данных|в подразделе ''Включение текстов в полнотекстовую базу данных'' статьи ''АРМ Администратор полнотекстовых БД'']].
 +
 +
===Индексирование текстовых документов, включённых в полнотекстовую базу данных ИРБИС===
 +
 +
Индексированием текстовых документов называется процесс пополнения словаря полнотекстовой базы данных словами из этих документов. Проиндексированы могут быть документы, включённые в полнотекстовую базу данных.
 +
 +
Индексирование (наличие словаря) обеспечивает возможность полнотекстового поиска. Подробнее об индексировании см. [[#Индексирование полнотекстовых баз данных ИРБИС|в подразделе ''Индексирование полнотекстовых баз данных ИРБИС'']].
  
 
===Объекты полнотекстового поиска в ИРБИС===
 
===Объекты полнотекстового поиска в ИРБИС===
Строка 64: Строка 68:
 
==Индексирование полнотекстовых баз данных ИРБИС==
 
==Индексирование полнотекстовых баз данных ИРБИС==
  
Полнотекстовые базы данных предусматривают механизм индексирования текстов, находящихся вне базы данных. В базе данных содержатся ссылки на текстовые документы, а специальный [[Таблица выбора полей#Метод индексирования 9|''метод индексирования 9'']] индексирует тексты, полученные по ссылкам.
+
Возможность полнотекстового поиска обеспечивает механизм индексирования. Специально разработанный для полнотекстовых баз данных [[Таблица выбора полей#Метод индексирования 9|''метод индексирования 9'']] позволяет индексировать включённые в базу данных файлы полных текстов.
 +
 
 +
===Извлечение текстовых данных===
 +
 
 +
Получение текстовых данных в пригодной для индексирования форме из файлов, включённых в базу данных, называется ''извлечением текста''.
 +
 
 +
В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).
 +
 
 +
===Индексирование документов, из которых невозможно извлечение текста===
 +
 
 +
ИРБИС предусматривает возможность индексирования документов, из которых невозможно извлечение текста. Например, это могут быть PDF-файлы без текстового слоя. Это возможно при наличии текстового файла, ассоциированного с исходным документом. Будем называть такой ассоциированный текстовый файл "текст-''подложка''" или просто "''подложка''". В этом случае для показа пользователю будет использован сам включённый в базу документ, а для построения словаря соответствующая подложка.
 +
 
 +
Если установлена ассоциация документа с текстом-подложкой, то в словарь попадают только те термины, которые присутствуют в подложке.
 +
 
 +
===Индексирование файлов PDF, защищённых паролем===
 +
 
 +
В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля, которым должны быть защищены файлы. Подробнее см. [[АРМ Администратор полнотекстовых БД#Извлечение текстовых данных из PDF-файлов, защищённых паролем|в подразделе ''Извлечение текстовых данных из PDF-файлов, защищённых паролем'' статьи ''АРМ Администратор полнотекстовых БД'']].
  
 
===Ссылки на полные тексты===
 
===Ссылки на полные тексты===

Версия 01:23, 26 мая 2012

Полнотекстовые базы данных ИРБИС являются видом баз данных ИРБИС 64. Полнотекстовые базы данных ИРБИС и соответствующие программные продукты ИРБИС обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов. Возможность полнотекстового поиска обеспечивает механизм индексирования текстовых документов, предварительно включённых в базу данных в форме ссылок.

Содержание

Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных

Возможности для создателей электронных коллекций текстовых документов:

  • Сформировать полнотекстовую базу данных ИРБИС, которая обеспечит возможность полнотекстового поиска по коллекции текстовых документов.
  • С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.

Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.

Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.

Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64

Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:

  • АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
  • АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
  • Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.

Включение текстовых документов в полнотекстовую базу данных ИРБИС

Добавление в полнотекстовую базу данных ссылки на текстовый документ принято называть включением текста в базу данных или добавлением текста в базу данных.

Включение текстовых документов в полнотекстовую базу данных ИРБИС обеспечивает возможность их индексирования.

Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. в подразделе Включение текстов в полнотекстовую базу данных статьи АРМ Администратор полнотекстовых БД.

Индексирование текстовых документов, включённых в полнотекстовую базу данных ИРБИС

Индексированием текстовых документов называется процесс пополнения словаря полнотекстовой базы данных словами из этих документов. Проиндексированы могут быть документы, включённые в полнотекстовую базу данных.

Индексирование (наличие словаря) обеспечивает возможность полнотекстового поиска. Подробнее об индексировании см. в подразделе Индексирование полнотекстовых баз данных ИРБИС.

Объекты полнотекстового поиска в ИРБИС

В полнотекстовых базах данных ИРБИС в качестве результатов поиска пользователь получает текстовый документ целиком, либо конкретную страницу файлов PDF и DJVU (с возможностью перейти к другим страницам документа).

Вид объектов полнотекстового поиска (документ целиком или отдельная страница) зависит от опций, выбранных администратором при формировании базы данных. При включении в полнотекстовую базу файлов PDF и DJVU, администратор имеет возможность выбора, будет ли добавлена ссылка на документ целиком, или на каждую страницу документа. Для других видов файлов такая возможность выбора отсутствует.

Подробнее об использовании в полнотекстовых базах ИРБИС ссылок на текстовые документы см. в подразделе Ссылки на полные тексты.

Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами

Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.

Сходства возможностей:

  • Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.

Различия возможностей:

  • Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
  • Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.

Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)

Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.

Опции включения полнотекстовых документов, совместимые с данной:

  • Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.

Достоинства:

  • Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
  • При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).

Недостатки:

  • Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
  • Тексты не доступны через Веб-ИРБИС.

Индексирование полнотекстовых баз данных ИРБИС

Возможность полнотекстового поиска обеспечивает механизм индексирования. Специально разработанный для полнотекстовых баз данных метод индексирования 9 позволяет индексировать включённые в базу данных файлы полных текстов.

Извлечение текстовых данных

Получение текстовых данных в пригодной для индексирования форме из файлов, включённых в базу данных, называется извлечением текста.

В словарь попадают только те термины, которые присутствуют в полнотекстовых документах в текстовом виде (не в виде графического изображения).

Индексирование документов, из которых невозможно извлечение текста

ИРБИС предусматривает возможность индексирования документов, из которых невозможно извлечение текста. Например, это могут быть PDF-файлы без текстового слоя. Это возможно при наличии текстового файла, ассоциированного с исходным документом. Будем называть такой ассоциированный текстовый файл "текст-подложка" или просто "подложка". В этом случае для показа пользователю будет использован сам включённый в базу документ, а для построения словаря соответствующая подложка.

Если установлена ассоциация документа с текстом-подложкой, то в словарь попадают только те термины, которые присутствуют в подложке.

Индексирование файлов PDF, защищённых паролем

В ИРБИС возможно индексирование файлов PDF, защищённых паролем. Предусмотрена возможность использования только одного пароля, которым должны быть защищены файлы. Подробнее см. в подразделе Извлечение текстовых данных из PDF-файлов, защищённых паролем статьи АРМ Администратор полнотекстовых БД.

Ссылки на полные тексты

Виды ссылок на полные тексты

В полнотекстовых базах данных ИРБИС используется несколько видов ссылок на полные тексты.

Виды ссылок по объекту полнотекстового поиска:

  • ссылка на текст целиком,
  • ссылка на страницу текста (для документов в формате PDF и DJVU).

Виды ссылок по способу адресации:

  • относительные – ссылки на тексты, находящиеся в папке базы данных;
  • абсолютные – полный путь, включающий имя компьютера, в формате UNC;
  • ссылки в формате URL.

Примечание: до введения в ИРБИС 2011.1 соответствующего запрета в АРМ Администратор было возможно введение абсолютных ссылок, начинающихся с имени диска.

Форма записи ссылок на полные тексты в базе данных

Для ссылок на файлы полных текстов в полнотекстовой базе данных используется выбранное для этого поле (по умолчанию метка поля 952).

Поле доступно на рабочем листе Технологическая в АРМ Каталогизатор.

Для описания ссылки на полнотекстовый документ предлагаются подполя:

  • А – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением .izp, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
  • B – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах .zip и .rar, а также в случае ссылок на отдельные страницы многостраничных документов .pdf и .djvu. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
  • C – полный путь к файлу zip/rar/pdf/djvu. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
  • I – URL текста, перенесённого из электронного каталога.

Примеры заполнения подполей:

  • Относительная ссылка на документ
^B.\texts\irbis64_2008.doc
  • Абсолютная ссылка на документ
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
  • Ссылка на 69-ю страницу pdf-документа (относительная ссылка на документ)
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  • Ссылка на 1-ю страницу pdf-документа (абсолютная ссылка на документ)
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
  • Ссылка на документ в архиве
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
  • Ссылка на документ в архиве .izp
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc

Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем ^B, а в подполе ^C в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была исправлена в версии 2011.1 (см. ошибочное использование абсолютного пути из подполя ^C в случае относительных ссылок с разбиением на страницы).

Ссылки

См. также:

Источники информации: