Полнотекстовые базы данных ИРБИС — различия между версиями
Sokv (обсуждение | вклад) |
Sokv (обсуждение | вклад) |
||
Строка 179: | Строка 179: | ||
[[Категория:Работа с ИРБИС]] | [[Категория:Работа с ИРБИС]] | ||
[[Категория:Функциональные возможности ИРБИС]] | [[Категория:Функциональные возможности ИРБИС]] | ||
+ | [[Категория:Анонсированные статьи]] |
Версия 15:26, 8 апреля 2012
Полнотекстовые базы данных ИРБИС и соответствующие программные продукты ИРБИС обеспечивают возможность полнотекстового поиска по коллекциям текстовых документов.
Полнотекстовые базы данных ИРБИС являются видом баз данных ИРБИС 64 и отличаются возможностью индексирования текстовых документов, находящихся вне базы данных.
Содержание
- 1 Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных
- 1.1 Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64
- 1.2 Включение текстовых документов в полнотекстовую базу данных ИРБИС
- 1.3 Объекты полнотекстового поиска в ИРБИС
- 1.4 Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами
- 1.5 Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)
- 2 Индексирование полнотекстовых баз данных ИРБИС
- 3 Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря
- 4 Ссылки
Основные возможности ИРБИС 64 по работе с полнотекстовыми базами данных
Возможности для создателей электронных коллекций текстовых документов:
- Сформировать полнотекстовую базу данных ИРБИС, которая обеспечит возможность полнотекстового поиска по коллекции текстовых документов.
- С помощью программного обеспечения ИРБИС предоставить пользователям доступ к коллекции в локальной сети, Интернет или на CD/DVD.
Возможности для пользователей: получить доступ к коллекции текстовых документов для полнотекстового поиска и просмотра найденных документов.
Полнотекстовые базы данных ИРБИС обеспечивают возможность работы с текстовыми документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.
Программные продукты для работы с полнотекстовыми базами данных ИРБИС 64
Функциональность по работе с полнотекстовыми базами данных ИРБИС 64 обеспечивают следующие программные продукты:
- АРМ Администратор полнотекстовых БД – рабочее место специалиста, которое позволяет формировать полнотекстовые базы данных и обслуживать их.
- АРМ Читатель для полнотекстовых БД – рабочее место пользователя электронных коллекций.
- Веб-шлюз ИРБИС для полнотекстовых БД – обеспечивает доступ к коллекциям полнотекстовых документов пользователей Интернета (и/или локальной сети) с помощью веб-браузера.
Включение текстовых документов в полнотекстовую базу данных ИРБИС
Полнотекстовая база данных ИРБИС обеспечивает возможность поиска по тем текстовым документам, ссылки на которые были добавлены при формировании базы, и которые были проиндексированы при построении словаря.
Добавление в полнотекстовую базу данных ссылки на текстовый документ принято называть включением текста в базу данных или добавлением текста в базу данных.
Включение текстов в базу осуществляется с помощью АРМ Администратор, подробнее см. в подразделе Включение текстов в полнотекстовую базу данных статьи АРМ Администратор полнотекстовых БД.
Объекты полнотекстового поиска в ИРБИС
В полнотекстовых базах данных ИРБИС в качестве результатов поиска пользователь получает текстовый документ целиком, либо конкретную страницу файлов PDF и DJVU (с возможностью перейти к другим страницам документа).
Вид объектов полнотекстового поиска (документ целиком или отдельная страница) зависит от опций, выбранных администратором при формировании базы данных. При включении в полнотекстовую базу файлов PDF и DJVU, администратор имеет возможность выбора, будет ли добавлена ссылка на документ целиком, или на каждую страницу документа. Для других видов файлов такая возможность выбора отсутствует.
Подробнее об использовании в полнотекстовых базах ИРБИС ссылок на текстовые документы см. в подразделе Ссылки на полные тексты.
Отличие возможности включения полнотекстовых документов в базу данных от возможности связывания документов базы данных с внешними объектами
Не следует путать возможность включения полнотекстовых документов с возможностью связывания документов базы данных с внешними объектами.
Сходства возможностей:
- Обе эти возможности позволяют установить связь документов базы данных с внешними объектами.
Различия возможностей:
- Возможность связывания документов базы данных с внешними объектами ограничивается обеспечением простоты перехода пользователя от документа базы данных к внешнему объекту.
- Возможность включения полнотекстовых документов в базу данных обеспечивает полнотекстовый поиск, а также переход пользователя к найденным внешним объектам.
Возможность размещения полнотекстовых документов в специально предназначенном архиве (не поддерживается с версии 2010.1)
Примечание: начиная с версии 2010.1 данная возможность не поддерживается, в связи с чем не рекомендуется к использованию.
Опции включения полнотекстовых документов, совместимые с данной:
- Возможно включение как указанных пользователем документов, так и всех документов из указанной папки.
Достоинства:
- Компактное хранение полнотекстовых документов (это относится к документам, хорошо поддающимся сжатию при архивации).
- При перемещении папки с базой данных не требуется изменений в ссылках на файлы, поскольку ссылки являются относительными (только имя документа в архиве).
Недостатки:
- Дополнительные затраты времени на разархивирование при обеспечении доступа к полнотекстовому документу.
- Тексты не доступны через Веб-ИРБИС.
Индексирование полнотекстовых баз данных ИРБИС
Полнотекстовые базы данных предусматривают механизм индексирования текстов, находящихся вне базы данных. В базе данных содержатся ссылки на текстовые документы, а специальный метод индексирования 9 индексирует тексты, полученные по ссылкам.
Ссылки на полные тексты
Виды ссылок на полные тексты
В полнотекстовых базах данных ИРБИС используется несколько видов ссылок на полные тексты.
Виды ссылок по объекту полнотекстового поиска:
- ссылка на текст целиком,
- ссылка на страницу текста (для документов в формате PDF и DJVU).
Виды ссылок по способу адресации:
- относительные – ссылки на тексты, находящиеся в папке базы данных;
- абсолютные – полный путь, включающий имя компьютера, в формате UNC;
- ссылки в формате URL.
Примечание: до введения в ИРБИС 2011.1 соответствующего запрета в АРМ Администратор было возможно введение абсолютных ссылок, начинающихся с имени диска.
Форма записи ссылок на полные тексты в базе данных
Для ссылок на файлы полных текстов в полнотекстовой базе данных используется выбранное для этого поле (по умолчанию метка поля 952).
Поле доступно на рабочем листе Технологическая в АРМ Каталогизатор.
Для описания ссылки на полнотекстовый документ предлагаются подполя:
- А – имя файла полного текста. Данное подполе используется только для хранения ссылок на полнотекстовые документов в архиве с именем базы данных и расширением .izp, находящемся в папке базы данных. Начиная с версии 10.1 данный вид ссылок не поддерживается.
- B – в зависимости от вида ссылки это относительный, полный или виртуальный путь к файлу полного текста, или же некоторые данные, дополняющие гиперссылку. Относительный путь используется для полнотекстовых документов, хранящихся в папке базы данных (относительный путь начинается с точки). Полные пути используются для ссылок на полнотекстовые документы, находящиеся вне папки базы данных. Виртуальные пути к текстовым документам используются для ссылок на полнотекстовые документы, хранящиеся в архивах .zip и .rar, а также в случае ссылок на отдельные страницы многостраничных документов .pdf и .djvu. Виртуальная ссылка, хранящаяся в этом подполе, позволяет узнать имя файла внутри архива или номер страницы многостраничного документа, но не имя файла архива или многостраничного документа.
- C – полный путь к файлу zip/rar/pdf/djvu. Данное подполе используется для ссылок на полнотекстовые документы в архиве или отдельные страницы многостраничного документа.
- I – URL текста, перенесённого из электронного каталога.
Примеры заполнения подполей:
- Относительная ссылка на документ
^B.\texts\irbis64_2008.doc
- Абсолютная ссылка на документ
^BD:\FullTexts\doc\ИРБИС_документация\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.doc
- Ссылка на 69-ю страницу pdf-документа (относительная ссылка на документ)
^B.\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0069.pdf^CC:\irbisFT-2010-02-15\IRBIS64\Datai\TEST-PDF\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
- Ссылка на 1-ю страницу pdf-документа (абсолютная ссылка на документ)
^BD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ__0001.pdf^CD:\FullTexts\pdf\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf
- Ссылка на документ в архиве
^BD:\FullTexts\rar\ТЕХНИЧЕСКАЯ ДОКУМЕНТАЦИЯ.pdf^CD:\FullTexts\rar\ИРБИС_документация.rar
- Ссылка на документ в архиве .izp
^AТехническая документация для WEB ИРБИС64 и WEB ИРБИС32.doc
Примечание: особенность ссылок на отдельную страницу документа в том, что относительные или абсолютные ссылки отличаются подполем ^B, а в подполе ^C в обоих случаях хранится абсолютный путь (который не используется). Эта избыточность сложилась исторически. Избыточность стала причиной ошибки, которая была исправлена в версии 2011.1 (см. ошибочное использование абсолютного пути из подполя ^C в случае относительных ссылок с разбиением на страницы).
Известные проблемы и особенности процессов добавления полнотекстовых документов в базу и создания словаря
Разбиение PDF-файлов на страницы при добавлении в базу данных
Разбиение на страницы осуществляется с помощью одной из утилит: pdftk или pdf2pdf.
Утилита выбирается в соответствии со значением параметра PDFSplitter в конфигурационном файле АРМ Администратор ИРБИС.
Известные проблемы:
- Утилита pdftk не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты pdf2pdf.
- Утилита pdf2pdf не разбивает некоторые файлы. Такие файлы следует разбивать с помощью утилиты pdftk.
Извлечение текста из PDF-файлов в процессе создания словаря
Для лучшего понимания проблем извлечения текста из PDF-файлов следует ознакомиться с соответствующим разделом статьи АРМ Администратор полнотекстовых БД.
Известные проблемы:
- Если в словарь не попадают термины из PDF-файла, то в первую очередь необходимо убедиться в наличии в PDF-файле текстовых данных и возможности их извлечения. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Текст должен выделяться мышью побуквенно; слова из текста должен находить Arcobat Reader своей встроенной системой поиска. Если эти условия выполняются, то текст может быть извлечён, иначе – не может быть извлечён. Если текст может быть извлечён, то следует продолжить диагностировать проблему. Если текст не может быть извлечён, то следует либо подготовить другой PDF-файл вместо проблемного, либо использовать текстовые подложки.
- В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Случается так, что библиотека оказывается не зарегистрирована. Если это произошло, то следует её зарегистрировать с помощью инструмента Windows Regsvr32.exe.
- Если утилиты pdftotext.exe и docs2text.exe не могут извлечь текст из PDF-файла, то можно рекомендовать попробовать изменить версию PDF-файла, использовать файлы стандарта PDF/A, специально предназначенного для долгосрочного архивного хранения документов.
Извлечение текста из DOC-файлов
Извлечение текста из DOC-файлов выполняется при создании словаря.
Извлечение текста осуществляется с помощью утилиты docs2text.exe или с помощью программы Microsoft Word (с использованием технологии Ole Automation).
Способ извлечения текста выбирается в соответствии со значением параметра Converter_Word в конфигурационном файле АРМ Администратор ИРБИС.
Следует иметь в виду:
- Для извлечения текста вторым способом необходимо наличие установленного приложения Microsoft Word.
- В случае использования утилиты docs2text.exe в системе должна быть зарегистрирована библиотека docs2text.dll. Для регистрации библиотеки используется инструмент Windows Regsvr32.exe.
Известные проблемы:
- Практика показывает, что утилита docs2text.exe не извлекает текст из файлов, содержащих много графических изображений, файлов большого размера (например, десятки мегабайт). При извлечении текста из таких файлов следует выбирать способ с использованием программы Microsoft Word.
- Практика показывает, что при извлечении текста с использованием программы Microsoft Word, не извлекается текст из автофигур. Для извлечении текста из автофигур следует выбирать способ с использованием утилиты docs2text.exe.
Ссылки
См. также:
- Известные проблемы и их решения, касающиеся работы с полнотекстовыми базами ИРБИС
- Развёртывание программного обеспечения ИРБИС 64 для полнотекстовых баз данных
- Базы данных ИРБИС
- АРМ Администратор полнотекстовых БД
- АРМ Администратор
- Рекомендации по обслуживанию баз данных ИРБИС
- Связывание документов базы данных ИРБИС с внешними объектами
- Метод индексирования 9
Источники информации: