на главную POISK-IT
 СобытияО компанииПродукцияРешенияТехнологииКонтактыПубликации
poisk-it
На главную Технологии Поиск, мониторинг... Индексация, категоризация и классификация, поиск

Модуль индексации, категоризации, классификации и интеллектуального поиска является ядром   информационно-аналитической системы (ИАС)

Основная функция данного модуля – обеспечение поиска по всем внутренним и внешним данным и обеспечение доступа к сообщениям через единый интерфейс. Данный модуль также осуществляет классификацию и категоризацию сообщений.

Индексация

Индексация – первая стадия обработки новых сообщений. При индексировании сообщения также проходят различные этапы обработки, составляющие в целом «конвейер индексирования».

Эти этапы могут включать в себя:

После завершения индексации новые документы становятся доступными для поиска.

Категоризация и классификация

Категоризация и классификация
Категоризация и классификация

Категоризация и классификация используются для предоставления пользователям информации о содержании документов. В системе категоризация и классификация реализована в виде двухступенчатого процесса, что делает ее предсказуемой и гибкой.

Категоризация– это процесс, с помощью которого определяется содержание документа на основе таксономий. (Таксономия– это иерархия категорий, представляющих некоторую область знаний.) Во время индексирования сервис категоризации анализирует каждый документ, чтобы определить, как он связан с категориями в одной или нескольких таксономиях. Чтобы определить, с какими категориями совпадает документ, сервис категоризации сравнивает термины и выражения в документе с терминами и выражениями из таксономии. Когда совпадение найдено, считается, что система «распознала» понятие.

В результате категоризации каждый документ, содержащий слова и выражения, описывающие некоторую категорию, «закрепляется» за этой категорией.

 

Классификация определяется двумя связанными понятиями:

Классификация является адаптивной, т. е. меняется с учетом изменившихся требований и областей интересов пользователя.

Классификация может быть статической и динамической.

Статическая классификация. Классифицируются все документы. Это дает возможность просмотреть законченный набор документов, организованный на основе соответствующих категорий, без составления запроса.

Динамическая классификация.Классификация множества документов, полученных в результате поиска. Таким образом, появляется возможность перемещения по результатам запроса, организованным в папки классификации. При динамической классификации ссылки, которые связывают документы с папками в рамках классификации, существуют, пока сохраняется отображение результатов запроса.





Поиск

ИАС позволяет производить смысловой (ассоциативный), логический и нечеткий поиск.

Режимы поиска
Режимы поиска

Смысловой, или ассоциативный поиск

Одной из главных проблем поиска информации в неструктурированных документах является проблема сложности точной формулировки запроса. Это может быть связано с недостаточным знанием терминологии предметной области или наличием в языке многозначных и синонимичных слов. Очевидно, что если пользователь не имеет представления о предметной области, то он сформулирует поисковый запрос в самом общем виде. В результате выполнения этого запроса он получит большое количество документов.

С другой стороны, сформированный «в общем виде» запрос может привести к пропуску важных документов (проблема точности).

Одним из решений этой проблемы является использование тематического тезауруса, который обеспечивает расширение поискового запроса родственными понятиями для улучшения полноты поиска.

Смысловой поиск
Смысловой, или ассоциативный поиск

Нечеткий поиск

Этот механизм позволяет находить документы, в которых искомые термины написаны с ошибками. В результате можно найти информацию о человеке, фамилия которого написана с орфографическими ошибками. При выдаче поискового запроса степень «похожести»может регулироваться пользователем, что позволяет сузить либо расширить запрос, увеличив количество полученных документов и отобрав нужные документы. Кроме того, механизм поиска на основе распознавания образов позволяет находить электронные документы, которые были отсканированы с бумажных носителей и не были выверены на ошибки распознавания.

Логический поиск

Логический поиск является буквальным и находит только точные совпадения. В списке результатов поиска может выводиться разнообразная информация о найденном документе: заголовок, его тип, атрибуты, первые строки, синсет-вектор (список слов, выбранных в процессе категоризации).

Просмотр найденного документа осуществляется в окне браузера. Система фильтрации обеспечивает просмотр документов в их исходном формате. При отображении документа происходит подсветка слов, по которым данный документ был отобран.

Режимы поиска

Работа с функцией поиска возможна в двух режимах:

В первом режиме пользователями производится разовый поиск информации в обработанных системой файлах. Во втором – система автоматически анализирует каждый поступающий файл на наличие в нем информации, соответствующей условиям поискового запроса. Если файл содержит искомую информацию, система сигнализирует об этом способом, выбранным пользователем.