на главную POISK-IT
 СобытияО компанииПродукцияРешенияТехнологииКонтактыПубликации
poisk-it
На главную Публикации

Кто ищет, тот всегда найдет (продолжение) журнал "CIO" №10 от 15 октября 2009 года

Информация и ее анализ являются основой принятия решений в различных сферах деятельности человека. Организовать распро­странение знаний внутри организации, чтобы максимально реали­зовать ее потенциал, — одна из ключевых задач любой организа­ции. Роль технологической платформы, на которой базируется сис­тема управления знаниями, может с успехом исполнять современ­ная промышленная поисковая система. В прошлом номере журнала (№9, 2009) мы начали разговор о корпоративных поисковых систе­мах. Сейчас продолжаем обсуждение вопросов, связанных с их внедрением, использованием и развитием.

Для определения эффективности работы поисковых систем существует такое понятие, как релевантность. Применительно к результатам работы поисковой системы релевантность (англ. relevant) — это степень соответствия запрошенного и найденного, иными словами — уместность результата. «В настоящее время основным методом для оценки релевантности является TF-IDF-метод, который используется в большинстве поисковых систем (как в интернет-поисковиках, так и в справочных системах), — рассказывает Ольга Шеина, эксперт по анализу рынка из департамента специальных проектов компании INLINE Technologies. — Его смысл сводится к тому, что чем выше локальная частота термина (запроса) в документе (TF) и больше „редкость“ термина в коллекции (IDF) — то есть чем реже он встречается в других документах, — тем выше вес данного документа по отношению к термину. То есть документ будет выдаваться раньше в результатах поиска по данномутермину».

С точки зрения пользователя удобней рассматривать релевантность как отношение между полнотой и точностью выдачи поисковой системы: можно сказать, что идеал поиска — это когда во всем массиве информации были найдены все адекватные запросу документы и не найдены никакие «лишние». С этой позиции над улучшением качества поиска можно работать в двух направлениях: за счет максимизации полноты и точности выдачи.

С понятием релевантности непосредственно связано ранжирование документов — порядок, в котором найденные документы выдаются пользователю. Дарья Суслова, руководитель направления Поисково-аналитические системы «Энвижн Груп», подчеркивает: «Роль ранжирования трудно переоценить при традиционном подходе к поиску: при значительных объемах выдачи пользователь не может просмотреть все результаты и просматривает только несколько первых, наиболее релевантных». При ранжировании всегда учитывается комбинация ряда параметров:

Каждый из этих параметров имеет определенный вес, и возможность управлять этим весом означает возможность управлять порядком выдачи документов.

Значение формулы ранжирования для качества поиска чрезвычайно важно: при больших объемах выдачи пользователи обычно просматривают результаты, входящие в первые десяток-два. В интернет-поиске знание этой формулы критично для владельцев сайтов: ведь оно обеспечит первые места в выдаче — а значит, и высокий доход. По этой причине и существует интернет-оптимизация, с которой ведут борьбу поисковики, регулярно меняя формулу ранжирования.

Точно в цель

Нередки случаи, когда объем найденного по запросу пользователя значительно превышает его возможности по просмотру результатов. Для решения такой проблемы в инструментах поиска реализуются технологии динамической классификации (структурирование найденного массива по заданной системе категорий, с тем чтобы пользователь получал не «плоский» список длиной в тысячи документов, а сжатую область данных, которая распределена по различным категориям). Как это реализуется на практике?

— Реализация технологии динамической классификации осуществляется при помощи разбиения найденных объектов на категории, в свою очередь разбитые на подкатегории и так далее, — поясняет Евгений Стаханов, директор по маркетингу компании TerraLink. — Последовательно выбирая их, пользователь буквально в несколько кликов получит нужный результат, затратив время на порядки меньшее, чем при пролистывании многостраничного плоского списка. Еще одним инструментом повышения качества поиска является обратная связь, когда пользователь оценивает результат поиска, что фактически является обучением системы и способствует повышению релевантности.

«Если классификационные признаки выделены качественно (при помощи системы анализа текста), результат получается приемлемый, — делится опытом Вадим Бондарев, ведущий менеджер Центра по работе с партнерами компании „ФОРС — Центр разработки“. — Если система пытается это сделать на лету, по словам найденных документов, то качество результатов пока вызывает только сочувствие».

Так, в рамках системы Convera RetrievalWare 8.x. реализован «Сервис категоризации и динамической классификации». Суть его работы сводится к следующему. Сначала производится категоризация документа, которая заключается в формировании списка присутствующих в нем семантических категорий с их весовыми коэффициентами. Затем они передаются сервису индексации в качестве одного из системных атрибутов документа. Благодаря этому документ приобретает новое свойство — семантический вектор, который характеризует его тематическую направленность и используется для уточнения оценки релевантности. Известные системе семантические категории содержатся в кросс-языковых таксономиях. Для их создания использовалась специальная среда разработки — Convera Knowledge Workbench. Для каждого источника информации определяется свойственный именно ему набор таксономий. «В некоторых из наших систем, — вспоминает Константин Чубинидзе, — совокупное количество категорий достигало нескольких десятков тысяч для одного источника».

Результаты категоризации поступают не только в индексатор, но и на вход процедуры классификации. Она производится в соответствии с набором фиксированных классификаторов, который может быть разным для разных библиотек и для выполнения статической и динамической классификации. Каждый классификатор базируется на одной или нескольких таксономиях, то есть классы документов характеризуются не ключевыми словами, а логическими формулами, аргументами которых являются идентификаторы семантических категорий, выявляемые на этапе категоризации. Таким образом, в результате классификации документ приобретает еще одну характеристику — вектор классов, к которым он принадлежит. При статической классификации полученный вектор передается индексатору в качестве дополнительного атрибута документа. После завершения индексации пользователь может ограничить область поиска не только набором источников информации, но и набором разделов статических классификаторов.

«Отличие этой динамической классификации заключалось в том, что ее результаты записывались не в поисковый индекс, а в реляционную СУБД, — рассказывает Константин Чубинидзе. — Это позволяло одним SQL-запросом получать отчет, содержащий информацию о статистическом распределении документов по одному или двум (по пересечению) классификаторам. На основе такого механизма пользователям стали доступны иерархический и табличный режимы навигации по результатам поиска, различные формы визуализации контента найденных документов (например в форме графа семантических категорий и их ассоциативных связей с терминами запроса) и возможность экспорта в аналитические системы статистических характеристик, описывающих контент неструктурированных данных».

Разделение процессов категоризации и классификации было предусмотрено для того, чтобы в следующих версиях системы появилась возможность изменять существующие и подключать новые классификаторы без повторной обработки исходных документов. Таким образом, таксономии предназначались для хранения статических знаний о предметной области, а классификаторы должны были описывать непрерывно меняющиеся проблемы, которыми занимаются сотрудники организации, работающие с корпоративной поисковой системой. По мнению Константина Чубинидзе, к существенным недостаткам реализации динамической классификации в системе Convera RetrievalWare следует отнести применение общей реляционной базы данных для хранения всех таксономий, классификаторов и результатов динамической классификации в пределах одного источника информации:

— Если в таксономиях присутствовали десятки тысяч категорий, а источник содержал несколько миллионов документов, база данных достигала объема, при котором скорость работы динамической классификации становилась неприемлемой. Выход из сложившейся ситуации мог быть найден за счет применения более совершенной структуры полнотекстового индекса системы, который позволял бы эффективно хранить и обрабатывать результаты категоризации и классификации. Этого не произошло, поскольку система RetrievalWare в 2007 году была продана компании FAST. В настоящее время мы используем французскую поисковую машину Exalead, в которой применяется поисковый индекс типа «гиперкуб», содержащий результаты категоризации и выявленные объекты. Это позволяет без использования дополнительной СУБД производить динамическую классификацию десятков миллионов документов в режиме реального времени.

Другим интересным примером являются технологии Autonomy, которые широко используют специалисты НТЦ «ПОИСК-ИТ» при создании для заказчиков систем мониторинга, информационно-аналитических систем и систем поддержки управленческих решений. «Одна из особенностей — наличие функций динамической кластеризации и классификации, — рассказывает Ольга Шеина. — Конфигурация карты кластеров меняется по мере поступления документов. Появляются новые кластеры, меняются цвет и его насыщенность, которые отражают количество документов в кластере и их распределение. Установив указатель мышки на вершину кластера, пользователь получит информацию о теме кластера; кликнув на вершину кластера, получит список документов с аннотациями, которые содержатся в данном кластере».

Рассмотрим пример интерфейса с так называемой спектрограммой. Она представляет развитие событий как динамику изменения кластеров. Эксперт может выбрать временной период анализа. Установив указатель мышки на изображении состояния кластера, эксперт может получить краткую информацию о кластере, а кликнув на него — список документов кластера в данном временном состоянии и их аннотации (кластер помечается двумя яркими вертикальными черточками, а список документов появляется в правой части интерфейса). «Поскольку кластеры представлены в динамике, эксперт имеет возможность быстро оценить развитие событий и причинно-следственные связи между ними», — поясняет Ольга Шеина.

Для визуализации результатов динамической классификации полученной выборки информации чаще всего применяются следующие способы:

От поиска — к знаниям

Информация и ее анализ являются основой принятия решений в различных сферах деятельности человека. Рассматривая системы мониторинга, обработки, анализа и представления информации с этих позиций, Ольга Шеина выделяет следующие области эффективного применения этих систем.

Системы поддержки управленческих решений. Они осуществляют мониторинг внутреннего состояния организации и состояния внешней среды, в которой она функционирует. На основании результатов мониторинга вырабатываются управляющие воздействия (как внутри организации, так и вовне) для реализации выбранной стратегии и достижения заданных целей.

Системы ведения информационного противодействия (информационные войны). Их задача — мониторинг информационного пространства: определяются факты информационных атак, оцениваются их характеристики, планируются и осуществляются мероприятия информационного противодействия (воздействия).

Исследования и инновации. Осуществляется мониторинг информационного пространства как вне, так и внутри организации в исследовательских и инновационных целях.

— Совокупность информации, необходимой для принятия конкретного решения либо ответа на конкретный вопрос в контексте предметной области, обусловленной деятельностью компании, относится к корпоративным знаниям, — рассказывает Вадим Бондарев. — А значит, для того чтобы выстроить систему управления ими, нужна корпоративная база знаний, содержащая перечень объектов интереса, их характеристик и связей между ними. База должна регулярно пополняться как из структурированных, так и неструктурированных источников. Баз может и должно быть несколько; каждая отвечает за свою тематику. Например, горизонтально направленные базы, для любых отраслей: досье на контрагентов и прочих подозрительных лиц для СБ, данные о конкурентах для маркетологов. Вертикально направленные базы, специфичные для конкретных отраслей: база знаний конструкторской документации, медицинские базы знаний, база нормативно-правовых актов.

К корпоративным знаниям относятся данные, содержащиеся в корпоративных информационных системах, на персональных компьютерах и в e-mail сотрудников, бумажные архивы (как объект ретроконверсии), а также данные внешних информационных ресурсов, которые регулярно используются в работе организации, — например, интернет-сайты партнерских компаний. «Я бы намеренно исключил такую составляющую, как знания „в головах“ сотрудников организации, — советует Константин Чубинидзе. — До проведения специальных процедур их фиксации и формализации „корпоративными“ их можно считать весьма условно».

Каким образом выстроить систему управления этими знаниями? Она должна выполнять функции сбора и хранения знаний, их нормализации (которая включает не только выделение информации из исходных данных и ее структуризацию, но и верификацию), обеспечения эффективного доступа к ним пользователей, а также поддерживать и стимулировать обмен знаниями между сотрудниками. Построение такой системы — эволюционный процесс, и практически невозможно заранее предположить его продолжительность и стоимость. Это совершенно естественно: если организация развивается, то развивается и корпоративная система управления знаниями.

«Выстроить систему управления знаниями — значит так организовать распространение знаний внутри организации, чтобы максимально реализовать этот потенциал, — отмечает Евгений Стаханов. — Поисковая система обеспечивает интеграцию различных информационных систем и агрегацию информации, находящейся в них. При этом система способна учитывать принадлежность пользователя к какой-либо категории — например, местоположение, выполняемую рабочую функцию и уровень доступа».

«Начинать следует с формирования общего информационного пространства, в котором через единый поисковый интерфейс были бы доступны не только имеющиеся, но и перспективные источники информации, — советует Константин Чубинидзе. — Затем, по мере определения реальных потребностей сотрудников, наращивается пользовательский интерфейс доступа к информации — например, добавлением средств интерактивной навигации, функций автоматизированной подготовки выходных документов, инструментов BI, поддержки коллективной работы и т. д. Если в процессе эксплуатации станет очевидно, что какие-то функции выполняются очень медленно, в систему добавляются специальные сервисы предварительной обработки данных, оптимизирующие быстродействие системы. Заранее следует учитывать, что поступление информации может сильно увеличиться, и система должна не только иметь запас по производительности, но и быть готовой к масштабированию без прекращения штатного режима функционирования».

Современная промышленная поисковая система может с успехом исполнять роль технологической платформы, на которой базируется система управления знаниями. Ее применение более выгодно по сравнению с традиционными СУБД и CM/DM

Идеи, время, деньги

В зависимости от вида деятельности сотрудники современных офисов могут тратить на поиск информации от 5 до 50% своего рабочего времени. А время — деньги. Корпоративная поисковая система позволяет уменьшить затраты рабочего времени на поиск нужной информации. Кроме того, поисковые системы позволяют увеличить степень повторного использования ранее созданных информационных ресурсов. «В крупных организациях периодически возникают ситуации, когда затраты усилий на поиск нужного документа, решения, разработки и т. п. превышают затраты на его повторное создание, — рассказывает Дмитрий Романов. — Фраза „Чем искать, проще сделать заново“ звучит нередко. Поисковые системы помогают уменьшить количество многократно изобретаемых велосипедов».

Другое весомое преимущество состоит в повышении качества принимаемых решений (на всех уровнях) за счет большего охвата релевантной информации. Менеджерам практически всегда приходится принимать решения в условиях недостатка данных. Поисковые системы позволяют уменьшить информационную неопределенность.

«Поисковые машины, системы мониторинга информации, системы ее анализа и представления — это инструменты для умных людей в бизнесе, политике и многих других сферах деятельности человека, — подчеркивает Ольга Шеина. — Эти системы позволяют в первую очередь получить информацию, обладание которой позволит именно вам иметь преимущество в конкурентной борьбе — за рынки, за голоса, в налаживании четкой и эффективной работы коллектива, в обеспечении безопасности бизнеса. Эти системы (при правильном их использовании) дадут вам четкое понимание того, что происходит внутри и вне вашей организации, и помогут определить лучшие варианты действий».

Поисковые системы способствуют сокращению времени разработки новых идей и вывода на рынок инновационных продуктов.

— Человеческое мышление устроено таким образом, что в творческом процессе вовремя поданная информация, подсказанная мысль вызывают генерацию новых идей, — объясняет Дмитрий Романов. — На этом принципе основана, например, известная методика мозгового штурма. Поисковая система позволяет взглянуть на любую проблему в более широком контексте.

Константин Чубинидзе называет еще ряд преимуществ, которые приобретает организация в процессе использования системы корпоративного поиска:

Однако вовсе не обязательно компания получит преимущества от использования поисковой системы. Для этого должен сложиться ряд предпосылок. «В первую очередь руководству компании должна быть очевидна роль внедряемой поисковой системы в работе организации, — уверен Константин Чубинидзе. — Кроме того, необходимы информационные активы, которые не используются, но должны использоваться в работе. Объем реально накопленной и прогнозируемой информации должен быть таким, к которому традиционные CM/DM

Внедрение в деятельность компании системы управления знаниями — это комплексная и длительная процедура, которая так или иначе затронет все звенья управления и в итоге изменит облик организации. Если все пройдет успешно, то компания, безусловно, получит преимущества».

11.11.2009