на главную POISK-IT
 СобытияО компанииПродукцияРешенияТехнологииКонтактыПубликации
poisk-it
На главную Публикации

Кто ищет, тот всегда найдет? журнал "CIO" №9 от 15 сентября 2009 года

С каждым годом объем данных в больших компаниях увеличивается вдвое. Общий информационный массив содержит полезную для организации информацию, которая может быть как структурированной, представленной в виде электронных таблиц или баз данных, так и неструктурированной — в виде отчетов, записей и пр. Данные хранятся в разных информационных системах, подчас слабо интегрированных между собой либо не интегрированных вовсе, что не позволяет компании своевременно реагировать на изменения внешней среды и конъюнктуры рынка. Поэтому вопрос поиска в корпоративной среде, где информационное пространство очень разнородно, стоит особенно остро.

Большинство данных, несущих полезную информацию, доступны в трех основных видах: структурированные (например, электронные таблицы, базы данных), неструктурированные (речь, видео, печатные тексты, электронные документы текстовых форматов), слабоструктурированные (базы данных, содержащие аудио, видео, тексты). Большая часть важных данных о деятельности предприятия хранится в неструктурированном виде — например, внутренняя документация (приказы, инструкции, процедуры, описания товаров и услуг), документы, относящиеся к общению с контрагентами (договоры, заказы, письма). Согласноисследованиюкомпании IDC (An IDC White Paper. The Expanding Digital Universe. A Fore cast of Worldwide Information Growth Through 2010, March 2007), в современном мире

Неструктурированная информация не менее (а часто — более) важна для принятия управленческих решений и выполнения конкретных действий в рамках тех или иных бизнес

процессов, чем формализованные записи в базах данных. «Известно, что распределение объемов хранимой информации между структурированным и неструктурированным представлениями составляет 20% против 80%, — отмечает Вадим Бондарев, ведущий менеджер центра по работе с партнерами компании „ФОРС — Центр разработки“. — На практике это означает, что в базах данных хранится лишь 20% требуемой информации. Остальные 80% нужно перед поиском извлечь из текста документов как на естественном языке, так и полуструктурированных, и записать в базу данных. Необходимость очевидна: нельзя принимать решение, владея пятой частью требуемой информации».

«Для обеспечения эффективного управления руководитель обязан оценивать все факторы, влияющие на деятельность предприятия, — отмечает Ольга Шеина, эксперт по анализу рынка, департамент специальных проектов компании INLINE Technologies. — К ним относятся как внешние (деятельность конкурентов, политическая ситуация, экономика, отдельные события и пр.), так и внутренние (технологический уровень, персонал, поставки, сбыт, угрозы безопасности и пр.). Поэтому возникает необходимость в средствах автоматизации процессов сбора, обработки, анализа и представления информации в виде, удобном для принимающего решения лица. Одним из основных элементов этих средств являются поисковые машины, реализующие функции поиска и обработки информации, которая хранится как в формализованных базах данных (структурированные данные), так и в неструктурированном виде».

— Задача поиска — не только найти данные, но и автоматически «связать» их, то есть частично структурировать, — уточняет Константин Чубинидзе, к. т. н., генеральный директор ООО Convera, директор по науке ООО «Одеон-АСТ». — Наиболее эффективный и дешевый способ — использовать для этих целей формализованные базы данных. Например, пользователю удобнее работать с неструктурированной информацией, если ее фрагменты будут содержать ссылки на уточняющие или подтверждающие их записи в корпоративных базах данных. Обратный пример: при просмотре записи в CRM, ERP или любой другой системе не помешает иметь доступ к списку неструктурированных документов, связанных с ней. Самый эффективный способ реализации описанных функций — «сквозной» поиск по формализованным базам данных и неструктурированным документам.

Видеть, слышать, понимать

Какими способами может решаться задача поиска и извлечения информации из неструктурированных источников — текстов и мультимедийных ресурсов любой природы (графика, видео и аудио)? Прежде всего отметим, что, ведя речь о поиске информации, мы априори подразумеваем сравнение двух текстовых фрагментов. «Сравнивать текст и видео или текст и звук бессмысленно, как нельзя сравнивать стихотворение и картину, — объясняет Дарья Суслова. — Поэтому необходимо привести данные к одному формату. В нашем случае таким форматом является текст. Следовательно, когда речь идет о нетекстовых источниках, необходимым этапом становится преобразование видео- или аудиоинформации в текстовый формат».

Поисково-аналитические технологии для работы с мультимедийной информацией бывают двух видов (они могут быть совмещены в одной поисковой системе и даже в одном пользовательском интерфейсе). Самым распространенным подходом является поиск мультимедийной информации по набору текстовых атрибутов — ключевых слов, которые описывают фотографии, аудиозапись или видеосюжет. Это могут быть текстовые аннотации изображений, видео- или аудиофрагментов или значения метаданных, присущих графическим файлам (формат, ориентация, размер). Аннотации могут вводиться вручную, а могут формироваться автоматически — путем преобразования в текстовую форму информации, содержащейся в мультимедиа. «Более сложные и интеллектуально насыщенные технологии распознания образов позволяют переводить в электронный вид отсканированные текстовые документы, выделять и распознавать изображения человеческих лиц, находить графические изображения, похожие на заданный образец, музыкальные произведения по фрагменту мелодии и т. п.», — отмечает Дмитрий Романов, директор по развитию технологий информационного менеджмента компании «АйТи».

В ряде информационно-аналитических систем используются практически все известные типы поисковых машин.

Цель — обеспечить обработку, поиск, анализ и представление информации, поступающей от всех известных

источников: баз данных, файловых систем, Интернета, электронной почты, факсов, телевидения, радио, телефонии и пр. в интересах полного, достоверного, своевременного и точного анализа информации — например для поддержки принятия управленческих решений. Без преувеличения, это сложнейшие комплексы программ, реализующие последние достижения в области науки и техники. В качестве примера Ольга Шеина приводит процесс обработки телевизионного контента в информационно-аналитической системе «Журналист» компании «НТЦ ПОИСК-ИТ», реализующей несколько этапов работы с контентом: «Речевое сопровождение видеосюжета преобразуется в текст. Текст синхронизируется с речевым сопровождением и видео. Изображения комментариев и бегущей строки преобразуются в электронные тексты. Тексты комментариев и бегущей строки синхронизируются с видео. Осуществляется идентификация и распознавание лиц, логотипов и других определенных пользователем объектов в видеопотоке с составлением кратких текстовых описаний и синхронизацией с видео».

Тем не менее преобразование звука в текст, как и распознавание отсканированного текста, пока не может быть до конца автоматизировано. Несмотря на то что для многих языков уже существуют системы speech to text с достаточно высоким качеством распознавания речи, зачастую результаты автоматического распознавания требуют верификации человеком.

— Технологиями распознавания речи мы занимаемся уже более 7 лет, — рассказывает Константин Чубинидзе, — и надо сказать, что в последнее время появились вполне пригодные для промышленного использования системы преобразования речи в текст, в том числе адаптированные к русскому языку. К сожалению, их базовые версии рассчитаны на дикторскую речь, в то время как клиентам в основном требуются стенограммы переговоров, в том числе телефонных. В этой ситуации важно, чтобы компания

15.10.2009