Наши технологии: определение темы и ключевых терминов текста


Сервис «Семантическое зеркало» предлагает вам две технологии интеллектуальной обработки текстов, разработанные компанией «Ашманов и партнеры»:

  • собственно «Семантическое зеркало» — систему автоматического определения тематики текста,
  • «Автоконтекст» — технологию выделения и подбора ключевых слов.

Чтобы увидеть технологии в действии, зарегистрируйтесь, введите адрес любой веб-страницы в поле URL справа вверху и нажмите «Определить».

Лимит бесплатных запросов к сервису для зарегистрированных пользователей — 10 в сутки. Если для знакомства с сервисом вам необходимо большее количество запросов, мы можем увеличить этот лимит на месяц.

Лимит запросов для платных пользователей устанавливается индивидуально. Кроме того, платные пользователи могут обращаться к сервису с помощью API. Для получения информации о ценах свяжитесь с нами.

Технология «Семантическое зеркало»

«Семантическое зеркало» — система автоматической классификации текстов по тематике. С помощью «Семантического зеркала» можно определить тему веб-страницы, новости, поискового запроса или другого вида текста. Это позволяет узнать, например, говорится ли в тексте о спорте или политике, культуре или экономике, есть ли в нем бранная лексика и где происходят описанные в нем события.

Темы определяются по созданному специально для «Семантического зеркала» рубрикатору из более 3000 рубрик. Рубрикатор имеет древовидную структуру: к корневым рубрикам принадлежат дочерние рубрики второго уровня, к ним, в свою очередь, — рубрики третьего уровня и т. д. Например, к корневой рубрике «Авто, мото» принадлежит, в числе прочих, подрубрика «Мототехника», а к ней — рубрика третьего уровня «Скутеры, мопеды».

К каждой из рубрик силами редакторов-экспертов отнесены от нескольких десятков до нескольких десятков тысяч терминов, формирующих семантические образы рубрик; на основании этих терминов и происходит присвоение темы. Общий объем базы «Семантического зеркала» — более 800 тысяч терминов, отобранных вручную.

Наполнение и корректировка баз данных ведется непрерывно на протяжении всей истории сервиса (с 2004-го года). Базы сервиса регулярно обновляются: в них вносятся новые термины и рубрики, а также исправляются неточности в старых — например, в терминах, изменивших с течением времени свое значение.

Работу «Семантического зеркала» поддерживают передовые лингвистические технологии компании «Ашманов и партнеры»: в частности, одна из лучших на сегодняшний день словарных морфологий русского языка, применяемая при нормализации терминов.

При вычислении степени принадлежности текста к рубрике «Семантическое зеркало» учитывает множество факторов: веса терминов, длину терминов, количество вхождений термина, общее количество терминов в тексте, местоположение термина (термины в заголовке более важны), дополнительные пометы в базе, уточняющие особенности употребления термина, и многое другое. Вычисленные веса рубрик в процентах доступны пользователям. Это дает возможность сравнить веса разных рубрик и упорядочить рубрики по значимости.

Наиболее детально проработана база «Семантического зеркала» на русском языке. Кроме того, «Семантическое зеркало» можно использовать для классификации английских текстов.

Возможные области применения

  • Интернет-реклама: определение тематики веб-страниц для подбора релевантных рекламных объявлений. 

  • Поисковые системы: определение тематики запросов и веб-страниц; улучшение ранжирования результатов за счет повышения в выдаче страниц, соответствующих тематике запроса, а также за счет учета тематики ссылок. 

  • Каталоги сайтов: определение тематики добавляемых сайтов, автопополнение каталогов. 

  • Системы контентной фильтрации: фильтрация документов, относящихся к нежелательным для пользователя рубрикам (порнография, нецензурная лексика, наркотики и т. д.). 

  • Новостные агрегаторы: определение тематики новостей, персонализация новостного потока. 

  • Поисковая оптимизация: определение тематики веб-страниц и ссылок — например, с целью их тематической расстановки. 

  • Выявление интересов пользователей: создание тематических профилей клиентов на основе информации о тематике посещенных ими страниц либо тематике сделанных ими запросов. Актуально для крупных интернет-магазинов, социальных сетей, систем контроля рабочего времени или родительского контроля, при проведении маркетинговых исследований, а также в других приложениях, где необходим учет интересов пользователей, — в том числе уже названных выше (поисковые технологии, интернет-реклама и др.).

Применение «Семантического зеркала» не ограничено указанными областями, оно может быть полезно и в других задачах, где требуется автоматическая обработка больших объемов текстовых данных.

Примеры использования

Примеры сервисов, использующих «Семантическое зеркало» как один из значимых компонентов:

Технология «Автоконтекст»

Технология «Автоконтекст» позволяет автоматически подобрать ключевые термины для заданной веб-страницы. Под ключевыми терминами понимаются слова и словосочетания, наиболее точно характеризующие содержание текста. Версия «Автоконтекста», используемая в данном сервисе, выдает по 15 ключевых терминов с наибольшим весом для каждого документа.

«Автоконтекст» был разработан и успешно использовался для показа контекстной рекламы по выделенным ключевым словам. На протяжении нескольких лет он работал в системе контекстной рекламы «Бегун», обеспечивая миллионы показов рекламы ежедневно.

Помимо систем контекстной рекламы, «Автоконтекст» может быть полезен в SEO-сервисах (при составлении семантического ядра сайта), поисковых системах (для выделения терминов, по которым прежде всего должна находиться страница), в системах автоматического аннотирования и тегирования документов, при решении множества других прикладных задач обработки текстов.

Дополнительная информация

Информацию об API сервиса и ответы на часто задаваемые вопросы см. на странице «Разработчику».

С условиями использования сервиса можно познакомиться здесь: пользовательское соглашение сервиса «Семантическое зеркало».