Доступ к API — платный.
Для получения доступа необходимо: 1) зарегистрироваться на сайте и 2) оплатить сервис (напишите нам, чтобы уточнить стоимость услуги). После подтверждения оплаты администратор сайта заведет вам логин для доступа к API.
Помимо логина, для выполнения запросов к API потребуется отдельный пароль — он не совпадает с паролем для входа на сайт. Чтобы получить пароль, авторизуйтесь, зайдите в свой профиль и нажмите кнопку «Сгенерировать пароль». Пароль начнет действовать в течение часа после генерации.
API сервиса дает возможность обрабатывать документы, находящиеся как в открытом доступе в сети Интернет, так и в закрытом доступе на стороне клиента.
В первом случае сервис самостоятельно скачивает документ по указанному URL и производит его анализ. Во втором случае клиент отдает сервису подлежащий обработке документ посредством метода POST протокола HTTP.
Каждый запрос к сервису сопровождается парой login и password.
Пример обращения к API «Семантического зеркала» для рубрикации веб-страницы по указанному адресу (вместо LOGIN, PASSWORD и URL_TO_RUBRICATE нужно подставить свои данные):
http://api.sm.ashmanov.com:8789/remote?url=URL_TO_RUBRICATE&login=LOGIN&password=PASSWORD
Пример обращения к API «Автоконтекста» для выделения ключевых терминов с веб-страницы по указанному адресу:
http://api.sm.ashmanov.com:8794/remote?url=URL_TO_RUBRICATE&login=LOGIN&password=PASSWORD
Пример обращения к API «Семантического зеркала» при отправке данных методом POST:
http://api.sm.ashmanov.com:8789/upload?login=LOGIN&password=PASSWORD
Пример обращения к API «Автоконтекста» при отправке данных методом POST:
http://api.sm.ashmanov.com:8794/upload?login=LOGIN&password=PASSWORD
В двух последних примерах документ загружается методом POST в поле data. Форма для загрузки и отправки одиночных файлов сервису также реализована в личном профиле пользователя.
Как URL_TO_RUBRICATE, так и документы, загружаемые методом POST, должны быть закодированы urlencode. Например, если с помощью API необходимо отрубрицировать URL http://optimization.ru, то URL_TO_RUBRICATE в этом случае должен выглядеть так: http%3A%2F%2Foptimization.ru.
Да, сервис позволяет разрешить доступ по конкретному логину только для определенных IP-адресов. Задать список адресов вы можете в своем профиле.
API возвращает результаты в формате XML.
Пример распознанной рубрики из XML-выдачи «Семантического зеркала»:
<category id="SciTech/Technics" title="Техника, электроника" weight="81.5%" difflimit="91"></category>
Пример выделенного термина из XML-выдачи «Автоконтекста»:
<term weight="0.387334" type="">рубрики первого уровня</term>
id — идентификатор категории. В идентификаторе указан полный путь от данной рубрики до корневой. Идентификатор каждой рубрики уникален.
title — название категории. Кратко отражает основное содержание рубрики.
difflimit — степень конкретности категории. Значение представляет собой целое число в интервале от 90 до 99. Чем выше difflimit, тем уже содержание рубрики. Иногда difflimit напрямую соответствует уровню вложенности категории, но нередко и расходится с ним.
weight — вес рубрики в процентах, отражает степень соответствия текста данной рубрике.
weight — вес ключевого термина.
type — опциональное служебное поле, используется в технической поддержке сервиса (для пользователей неинформативно).
Сервис умеет обрабатывать документы в форматах TXT и HTML.
Кириллические домены необходимо предварительно конвертировать в Punycode. Например, вместо ашманов.рф в качестве запроса к сервису следует задать xn--80aag2bgg0e.xn--p1ai.
Список рубрик первого уровня (в скобках приведены примеры подтем):
Сервис предназначен прежде всего для рубрикации веб-страниц и других текстов, объем которых обычно не слишком мал и составляет хотя бы несколько предложений. Для рубрикации очень коротких текстов у нас есть отдельное решение — особая разновидность базы, разработанная для выполнения подобных задач. Условия доступа к этой базе оговариваются с каждым клиентом индивидуально.
Значения точности и полноты принципиально зависят от конкретной задачи и того материала, на котором эту задачу предполагается решать. Например, на корпусе новостей хотя бы одну рубрику «Семантическое зеркало» присваивает более 90 % текстов при точности в 95 % и выше; на корпусе поисковых запросов первый показатель будет существенно меньше — 60-70 %, а второй может быть даже выше, чем в случае новостей. Воспользуйтесь демонстрационным доступом к сервису, чтобы примерно оценить показатели качества распознавания на интересующем вас материале.
Помимо недоступности веб-страниц по техническим причинам, не связанным с работой авторубрикатора (ошибка 404 и др.), отсутствие присвоенных рубрик может объясняться следующими факторами:
Серьезные изменения в структуре рубрикатора невозможны. В таких случаях мы рекомендуем — и активно используем это в своих проектах — создавать таблицу соответствий (таблицу мэппинга) между рубриками «Семантического зеркала» и рубриками, нужными вам.
Допустим, вам необходима рубрика «Наука и образование», а в «Семантическом зеркале» такой рубрики нет. Вместо нее в «Семантическом зеркале» есть две отдельные рубрики: «Наука» (под «Техникой и наукой») и «Образование» (под «Работой и образованием» в «Обществе»). В таком случае с помощью таблицы соответствий вы можете самостоятельно соотнести эти две рубрики с нужной вам «Наукой и образованием».
Кроме того, такой подход позволяет вводить разные дополнительные правила преобразования рубрик. Ср.: если тексту одновременно приписались рубрики «ДТП» и «Автомобили», рубрику «Автомобили» отбрасываем — оставляем только «ДТП» (такое правило может быть полезно при рубрикации новостей).
Таблицы соответствий и правила преобразования рубрик полностью реализуются на стороне клиента.
В некоторых случаях разработка новых рубрик возможна — как правило, за отдельную плату. При этом нужно учитывать, что нередко она занимает значительное количество времени (иногда не один месяц).
Нет, такой доступ не предоставляется.
Свяжитесь с нами с помощью формы обратной связи и мы постараемся ответить на ваши вопросы. Зарегистрированные пользователи получают консультации в приоритетном порядке.
Запросов в день: 0
Осталось на сегодня: 0