Персональная система интернет-мониторинга Avalanche : результаты тестовых замеров
Давайте проведем простой эксперимент.
Вам дается две темы, например «Путин» и «Ирак».
Ваша задача – выбрать какую-нибудь систему Интернет-мониторинга и настроить ее так, чтобы при тестовом запуске спустя сутки она принесла из Интернета свежие документы по заданным темам и автоматически разложила по тематическим папкам с максимально возможной релевантностью (т.е. если в папке «Путин» из 100 документов окажется семьдесят пять по теме, и двадцать пять – шелуха или старье, то общая релевантность результата составит 75%).
Вам даются календарные сутки с возможностью неограниченного доступа к Интернету и использования всех мыслимых бесплатных интернет-сервисов. Однако выбранную целевую систему интернет-мониторинга за сутки можно запустить только дважды (третий запуск - итоговый тест в автоматическом режиме), и при каждом анализе результатов учитываются только 300 документов по каждой теме, принесенных первыми. И всю работу по настройке и тестированию должен выполнять один человек.
А и правда, давайте попробуем – что-то давно не попадалось профессионального сравнения систем интернет-мониторинга «по гамбургскому счету».
Вот что получилось у нас с Аваланчем (кликните в табличку, чтобы увеличить):

Результаты достаточно красноречивы. Попробуйте. Выбрать самую близкую вам тему, сформировать самый лучший запрос в Яндексе, отсортировать по дате – и честно сосчитать, сколько попадется шелухи среди первых трехсот документов. Сравнить. И разрыдаться.
Одно место в табличке требует пояснения – как так может получиться, что входной фильтр проходит 189 документов, а рубрицируется из них 270 ? На самом деле, документы, прошедшие входной фильтр при последних запусках роботов, но не разобранные умными папками, остаются в невидимой общей папке «Последние результаты» и при следующей рубрикации их снова увидят «умные папки» – и могут забрать себе. В результате, если вы меняете настройки какой-либо папки, она получает дополнительный шанс вновь порыться в куче свежих документов, и может быть, подобрать ранее не заинтересовавшие ее материалы.