Tuesday, December 11, 2007

Анализ журналов кеширующего сервера

Проведен небольшой анализ недельных журналов работы кеширующего сервера (proxy). Результаты "обнадеживают": примерно 7% серверов, к которым обращаются пользователи, являются кандидатами на блокирование. В свете последних новостей, в число внешних сайтов представляющих угрозу для компьютеров пользователей, попадают рекламные сети. Методы, использованные в процессе анализа, позволяют, кроме выделения почтовых сайтов, форумов и т.д., детектировать, в том числе, банерные сети.
Отчет о проделаной работе.
Приложение к отчету.
В ближайшее время будет опубликован результат анализа журналов за 4 месяца.

2 comments:

Sergey Soldatov said...

Игорь,
мне очень понравился твой труд, но, на мой взгляд, он пока еще более академический чем практический. Дело в том, что, как мне кажется, наиболее эффективным подходом является построение профилей поведения пользователей и анализ отклонений, что у тебя в планах.
Лично я каждый год ставлю себе задачу написать скрипт, который строит профили и анализирует отклонения, но каждый год не доходят руки :-((( (хотя, по моему мнению, это несложная задачи, и я до сих пор не пойму, почему коммерческие продукты это не делают, ну, по крайней мере, я не видел удачных решений в этом направлении).
Может, ты будещь более методичен в данном вопросе и все-таки реализуешь это. Желаю тебе удачи!

Igor Gots said...

А как ты предполагаешь профилировать пользователей?
Я, в свободное время ковыряю тему Conceptual Clustering (http://en.wikipedia.org/wiki/Conceptual_clustering), но так как она для меня новая, а времени не много, то результатов скоро ждать не приходится.
В данный момент переделываю скрипт. Сейчас для получения результатов нужно запустить последовательно несколько разных файликов (импорт, препроцессинг, обработка), да и большие объемы они не обрабатывают - нужна оптимизация.