Сабж. Ребята, тестируйте. Если будут какие пожелания, отписывайте, любой каприз рассмотрим, но не факт, что примем :)
Вид для печати
Сабж. Ребята, тестируйте. Если будут какие пожелания, отписывайте, любой каприз рассмотрим, но не факт, что примем :)
не пользуюсь :)
Пожелание одно - сделайте, чтобы работало :) Может я чего-то не понимаю в алгоритме работы фильтра, но у меня он не отсеивает заявки с явными дублями (типа "Сочи: отдых в сочи"). Про падежи вообще молчу.
Это дублем не считается, вернее это нечеткий дубль :)
например вы напишете предложение:
Что в нем не так? Хоть с точки зрения ПС, хоть человека - всё гуд.Цитата:
Сочи: отдых в сочи мне так понравился.
А чем вам падежи не угодили? Отсеиваются дубли четких вхождений. Если отсеивать жестко (без учета морфологии, по корню слова или основе слова, как вы говорите), тогда весь рунет - спамеры, причем жесткие :)
ну наверно нужная весчь. непользуюсь ...
А я бы такую ссылку не поставил :)Цитата:
Что в нем не так? Хоть с точки зрения ПС, хоть человека - всё гуд.
А собственно, что тогда вообще отсеивает этот фильтр? Только совпадения с учётом регистра (Сочи=Сочи<>сочи?).
Может тогда настройки к нему добавить? У всех разные требования к качеству ссылок.
У меня тузла есть (себе писал) у которой одна из функций - отсеивать заявки по принципу:
- более 3х одинаковых слов.
- два слова повторяются по два и более раз.
Написано на python работает на любой платформе. Требует python-suds.
Брать - http://bitbucket.org/zeus/limbo/
Все верно, функционал совершенно сырой, падежи и прочие тонкости пока не учитываются, вот потихоньку с Вашей помощью доработаем его - даст бог.