Год назад, в начале работы с данной биржей, решил жестко отфильтровать все ссылки, которые меня не устраивают.
Для начала выделил в настройках допустимые тематики ссылок - почти не помогло.
Пришлось воспользоваться стоп-словами. За год их набралось более 600. И все равно каждый раз в списке заявок присутствуют 2-3% нежелательных текстов. Что-то придется добивать стоп-словами, но что-то можно победить и на системном уровне.
Например:
1) Из-за одинаковости написания некоторых русских и латинских букв слово "спайс" и "cпайс" - это 2 совершенно разных слова (можете проверить в hex-редакторе ) и оба уже вынужден поместить в стоп-слова. Простое вычисление показывает что "спайс" может присутствовать в 8 вариантах написания оставаясь при этом совершенно одинаковым. Предлагаю доработать работу со стоп-словами для учета внешне одинаковых букв разных алфавитов.
2) Соверешенно безобидные слова "груз" и "200" в сочетании "груз 200" мне не нужны, но механизма работы со стоп-словосочетаниями пока нет, а он был бы очень полезен.