Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Компьютеры + Интернет » Вебмастеру » Определение "пустословного" поста. Алгоритмы. Мысли.

Ответить
Настройки темы
Определение "пустословного" поста. Алгоритмы. Мысли.

Аватара для Prisoner

Engrossed by the Void


Сообщения: 2229
Благодарности: 60

Профиль | Отправить PM | Цитировать


Сабж. Ввиду ограничения на длину оного развиваю мысль - есть некая форма, основная ее задача дать посетителю возможность оставить сообщение: задать вопрос, отослать пожелание, ответить в данном топике и т. п.. Теперь представьте себе, что я шутки ради напиш скрипт который будет вызывать другой скрипт, скрипт обработки этой некой формы с такими данными, что загажу хранилище данных (БД, файл или что-либо другое). Посты могут быть от бессмысленного "123", "gdfgdfgdfgdfgdf", "qwerty" и т. д. до рандомно генерируемого текста длиной "до сколько надо". В общем напишу флудер под конкретную форму.

Мне интересны ваши мысли по поводу отсева такого рода сообщений. Лично мне видится некая функция которая должна возвращать ненадежность строки, скажем в процентах. В самой функции есть некоторое количество тестов которым входящая строка последовательно подвергается. После прохождения всех тестов результаты тестов анализируются и выдается оценка этой строке. Какие тесты можно было бы предложить? Длина? (наврядли можно сказать что-либо вразумительное одним символом, а в зависимости от темы формы и N символами). Анализ семантики? (ошибочные сочетания допустимого набора символов) Статистика символов? (не может же вопрос состоять из одних согласных, так?)

В общем мне бы было интересно услышать ваши мнения, господа.

PS Если данный вопрос уже решен кем-либо (злой ведь вопрос, не так ли?), то ссылкам буду рад как ребенок .

-------
Не могу дать более дельный совет - не хватает системных ресурсов...


Отправлено: 17:54, 30-05-2004

 
mar mar вне форума

Аватара для mar

just mar


Moderator


Сообщения: 3904
Благодарности: 163

Профиль | Отправить PM | Цитировать


Prisoner
а какие тесты?

Отправлено: 10:54, 04-06-2004 | #11



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Аватара для Prisoner

Engrossed by the Void


Сообщения: 2229
Благодарности: 60

Профиль | Отправить PM | Цитировать


В этом весь вопрос .
Ну предположим такой: слева и справа каждой буквы алфавита могут стоять лишь некоторый набор букв, таковых, что они не слагают всякую лабуду. Если две подряд идущие буквы проходят этот тест, то все нормально, нет - считаем количество таких ошибок и даем оценку именно по этому тесту. Смысл именно этого теста - обнаружение бессмысленных постов аля "Пятая симфония на клавиатуре".

-------
Не могу дать более дельный совет - не хватает системных ресурсов...


Отправлено: 17:37, 04-06-2004 | #12

mar mar вне форума

Аватара для mar

just mar


Moderator


Сообщения: 3904
Благодарности: 163

Профиль | Отправить PM | Цитировать


тогда, наверное, не количество ошибок, а процент от общего теста (только что заметила, что набрала общегго, а потом раскладку не перключила и пошло xnj (что)
Причем это в психологию и распознавание образов надо лезть:
вся штука в том,  что мы воспринимаеи слова, скорее, как иероглифы - по начертанию и целиком, поэтому легко, часто даже, не спотыкаясь, узнаем слова с ошибками. (А то посты многих из нас пришлось бы читать со словарем Но для такого распознавания нужно, чтобы какой-то (не знаю - какой) % слова был похожим на правду.
Иначе говоря, по-хорошему, чтобы не отсеивать, как злостное нарушение, опечатки, или двойной удар по клавише  (это все может быть сплошь и рядом) надо придумать такой тест, который потянет на задачку из разряда распознавания образов А ведь приложению еще что-то делать надо будет.
Ну, а в простейшем виде - назначить волевым порядком какой-то допустимый % (от общего числа знаков) недопустимых сочетаний.

Отправлено: 18:08, 04-06-2004 | #13


Аватара для Prisoner

Engrossed by the Void


Сообщения: 2229
Благодарности: 60

Профиль | Отправить PM | Цитировать


Ну оки... распознавание образов. Ни . Я на днях попробую составить сочетания правильные букв и выявить какие из ошибочных могут считаться менее злостными чем другие - скажем, категория "двойного случайного нажатия". Ко всему можно всегда увеличить глубину проверки - не две соседние буквы, а три. К тому же можно провести тест как для двух, так и для трех букв, это даст более ровную характеристику.

-------
Не могу дать более дельный совет - не хватает системных ресурсов...


Отправлено: 18:39, 04-06-2004 | #14

mar mar вне форума

Аватара для mar

just mar


Moderator


Сообщения: 3904
Благодарности: 163

Профиль | Отправить PM | Цитировать


наверное,  по трем знакам и все-таки % от общего текста.
А потом нас всех заставить пройти этот тест
(а список будет интересно посмотреть -советую  поковырятья в почтовых фильтрах - там в этой области довольно много наработано.

Отправлено: 18:51, 04-06-2004 | #15



Компьютерный форум OSzone.net » Компьютеры + Интернет » Вебмастеру » Определение "пустословного" поста. Алгоритмы. Мысли.

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Интерфейс - [решено] Как удалить папку "Моя музыка","Мои Картинки", "Мое видео"? verdix Microsoft Windows 2000/XP 3 03-10-2009 23:46
Debian/Ubuntu - [решено] Пропали кнопки "свернуть","закрыть","во весь екран" в папках Alex.sys Общий по Linux 5 02-04-2009 11:13
[решено] При редактировании поста пропадает отметка "Полезное сообщение". Oleg_SK О сайте и форуме 0 15-08-2007 14:03
Приоритет в диспетчере: "реального времени", "средний", "выше среднего" alhimik PC Хочу все знать 3 28-11-2006 05:29
Запретить/удалить пункт "Programs" ("Программы") из меню кнопки "Start" ("Пуск") submaster Microsoft Windows NT/2000/2003 5 13-09-2006 12:29




 
Переход