Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Программирование и базы данных (http://forum.oszone.net/forumdisplay.php?f=21)
-   -   Сравнение на схожесть текста и записи из БД (http://forum.oszone.net/showthread.php?t=269968)

kibis_92@vk 15-10-2013 01:48 2234588

Сравнение на схожесть текста и записи из БД
 
Здравствуйте уважаемые пользователи форума. Возникла задача в реализации системы сравнения текстов на схожесть, иными словами на предмет плагиата. Реализация системы на php, хранение данных в БД MySQL. Принцип работы заключается в следующем, пользователь открывает страницу и в диалоге загрузки файла на сервер выбирает *.doc файл и загружает его на сервер. Система проводит операции над содержимым doc-файла (очистка от лишних символов, стоп-слов и прочее) записывает результат в базу и проверяет с уже существующими записями в базе на предмет их схожести. Результат сравнения выводится на той же странице. Может быть, так, что текст внутри doc файла может быть заимствован из нескольких источников, и записи о них могут храниться в базе. В записях также указывается и автор текста. Нужно чтобы результат имел вид - "Загруженный файл имеет схожесть с (перечисление записей в базе, которые имеют схожесть) авторами которых являются (перечисление авторов текстов в записях)". Возможно ли такое реализовать? Как реализовать такую идею? С чего начать? Хотелось бы выслушать ваше мнение, советы, или ссылки на что то полезное в этом направлении, реализации отдельных моментов, все, что может быть полезным. Спасибо заранее.

lxa85 15-10-2013 08:51 2234659

kibis_92@vk, перво наперво сесть подумать.
Причем подумать не на языке php и MySQL, а на собственно представлении этого процесса.
Принцип работы надо уточнять и кристаллизовать.
Полезно задать себе несколько вопросов.
Например:
Вы умеете работать с doc файлом? Почему не rtf и не plain text?
У вас есть текстовая база, удобная для индексирования?
Мне знакома работа с библиотечным фондом?
Мне знакома работа с поисковыми и индексирующими, кеширующими алгоритмами?
Мне знакома работа с катологизаторами / ссылочными аппаратами? Например УДК.
Какие источники информации мне доступны в данной области? Имеется ввиду доступ к полнотекстовым библиотекам.
Знаю ли я процессы загрузки файлов на сервер?
--
Поломайте пока голову над этими вопросами. Потом я попробую подсказать пару ответов.

mrcnn 17-10-2013 18:40 2236164

Наверное начать нужно с изучения алгоритмов архивирования (zip, rar и т.п. - вроде бы есть специализированный ресурс, интернет-сайт по программированию архиваторов) . Так как задача сводится к поиску совпадающих последовательностей. Чем больше совпадающих последовательностей, тем больше схожесть.

XPEHOMETP 18-10-2013 15:15 2236616

1) Имеющаяся база данных по файлам по определению не может быть всеобъемлющей. Если чувак передрал все с неоцифрованной книги, скажем, 1910 г. издания, это никогда не просечь.
2) Если люди, контролирующие плагиат, настолько мелко плавают, то я всегда надеру их как сидорову козу.

lxa85 18-10-2013 15:39 2236633

XPEHOMETP, они могут сделать обратный фокус. Во первых издания 1910 г. надо найти. Во вторых это не может быть единственным источником информации. Если по некоторой проблеме не было публикаций свыше 10-15 лет, то очень подозрительно, и вызовет массу ненужных вопросов. Т.е. "пользуйтесь актуальной литературой". Таким же образом можно проверять фиктивные ссылки "для количества" или вовсе ложные.

Iska 18-10-2013 16:21 2236650

Цитата:

Цитата XPEHOMETP
Если чувак передрал все с неоцифрованной книги, скажем, 1910 г. издания, »

Вы сначала найдите идиотов, которые будут искать такие книги.

XPEHOMETP 19-10-2013 12:12 2237132

Цитата:

Цитата Iska
Вы сначала найдите идиотов, которые будут искать такие книги. »

Конкретный ответ. Такой идиот - это я. Я вот уже лет 7-8 пытаюсь получить давно всем известную берлинскую лазурь в чистом виде. Уже что-то нащупал, по синтезу, заодно смотрел и публикации по теме. С публикациями полный ужос. Большинство, причем подавляющее - туши свет, бросай гранату. Правда, еще в 19 веке были пристойные публикации по берлинской лазури. От Берцелиуса, Гей-Люссака и Вильямсона. Дальше, пардон, пошел просто навоз, который просто читать без толку.

Но это не имеет отношения к вопросу данной темы.

Iska 19-10-2013 14:40 2237217

Не в том дело, коллега. Это Вы лазаете, что-то ищете, что-то пытаетесь осмыслить, изыскиваете литературу в бумажном исполнении и изучаете.

В классическом же варианте всё куда проще: никто не занимается оцифровкой, дёргают уже из готовых к употреблению источников.


Время: 23:22.

Время: 23:22.
© OSzone.net 2001-