Войти

Показать полную графическую версию : Василиса, Баба-Яга и тэги


Тупая блондинка
27-07-2010, 22:57
Уважаемые господа хакеры,

Пожалуйста, дайте тупой блондинке совет, как поступить: она не может справиться с заданием. :(

А задание таково.

У начальства есть много текстов из разных источников, очень разных по содержанию, стилю, тематике и длине. Их больше четырёх или даже пяти тысяч.

Все эти тексты надо снабдить метками и рассортировать. На каждом тексте будет пять-шесть меток, характеризующих его по разным параметрам: например, авторство, тематика, происхождение, и т.п. Метки ставить придётся вручную, тут уж ничего не поделаешь.

Но вот как потом их сортировать? :o

Задание -- вроде как в русской народной сказке, где Баба-Яга дала Василисе мешок с пшеном, овсом и ячменем, и велела разложить по трем мешкам: пшено отдельно, овёс отдельно...

Мне тоже надо сделать так, чтобы высокое начальство смогло нажать на метку, например, «Швеция» - и получить подряд все тексты с меткой «швеция». Кликнуть на метку «Климат» - получить все тексты с тэгом «климат». Кликнуть на «Вася Пупкин» - и получить сразу всё с пометкой «вас-пуп», независимо от того, автор ли текста этот Вася, или он его редактировал, или он его перевел и принёс в бюро, или там просто о нём рассказывается.

Шеф говорит, что сделать такое проще простого, и что с этим может справиться любой болван, который способен включить компьютер, поэтому, мол, даже такой блондинке как я это должно быть по силам. :spiteful:

Но я спросила у знатоков - они говорят, для этого надо установить SQL. Ладно. Смотрю в описание SQL. Ого! Нет, я бы не поленилась, ...но жаль терять столько времени на изучение того, что никогда в жизни не понадобится - все эти многоплановые и многофункциональные базы данных!

А нужно-то всего: простая возможность делать выборку по одной-единственной метке. Не надо сложной формулы многослойной фильтрации (например, задавать четыре тэга, «Европа» + «секс» + «Вася» + «1988», и получить выборку текстов, где присутствуют все четыре метки -- по географии, по тематике, по авторству и по году). Нет! Не надо cross-reference! Не надо подвижной базы данных! Не надо тройного и даже двойного отбора! Достаточно, чтоб можно было сортировать по одному тэгу - и всё. Как Василисе с её тремя мешками с тэгами «пше», «овё» и «ячм»! Или как в Живом Журнале, где у каждого дневника есть список тэгов, и можно одним кликом мышки вывести на экран все тексты, отмеченные любым из этих тэгов.

Наверно же существует какая-то функция в «Ворде» или какая-нибудь программа, которая справилась бы с этим казалось бы довольно простым заданием?

Посоветуйте, пожалуйста. :girlinlove:



Простите, что получилось такое длинное и занудное описание. Но когда я пыталась изложить проблему кратко - иногда просто не понимали, что требуется: ведь есть же, мол, в "Ворде" удобная функция "поиск", - чего ей еще надо?

Delirium
28-07-2010, 02:47
Тупая блондинка, а тексты в каком виде? Необходимо выводить список документов по тегам или же содержимое?
Теоретически есть одна платная программа моего друга (немного рекламы :) ), которая позволяет делать именно то, что вам необходимо плюс куча всего другого очень удобного. Если есть желание, напишите в PM, отпишу что и как.

А вообще можно написать небольшое приложение, которое будет сканировать указанные папки с документами, выводить их список и присваивать теги....

Тупая блондинка
28-07-2010, 03:39
тексты в каком виде? Необходимо выводить список документов по тегам или же содержимое? »
Выводить надо всё содержимое. Это не столько документы целиком, сколько кусочки текста. Все они сейчас в разных файлах, но можно перебросить все в один огромный файл. Объём каждого - от 20 до 20 000 символов, но в основном - около тысячи (включая пробелы). Сканировать ничего не надо, все тэги мне придётся присваивать им вручную: не по наличию слова в тексте, а по смыслу, из-за специфики содержания.:) У каждого текстового элемента будет по 3 - 6 тэгов, реже один-два, из 50 - 100 возможных.




© OSzone.net 2001-2012