![]() |
Универсальный разбор текста
Всем привет! Накидайте мыслей, ссылок по задаче (если не трудно):
Задача: дана строка. Нужно найти имена, адреса, e-mail, www, телефоны, другие объекты, которые в ней упоминаются. Текст может содержать мусор (комментарии), нужно их тоже сложить в отдельную строку. |
Поиск по словарю - имена.
Поиск по шаблону - www, email, телефоны pva, расскажи о задаче несколько больше. Сейчас она очень большая и очень универсальная. Откуда текст, надо ли определять его область (терминологическую базу), сколько времени/ресурсов надо, какой нужен результат (для чего и куда его девать) Как пример сходу Автоматизация семантического анализа текста технического задания Копая дальше диссертации и их литобзоры, за недельку другую можно обрасти неплохой теоретической частью, упиваясь достижениями науки. Я в свое время тихо фигел от наличия стандартизированных тестов, разработок и т.д. и т.п. ---- Диссертации в РГБ - Расширенный поиск - специальность 05.13 (Информатика, вычислительная техника и управление) Поиск по слову "Текст". |
lxa85, есть где-нибудь эти диссертации в открытом доступе?
Задача не большая, как может показаться. Есть форма ввода с текстовыми полями, например: S/N прибора: <вводится номер> Контакты владельца: <вводится текст> Данные вводит (возможно копипастит) человек с повышенными секретарскими навыками порчи текста. Нужно найти в базе данных человека по указанным ФИО, контактному телефону, icq, e-mail адресу и т.д.. Если такого человека не известно, то предложить добавить его, заполнив уже введённые данные (ФИО, телефон, icq и т.д.). Делал первые робкие шаги: регулярное выражение выдирает из текста только телефоны - получился довольно сложный парсер (особенно если учитывать разные варианты форматирования межгора и внутренних номеров). Причём не всегда их можно отличить от icq. |
Цитата:
Делать же просто разбор с показом подходящих значений для выбора и предлагать право окончательного решения оператору — вполне допустимо. Я правильно понимаю, что для поиска предполагается ввод любого из перечисленного именно в одно поле, затем попытка разбора введённого текста и последующий поиск, так? |
pva, полный текст диссертаций в открытом доступе вряд ли. Если только обратиться непосредственно к авторам. Их адреса можно поискать по публикациям, я думаю они не откажут.
Из размышлений - может попробовать алгоритмы нечеткой логики? Нечёткий поиск в тексте и словаре Сети Хемминга Нечеткий поиск Так же как вариант — задать множественный поиск по словарю с точным совпадением и выдать результат в несколько колонок. Как например в англо-русских словарях. Слово + возможные переводы. До дела еще не дошло, это пока всё те же рассуждения в слух. Iska, как ты тире ставишь? :) Дальнейшая мысль. Т.к. алгоритмы нечеткой логики применяются в поисковых машинах, то может взглянуть на них? Например mnogosearch - бесплатная поисковая машина (первая, что попалась) А вообще, если разработка позволяет этот фокус - взять поисковые машины яндекса или гугла? (Из того же бреда в слух) На счет нейросеток, как вариант ИИ не знаю. Знаю, что с ними работают, обучают, но у меня такой практики нет, советовать сложно. |
Цитата:
Под Firefox можно ещё пользовать Дополнение CustomBB для браузера Firefox, общаемся на форумах. |
Цитата:
Причём нужно догадаться, что:
Общими словами, я пытаюсь эксплуатировать навязанные но понятные такого класса пользователям правила работы в социальных сетях (или поисковых машинах). |
Время: 05:25. |
Время: 05:25.
© OSzone.net 2001-