![]() |
Внимание, важное сообщение: Дорогие Друзья!
В ноябре далекого 2001 года мы решили создать сайт и форум, которые смогут помочь как начинающим, так и продвинутым пользователям разобраться в операционных системах. В 2004-2006г наш проект был одним из самых крупных ИТ ресурсов в рунете, на пике нас посещало более 300 000 человек в день! Наша документация по службам Windows и автоматической установке помогла огромному количеству пользователей и сисадминов. Мы с уверенностью можем сказать, что внесли большой вклад в развитие ИТ сообщества рунета. Но... время меняются, приоритеты тоже. И, к сожалению, пришло время сказать До встречи! После долгих дискуссий было принято решение закрыть наш проект. 1 августа форум переводится в режим Только чтение, а в начале сентября мы переведем рубильник в положение Выключен Огромное спасибо за эти 24 года, это было незабываемое приключение. Сказать спасибо и поделиться своей историей можно в данной теме. С уважением, ваш призрачный админ, BigMac... |
|
Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Теория - Универсальный разбор текста |
|
Теория - Универсальный разбор текста
|
![]() Ветеран Сообщения: 1180 |
Всем привет! Накидайте мыслей, ссылок по задаче (если не трудно):
Задача: дана строка. Нужно найти имена, адреса, e-mail, www, телефоны, другие объекты, которые в ней упоминаются. Текст может содержать мусор (комментарии), нужно их тоже сложить в отдельную строку. |
|
Отправлено: 20:40, 25-01-2014 |
Необычный Сообщения: 4466
|
Профиль | Сайт | Отправить PM | Цитировать Поиск по словарю - имена.
Поиск по шаблону - www, email, телефоны pva, расскажи о задаче несколько больше. Сейчас она очень большая и очень универсальная. Откуда текст, надо ли определять его область (терминологическую базу), сколько времени/ресурсов надо, какой нужен результат (для чего и куда его девать) Как пример сходу Автоматизация семантического анализа текста технического задания Копая дальше диссертации и их литобзоры, за недельку другую можно обрасти неплохой теоретической частью, упиваясь достижениями науки. Я в свое время тихо фигел от наличия стандартизированных тестов, разработок и т.д. и т.п. ---- Диссертации в РГБ - Расширенный поиск - специальность 05.13 (Информатика, вычислительная техника и управление) Поиск по слову "Текст". |
------- Последний раз редактировалось lxa85, 25-01-2014 в 22:10. Причина: Добавил ссылок с Российской государственной библиотеки Отправлено: 21:57, 25-01-2014 | #2 |
Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети. Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля. |
![]() Ветеран Сообщения: 1180
|
Профиль | Отправить PM | Цитировать lxa85, есть где-нибудь эти диссертации в открытом доступе?
Задача не большая, как может показаться. Есть форма ввода с текстовыми полями, например: S/N прибора: <вводится номер> Контакты владельца: <вводится текст> Данные вводит (возможно копипастит) человек с повышенными секретарскими навыками порчи текста. Нужно найти в базе данных человека по указанным ФИО, контактному телефону, icq, e-mail адресу и т.д.. Если такого человека не известно, то предложить добавить его, заполнив уже введённые данные (ФИО, телефон, icq и т.д.). Делал первые робкие шаги: регулярное выражение выдирает из текста только телефоны - получился довольно сложный парсер (особенно если учитывать разные варианты форматирования межгора и внутренних номеров). Причём не всегда их можно отличить от icq. |
Отправлено: 11:51, 26-01-2014 | #3 |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать Цитата pva:
Делать же просто разбор с показом подходящих значений для выбора и предлагать право окончательного решения оператору — вполне допустимо. Я правильно понимаю, что для поиска предполагается ввод любого из перечисленного именно в одно поле, затем попытка разбора введённого текста и последующий поиск, так? |
|
Отправлено: 12:47, 26-01-2014 | #4 |
Необычный Сообщения: 4466
|
Профиль | Сайт | Отправить PM | Цитировать pva, полный текст диссертаций в открытом доступе вряд ли. Если только обратиться непосредственно к авторам. Их адреса можно поискать по публикациям, я думаю они не откажут.
Из размышлений - может попробовать алгоритмы нечеткой логики? Нечёткий поиск в тексте и словаре Сети Хемминга Нечеткий поиск Так же как вариант — задать множественный поиск по словарю с точным совпадением и выдать результат в несколько колонок. Как например в англо-русских словарях. Слово + возможные переводы. До дела еще не дошло, это пока всё те же рассуждения в слух. Iska, как ты тире ставишь? :) Дальнейшая мысль. Т.к. алгоритмы нечеткой логики применяются в поисковых машинах, то может взглянуть на них? Например mnogosearch - бесплатная поисковая машина (первая, что попалась) А вообще, если разработка позволяет этот фокус - взять поисковые машины яндекса или гугла? (Из того же бреда в слух) На счет нейросеток, как вариант ИИ не знаю. Знаю, что с ними работают, обучают, но у меня такой практики нет, советовать сложно. |
|
------- Последний раз редактировалось lxa85, 26-01-2014 в 14:02. Причина: Дальнейшая мысль Отправлено: 13:55, 26-01-2014 | #5 |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать Цитата lxa85:
Под Firefox можно ещё пользовать Дополнение CustomBB для браузера Firefox, общаемся на форумах. |
|
Отправлено: 16:04, 26-01-2014 | #6 |
![]() Ветеран Сообщения: 1180
|
Профиль | Отправить PM | Цитировать Цитата Iska:
Причём нужно догадаться, что:
Общими словами, я пытаюсь эксплуатировать навязанные но понятные такого класса пользователям правила работы в социальных сетях (или поисковых машинах). |
|
Отправлено: 18:45, 26-01-2014 | #7 |
![]() |
Участник сейчас на форуме |
![]() |
Участник вне форума |
![]() |
Автор темы |
![]() |
Сообщение прикреплено |
| |||||
Название темы | Автор | Информация о форуме | Ответов | Последнее сообщение | |
Разбор RoverBook 415 | evm180 | Ноутбуки | 1 | 27-11-2011 16:29 | |
Разбор почты с общего ящика | Dirk Diggler | Хочу все знать | 8 | 23-11-2011 16:40 | |
Разбор игры | vlasoft | Игры | 0 | 08-09-2011 19:40 | |
OSChooser разбор полета | InventoRs | Автоматическая установка Windows 2000/XP/2003 | 0 | 13-11-2009 00:54 | |
Разбор HTML кода | palmer_monk | Вебмастеру | 2 | 21-06-2006 15:29 |
|