Имя пользователя:
Пароль:
 | Правила  

Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Теория - Универсальный разбор текста

Ответить
Настройки темы
Теория - Универсальный разбор текста
pva pva вне форума

Аватара для pva

Ветеран


Сообщения: 1180
Благодарности: 279

Профиль | Отправить PM | Цитировать


Всем привет! Накидайте мыслей, ссылок по задаче (если не трудно):
Задача: дана строка.
Нужно найти имена, адреса, e-mail, www, телефоны, другие объекты, которые в ней упоминаются.
Текст может содержать мусор (комментарии), нужно их тоже сложить в отдельную строку.

Отправлено: 20:40, 25-01-2014

 

Аватара для lxa85

Необычный


Contributor


Сообщения: 4466
Благодарности: 995

Профиль | Сайт | Отправить PM | Цитировать


Поиск по словарю - имена.
Поиск по шаблону - www, email, телефоны
pva, расскажи о задаче несколько больше. Сейчас она очень большая и очень универсальная.
Откуда текст, надо ли определять его область (терминологическую базу), сколько времени/ресурсов надо, какой нужен результат (для чего и куда его девать)
Как пример сходу Автоматизация семантического анализа текста технического задания
Копая дальше диссертации и их литобзоры, за недельку другую можно обрасти неплохой теоретической частью, упиваясь достижениями науки. Я в свое время тихо фигел от наличия стандартизированных тестов, разработок и т.д. и т.п.
----
Диссертации в РГБ - Расширенный поиск - специальность 05.13 (Информатика, вычислительная техника и управление) Поиск по слову "Текст".
читать дальше »

Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов : автореферат дис. ... кандидата технических наук : 05.13.12 / Литвинов Максим Игоревич; [Место защиты: Моск. гос. ин-т электроники и математики]

Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа : автореферат дис. ... кандидата технических наук : 05.13.17 / Полицына Екатерина Валерьевна; [Место защиты: Воронеж. гос. ун-т]

Разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста : автореферат дис. ... кандидата технических наук : 05.13.18, 05.13.01 / Бледнов Андрей Михайлович; [Место защиты: Ижев. гос. техн. ун-т]

Семантические словари в автоматической обработке текста : По материалам системы ДИАЛИНГ : диссертация ... кандидата технических наук : 05.13.17

Синтаксические методы контекстной обработки в задачах распознавания текста : автореферат дис. ... кандидата технических наук : 05.13.01 / Шоломов Дмитрий Львович; [Место защиты: Ин-т систем. анализа РАН]

Автоматизация семантического анализа текста технического задания : диссертация ... кандидата технических наук : 05.13.12 / Орлова Юлия Александровна; [Место защиты: Волгогр. гос. техн. ун-т]

-------
- Я не разрешаю тебе быть плохой! Потому что плохие люди совершают плохие поступки. А это нехорошо!
(Из наставлений 5 летней девочки своей младшей сестре)


Последний раз редактировалось lxa85, 25-01-2014 в 22:10. Причина: Добавил ссылок с Российской государственной библиотеки

Это сообщение посчитали полезным следующие участники:

Отправлено: 21:57, 25-01-2014 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.

pva pva вне форума Автор темы

Аватара для pva

Ветеран


Сообщения: 1180
Благодарности: 279

Профиль | Отправить PM | Цитировать


lxa85, есть где-нибудь эти диссертации в открытом доступе?

Задача не большая, как может показаться.
Есть форма ввода с текстовыми полями, например:

S/N прибора: <вводится номер>
Контакты владельца: <вводится текст>

Данные вводит (возможно копипастит) человек с повышенными секретарскими навыками порчи текста. Нужно найти в базе данных человека по указанным ФИО, контактному телефону, icq, e-mail адресу и т.д.. Если такого человека не известно, то предложить добавить его, заполнив уже введённые данные (ФИО, телефон, icq и т.д.).

Делал первые робкие шаги: регулярное выражение выдирает из текста только телефоны - получился довольно сложный парсер (особенно если учитывать разные варианты форматирования межгора и внутренних номеров). Причём не всегда их можно отличить от icq.

Отправлено: 11:51, 26-01-2014 | #3


Ветеран


Сообщения: 27449
Благодарности: 8088

Профиль | Отправить PM | Цитировать


Цитата pva:
Если такого человека не известно, то предложить добавить его »
pva, использовать ИИ в данном деле крайне чревато добавлением дубликатов. Здесь в любом случае нужно хотя бы одно поле, однозначно определяющее контакт среди прочих.

Делать же просто разбор с показом подходящих значений для выбора и предлагать право окончательного решения оператору — вполне допустимо.

Я правильно понимаю, что для поиска предполагается ввод любого из перечисленного именно в одно поле, затем попытка разбора введённого текста и последующий поиск, так?

Отправлено: 12:47, 26-01-2014 | #4


Аватара для lxa85

Необычный


Contributor


Сообщения: 4466
Благодарности: 995

Профиль | Сайт | Отправить PM | Цитировать


pva, полный текст диссертаций в открытом доступе вряд ли. Если только обратиться непосредственно к авторам. Их адреса можно поискать по публикациям, я думаю они не откажут.
Из размышлений - может попробовать алгоритмы нечеткой логики?
Нечёткий поиск в тексте и словаре
Сети Хемминга
Нечеткий поиск

Так же как вариант — задать множественный поиск по словарю с точным совпадением и выдать результат в несколько колонок. Как например в англо-русских словарях. Слово + возможные переводы.
До дела еще не дошло, это пока всё те же рассуждения в слух.
Iska, как ты тире ставишь? :)


Дальнейшая мысль. Т.к. алгоритмы нечеткой логики применяются в поисковых машинах, то может взглянуть на них? Например mnogosearch - бесплатная поисковая машина (первая, что попалась)
А вообще, если разработка позволяет этот фокус - взять поисковые машины яндекса или гугла? (Из того же бреда в слух)
На счет нейросеток, как вариант ИИ не знаю. Знаю, что с ними работают, обучают, но у меня такой практики нет, советовать сложно.

-------
- Я не разрешаю тебе быть плохой! Потому что плохие люди совершают плохие поступки. А это нехорошо!
(Из наставлений 5 летней девочки своей младшей сестре)


Последний раз редактировалось lxa85, 26-01-2014 в 14:02. Причина: Дальнейшая мысль

Это сообщение посчитали полезным следующие участники:

Отправлено: 13:55, 26-01-2014 | #5


Ветеран


Сообщения: 27449
Благодарности: 8088

Профиль | Отправить PM | Цитировать


Цитата lxa85:
Iska, как ты тире ставишь? »
«Alt+0151». Раньше пользовал свою раскладку c Microsoft Keyboard Layout Creator, но к ней привыкаешь — а на чужих машинах без установленной раскладки начинаешь путаешься, раздражает.

Под Firefox можно ещё пользовать Дополнение CustomBB для браузера Firefox, общаемся на форумах.

Отправлено: 16:04, 26-01-2014 | #6

pva pva вне форума Автор темы

Аватара для pva

Ветеран


Сообщения: 1180
Благодарности: 279

Профиль | Отправить PM | Цитировать


Цитата Iska:
любого из перечисленного именно в одно поле »
Совершенно верно! Например:
  • 123-45-56 ext.123
  • 123-45-56 Иванов Сидор
  • 8 495 123 45 56 Иванов Сидор главный инженер
  • 8 (495) 123 4556 Сидор
В идеале после ввода программа должна найти или добавить человека. В принципе можно задать уточняющие вопросы, мол: "это вот этот, да?". И если откажется, то добавить нового.
Причём нужно догадаться, что:
  • 123456 - это номер телефона,
  • 123 - это внутренний номер
  • Иванов Сидор - это ФИО (тут согласен что поможет словарь)
  • главный инженер - это комментарий (заменить последовательные пробелы одним)
И соответственно уметь форматировать номер, ФИО, комментарий.

Общими словами, я пытаюсь эксплуатировать навязанные но понятные такого класса пользователям правила работы в социальных сетях (или поисковых машинах).

Отправлено: 18:45, 26-01-2014 | #7



Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Теория - Универсальный разбор текста

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Разбор RoverBook 415 evm180 Ноутбуки 1 27-11-2011 16:29
Разбор почты с общего ящика Dirk Diggler Хочу все знать 8 23-11-2011 16:40
Разбор игры vlasoft Игры 0 08-09-2011 19:40
OSChooser разбор полета InventoRs Автоматическая установка Windows 2000/XP/2003 0 13-11-2009 00:54
Разбор HTML кода palmer_monk Вебмастеру 2 21-06-2006 15:29




 
Переход