Поиск по словарю - имена.
Поиск по шаблону - www, email, телефоны
pva, расскажи о задаче несколько больше. Сейчас она очень большая и очень универсальная.
Откуда текст, надо ли определять его область (терминологическую базу), сколько времени/ресурсов надо, какой нужен результат (для чего и куда его девать)
Как пример сходу
Автоматизация семантического анализа текста технического задания
Копая дальше диссертации и их литобзоры, за недельку другую можно обрасти неплохой теоретической частью, упиваясь достижениями науки. Я в свое время тихо фигел от наличия стандартизированных тестов, разработок и т.д. и т.п.
----
Диссертации в РГБ - Расширенный поиск - специальность 05.13 (Информатика, вычислительная техника и управление) Поиск по слову "Текст".
читать дальше »
Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов : автореферат дис. ... кандидата технических наук : 05.13.12 / Литвинов Максим Игоревич; [Место защиты: Моск. гос. ин-т электроники и математики]
Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа : автореферат дис. ... кандидата технических наук : 05.13.17 / Полицына Екатерина Валерьевна; [Место защиты: Воронеж. гос. ун-т]
Разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста : автореферат дис. ... кандидата технических наук : 05.13.18, 05.13.01 / Бледнов Андрей Михайлович; [Место защиты: Ижев. гос. техн. ун-т]
Семантические словари в автоматической обработке текста : По материалам системы ДИАЛИНГ : диссертация ... кандидата технических наук : 05.13.17
Синтаксические методы контекстной обработки в задачах распознавания текста : автореферат дис. ... кандидата технических наук : 05.13.01 / Шоломов Дмитрий Львович; [Место защиты: Ин-т систем. анализа РАН]
Автоматизация семантического анализа текста технического задания : диссертация ... кандидата технических наук : 05.13.12 / Орлова Юлия Александровна; [Место защиты: Волгогр. гос. техн. ун-т]