PDA

Показать полную графическую версию : Поиск совпадений слов в тексте


Sparkster
01-09-2016, 01:12
Есть список из более чем 3000 слов и словосочетаний и есть текст. Необходимо проверить текст на совпадение со словами, чтобы понять какие слова пересекаются. Какие программы для этого есть?

Iska
01-09-2016, 01:31
Пример не помешал бы. Из образца «слов и словосочетаний» и текста. Ну, и Ваше толкование расплывчатого понятия «пересекаются».

Казбек
01-09-2016, 09:11
Sparkster,
Сравнение текстов онлайн (http://text.num2word.ru)

Sparkster
01-09-2016, 12:33
Sparkster,
Сравнение текстов онлайн »
Сайт хороший, но к сожалению не тянет большие тексты. Существует ли что-то похожее в виде программы?

Пример не помешал бы. Из образца «слов и словосочетаний» и текста. Ну, и Ваше толкование расплывчатого понятия «пересекаются». »

Пример:

Есть список на 3000 слов, к примеру такой:

Year-end procedure
Yearly term reinsurance
Year-on-year
Yield curve
Yield spread
Zero coupon / Zero coupon bond
Zero inflation
Zero rate of return
Zero-balance models (cost recovery basis)

И есть текст. Надо определить какие слова из списка в этом тексте встречаются.

Результат желательно получить, либо подсветкой повторяющихся слов в тексте, либо отдельным списком

Казбек
01-09-2016, 13:30
Существует ли что-то похожее в виде программы? »
WinMerge (http://winmerge.org/?lang=ru)

Sparkster
01-09-2016, 18:19
Цитата Sparkster:
Существует ли что-то похожее в виде программы? »
WinMerge »

Попробовал WinMerge, но почему-то сравниваются только строки.
Если слова находятся в разных местах и строках двух сравниваемых списков, то программа совпадение слов почему-то не показывает

Iska
01-09-2016, 20:19
И есть текст. »
И где он?

Надо определить какие слова из списка в этом тексте встречаются. »
Ну, например (на PowerShell):
$sWordsFile = 'C:\Мои проекты\0002\Words.txt'
$sTextFile = 'C:\Мои проекты\0002\Text.txt'

Get-Content -Path $sWordsFile | ForEach-Object -Process {
if(Select-String -Pattern $_ -SimpleMatch -Quiet -Path $sTextFile) {
$_
}
}




© OSzone.net 2001-2012