Войти

Показать полную графическую версию : Подскажите программу, анализирующую текст


4ton
07-01-2014, 18:02
Кто-нибудь знает программу, которой можно скормить несколько больших текстов, и чтоб она показала список наиболее часто встречающихся в этих текстах (суммарно) слов в порядке уменьшения частоты повторения. Типа такого:
http://ru.wiktionary.org/wiki/Приложение:Список_частотности_по_НКРЯ

MKN
08-01-2014, 15:26
программу, которой можно скормить несколько больших текстов, и чтоб она показала список наиболее часто встречающихся в этих текстах (суммарно) слов в порядке уменьшения частоты повторения. »
Наверное любой программер сможет написать такую - скрипт с задачей условий, фильтрацией и с использованием регулярных выражений...
Осталось только найти такого альтруиста... :)

Iska
08-01-2014, 15:33
MKN, чёрта с два любой. Это ж не англицкий, тут надо учитывать все варианты склонений, спряжения, омонимы и т.п. Я не завидую такому альтруисту.

MKN
08-01-2014, 15:43
Iska,
Можно ведь упростить задачу. Вывести список, например первой сотни, наиболее часто употоребляемых в тексте ВСЕХ слов, ( включая слова с разноокончаниями и пр).
А потом уже, если надо (в поставленной задаче вроде как нет жесткого условия для выбираемых слов) , отсортировать однокоренные и пр. слова...

Iska
08-01-2014, 20:37
Можно ведь упростить задачу. Вывести список, например первой сотни, наиболее часто употоребляемых в тексте ВСЕХ слов, ( включая слова с разноокончаниями и пр). »
С эти-то никаких проблем нет:
$sFile = "D:\Мои архивы\Литература\Русь и Орда\Karamih2.txt"

$hDictionary = @{}

if(Test-Path -Path $sFile) {
(Get-Content -Path $sFile) -split '\.|,|!|;|"|-|:|\(|\)|\d| ' | ForEach-Object -Process {
$hDictionary[$_] += 1
}

$hDictionary.Remove('')
$hDictionary.GetEnumerator() | Sort-Object -Property Value -Descending
}


отсортировать однокоренные и пр. слова... »
Омонимы. Чтобы их разбирать — нужно определять смысл текста.




© OSzone.net 2001-2012