Показать полную графическую версию : Подскажите программу, анализирующую текст
Кто-нибудь знает программу, которой можно скормить несколько больших текстов, и чтоб она показала список наиболее часто встречающихся в этих текстах (суммарно) слов в порядке уменьшения частоты повторения. Типа такого:
http://ru.wiktionary.org/wiki/Приложение:Список_частотности_по_НКРЯ
программу, которой можно скормить несколько больших текстов, и чтоб она показала список наиболее часто встречающихся в этих текстах (суммарно) слов в порядке уменьшения частоты повторения. »
Наверное любой программер сможет написать такую - скрипт с задачей условий, фильтрацией и с использованием регулярных выражений...
Осталось только найти такого альтруиста... :)
MKN, чёрта с два любой. Это ж не англицкий, тут надо учитывать все варианты склонений, спряжения, омонимы и т.п. Я не завидую такому альтруисту.
Iska,
Можно ведь упростить задачу. Вывести список, например первой сотни, наиболее часто употоребляемых в тексте ВСЕХ слов, ( включая слова с разноокончаниями и пр).
А потом уже, если надо (в поставленной задаче вроде как нет жесткого условия для выбираемых слов) , отсортировать однокоренные и пр. слова...
Можно ведь упростить задачу. Вывести список, например первой сотни, наиболее часто употоребляемых в тексте ВСЕХ слов, ( включая слова с разноокончаниями и пр). »
С эти-то никаких проблем нет:
$sFile = "D:\Мои архивы\Литература\Русь и Орда\Karamih2.txt"
$hDictionary = @{}
if(Test-Path -Path $sFile) {
(Get-Content -Path $sFile) -split '\.|,|!|;|"|-|:|\(|\)|\d| ' | ForEach-Object -Process {
$hDictionary[$_] += 1
}
$hDictionary.Remove('')
$hDictionary.GetEnumerator() | Sort-Object -Property Value -Descending
}
отсортировать однокоренные и пр. слова... »
Омонимы. Чтобы их разбирать — нужно определять смысл текста.
© OSzone.net 2001-2012
vBulletin v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.