Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Хочу все знать (http://forum.oszone.net/forumdisplay.php?f=23)
-   -   Подскажите программу, анализирующую текст (http://forum.oszone.net/showthread.php?t=275340)

4ton 07-01-2014 18:02 2284303

Подскажите программу, анализирующую текст
 
Кто-нибудь знает программу, которой можно скормить несколько больших текстов, и чтоб она показала список наиболее часто встречающихся в этих текстах (суммарно) слов в порядке уменьшения частоты повторения. Типа такого:
http://ru.wiktionary.org/wiki/Прилож...тности_по_НКРЯ

MKN 08-01-2014 15:26 2284858

Цитата:

Цитата 4ton
программу, которой можно скормить несколько больших текстов, и чтоб она показала список наиболее часто встречающихся в этих текстах (суммарно) слов в порядке уменьшения частоты повторения. »

Наверное любой программер сможет написать такую - скрипт с задачей условий, фильтрацией и с использованием регулярных выражений...
Осталось только найти такого альтруиста... :)

Iska 08-01-2014 15:33 2284863

MKN, чёрта с два любой. Это ж не англицкий, тут надо учитывать все варианты склонений, спряжения, омонимы и т.п. Я не завидую такому альтруисту.

MKN 08-01-2014 15:43 2284867

Iska,
Можно ведь упростить задачу. Вывести список, например первой сотни, наиболее часто употоребляемых в тексте ВСЕХ слов, ( включая слова с разноокончаниями и пр).
А потом уже, если надо (в поставленной задаче вроде как нет жесткого условия для выбираемых слов) , отсортировать однокоренные и пр. слова...

Iska 08-01-2014 20:37 2285043

Цитата:

Цитата MKN
Можно ведь упростить задачу. Вывести список, например первой сотни, наиболее часто употоребляемых в тексте ВСЕХ слов, ( включая слова с разноокончаниями и пр). »

С эти-то никаких проблем нет:
читать дальше »
Код:

$sFile = "D:\Мои архивы\Литература\Русь и Орда\Karamih2.txt"

$hDictionary = @{}

if(Test-Path -Path $sFile) {
    (Get-Content -Path $sFile) -split '\.|,|!|;|"|-|:|\(|\)|\d| ' | ForEach-Object -Process {
        $hDictionary[$_] += 1
    }
   
    $hDictionary.Remove('')
    $hDictionary.GetEnumerator() | Sort-Object -Property Value -Descending
}



Цитата:

Цитата MKN
отсортировать однокоренные и пр. слова... »

Омонимы. Чтобы их разбирать — нужно определять смысл текста.


Время: 22:16.

Время: 22:16.
© OSzone.net 2001-