Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Скриптовые языки администрирования Windows » Любой язык - [решено] Помогите создать скрипт удаления лишних строк

Ответить
Настройки темы
Любой язык - [решено] Помогите создать скрипт удаления лишних строк

Новый участник


Сообщения: 12
Благодарности: 0

Профиль | Отправить PM | Цитировать


Существует текстовый файл. В нем много мусорных строк содержащих
1 всего один символ(букву) .
2 Только цифры.
3 Два символа вместе или через пробелы
4 Три символа один из которых не относится ни кирилице, ни цифрам, ни к латинице, символы вместе или через пробелы
Эти строки надо удалить. Объясню зачем. После разных распознавалок типа FineReader и CuneiForm в тексте остается много мусора, и ни какие пост-OCR обработчики в автомате такие строки не вычищают.
Заранее благодарен!

Отправлено: 00:02, 24-03-2016

 

Ветеран


Сообщения: 27449
Благодарности: 8086

Профиль | Отправить PM | Цитировать


Цитата namin78:
текстовый файл »
— это документ Microsoft Word, надо полагать?

Отправлено: 04:01, 24-03-2016 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Новый участник


Сообщения: 12
Благодарности: 0

Профиль | Отправить PM | Цитировать


Цитата Iska:
— это документ Microsoft Word, надо полагать? »
Нет, текстовый файл с расширением txt.
Вот маленький кусочек файла тык.

Отправлено: 05:10, 24-03-2016 | #3


Ветеран


Сообщения: 27449
Благодарности: 8086

Профиль | Отправить PM | Цитировать


namin78, посмотрел. Там в любом случае нужна будет вычитка и правка «ручками». Иначе такие абзацы как «"пал ьч и ка.», должные превратиться после вычитки в «пальчика», уйдут в небытие.

Отправлено: 06:16, 24-03-2016 | #4


Новый участник


Сообщения: 12
Благодарности: 0

Профиль | Отправить PM | Цитировать


Цитата Iska:
нужна будет вычитка »
В общем файле, по моим подсчетам, около 7000-10000 мусорных строк. И если можно удалить 5000-8000 тысяч из них, то это очень облегчит чтение. Я не собираюсь причесывать текст "в ноль". Задача, максимально причесать, нажав десяток кнопок.

Отправлено: 07:41, 24-03-2016 | #5


Ветеран


Сообщения: 1754
Благодарности: 965

Профиль | Цитировать


Четвертый пункт сомнительный (возможен неправильный результат), powershell:
Код: Выделить весь код
<#
1 всего один символ(букву) .
2 Только цифры.
3 Два символа вместе или через пробелы
4 Три символа один из которых не относится ни кирилице, ни цифрам, 
  ни к латинице, символы вместе или через пробелы
#>

(get-content file.txt) -replace '^(.|\d+|.(\s+)?.|\W\s?.\s?.|.\s?\W\s?.|.\s?.\s?\W)$' |
set-content file.1.txt -encoding default
Это сообщение посчитали полезным следующие участники:

Отправлено: 08:55, 24-03-2016 | #6


Новый участник


Сообщения: 12
Благодарности: 0

Профиль | Отправить PM | Цитировать


Четвертый пункт не сработал
Код: Выделить весь код
, г.
не удалился. и цифры не удалились. Как было
Код: Выделить весь код
5 5 2
так и осталось

Отправлено: 09:23, 24-03-2016 | #7


Забанен


Сообщения: 793
Благодарности: 260

Профиль | Цитировать


namin78, в том куске текста, что был представлен, вычистить мусорные строки можно так (PS v2):
Код: Выделить весь код
gc .\bar | ? {$_ -match '\w{3}'}
Это сообщение посчитали полезным следующие участники:

Отправлено: 10:18, 24-03-2016 | #8


Новый участник


Сообщения: 12
Благодарности: 0

Профиль | Отправить PM | Цитировать


Цитата greg zakharov:
вычистить мусорные строки можно так »
А как сделать что-бы вывод в файлик, а не на экран?

Отправлено: 16:04, 24-03-2016 | #9


Новый участник


Сообщения: 12
Благодарности: 0

Профиль | Отправить PM | Цитировать


Foreigner, добавив к вашему коду еще чуть-чуть, я добился желаемого результата. Спасибо.

Отправлено: 18:35, 24-03-2016 | #10



Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Скриптовые языки администрирования Windows » Любой язык - [решено] Помогите создать скрипт удаления лишних строк

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
CMD/BAT - [решено] Помогите найти скрипт для удаленного удаления програм magwolf Скриптовые языки администрирования Windows 20 01-02-2016 23:35
CMD/BAT - [решено] Как переделать скрипт удаления папок, на скрипт удаления файлов ufooo Скриптовые языки администрирования Windows 2 02-06-2015 12:22
7 / 2008 R2 - Make_PE3 как создать Windows 7 PE без лишних программ mseregax100 Автоматическая установка Windows 11 / 10 / 8 / 7 / Vista 0 16-09-2013 10:06
VBS/WSH/JS - Помогите улучшить скрипт для поиска и удаления файлов UpDaTe Скриптовые языки администрирования Windows 4 23-03-2011 04:33
CMD/BAT - [решено] Создание CMD/BAT файла для удаления лишних папок Vsirf Скриптовые языки администрирования Windows 4 04-06-2009 20:37




 
Переход