Удалить дубликаты в файле csv - Компьютерный форум OSzone.net

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)

- Программирование и базы данных (http://forum.oszone.net/forumdisplay.php?f=21)

- - Удалить дубликаты в файле csv (http://forum.oszone.net/showthread.php?t=353486)

Удалить дубликаты в файле csv

Здравствуйте!
В программе Notepad++
Есть файл csv, он хоть и длинный, но я приведу коротким пример.
Нужно удалить дубликаты, но оставить по два или три дубля. То есть не все дубликаты, всё-то легко, а оставить несколько (сколько мне нужно)
Вот в таком файле

"doors-k.kam@yandex.ru";"Дизайн интерьеров";
"info@impressdesign.ru";"Дизайн интерьеров";
"your.design2016@yandex.ru";"Дизайн интерьеров";
"info@zs-ural.ru";"Дизайн интерьеров";
"info@euroluster.ru";"Дизайн интерьеров";
"3834114@mail.ru";"Дизайн интерьеров";
"dioscolor@yandex.ru";"Промышленный дизайн";
"info@dredz.ru";"Промышленный дизайн";
"asya.kuzina@gmail.com";"Промышленный дизайн";
"bocharovvictor@yandex.ru, bocharovaelena82@yandex.ru";"Промышленный дизайн";
"veragueppa@mail.ru";"Промышленный дизайн";
"laduga@laduga.com, caddex@caddex.eu";"Промышленный дизайн";
"shkalikov.dv@gmail.com";"Промышленный дизайн";
"service@soniko-n.ru";"Промышленный дизайн";

Тут видно, что повторяются слова Дизайн интерьеров и Промышленный дизайн.
Как мне оставить по два дубликата?

Можно использовать hashtable для счётчиков. На powershell с импортом-экспортом наверное проще будет.

Код:

$ht = @{}

$delim = ';'

$max = 2

$csv = 'file.csv'

Import-Csv -Path $csv -Delimiter $delim -Header 'mail', 'item' |

  Where-Object { ++$ht[$_.item] -le $max} |

  Export-Csv -Path ($csv -replace '(\.\w+)$', '_removed$1') -Encoding 'Default' -Delimiter $delim -NoTypeInformation

кладёт изменённый файл в той же папке.

Такие задачи просто через регулярные выражения не решаются?

Цитата:

Цитата tasix

через регулярные выражения »

в Notepad++ ? У csv свой формат, который сложно учитывать в регулярном выражении. В любом случае нужно как-то считать количество совпадений по строке.

Спасибо за ответы