![]() |
Сравнивание двух файлов .csv и удаление дублей
есть два файла: 1.csv и 2.csv, необходимо, удалить из файла 2.csv все данные, точные копии которых есть в 1.csv.
Другими словами, файл 1.csv более старый, а 2.csv более новый, необходимо удалить неактуальные данные, которые содержатся уже в 1.csv и были обработаны ранее. В файле 2.csv должно после анализа остаться только новейшие данные, которых в 1.csv нет. Не подскажете, каким образом можно решить такую проблему? Спасибо за любую помощь! |
XXXp, уточните — Вам надо оставить строки, содержащие домены или оставить только домены?
|
Прошу прощения, задача, как оказалось, больше не актуальна. Теперь необходима такая вещь:
есть два файла: 1.csv и 2.csv, необходимо, удалить из файла 2.csv все данные, точные копии которых есть в 1.csv. Другими словами, файл 1.csv более старый, а 2.csv более новый, необходимо удалить неактуальные данные, которые содержатся уже в 1.csv и были обработаны ранее. В файле 2.csv должно после анализа остаться только новейшие данные, которых в 1.csv нет. Не подскажете, каким образом можно решить такую проблему? Спасибо за любую помощь! З.Ы. Каждый файл .csv весит ~5-6мб, т.е. содержит около 100 000 строк, после анализа должны остаться 3000-4000. |
Compare-Object (gc 1.csv) (gc 2.csv) -PassThru | Where {$_.SideIndicator -eq "=>"} | Out-File 3.csv
|
Спасибо, но почему-то не работает, ошибка. The term is not recognized as cmdlet и т.д...
|
XXXp, у меня работает. Упакуйте «1.csv» и «2.csv» в архив, выложите на обменник, ссылку — сюда.
Если там какая-либо конфиденциальная информация — архив под паролем, ссылку на архив и пароль в личку коллеге Kazun. |
Прошу прощения, скрипт работает, у меня неправильно был выбран режим powershell
Только он делает не совсем то. Есть два файла 1.csv (более старый, обработанный) и 2.csv (новый, в котором 95% - дубли из 1.csv, которые ранее были обработаны). Необходимо создать такой файл 3.csv, который бы собрал в себя ТОЛЬКО те данные, которые есть в 2.csv, но нету в 1.csv. Цель - дважды не обрабатывать одни и те же данные. Спасибо! |
Код:
PS Z:\> gc 1.csv |
|
Код:
$h = @{} PS. С Compare-Object было лень ждать. |
а есть возможность брать только по первому столбцу (домену), а то если меняется 2-й столбец, который неактуален, он тоже берет это как уникальную запись! Спасибо!
|
Код:
$h = @{} |
Спасибо огромнейшее! Все работает как нужно!
|
Время: 10:11. |
Время: 10:11.
© OSzone.net 2001-