Имя пользователя:
Пароль:
 | Правила  

Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Скриптовые языки администрирования Windows » PowerShell - [решено] поиск по большой таблице большого количества строк

Ответить
Настройки темы
PowerShell - [решено] поиск по большой таблице большого количества строк

Старожил


Сообщения: 211
Благодарности: 2

Профиль | Отправить PM | Цитировать


Доброго времени суток! Есть большая таблица csv 1.2ГБ, которая постоянно дополняется данными в конец таблицы. В таблице 52 столбца и уже более 20 миллионов строк. Каждая строка имеет столбец с именем ПК, по которому и происходит поиск. Как и у всех больших таблиц имеется проблема с производительностью обработки данных Частично получается решить проблему с использованием фреймворков напрямую, но не хватает знаний, чтобы добиться приемлемой скорости.
Сама задача такова:
1) Взять список имен ПК из AD, их примерно 14000. -решено
2) найти для каждого имени ПК в таблице строку с последними данными,ориентируясь по дате. Так же избежать строки, которые в столбце пинг имеют значение "NO". - ищу решение
3) экспортировать строки найденные ранее в файл csv, с теми же заголовками и без изменения данных. -решено
Проблема возникает именно со вторым пунктом, так как поиск данных для одного имени ПК и выбор самой старшей строки, занимает от 0.1-10сек. Обработка всего списка занимает ~8 часов.
По второму пункту:
Решил отзеркалить таблицу снизу вверх, чтобы вверху таблицы оказались самые свежие данные- это занимает примерно 15-20 минут на это действие. Как перебирать таблицу с конца при поиске так и не понял. Но данное действие значительно укорило процесс, так как нужное значение почти всегда находится среди первых ~20000 строк.
Пример данных таблицы
"Data";"Ping";"Region";"B_S_TT";"System_Unit_Name";"System_Unit_Manufacturer";"System_Unit_Model";"M otherboard_SN";"Adapter_IPv4";"Adapter_Mac";"Adapter_Name";"Adapter_Type";"Adapter_Speed";"Monitor_1 _model";"Monitor_1_SN";"Monitor_2_model";"Monitor_2_SN";"Router_Manufacturer";"Router_Model";"Router _SN";"Processor";"DDRx";"kolichestvo_Slots_all";"kolichestvo_Slots_free";"PhysicalMemory_all";"Slot_ 1_size";"Slot_1_speed";"Slot_1_manufacturer";"Slot_2_size";"Slot_2_speed";"Slot_2_manufacturer";"Slo t_3_size";"Slot_3_speed";"Slot_3_manufacturer";"Slot_4_size";"Slot_4_speed";"Slot_4_manufacturer";"O S";"x64_x86";"disk_1_name";"disk_1_size";"disk_1_type";"disk_2_name";"disk_2_size";"disk_2_type";"di sk_3_name";"disk_3_size";"disk_3_type";"disk_4_name";"disk_4_size";"disk_4_type";"shk"
"07.09.2021";"Yes";"msk";"b";"GO-DD1155";"Hewlett-Packard";"HP Compaq 6200 Pro MT PC";"RUA23101TK";"10.243.78.51";"A0:B3:CC:F7:8A:B7";"Intel(R) 82579LM Gigabit Network Connection";"Ethernet 802.3";"1000";"HP E231 ";"3CQ4271J2H ";"";"";;;;"Intel(R) Core(TM) i5-2400 CPU @ 3.10GHz";"DDR3";"4";"3";"4";"4";"1333";"Samsung ";"0";"";"";"0";"";"";"0";"";"";"Майкрософт Windows 10 Pro";"64-разрядная";"ST3500413AS";"466";"HDD";"";"0";"";;"0";"";;"0";"";"no info"
"07.09.2021";"Yes";"msk";"b";"GO-DG584";"Hewlett-Packard";"HP ProDesk 400 G2 MT";"CZC44843RZ";"10.243.78.25";"A0:D3:C1:50:07:54";"Realtek PCIe GBE Family Controller";"Ethernet 802.3";"100";"";"";"";"";;;;"Intel(R) Core(TM) i5-4590S CPU @ 3.00GHz";"DDR3";"2";"0";"8";"4";"1600";"Micron";"4";"1600";"Micron";"0";"";"";"0";"";"";"Майкрософт Windows 10 Pro";"64-разрядная";"ST500DM002-1BD142";"466";"HDD";"";"0";"";;"0";"";;"0";"";"no info"
"07.09.2021";"Yes";"msk";"b";"GO-DG208";"Hewlett-Packard";"HP ProDesk 400 G2 MT";"CZC44843LL";"10.243.72.16";"A0:D3:C1:4D:53:B0";"Realtek PCIe GBE Family Controller";"Ethernet 802.3";"100";"HP E231 ";"3CQ4360H20 ";"";"";;;;"Intel(R) Core(TM) i5-4590S CPU @ 3.00GHz";"DDR3";"2";"0";"8";"4";"1600";"0000";"4";"1600";"0000";"0";"";"";"0";"";"";"Майкрософт Windows 10 Pro";"64-разрядная";"ST500DM002-1BD142";"466";"HDD";"";"0";"";;"0";"";;"0";"";"no info"
"07.09.2021";"No";"msk";"b";"go-nd6671";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" "
"07.09.2021";"Yes";"msk";"b";"GO-DG404";"Hewlett-Packard";"HP Compaq Pro 6300 MT";"RUA2470C98";"10.243.66.171";"B4:B5:2F:DA:14:13";"Intel(R) 82579LM Gigabit Network Connection";"Ethernet 802.3";"100";"HP E231 ";"3CQ4360FRM ";"";"";;;;"Intel(R) Core(TM) i5-3470 CPU @ 3.20GHz";"DDR3";"4";"2";"8";"4";"1600";"Samsung";"4";"1600";"Kingston";"0";"";"";"0";"";"";"Майкросо фт Windows 10 Pro";"64-разрядная";"Hitachi HDS721050CLA660";"466";"HDD";"";"0";"";;"0";"";;"0";"";"no info"
"07.09.2021";"No";"msk";"b";"GO-NG433";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" ";" "

часть скрипта где все описанное происходит
Код: Выделить весь код
# Считает количество строк в файле
[int]$linesInFile = 0
$reader = New-Object IO.StreamReader $outfile
while($reader.ReadLine() -ne $null){$linesInFile++} 
$linesInFile

# отзеркаливание таблицы снизу вверх
$lines = [IO.File]::ReadAllLines($outfile)
for ($str = $linesInFile;$str -ne 0;$str--){
# Обращается к строке по номеру и экспортирует
$str
$lines[$str]|Add-Content -Encoding UTF8 $outfile2}

$OU | ForEach {
$all =  get-adcomputer -Filter {ObjectClass -eq 'Computer'} -SearchBase $_ -Properties CanonicalName,SamAccountName,CN,lastLogonTimeStamp,whenChanged,memberof 
ForEach ($all in $all){
$rt= $all.CN
$rt
select-string -path $outfile2 -list -pattern "$rt"  | add-Content $outfile3 -Encoding utf8
 }}
Я пытался отсортировать таблицу по дате стандартными способами, но они занимают намного больше времени и полностью занимают ОЗУ. Способ, который выбрал я не кушает ОЗУ, но я был бы рад избежать шага сортировки вообще и начинать поиск нужных данных с конца таблицы.
Возможно есть способ, который позволит искать сразу множество имен ПК, например 14000 имен, чтобы не перебирать всю таблицу снова для каждого значения. МБ время поиска сократить за счет поиска значения не во всей строке, а только в указанном столбце этой строки, а потом уже отправлять эту строку на экспорт. Ищу любые способы ускорения процесса, на данный момент ОЗУ не страдает и ЦПУ тоже. Ну и буду рад, если кто-нибудь поможет оптимизировать код, а скорее всего есть не нужные моменты.

Отправлено: 12:23, 07-09-2021

 

Аватара для DJ Mogarych

fascinating rhythm


Moderator


Сообщения: 6705
Благодарности: 1576

Профиль | Отправить PM | Цитировать


Ужос. Как извращаться приходится в отсутствие нормального доступа к AD...

-------
Powershell 7.x | Powershell 5.1 | ffmpeg (docs)


Отправлено: 18:39, 24-09-2021 | #11



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Старожил


Сообщения: 250
Благодарности: 51

Профиль | Отправить PM | Цитировать


SQL довольно дружелюбный к пользователю

вот пример выбоки наибольшего code для каждого name (для дат более менее то же самое)

Код: Выделить весь код
CREATE TABLE data ("id" integer NOT NULL PRIMARY KEY AUTOINCREMENT,"code" integer, "name" TEXT );
Код: Выделить весь код
insert into data (name,code) values   ('A',1);
insert into data (name,code) values   ('A',2);
insert into data (name,code) values   ('A',3);
insert into data (name,code) values   ('B',1);
insert into data (name,code) values   ('B',2);
insert into data (name,code) values   ('B',3);
insert into data (name,code) values   ('B',4);
insert into data (name,code) values   ('C',1);
insert into data (name,code) values   ('C',2);
insert into data (name,code) values   ('D',1);
Код: Выделить весь код
select distinct name, max(code) from data group by name order by name;
получится сразу ответ


Код: Выделить весь код
A	3
B	4
C	2
D	1

Отправлено: 01:00, 25-09-2021 | #12


Ветеран


Сообщения: 27449
Благодарности: 8088

Профиль | Отправить PM | Цитировать


Так доступ вроде ж есть?

Отправлено: 01:59, 25-09-2021 | #13


Аватара для DJ Mogarych

fascinating rhythm


Moderator


Сообщения: 6705
Благодарности: 1576

Профиль | Отправить PM | Цитировать


В смысле того, что в AD нет нужной информации.
Я у себя на работе предпочитаю хранить всю доп. информацию прямо в AD - туда стекаются и MAC-адреса, и местоположение компов из 1С, телефоны из базы SQL, кто последний зашёл на комп и т. д.
Поэтому нет необходимости создавать дополнительные костыли, а напрямую запрашивать AD, которая является такой же базой данных.

-------
Powershell 7.x | Powershell 5.1 | ffmpeg (docs)


Отправлено: 09:59, 25-09-2021 | #14


Ветеран


Сообщения: 27449
Благодарности: 8088

Профиль | Отправить PM | Цитировать


DJ Mogarych, спасибо, ясно.

Цитата DJ Mogarych:
…которая является такой же базой данных. »
Не совсем такой же: она всё-таки не реляционная (насколько я понимаю), посему не сильно шустрая.

Отправлено: 10:19, 25-09-2021 | #15


Аватара для DJ Mogarych

fascinating rhythm


Moderator


Сообщения: 6705
Благодарности: 1576

Профиль | Отправить PM | Цитировать


Может быть, я не спец по БД. Ну уж 14000 компов должна потянуть ))

-------
Powershell 7.x | Powershell 5.1 | ffmpeg (docs)


Отправлено: 10:28, 25-09-2021 | #16



Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Скриптовые языки администрирования Windows » PowerShell - [решено] поиск по большой таблице большого количества строк

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
CMD/BAT - [решено] Копирование большого количества файлов по сети finderhd Скриптовые языки администрирования Windows 19 26-11-2020 15:26
Установка большого количества .exe LEXYS AutoIt 1 23-02-2012 09:44
CMD/BAT - Подстановка большого количества параметров. Zeneth Скриптовые языки администрирования Windows 13 30-12-2011 13:16
Разное - Поиск количества строк в тексте DaRiYs Программирование и базы данных 2 15-03-2010 16:24
Интерфейс - [решено] Переименование большого количества файлов 7human7 Microsoft Windows 2000/XP 7 22-11-2008 09:48




 
Переход