Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Компьютеры + Интернет » Хочу все знать » как работать с большими файлами

Ответить
Настройки темы
как работать с большими файлами

Ветеран


Сообщения: 580
Благодарности: 2

Профиль | Отправить PM | Цитировать


есть файл весит хрен знает сколько , сотни гигов, в этом файле одни цифры, их надо упорядочить от 0 и до победного конца
вопрос как это сделать, чтобы сервак совсем не крякнуть

как сделать сортировку это всего лишь полстрочки в питоне (sort функция)
вопрос если просто это сделать сервер умрет.
Подскажите, как бы мне разделить на батчи целиковый файл, чтобы его просортировать, да так,чтобы сервер не убить и сколько примерно по времени такой файл будет отрабатывать. Как бы минимзировать вычислительную сложность ,чтобы он не 100 лет думал?

Отправлено: 12:57, 07-02-2020

 

Ветеран


Сообщения: 3806
Благодарности: 824

Профиль | Отправить PM | Цитировать


Iska, вы чушь пиш и eте.
Языки высокого уровня потому и существуют, что это по сути набор ассемблерных функций надёжность и эффективность которых за вас вылизывала толпа умнейших людей.
Самостоятельно на ассемблере имеет смысл реализовывать новый алгоритм.

Последний раз редактировалось Busla, 09-02-2020 в 19:00.


Отправлено: 12:07, 09-02-2020 | #11



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Старожил


Сообщения: 352
Благодарности: 192

Профиль | Отправить PM | Цитировать


Цитата Iska:
Скоростью обработки. Фактически, что напишете — то и будет в машинных кодах, без включения лишнего. »
Не факт, что малоопытный в вопросах оптимизации человек напишет на асме код более оптимальным образом, чем это сделает высокоуровневый компилятор, написанный профессионалами. А если учитывать совокупное время на написание кода + выполнение задачи.....
Это сообщение посчитали полезным следующие участники:

Отправлено: 12:11, 09-02-2020 | #12


Ветеран


Сообщения: 580
Благодарности: 2

Профиль | Отправить PM | Цитировать


Iska,
https://dropmefiles.com/5j6Y5

Отправлено: 13:06, 09-02-2020 | #13


Ветеран


Сообщения: 3806
Благодарности: 824

Профиль | Отправить PM | Цитировать


r-studio, сортировка должна быть текстовая или числовая?
какая максимальная разрядность чисел?
распределение примерно равномерное?

Отправлено: 13:21, 09-02-2020 | #14


Ветеран


Сообщения: 580
Благодарности: 2

Профиль | Отправить PM | Цитировать


Busla,числовое, нет распределение не равномерное, это точно.

Отправлено: 13:55, 09-02-2020 | #15


Забанен


Сообщения: 6345
Благодарности: 1436

Профиль | Цитировать


Цитата Busla:
сортировка должна быть текстовая или числовая? »
И что делать с дублями?
На unix-like такое делается как два пальца, например вот в убунте WSL на винде 10 сортируем как числа с убиранием дублей, второй вариант - распараллеливаем на два потока для ускорения:
Код: Выделить весь код
time $(sort -u -n 445.txt -o 445_sorted.txt)

real    0m0.799s
user    0m2.844s
sys     0m0.453s

time $(sort --parallel=2 -u -n 445.txt -o 445_sorted.txt)

real    0m1.071s
user    0m1.609s
sys     0m0.203s
Для очень больших файлов (гигабайты, десятки гигабайт и больше) имеет смысл применять сжатие временных файлов, напр. --compress-program=lzop и указывать специальную временную директорию --temporary-directory=/mnt/1TB_partition/

UPD нагуглил скрипт, использующий всё тот же sort, но c разбитием исходного файла на куски (split,sort,merge). Автор говорит, что так быстрее. Но проверить это можно только на реально большом файле, который не помещается в память.

Последний раз редактировалось Jula0071, 09-02-2020 в 14:26.

Это сообщение посчитали полезным следующие участники:

Отправлено: 13:58, 09-02-2020 | #16


Ветеран


Сообщения: 27449
Благодарности: 8086

Профиль | Отправить PM | Цитировать


Цитата Busla:
Iska, вы чушь пишите. »
Спасибо за пожелание, но — нет . Я не планирую писать чушь.

Цитата Busla:
Языки высокого уровня потому и существуют, что это по сути набор ассемблерных функций надёжность и эффективность которых за вас вылизывала толпа умнейших людей. »
ЯВУ существуют исключительно для того, чтобы сократить временные затраты на написание приложений, а вовсе не потому, что озвучили Вы, коллега.

Цитата Busla:
Самостоятельно на ассемблере имеет смысл реализовывать новый алгоритм. »
Разумеется.

Цитата iglezz:
Не факт, что малоопытный в вопросах оптимизации человек напишет на асме код более оптимальным образом, чем это сделает высокоуровневый компилятор, написанный профессионалами. »
Отчасти соглашусь. В старые-то времена оптимизация компиляторов ЯВУ была, гм, такое себе, а уж для нынешних-то…

Цитата iglezz:
А если учитывать совокупное время на написание кода + выполнение задачи..... »
Вот здесь — в точку. Но смотреть именно на время выполнения задачи — надо. Потому как может оказаться, что «Лучше день потерять, потом за час долететь» отработает быстрее, нежели «Что тут думать — трусить надо» . Выбор того или иного подхода будет напрямую зависеть от конкретики задачи.



r-studio, спасибо, ясно. Какова конечная цель? Для чего делается сортировка? Что будет происходить с этим отсортированным файлом дальше, для чего он нужен в отсортированном виде?

Отправлено: 14:44, 09-02-2020 | #17


Ветеран


Сообщения: 580
Благодарности: 2

Профиль | Отправить PM | Цитировать


Iska, а далее для чего продакт манагер решит , мы не знаем что у Богов на уме)) Возможно будет джойн какой-то или назначение категорий к числам.

Отправлено: 14:55, 09-02-2020 | #18


Ветеран


Сообщения: 27449
Благодарности: 8086

Профиль | Отправить PM | Цитировать


Ух… Это печально. Можете выяснить?

Отправлено: 15:16, 09-02-2020 | #19


Ветеран


Сообщения: 580
Благодарности: 2

Профиль | Отправить PM | Цитировать


Iska, ну сегодня вряд ли, Боги отдыхают скорее всего, но главное вряд ли скажут, но у думаю моя версия будет джойн какой-то или назначение категорий к числам.
в итоге будет файл
число и его тестовая расшифровка

Отправлено: 16:31, 09-02-2020 | #20



Компьютерный форум OSzone.net » Компьютеры + Интернет » Хочу все знать » как работать с большими файлами

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Разное - Папки с файлами на флешке стали файлами, что делать? dd300 Microsoft Windows 10 6 11-12-2019 14:57
Sharepoint - MS Sharepoint 2010 - проблема с большими HTML-файлами в области совместной работы Greyman Другие серверные продукты 0 08-10-2018 17:14
HDD - Беспричинный шум головок при отсутствии нагрузки после операций с большими файлами. sputnikk Накопители (SSD, HDD, USB Flash) 4 18-06-2017 04:59
Установка - загружается как бы по кадрам с большими задержками, видео так же Дашка Microsoft Windows 2000/XP 4 10-07-2011 14:28




 
Переход