21

Re: Вибір SSD для нейромереж

Це кілька програм. PHP/C++. Це завантаження веб-сайтів (звідси купа html сторінок), парсінг даних.
Спочатку завантажувач був на ПК (C++), але потім переніс на тестовий хостинг (позавчора) для швидкості.
Той, що на ПК завантажив мені близько 200.000 html і коли я відкриваю Total Commander то він висить, він навіть прочитати це не може. Через пів години з трудом показує, оперувати файлами не можливо. Для того щоб спарсити дані треба великий IOPS, створив RAM-диск, скопіював туди - все рівно треба довго чекати. Я навіть не парсив а поки що шукав ключові слова.
Так от це мені надоїло і зробив тепер на хостингу.
Завантажувач - це простий PHP-скрипт по принципу проксі: завантажується url, зберігається в файл, на C++ написана лише прога яка запитує по списку методом брут (кілька потоків)

http://mysite.com/script.php?url=http://site.com/index.html&file=file1

скрипт:

<?php
$url=$_GET['url'];
$file=$_GET['file'];
$con=file_get_contents($url);
$f=fopen($file, "a");
fwrite($f, $con);
fclose($f);
?>

Але на цьому хостингу є обмеження на розмір одного файла - десь до 20 мб, для цього і потрібен параметр file. Але я не взнаю розмір, просто встановлюю в C++ обмеження 100 сторінок на 1 файл. Виходить десь від 1 (помилки) до 15 мб файли.  Зате виходить швидко - до 600 файлів за хвилину (і це на тестовому хостингу). Завантажую вночі, тому навряд чи це створює суттєве навантаження на ті сайти. Ліміт становить 5 Гб на місяць, тому доведеться реєструвати нові акаунти (поки що використовую 1). Так, це трохи "криво" але іншого виходу немає (бо тоді дешевше провести проводний інтернет).
Потім я з цього хостинга завантажую ці файли на комп, ping у мене 50ms а на хостингу 1ms. Тому багато файлів з того сайту я завантажую повільніше, ніж хостинг, а 1 файл з хостингу в мене скачує на швидкості приблизно 2 мбайт/с.

Короче я маю 200.000 скачаних файлів (окремо) і 300 штук скачаних недавно на PHP (по 100 файлів в 1). Єдине, що мені ще хотілося б якось скоротити трафік, може якийсь онлайн-архіватор (безкоштовний не знайшов).
Для того що качалось на ПК, щоб спарсити треба напевно не один вечір і великий IOPS, а для того що почав качати позавчора - 5 хвилин. Тема була створена для того що я качав іще 2 тижні тому. Але все рівно я буду завантажувати все більші обсяги даних і без SSD не обійдуся.

Але на виході я маю створити MySQL БД (куди це все буде спарсено) і нейромережу, яка буде "навчатись" по даним із БД. В БД має бути 2 параметра - перший це задача а другий це вихідний C++/PHP/Java/Basic код вирішення.
Вся суть далі в тому, не смійтесь тільки що ця нейромережа має допомагати мені вчити програмування.
Поки що я не зробив парсер, але це точно буде

22

Re: Вибір SSD для нейромереж

*Парсер ще не створив, але це точно буде на базі <string> C++, бо нічого більше я не знаю.
Це мінус продуктивності? Спочатку треба обрізати статику. Для цього проаналізувати перший файл і визначити куски коду які часто повторюються. Ці ж куски вирізати в наступних файлах і перезаписувати. Потім (вручну) відкрити один з файлів, записати в блокноті те що треба вирізати, пройтися ще раз. Потім все це заархівувати (бекап), уже потім робити парсінг у БД. Спочатку спарсити  усе підряд (типу назва теми і повідомлення і ім'я теми). Потім якось зробити алгоритм щоб визначався тільки найбільш правильний код і технічне завдання і по цій БД спарсити нову БД (для нейромережі).
Нейромережа буде на CUDA. Спочатку її треба обучити англійській, російській і українській мові асоціацій (тобто навчити визначати що є на картинці), для цього я матиму масив картинок. Це так як вчиться людина (дитина) сприймати світ, приєднуючи слова які кажуть оточуючі до картинок.
Потім треба "обучити" нейромережу мовам програмування.
І тоді нарешті обучати по цій БД техзавдання+код.
Я не знаю навіть, яка продуктивність треба для цього, але зокрема для навчання по масиву із картинок IOPS все рівно треба високий, бо масив картинок не охота об'єднувати у один файл.

23

Re: Вибір SSD для нейромереж

Вибачте, а ви в цілому розумієте, що якісний софт на поганому залізі - це краще, ніж поганий софт на хорошому?
Може, все ж потренуєтеся на слабкому залізі, розберетеся, як ті нейромережі і т.д. працюють, виробите вимоги - а тоді купуватимете обладнання?

Подякували: ferton500, HetmanNet2

24

Re: Вибір SSD для нейромереж

ferton500 написав:

Той, що на ПК завантажив мені близько 200.000 html і коли я відкриваю Total Commander то він висить, він навіть прочитати це не може. Через пів години з трудом показує, оперувати файлами не можливо.

Це проблема файлових систем, коли в одній теці до біса файлів починаються такі гальма. Тут варіанти:
1. Розкладати файли в підтеки по певній кількості.
2. Використати більш підходящу ФС та збільшити розмір блоку в ній (то якщо у вас *nix-like ОС).
3. Створити якесь документ орієнтоване NoSQL сховище робити і туди пхати.
4. Використати блочне сховище (фактично майже на пряму писати блоки на диск).

Подякували: Torbins, ferton500, Thunder, Вовчик4

25

Re: Вибір SSD для нейромереж

ferton500 написав:

Це мінус продуктивності? Спочатку треба обрізати статику. Для цього проаналізувати перший файл і визначити куски коду які часто повторюються. Ці ж куски вирізати в наступних файлах і перезаписувати.

Вже потреба перезаписувати майже одразу вказує, щось робите не так.

ferton500 написав:

Потім (вручну) відкрити один з файлів, записати в блокноті те що треба вирізати, пройтися ще раз.

Погана ідея, але думаю ви то зрозумієте через пару днів роботи в блокноті


ferton500 написав:

Потім все це заархівувати (бекап), уже потім робити парсінг у БД.


А чому не паралельно?

ferton500 написав:

Спочатку спарсити  усе підряд (типу назва теми і повідомлення і ім'я теми). Потім якось зробити алгоритм щоб визначався тільки найбільш правильний код і технічне завдання і по цій БД спарсити нову БД (для нейромережі).

Бачу над цим питанням ще не працювали.

ferton500 написав:

Нейромережа буде на CUDA. Спочатку її треба обучити англійській, російській і українській мові асоціацій (тобто навчити визначати що є на картинці), для цього я матиму масив картинок. Це так як вчиться людина (дитина) сприймати світ, приєднуючи слова які кажуть оточуючі до картинок.
Потім треба "обучити" нейромережу мовам програмування.
І тоді нарешті обучати по цій БД техзавдання+код.

ferton500 написав:

Я не знаю навіть, яка продуктивність треба для цього, але зокрема для навчання по масиву із картинок IOPS все рівно треба високий, бо масив картинок не охота об'єднувати у один файл.

Тут залежить від карти на якій працюватимете.

ferton500 написав:

бо масив картинок не охота об'єднувати у один файл.

Ну тут вже від реалізації нейромережі залежить, а не вашого бажання.

Подякували: ferton500, Thunder, Вовчик3

26

Re: Вибір SSD для нейромереж

koala написав:

Вибачте, а ви в цілому розумієте, що якісний софт на поганому залізі - це краще, ніж поганий софт на хорошому?
Може, все ж потренуєтеся на слабкому залізі, розберетеся, як ті нейромережі і т.д. працюють, виробите вимоги - а тоді купуватимете обладнання?

А ви мені будете допомагати робити це безкоштовно? Скоріше ні.
Я здатен кодити тільки з гуглом.

Я перш за все хотів би накінець вивчити C++. Я насправді його ніколи не знав, а кодив тільки редагуючи чужий код і підставляючи туди свої циферки і буковки! Я не знаю що таке вказівники, як виділяти пам'ять, я коли відкриваю код то багато чого не розумію. Коли я гуглю те, чого я не розумію, то я знаходжу не розжовану відповідь, яка вимагає від мене попередніх знань (якісь там двійкові коди і т.д.) і я його не розумію! А вчити все, коди, архітектуру, якісь стеки, регістри, пам'ять у мене бажання немає, я не хочу переводити своє життя у нікуди, якщо я можу просто відредагувати циферки і буковки... Тому моя мрія про вивчення C++ назавжди залишиться не здійсненою.

Прихований текст

Короче кажучи, я не знайшов поки що у гуглі той оптимізований швидко працюючий код, щоб відредагувати і тому я не зможу (без допомоги інших)

Може, все ж потренуєтеся на слабкому залізі, розберетеся, як ті нейромережі і т.д. працюють, виробите вимоги - а тоді купуватимете обладнання?

А хто ж мені буде безкоштовно допомагати, якщо по-перше не відомо чи я направлю нейромережу на "созіданіє" чи на "разрушеніє", тобто який код буде створений з її допомогою, може це буде код для бойовиків на Донбасі, а по-друге не стану заперечувати що основна ціль - комерційне використання, щоб заробити гроші.
Ну і накінець, ідея не моя - такі нейромережі уже існують, які допомагають розробникам, але ж вони не доступні для скачування щоб не використали їх "бойовики" (в бойовиків є свої кодери, умовно). Тобто, щоб допомогти мені простіше було б дати готову нейромережу, але ж цього не зроблять.

Тому єдиний вихід для мене - це гарне залізо.
#autodelete

27

Re: Вибір SSD для нейромереж

ferton500
Згідний з HetmanNet, у вас вузьким місцем стала файлова система. Коли скачуєте файли на локальний комп об'єднуйте їх в один файл, як на хостингу, або розкидайте по папках.

Подякували: ferton5001

28

Re: Вибір SSD для нейромереж

Torbins написав:

або розкидайте по папках.

Так же ж і робив:
1000[folder]
-page1.html
-page2.html
1000 - номер теми, page1 - номер сторінки теми. Припустимо, я скачую cyberforum з 2.700.000 тем, виходить стільки ж папок (поки що їх 50 тисяч а файлів ~200.000). А якже іще було розділити теми і сторінки? Просто я неправильно висловився, сказавши що Total Commader висить на 200.000 файлів (він висить на 50 тисяч папок, але коли я роблю пошук тексту по файлах то на 200.000 файлах).

На PHP зараз дійсно вирішена ця проблема. Пошук ключових слів у цих файлах займає на RAM-диску менше часу, ніж у одиничних html. І потреба в такому IOPS відпала.

Дякую за допомогу HetmanNet-у і Вам. Диск купую все ж samsung evo 860 250gb (1500UAN з доставкою) (бо мій бюджет обмежений "сімейним" і мені не дали право купити Pro замість нових ботінок :) ) Тому вибачте що поморочив голову, але вмовити я їх не зміг. Зараз основна ціль - це вже не нейромережа, а у якості системного.

У майбутньому, можливо, куплю 970 але поки це мрія.

Все, оскільки питання я вирішив то профіль можна банити, як хочете можете перенести це у смітник.

29

Re: Вибір SSD для нейромереж

Повернемося до вибору SSD-диска.
Річ у тому, що SSD я досі не купив: ми подивилися на характеристики і після цього відпало будь-яке бажання купляти будь-який SSD. Тому якщо і буде куплений, то тільки сервер або ОЗУ до G4.
Кількість перезаписів SAMSUNG 860 EVO 256 GB становить 614.4 разів - 150 ТБ. Після чого гарантія на нього не діє: а там же ведеться лог перезаписів, чи не так??? У Samsung 970 кількість перезаписів не значно вища. Тому, варіант SSD для нейромереж зовсім відпадає.
ОС може переписувати PageFile, Search Indexer files, etc сотні разів і при IOPS запису 40 тис. на секунду, сектор вийде з ладу менш, ніж за 1 секунду!!!!!
Ні, місяць-два ще можна щоб пропрацював, але коли сам виробник пише, що він пропрацює менше одної секунди - бажання брати SSD пропадає.

Натомість, можна разово записати на SSD віртуальним образ і завантажувати потім у RAM-диск як livecd, тобто SSD підходить тільки у випадку якщо його не перезаписуватьи, і то з китайськими деталями пропрацює недовго.
І про таке мене ніхто не попередив. Короче я образився (чи то зробили спеціально мені на зло?)

30

Re: Вибір SSD для нейромереж

drosorov2 написав:

Після чого гарантія на нього не діє: а там же ведеться лог перезаписів, чи не так???

Не лог, а лічильник, так як і у звичайних HDD вони є.

drosorov2 написав:

У Samsung 970 кількість перезаписів не значно вища.

Для користувацького ринку верхня межа ресурсу не зростає, бо немає сенсу. Наприклад 970 від 870 відрязняється швидкістю, інтерфейсом та формфактором, а не ресурсом.

drosorov2 написав:

ОС може переписувати PageFile, Search Indexer files, etc сотні разів

Тому жахливий код дорого закидати залізом

drosorov2 написав:

і при IOPS запису 40 тис. на секунду, сектор вийде з ладу менш, ніж за 1 секунду!!!!!

Робота SSD відрізняється від HDD, тож окремий сектор так швидко не помре, аж поки більша частину диску не буде зношена, це якщо розмір OP вірно підібраний.

drosorov2 написав:

Ні, місяць-два ще можна щоб пропрацював, але коли сам виробник пише, що він пропрацює менше одної секунди - бажання брати SSD пропадає.

Виробник такого не пише, то ви просто ви геть нічого не знаєте про роботу SSD. Дослухайтеся натяку koala та інвестуйте у своє майбутнє через навчання.

Подякували: Torbins, Вовчик2

Re: Вибір SSD для нейромереж

Ви в шутку написали що ви троль.
А мене не на шутку називають сирником. А коли я стану "ліцензованим сирником форуму"? Зроблю свій форум і буду постити посилання...

Щодо SSD то блін не охота тратити навіть вже 2000 виділених батьками грн. Тобто то батьки були проти а тепер я сам проти, за ці ж гроші можна купити 4 бу hdd 1TB чи ОЗУ покраще.

32

Re: Вибір SSD для нейромереж

Немалий Сирник на Форумі написав:

Ви в шутку написали що ви троль.
А мене не на шутку називають сирником. А коли я стану "ліцензованим сирником форуму"? Зроблю свій форум і буду постити посилання...

Щодо SSD то блін не охота тратити навіть вже 2000 виділених батьками грн. Тобто то батьки були проти а тепер я сам проти, за ці ж гроші можна купити 4 бу hdd 1TB чи ОЗУ покраще.

Ну HDD не замінить SSD, а SSD заміняти HDD дорогувато. Тож питання потреб.

Якщо ОС крутиться не на SSD то радив би NVME SSD все таки поставити хоча би для системи та софта, хай навіть не 970 але хоча би якийсь дешевий goodram чи kingston ;)

Подякували: Вовчик1

33

Re: Вибір SSD для нейромереж

HetmanNet, не тратьте, куме, сили...

Подякували: HetmanNet1

34

Re: Вибір SSD для нейромереж

Повністю згодний з HetmanNet, судячи з опису вище, алгоритми в програмі абсолютно не оптимізовані, звідси і низька швидкодія. Я уже не кажу про те, що автор мабуть навіть не знає, що таке profiler.
Сам по собі, парсинг текстових файлів не є складною задачею. Коли я бавився нейронками, то у мене 150000 файлів парсились менше п'яти хвилин, і впирався мій алгоритм зовсім не в диск, а у власне парсинг.

35

Re: Вибір SSD для нейромереж

Та вже не в алгоритмах проблема: моя ОС почне щось індексити і вб'є його за пару днів не зважаючи на усілякі кеши і т.д. Було прийнято рішення що ОС буде на HDD, а SSD буде тільки як fast-read/write-flash-storage. Бо ні для чого іншого не підходить. Тільки як флешка - коли йдеш на роботу-з роботи і треее щось швидко зкопіювати от і все. 614 разів переписав і викинув. Від звичайної флешки USB нічим не відрізняється.

36

Re: Вибір SSD для нейромереж

Вовчик написав:

моя ОС почне щось індексити і вб'є його за пару днів не зважаючи на усілякі кеши і т.д. .

У вас якась власна ОС? Бо з тих що відомі без допомоги юзера ще не вбивали за пару днів SSD.

Вовчик написав:

Від звичайної флешки USB нічим не відрізняється.

Де ви цю дурню взяли?

37

Re: Вибір SSD для нейромереж

HetmanNet, ви якось звертайте увагу на те, з ким сперечаєтеся. Це забанений троль.
Мабуть, перенесу тему до Кошику, бо сенсу тут насправді немає.