Re: Вибір SSD для нейромереж
Це кілька програм. PHP/C++. Це завантаження веб-сайтів (звідси купа html сторінок), парсінг даних.
Спочатку завантажувач був на ПК (C++), але потім переніс на тестовий хостинг (позавчора) для швидкості.
Той, що на ПК завантажив мені близько 200.000 html і коли я відкриваю Total Commander то він висить, він навіть прочитати це не може. Через пів години з трудом показує, оперувати файлами не можливо. Для того щоб спарсити дані треба великий IOPS, створив RAM-диск, скопіював туди - все рівно треба довго чекати. Я навіть не парсив а поки що шукав ключові слова.
Так от це мені надоїло і зробив тепер на хостингу.
Завантажувач - це простий PHP-скрипт по принципу проксі: завантажується url, зберігається в файл, на C++ написана лише прога яка запитує по списку методом брут (кілька потоків)
http://mysite.com/script.php?url=http://site.com/index.html&file=file1
скрипт:
<?php
$url=$_GET['url'];
$file=$_GET['file'];
$con=file_get_contents($url);
$f=fopen($file, "a");
fwrite($f, $con);
fclose($f);
?>
Але на цьому хостингу є обмеження на розмір одного файла - десь до 20 мб, для цього і потрібен параметр file. Але я не взнаю розмір, просто встановлюю в C++ обмеження 100 сторінок на 1 файл. Виходить десь від 1 (помилки) до 15 мб файли. Зате виходить швидко - до 600 файлів за хвилину (і це на тестовому хостингу). Завантажую вночі, тому навряд чи це створює суттєве навантаження на ті сайти. Ліміт становить 5 Гб на місяць, тому доведеться реєструвати нові акаунти (поки що використовую 1). Так, це трохи "криво" але іншого виходу немає (бо тоді дешевше провести проводний інтернет).
Потім я з цього хостинга завантажую ці файли на комп, ping у мене 50ms а на хостингу 1ms. Тому багато файлів з того сайту я завантажую повільніше, ніж хостинг, а 1 файл з хостингу в мене скачує на швидкості приблизно 2 мбайт/с.
Короче я маю 200.000 скачаних файлів (окремо) і 300 штук скачаних недавно на PHP (по 100 файлів в 1). Єдине, що мені ще хотілося б якось скоротити трафік, може якийсь онлайн-архіватор (безкоштовний не знайшов).
Для того що качалось на ПК, щоб спарсити треба напевно не один вечір і великий IOPS, а для того що почав качати позавчора - 5 хвилин. Тема була створена для того що я качав іще 2 тижні тому. Але все рівно я буду завантажувати все більші обсяги даних і без SSD не обійдуся.
Але на виході я маю створити MySQL БД (куди це все буде спарсено) і нейромережу, яка буде "навчатись" по даним із БД. В БД має бути 2 параметра - перший це задача а другий це вихідний C++/PHP/Java/Basic код вирішення.
Вся суть далі в тому, не смійтесь тільки що ця нейромережа має допомагати мені вчити програмування.
Поки що я не зробив парсер, але це точно буде