вторник, 9 декабря 2008 г.
Базы форумов для Хрумера
Хорошие базы форумов для Хрумера новой версии, можно купить здесь.
Базы будут обновлять раз в месяц и пополняться новыми, свежими форумами из индекса гугла.
четверг, 22 мая 2008 г.
Как парсить гугл без использования прокси с помощью Hrefer’a!
Чтобы нормально можно было парсить поисковые системы необходимы прокси, так как с одного IP много не напарсишь, при частом обращение с одного IP к выдаче, этот IP уходит в банн и ему в итоге ничего не отдается.
Как решать эту проблему? Покупать прокси, что конечно можно, но тратить на них деньги... В общем, покупать прокси я не хотел, а если использовать фришные прокси, что идут в паблик, этот процесс становился очень медленным и проблемный, что очень тормозил весь процесс парсинга поисковых систем, от чего я и отказался в итоге.
Теперь я парсю гугл на прямую, следующим способом, по которому у меня получается напарсить 100к уникальных форумов за ночь. Так что с проксями я больше нигде не встречаюсь.
Для этого вам необходим парсер от хрумера – Hrefer. Если у вас нет его, то можно купить его здесь, стоит $50, что является очень гуманной ценой за отличный парсер поисковых систем. Так же Hrefer можно получить бесплатно, при покупке самого хрумера, парсер идет в подарок!
Вооружившись Hrefer’ом можно приступать к сбору нужной информации из поисковых систем. Плюс к этому вы должны иметь интернет провайдера предоставляющего своим клиентам динамический IP адрес.
Приступим. Я включаю в хрефере 300 потоков.
Выключаю в опциях использовать прокси полностью.
Добавляю в хрефер разно тематических кеев, да по больше, и начинаю парсить.
Через некоторое время, чего и следовало ожидать, вижу - все, больше не парсится (гугл забанил мой IP и выдачу больше не отдает), после чего - отключаюсь от интернета, хрефер при этом вообще не трогаю, он там что-то жалуется, что его от интернета отключили, но все равно пытается парсить.
Далее снова подключаюсь к интернету заново, при этом во время подключения, я получаю новый IP адрес, с которого можно продолжать парсить. После подключения, хрефер сам, без моей помощи, продолжает парсить, но уже с нового IP.
Поначалу идет хорошо, как 50к уникальных форумов набирает, начинает идти туго, очень много в дубли уходит, но за ночь такого геморроя с подключением и отключением от интернета, 100к форумов набирается.
Далее, для облегчения процесса подключения-отключения от интернета можно использую программу для автодозвона, я использую эту программу - VDialer3. Основная ее функция заключается дозваниваться до интернета и отключаться в нужное время, что мне как раз и необходимо делать для парсинга.
В этой звонилке основные настройки ставлю, такие: перезванивать при обрыве связи.
И разорвать связь после Х секунд (я ставлю 210 секунд).
Таким образом, получается, замкнуты круг, с таймером в 3.5 минуты, этого времени вполне хватает хреферу выкачать из гугла нужную мне информацию, после чего IP уходит в банн, софтина сама разрывает соединение и подключается заново, получая при этом новый IP адрес, с которого можно продолжать парсить.После таких не хитрых манипуляция и издевательств над своим провайдером, можно оставить компьютер в покое, и смело идти спать, а с утра получить свежую база проиндексированных форумов.
Ничего сложного нет! И таким способом, с помощь Хрефера и без использования прокси, можно успешно парсить поисковые системы!
Всем удачного парсинга ;)