четверг, 22 мая 2008 г.

Как парсить гугл без использования прокси с помощью Hrefer’a!

Хочу рассказать как можно парсить гугл без прокси. Я являюсь счастливым обладателем Хрумера, и для наибольшей эффективности работы данного софта мне постоянно необходимо обновлять и пополнять свою базу свежими проиндексированными форумами. И где их брать? Правильно, выкачивать из поисковых систем с помощью Хрефера!

Чтобы нормально можно было парсить поисковые системы необходимы прокси, так как с одного IP много не напарсишь, при частом обращение с одного IP к выдаче, этот IP уходит в банн и ему в итоге ничего не отдается.

Как решать эту проблему? Покупать прокси, что конечно можно, но тратить на них деньги... В общем, покупать прокси я не хотел, а если использовать фришные прокси, что идут в паблик, этот процесс становился очень медленным и проблемный, что очень тормозил весь процесс парсинга поисковых систем, от чего я и отказался в итоге.

Теперь я парсю гугл на прямую, следующим способом, по которому у меня получается напарсить 100к уникальных форумов за ночь. Так что с проксями я больше нигде не встречаюсь.

Для этого вам необходим парсер от хрумера – Hrefer. Если у вас нет его, то можно купить его здесь, стоит $50, что является очень гуманной ценой за отличный парсер поисковых систем. Так же Hrefer можно получить бесплатно, при покупке самого хрумера, парсер идет в подарок!

Вооружившись Hrefer’ом можно приступать к сбору нужной информации из поисковых систем. Плюс к этому вы должны иметь интернет провайдера предоставляющего своим клиентам динамический IP адрес.

Приступим. Я включаю в хрефере 300 потоков.

Выключаю в опциях использовать прокси полностью.

Добавляю в хрефер разно тематических кеев, да по больше, и начинаю парсить.

Через некоторое время, чего и следовало ожидать, вижу - все, больше не парсится (гугл забанил мой IP и выдачу больше не отдает), после чего - отключаюсь от интернета, хрефер при этом вообще не трогаю, он там что-то жалуется, что его от интернета отключили, но все равно пытается парсить.

Далее снова подключаюсь к интернету заново, при этом во время подключения, я получаю новый IP адрес, с которого можно продолжать парсить. После подключения, хрефер сам, без моей помощи, продолжает парсить, но уже с нового IP.

Поначалу идет хорошо, как 50к уникальных форумов набирает, начинает идти туго, очень много в дубли уходит, но за ночь такого геморроя с подключением и отключением от интернета, 100к форумов набирается.

Далее, для облегчения процесса подключения-отключения от интернета можно использую программу для автодозвона, я использую эту программу - VDialer3. Основная ее функция заключается дозваниваться до интернета и отключаться в нужное время, что мне как раз и необходимо делать для парсинга.

В этой звонилке основные настройки ставлю, такие: перезванивать при обрыве связи.

И разорвать связь после Х секунд (я ставлю 210 секунд).

Таким образом, получается, замкнуты круг, с таймером в 3.5 минуты, этого времени вполне хватает хреферу выкачать из гугла нужную мне информацию, после чего IP уходит в банн, софтина сама разрывает соединение и подключается заново, получая при этом новый IP адрес, с которого можно продолжать парсить.

После таких не хитрых манипуляция и издевательств над своим провайдером, можно оставить компьютер в покое, и смело идти спать, а с утра получить свежую база проиндексированных форумов.

Ничего сложного нет! И таким способом, с помощь Хрефера и без использования прокси, можно успешно парсить поисковые системы!

Всем удачного парсинга ;)

4 комментария:

photek30 комментирует...

А что, способ действительно интересный :) Только на мой взгляд 100к форумов - это еще не показатель, что метод работает хорошо.

akkawa комментирует...

Я теперь всегда, когда ухожу куда-нибудь или спать ложусь, оставляю компьютер домашний работать по этому способу. Так что у меня точно работает, напарсил себе так уже под полмиллиона уников.

Вадик комментирует...

Спасибо, ценая статью!
Буду так парсить, когда нормальных прокси нет под рукой.

Львівський бомж комментирует...

Идея супер. Я уже намахался с этими прокси. Только Вдиалер не дисконектит под виндовс7