Парсинг поисковиков, умница A.L.I.C.E
Я хотел написать этот пост чуть позже, но кое-что меня приятно удивило и желание ждать пропало.
Пост я хотел посвятить небольшим советам по парсингу поисковиков. Последние недели две я периодически писал скрипт, отсеивающий сайты по разным критериям. Соответсвенно, нужно было очень часто обращаться к поисковым системам и не словить от них бана. Всем известно, что помочь с этим могут прокси, играющие роль посредника между клиентом и сервером и берущие бан на себя
Общая скорость работы будет в основном определяться скоростью прокси.
Но есть несколько других методов, которые могут помочь существенно увеличить скорость парсинга в промышленном масштабе. Об этом пойдет речь. В качестве бонуса – разговор с чат-ботом.
Возможные методы обхода бана поисковиками при парсинге:
- Использование датацентров. Я делал такое для получения Google Pagerank, но думаю, что и с Яндексом можно попробовать. Идея состоит в том, чтобы по очереди соединяться с датацентрами по IP, а не использовать просто доменное имя. Скорость при этом, как минимум, на порядок выше, чем при обращении к серверу по имени. Разрешение имен на своем сервере, распределение нагрузки по серверам поисковой системы – все это кажется не особо существенным, но в больших масштабах играет роль. К тому же вероятность словить бан уменьшается. “Много помалу – много”. Вам нужно всего лишь найти IP-адреса.
- Использование партнеров поисковиков. Существует немало сервисов, которые просто напросто используют выдачу известных ПС, работая с ними через API. Поэтому получать выдачу нужного поисковика можно не только у него, но и у партнера.
Теперь о том, что заставило меня написать пост раньше
А это эмоции и приятное удивление от “общения” с зачатками искуственного интеллекта в виде программы-чата. Зовут ее A.L.I.C.E.
Очень давно, лет 7 назад, еще будучи школьником я также игрался с каким-то ботом, но тот был заметно глупее и часто отвечал невпопад. Элис приятно поражает. Вот цитата с баша, которая заинтересовала меня и я решил посмотреть на Элис:
Human: All robots are stupid
ALICE: I don’t think so.
Human: you have another opinion?
ALICE: What makes you think I have it?
Human: you don’t believe that all robots are stupid
ALICE: Do you believe that all robots are stupid? I can’t say I believe it, but I believe you.
Human: are you robot?
ALICE: How did you know I am a machine?. Really.
Human: all robots are stupid and you are a robot, that means you are stupid
ALICE: Hey, I’ll tell my other robot friends you called me stupid.
Human: I still think robots are stupid.
ALICE: I will remember you said that when robots take over the World.
Human: O_o
Оказывается, программисты и ученые, занимающиеся созданием ИИ, разработали AIML – диалект XML для создания таких вот интересных ботов. Когда будет время, обязательно познакомлюсь поближе с этой темой.
А пока просто приятно поиграться с Элис во время перерывов
например, когда ждешь окончания работы парсера.

Написать комментарий