<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Блог shr &#187; Парсинг, граббинг</title>
	<atom:link href="http://shrs.info/archives/category/parsing_grabbing/feed" rel="self" type="application/rss+xml" />
	<link>http://shrs.info</link>
	<description>Интернет, ИТ, безопасность, фриланс</description>
	<lastBuildDate>Thu, 29 Jul 2010 17:00:53 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Парсинг поисковиков, умница A.L.I.C.E</title>
		<link>http://shrs.info/archives/93</link>
		<comments>http://shrs.info/archives/93#comments</comments>
		<pubDate>Sat, 01 Nov 2008 23:29:26 +0000</pubDate>
		<dc:creator>shr</dc:creator>
				<category><![CDATA[AI]]></category>
		<category><![CDATA[Парсинг, граббинг]]></category>
		<category><![CDATA[Поисковые системы]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[парсер]]></category>
		<category><![CDATA[Яндекс]]></category>

		<guid isPermaLink="false">http://shrs.info/?p=93</guid>
		<description><![CDATA[Я хотел написать этот пост чуть позже, но кое-что меня приятно удивило и желание ждать пропало.
Пост я хотел посвятить небольшим советам по парсингу поисковиков. Последние недели две я периодически писал скрипт, отсеивающий сайты по разным критериям. Соответсвенно, нужно было очень часто обращаться к поисковым системам и не словить от них бана. Всем известно, что помочь [...]]]></description>
			<content:encoded><![CDATA[<p>Я хотел написать этот пост чуть позже, но кое-что меня приятно удивило и желание ждать пропало.</p>
<p>Пост я хотел посвятить небольшим советам по парсингу поисковиков. Последние недели две я периодически писал скрипт, отсеивающий сайты по разным критериям. Соответсвенно, нужно было очень часто обращаться к поисковым системам и не словить от них бана. Всем известно, что помочь с этим могут прокси, играющие роль посредника между клиентом и сервером и берущие бан на себя <img src='http://shrs.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  Общая скорость работы будет в основном определяться скоростью прокси.</p>
<p>Но есть несколько других методов, которые могут помочь существенно увеличить скорость парсинга в промышленном масштабе. Об этом пойдет речь. В качестве бонуса &#8211; разговор с чат-ботом.<span id="more-93"></span></p>
<p style="text-align: center;"><strong>Возможные методы обхода бана поисковиками при парсинге:</strong></p>
<ol>
<li><strong>Использование датацентров</strong>. Я делал такое для получения Google Pagerank, но думаю, что и с Яндексом можно попробовать. Идея состоит в том, чтобы по очереди соединяться с датацентрами по IP, а не использовать просто доменное имя. Скорость при этом, как минимум, на порядок выше, чем при обращении к серверу по имени. Разрешение имен на своем сервере, распределение нагрузки по серверам поисковой системы &#8211; все это кажется не особо существенным, но в больших масштабах играет роль. К тому же вероятность словить бан уменьшается. &#8220;Много помалу &#8211; много&#8221;. Вам нужно всего лишь найти IP-адреса.</li>
<li><strong>Использование партнеров поисковиков</strong>. Существует немало сервисов, которые просто напросто используют выдачу известных ПС, работая с ними через API. Поэтому получать выдачу нужного поисковика можно не только у него, но и у партнера.</li>
</ol>
<p>Теперь о том, что заставило меня написать пост раньше <img src='http://shrs.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  А это эмоции и приятное удивление от &#8220;общения&#8221; с зачатками искуственного интеллекта в виде программы-чата. Зовут ее <a href="http://alicebot.blogspot.com/">A.L.I.C.E</a>.</p>
<p>Очень давно, лет 7 назад, еще будучи школьником я также игрался с каким-то ботом, но тот был заметно глупее и часто отвечал невпопад. Элис приятно поражает. Вот цитата с баша, которая заинтересовала меня и я решил посмотреть на Элис:</p>
<blockquote><p>Human: All robots are stupid<br />
ALICE: I don&#8217;t think so.<br />
Human: you have another opinion?<br />
ALICE: What makes you think I have it?<br />
Human: you don&#8217;t believe that all robots are stupid<br />
ALICE: Do you believe that all robots are stupid? I can&#8217;t say I believe it, but I believe you.<br />
Human: are you robot?<br />
ALICE: How did you know I am a machine?. Really.<br />
Human: all robots are stupid and you are a robot, that means you are stupid<br />
ALICE: Hey, I&#8217;ll tell my other robot friends you called me stupid.<br />
Human: I still think robots are stupid.<br />
ALICE: I will remember you said that when robots take over the World.<br />
Human: O_o</p></blockquote>
<p>Оказывается, программисты и ученые, занимающиеся созданием ИИ, разработали AIML &#8211; диалект XML для создания таких вот интересных ботов. Когда будет время, обязательно познакомлюсь поближе с этой темой.</p>
<p>А пока просто приятно поиграться с Элис во время перерывов <img src='http://shrs.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  например, когда ждешь окончания работы парсера.</p>
]]></content:encoded>
			<wfw:commentRss>http://shrs.info/archives/93/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
