<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Блог shr &#187; Поисковые системы</title>
	<atom:link href="http://shrs.info/archives/category/search_engines/feed" rel="self" type="application/rss+xml" />
	<link>http://shrs.info</link>
	<description>Интернет, ИТ, безопасность, фриланс</description>
	<lastBuildDate>Thu, 29 Jul 2010 17:00:53 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Как вы можно узнать какой вес у страницы?</title>
		<link>http://shrs.info/archives/2175</link>
		<comments>http://shrs.info/archives/2175#comments</comments>
		<pubDate>Mon, 05 Jul 2010 18:58:34 +0000</pubDate>
		<dc:creator>shr</dc:creator>
				<category><![CDATA[Поисковые системы]]></category>

		<guid isPermaLink="false">http://shrs.info/?p=2175</guid>
		<description><![CDATA[Для этого вам нужно скачать т.н. toolbar от ПС Google на странице http://toolbar.google.com. Этот тулбар предназначен для Internet Explorer. После установки в верхней части браузера появляется инструментальная линейка. На ней есть столбовая диаграмма, говорящая о весе той страница, который вы в данный момент просматриваете. Если навести курсор мышки на эту диаграмму, то появится подсказка, содержащая [...]]]></description>
			<content:encoded><![CDATA[<p><img alt="" src="http://shrs.info/vs.jpg" title="Как вы можно узнать какой вес у страницы?" class="alignleft" width="111" height="145" /><img class="alignleft size-medium wp-image-264" title="Как вы можно узнать какой вес у страницы?" src="http://shrs.info/wp-content/uploads/2010/06/12.jpg" alt="Как вы можно узнать какой вес у страницы?" width="300" height="200" />Для этого вам нужно скачать т.н. toolbar от ПС Google на странице http://toolbar.google.com. Этот тулбар предназначен для Internet Explorer. После установки в верхней части браузера появляется инструментальная линейка. На ней есть столбовая диаграмма, говорящая о весе той страница, который вы в данный момент просматриваете. Если навести курсор мышки на эту диаграмму, то появится подсказка, содержащая числовое значение от нуля до десяти. Насколько же точны показания тулбара от Гугла?</p>
<p>Данный показатель не очень точен, но на данный момент это практически единственный инструмент, который может дать хоть какое-то представление о весе страницы. У этого тулбара есть несколько ограничений. Вот они:</p>
<p>1. Иногда этот инструмент определяет весь совсем приблизительно. К примеру, если вы откроете страницу, которая отсутствует в индексе Гугла, но если есть страница, которая близка по своему содержанию к данной странице, то тулбар покажет свое предположение о PageRank этой страница. Получиться как бы склеивание веса страница, которая в индексе и которая не в индексе. Есть способ выяснить реальный вес ли показывает тулбар или он просто склеил значение с другой страницей. Нужно ввести в поисковую форму адрес страницы, у которой вы определяете PageRank, если страница появиться, то, следовательно, вес показывается реальный, а если нет, то это выдумки тулбара.</p>
<p>2. Тулбар дает представление о реальном весе. Сам показатель PageRank, но на тублабаре он показывается в виде нелинейной диаграммы.</p>
]]></content:encoded>
			<wfw:commentRss>http://shrs.info/archives/2175/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Насколько важен показатель PageRank?</title>
		<link>http://shrs.info/archives/2170</link>
		<comments>http://shrs.info/archives/2170#comments</comments>
		<pubDate>Mon, 05 Jul 2010 13:23:07 +0000</pubDate>
		<dc:creator>shr</dc:creator>
				<category><![CDATA[Поисковые системы]]></category>

		<guid isPermaLink="false">http://shrs.info/?p=2170</guid>
		<description><![CDATA[Значимость отдельно взятого фактора в общем числе самых разнообразных факторов влияющих на ранжирование, т.е. положение сайта или страница в выдаче поисковой системы зависит от качества информации, которую он несет. Так что есть смысл для начала взглянуть на само качество этого показателя.
Когда-то давно на заре рассвета такой поисковой системы как Google понятие ссылки можно было трактовать [...]]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft size-medium wp-image-264" title="Насколько важен показатель PageRank?" src="http://shrs.info/wp-content/uploads/2010/06/11.gif" alt="Насколько важен показатель PageRank?" width="300" height="200" />Значимость отдельно взятого фактора в общем числе самых разнообразных факторов влияющих на ранжирование, т.е. положение сайта или страница в выдаче поисковой системы зависит от качества информации, которую он несет. Так что есть смысл для начала взглянуть на само качество этого показателя.</p>
<p>Когда-то давно на заре рассвета такой поисковой системы как Google понятие ссылки можно было трактовать точно как рекомендацию. С тех пор много воды утекло и это утверждение уже не так актуально как ранее. Объясню почему. Есть две ключевые причины:</p>
<p>1. Интернет существенно поменялся. Сегодня ссылка это как связь с другим сайтом, ответная услуга при обмене ссылками или вообще лицензионное требование.</p>
<p>2. Как только создается поисковый механизм, который дает существенный вес ссылке как рекомендации, то сразу же находятся люди желающие манипулировать этим механизмом, т.е. покупать их и прочее.</p>
<p>Отсюда следует, что надежность информации такого фактора как внешняя ссылка постепенно становиться меньше и меньше. Это и является причиной того, что важность PageRank как одного из факторов ранжирования становиться все слабее и слабее.</p>
<p>Однако у PageRank есть одно оправдывающее его свойство. На этот показатель в алгоритме ранжирования труднее всего влиять из вне. Из всего изложенного следует, что наличие хорошего показателя PageRank есть возможность дать вам преимущество перед вашими конкурентами, но только в сочетании с другими факторами ранжирования. Предупреждаю вас. Коротких путей тут нет. Вам предстоит досконально изучить понятие PageRank, иначе вы будете тратить свое драгоценное время попросту впустую.</p>
]]></content:encoded>
			<wfw:commentRss>http://shrs.info/archives/2170/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>За какие провинности можно попасть в бан</title>
		<link>http://shrs.info/archives/2167</link>
		<comments>http://shrs.info/archives/2167#comments</comments>
		<pubDate>Mon, 05 Jul 2010 08:56:46 +0000</pubDate>
		<dc:creator>shr</dc:creator>
				<category><![CDATA[Поисковые системы]]></category>

		<guid isPermaLink="false">http://shrs.info/?p=2167</guid>
		<description><![CDATA[1. Если на вашем сайте есть страницы, которые содержат очень большое количество внешних ссылок для поднятия тИЦ.
2. Если на вашем сайте есть текст, который не несет в себе ни какой смысловой нагрузки. Т.е. сгенерированный автоматически и специально для поискового робота.
3. Специальный сайт, который оптимизирован под конкретное ключевое слово и цель этого сайта перенаправить посетителя на [...]]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft size-medium wp-image-264" title="За какие провинности можно попасть в бан" src="http://shrs.info/wp-content/uploads/2010/06/10.jpg" alt="За какие провинности можно попасть в бан" width="300" height="200" />1. Если на вашем сайте есть страницы, которые содержат очень большое количество внешних ссылок для поднятия тИЦ.</p>
<p>2. Если на вашем сайте есть текст, который не несет в себе ни какой смысловой нагрузки. Т.е. сгенерированный автоматически и специально для поискового робота.</p>
<p>3. Специальный сайт, который оптимизирован под конкретное ключевое слово и цель этого сайта перенаправить посетителя на другой сайт. Среди вебмастеров это носит название «дорвей».</p>
<p>4. За неправильное представление сайта. Если сайт во многих местах представляется как ресурс о рыбалке, а при попадании на него там написано что это сайт о каком-то ресторане.</p>
<p>В заключение этого краткого перечня хочу пожелать всем начинающим вебматерам удачи в создании полезных и качественных сайтов.</p>
]]></content:encoded>
			<wfw:commentRss>http://shrs.info/archives/2167/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Парсинг поисковиков, умница A.L.I.C.E</title>
		<link>http://shrs.info/archives/93</link>
		<comments>http://shrs.info/archives/93#comments</comments>
		<pubDate>Sat, 01 Nov 2008 23:29:26 +0000</pubDate>
		<dc:creator>shr</dc:creator>
				<category><![CDATA[AI]]></category>
		<category><![CDATA[Парсинг, граббинг]]></category>
		<category><![CDATA[Поисковые системы]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[парсер]]></category>
		<category><![CDATA[Яндекс]]></category>

		<guid isPermaLink="false">http://shrs.info/?p=93</guid>
		<description><![CDATA[Я хотел написать этот пост чуть позже, но кое-что меня приятно удивило и желание ждать пропало.
Пост я хотел посвятить небольшим советам по парсингу поисковиков. Последние недели две я периодически писал скрипт, отсеивающий сайты по разным критериям. Соответсвенно, нужно было очень часто обращаться к поисковым системам и не словить от них бана. Всем известно, что помочь [...]]]></description>
			<content:encoded><![CDATA[<p>Я хотел написать этот пост чуть позже, но кое-что меня приятно удивило и желание ждать пропало.</p>
<p>Пост я хотел посвятить небольшим советам по парсингу поисковиков. Последние недели две я периодически писал скрипт, отсеивающий сайты по разным критериям. Соответсвенно, нужно было очень часто обращаться к поисковым системам и не словить от них бана. Всем известно, что помочь с этим могут прокси, играющие роль посредника между клиентом и сервером и берущие бан на себя <img src='http://shrs.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  Общая скорость работы будет в основном определяться скоростью прокси.</p>
<p>Но есть несколько других методов, которые могут помочь существенно увеличить скорость парсинга в промышленном масштабе. Об этом пойдет речь. В качестве бонуса &#8211; разговор с чат-ботом.<span id="more-93"></span></p>
<p style="text-align: center;"><strong>Возможные методы обхода бана поисковиками при парсинге:</strong></p>
<ol>
<li><strong>Использование датацентров</strong>. Я делал такое для получения Google Pagerank, но думаю, что и с Яндексом можно попробовать. Идея состоит в том, чтобы по очереди соединяться с датацентрами по IP, а не использовать просто доменное имя. Скорость при этом, как минимум, на порядок выше, чем при обращении к серверу по имени. Разрешение имен на своем сервере, распределение нагрузки по серверам поисковой системы &#8211; все это кажется не особо существенным, но в больших масштабах играет роль. К тому же вероятность словить бан уменьшается. &#8220;Много помалу &#8211; много&#8221;. Вам нужно всего лишь найти IP-адреса.</li>
<li><strong>Использование партнеров поисковиков</strong>. Существует немало сервисов, которые просто напросто используют выдачу известных ПС, работая с ними через API. Поэтому получать выдачу нужного поисковика можно не только у него, но и у партнера.</li>
</ol>
<p>Теперь о том, что заставило меня написать пост раньше <img src='http://shrs.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  А это эмоции и приятное удивление от &#8220;общения&#8221; с зачатками искуственного интеллекта в виде программы-чата. Зовут ее <a href="http://alicebot.blogspot.com/">A.L.I.C.E</a>.</p>
<p>Очень давно, лет 7 назад, еще будучи школьником я также игрался с каким-то ботом, но тот был заметно глупее и часто отвечал невпопад. Элис приятно поражает. Вот цитата с баша, которая заинтересовала меня и я решил посмотреть на Элис:</p>
<blockquote><p>Human: All robots are stupid<br />
ALICE: I don&#8217;t think so.<br />
Human: you have another opinion?<br />
ALICE: What makes you think I have it?<br />
Human: you don&#8217;t believe that all robots are stupid<br />
ALICE: Do you believe that all robots are stupid? I can&#8217;t say I believe it, but I believe you.<br />
Human: are you robot?<br />
ALICE: How did you know I am a machine?. Really.<br />
Human: all robots are stupid and you are a robot, that means you are stupid<br />
ALICE: Hey, I&#8217;ll tell my other robot friends you called me stupid.<br />
Human: I still think robots are stupid.<br />
ALICE: I will remember you said that when robots take over the World.<br />
Human: O_o</p></blockquote>
<p>Оказывается, программисты и ученые, занимающиеся созданием ИИ, разработали AIML &#8211; диалект XML для создания таких вот интересных ботов. Когда будет время, обязательно познакомлюсь поближе с этой темой.</p>
<p>А пока просто приятно поиграться с Элис во время перерывов <img src='http://shrs.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  например, когда ждешь окончания работы парсера.</p>
]]></content:encoded>
			<wfw:commentRss>http://shrs.info/archives/93/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Поиск для Оперы 9.6 или почему я предпочел Google&#8217;у Яндекс</title>
		<link>http://shrs.info/archives/88</link>
		<comments>http://shrs.info/archives/88#comments</comments>
		<pubDate>Fri, 31 Oct 2008 22:59:49 +0000</pubDate>
		<dc:creator>shr</dc:creator>
				<category><![CDATA[Поисковые системы]]></category>
		<category><![CDATA[Размышления]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Opera]]></category>
		<category><![CDATA[Яндекс]]></category>

		<guid isPermaLink="false">http://shrs.info/?p=88</guid>
		<description><![CDATA[Обновив Оперу, я через какое-то время заметил, что поисковиком по умолчанию стал Google вместо привычного Яндекса. Наверное, это потому, что я скачал английскую версию, а потом файл русской локализации, а не установочный пакет. У иностранцев Гугл топ-1, это понятно.
Я вспомнил о Яндексе, когда мне понадобилось парсить его выдачу   Сегодя я немного подумал и [...]]]></description>
			<content:encoded><![CDATA[<p>Обновив Оперу, я через какое-то время заметил, что поисковиком по умолчанию стал Google вместо привычного Яндекса. Наверное, это потому, что я скачал английскую версию, а потом файл русской локализации, а не установочный пакет. У иностранцев Гугл топ-1, это понятно.</p>
<p>Я вспомнил о Яндексе, когда мне понадобилось парсить его выдачу <img src='http://shrs.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  Сегодя я немного подумал и решил, что монополизм &#8211; это плохо. Это раз. А два &#8211; это немного параноидальная, но уже привитая специальностью (я безопасник) мысль: такой мощный инструмент как поиск наверняка будет интересен тем, кто ведет информационную войну. На миг представьте, что вас начнут чуть подталкивать туда, куда им надо&#8230; через ваш поисковик.</p>
<p>Да, ресурсоемко. Но теоретически возможно. Да, информационная война давно идет. Но от еще одного мощного инструмента воздействия никогда не откажутся.</p>
<p>В общем, хорошо бы иметь всегда свой отечественный продукт для поиска.</p>
<p>Но от теории к практике &#8211; <a href="http://help.yandex.ru/search/?id=947493">Поиск в Яндексе из браузера</a>.</p>
<p>Хотя использую я и поиск Гугла почти в таком же объеме, и сервисы вроде почты, ридера для новостей&#8230; Остается надеяться, что момент начала зомбирования я не пропущу. Шутка.</p>
]]></content:encoded>
			<wfw:commentRss>http://shrs.info/archives/88/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
