(495) 789-84-05

Создание сайтов

Создание сайтов.

Разработка многофункциональных сайтов на системе управления 1С-Битрикс. Делаем сайты под любые задачи.
от
80 000

Продвижение сайтов

Продвижение сайтов.

Один из самых эффективных способов рекламы в интернете. Мы предлагаем продвижение по лидам (заявкам) с гарантией результата.
от
50 000

Контекстная реклама

Контекстная реклама.

Самый быстрый рекламный инструмент, позволяющий получать заявки сразу после старта работ. Гарантируем лиды!
от
100 000

Техническая поддержка

Техническая поддержка.

Услуга, позволяющая поддерживать сайт в актуальном для пользователя состоянии (качественный и понятный контент, рабочее состоянии сайта и его сервисов), а так же развивать сайт в соответствии с последними трендами.
от
8 500

РИФ+КИБ 2010. Поиск. Прошлое, настоящее и будущее.


23 апреля в рамках конференции РИФ+КИБ 2010, во второй части секции «Поиск: настоящее и перспективы», дружный коллектив авторов во главе с Александром Садовским порадовал участников конференции серией нано-рассказов о технологиях поиска Яндекса.

Роман Поборчий. Оценка поиска

Будучи одним из очевидцев данного события. Хочется поделиться с общественностью интереснейшей информацией, что нас ожидает в области поисковой раскрутки сайта, полученной, что называется, «из первых рук».

Одним из первых выступивших стал Роман Поборчий. Его краткий доклад стал интереснейшим осмыслением того, как осуществляется «оценка поиска» (выражение автора).

В начале выступления, господин Поборчий напомнил нам всем о том, что Интернет отнюдь не содержит информацию исключительно о пластиковых окнах, бытовой технике и хомячках… В его необъятных глубинах содержится море иной информации, и, соответственно, пользователи осуществляют огромное число совершенно различных запросов. Далее господин Поборчий в качестве наводящего на мысль примера вспомнил о том, что шимпанзе – групповые животные, но каждый из них в отдельности – индивидуальность. Поэтому – один шимпанзе – еще не все шимпанзе, а один – запрос – еще не все запросы, и по наиболее популярным из них – нельзя судить об остальных запросах, в целом. Ситуация такова, что работа поисковых систем настраивается по примеру тысяч наиболее популярных запросов, но при этом неизбежно остаются такие запросы, на которые поисковые машины отвечают плохо.

По словам, докладчика – наилучший результат поиска – это такой результат, при котором пользователь находит именно, то что искал и при этом его не атакует со всех сторон реклама сомнительного содержания, его не ругают и он совершенно не чувствует себя идиотом, не знающим, что именно и зачем он ищет.

Далее был сделан акцент на том факте, что поиск сам по себе многогранен, и существует множество причин того, почему пользователь может не найти, то что он искал, либо найти не сразу. Последовали также некоторые интересные примеры, иллюстрирующие данную ситуацию.

Так, если сегодня пользователь вводит в строку поиска слово «корован» - поисковая машина исправит «опечатку» и выведет в строку слово «караван» - т.к. значительно больше пользователей обращается к поиску именно данного слова («Караван Историй» и т.п.). Все было бы отлично, если бы слова «корован» не существовало, и пользователь допустил ошибку, но ведь такое слово есть, пусть и ищут его в разы реже… В итоге, разумеется, пользователь остался недоволен множеством «караванов» совершенно из другой оперы... Тем не менее, при повторном вводе слова «корован» - он найдет именно то, что нужно. Вопрос – так справедливо ли ориентироваться на то, что поисковая машина знает лучше, что нужно пользователю? Вопрос неоднозначный, тем не менее, сегодня мы в любом случае имеем ситуацию, при которой так или иначе и грамотный пользователь, знающий, что именно он ищет, и пользователь не совсем понимающий как пишется слово, которое он ищет – найдут в результате то, что требуется (пусть и преодолев при этом некоторые сложности)… Такая вот неоднозначная ситуация.

Далее был затронут вопрос о необходимости повышения разнообразия в результатах выдачи. Так, если мы введем в строку поиска «Наполеон» - в результатах мы увидим практически информацию лишь о Наполеоне Бонапарте. Никакие иные «Наполеоны» (ни коньяк, ни торт) на верхние позиции не попадут. Разве это справедливо? Особенно учитывая тот факт, что и коньяк и торт ищут не реже, чем самого Бонапарта. Таким образом, очевидно, что результаты выдачи должны быть максимально разнообразны, чтобы не утруждать пользователя длительным поиском.

Другой вопрос – необходимость отслеживать актуальность сниппетов. Пример – если кто-то в детстве играл в шахматы, то он наверняка читал книги В.В. Смыслова. Так некоторое время назад у Яндекс по запросу «Смыслов» выходил сниппет, в котором не указывалось информация о том, что Смыслов умер 27 марта нынешнего года (в то время как в «Википедии» данная информация появилась). Таким образом – актуальность сниппетов отдельный вопрос, требующий пристального внимания.

Денис Расковалов. Качество поиска.

Денис Расковалов фото РИФ 2010В начале своего доклада Денис Расковалов заметил, что намерен поведать о том, что было наиболее важным за предшествующие год-два, и о том, что нужно будет сделать уже в самом ближайшем в будущем.

Напомнив о том, что ранее уже прозвучал один доклад, раскрывающий тему «серебряной пули» в поиске, господин Расковалов вновь пояснил этот расхожий термин: «серебряная пуля - это такая ситуация, когда нас осеняет мысль и мы изобретаем что-то, извлекаем неизвестно откуда какие-то новые данные – и тут «эврика!» мы получили супер-поиск». По словам господина Расковалова, серебряной пули конечно в природе нет, но есть, тем не менее, некая мета-серебряная пуля. Далее прозвучали два примера, подчеркивающие, что повысить качество и уровень ранжирования можно за счет учета в нем всей той информации, которую только возможно получить. Суть первого в том, что совсем недавно, около десяти лет назад, существующие тогда поисковые системы использовали в своей работе только собственно текст документа. И первый, кто использовал для этого не только текст документа, но и привлек к выдаче дополнительную информацию - качественно улучшил результаты своего поиска.

Вторым примером господин Расковалов акцентировал внимание слушателей на том, что даже знание того, что МГУ – это Московский Государственный Университет, тоже нужно суметь применить не очевидным образом. В любом случае, поиск, который помнит о том, что МГУ и Московский Госуниверситет – это тоже самое, а не разные вещи, безусловно, лучше того, который этого не знает. Господин Расковалов отметил, что мог бы часами повествовать о том, какую информацию еще можно применить при ранжировании, и сделать его совершеннее. Но, сославшись на лимит времени, делать этого не стал. Задавшись вопросом, какой подход пробовался и реализовался с целью решения «проблемы мета-серебряной пули», т.е. объединения всех возможных информационных источников, докладчик сам же на него ответил, пояснив, что для этого используется машинное обучение. Формируются некие правила – какую страницу считать релевантной, какую нет, что хорошо, что плохо. Затем всю информацию, которую только можно использовать, передаем машине, и уже она, опираясь на эту информацией, пытается выяснить – релевантна та или иная страница, хорошая она или не очень.

Прелесть подобной конструкции господин Расковалов находит в том, что уже не нужно искать для любого нового типа информации метод ее использования, нет необходимости в каждом новом случае придумывать очередные правила – например, если запрос коммерческий, то необходимо сортировать сайты по прайсу товарного предложения, если текстовый – каким-то иным способом. Теперь подобного рода правила выдумывает за нас машина.

Что же вообще необходимо для того, чтобы получить «мета-серебряную пулю»? В этом месте своего доклада господин Расковалов еще раз отметил, что абсолютно незаменимо машинное обучение. Хорошее, качественное обучение, обычно угадывающее оценку и которое имеет минимум требований к параметрам ранжирования. И что особенно значимо - к оценкам тоже. Потому что оценка всегда будет «грязной». Процессоры имеют свойство ошибаться, и предугадать подобные ошибки не представляется возможным, а параметры ранжирования так же всегда будут «грязными». Как всегда будет спам в пейджранге, искусственные ссылки, весь тот мусор, с которым просто нужно научиться жить.

Затем были рассмотрены прочие аспекты проблемы. Так было отмечено, что нужен действительно быстрый способ оценки того, насколько пригодна та или другая информация. Возникла, допустим гипотеза, ее нужно за час-два оценить и сразу принять или отбросить. Подобных гипотез можно породить тысячи, реализовать сотни, и с помощью этих сотен существенно повысить качество поиска.

«Апогей того, над чем мы трудимся и того, что мы реализовали — это МатриксНет», - подчеркнул в выступлении Денис. Продолжая рассказ о системе, он отметил, что она позволяет быстро и эффективно трудиться и выстраивать хорошее ранжирование. Не настаивая на том, что МатриксНет самая лучшая система для машинного обучения, было тем не менее отмечено, но по результатам независимых соревнований, она уверенно занимает первые пять строк.

Рассказывая о его свойствах, господин Расковалов отметил устойчивость к «грязи», как в данных, так и в оценках, и минимальные требования к количеству действий. То есть большой объем работы по обработке данных МатриксНет берет в свои руки. Уже не нужно искать способ, каким образом число ссылок трансформировать в релевантность, он сам догадывается об этом. «Еще он быстр, очень», - резюмировал обзор характеристик докладчик. – «В общем, хорошая штука».

Был поднят вопрос о том, как вообще осуществляется оценка того, какой поиск лучше, какой хуже. Господин Расковалов объяснил, что результат, выдаваемый поисковиком по какому-либо запросу, можно охарактеризовать числом: 1 – это, например, когда потребитель полностью удовлетворен результатами поиска, 0 – когда ни один пункт не отвечает запросу потребителя. Невозможно совершить глобальное улучшение качества поиска сразу по всем параметрам. Обязательно какая-то часть улучшится, а какая-то наоборот. И нужно только отслеживать, чтобы та часть, в которой произошли улучшения, была больше.

Берется достаточно большое число запросов, допустим, несколько тысяч. Тщательно проверяется, чему равна разница в уровне поиска по каждому из запросов, проходит их сортировка. Правая часть запросов, окрашенная красным цветом – ухудшилась после изменения правил поиска, а зеленая – улучшилась. И было замечено, что две трети всех запросов улучшилось, и только лишь одна треть ухудшилась, а это хороший результат.

Далее доклад коснулся причин начала использования МатриксНет. После измерения качества работы МатриксНет на бакетах было доказано, что его ранжирование лучше прочих, и сразу было принято решение начать его внедрение. Сначала в России, затем в Казахстане, потом в Белоруссии. Улучшение уровня поиска подтверждает и резкое увеличение трафика генерации Яндекса в Белоруссии. Процесс в Белоруссии стартовал где-то в середине декабря, и как раз после этого старта доля трафика генерации Яндекса стала увеличиваться, то есть формулы МатриксНет показали значительно более лучшую работу по качеству поиска, чем аналогичный продукт конкурента.

Согласившись с тем, что на самом деле никто в мире не сможет сказать, что на трафик генерации Яндекса в Белоруссии повлиял ввод матрикснетовских формул, докладчик, тем не менее, заметил, что можно сформулировать любую задачу для менеджера, найти сколько угодно правдоподобных данных, объясняющих, отчего трафик генерации может вести себя именно так, но факт остается фактом – улучшение качества поиска и привело к положительной динамики трафика генерации Яндекса в Белоруссии.

Говоря о перспективах, господин Расковалов сказал, что, прежде всего, нужно вносить в поиск что-то новое. В качестве примера, он вспомнил об информационной ситуации, сложившейся вокруг ужасной авиакатастрофы, в которой погиб польский президент. Понятно, что лучше тот поисковик, который сможет предоставить всю информацию об этом событии за минуты. На самом деле это не столько вопрос качества поиска, но этим нужно также заниматься.

Переходя к выводам, господин Расковалов отметил, в поиске есть много важных нюансов, которые не укладываются в традиционную построенную модель. И в работе с ними нужно упорно добиваться значительного прогресса. Одним из возможных путей повышения уровня поиска в целом может оказаться умение выделять и четко понимать, что и в каком объеме нужно потребителям: хотят ли они скачать какой-либо файл, найти новости или товар; - и постараться добиться того, чтобы поисковик точно предоставлял всю требуемую информацию по каждому конкретному классу запросов. Ведь совершенно ясно, что результатом запроса видео на SERPe должна являться возможность просмотра нужного видеоролика, а при варианте товарного запроса, должна быть предоставлена возможность совершить покупку требуемого товара одним кликом мышки. Поэтому очевидно, что поиск должен значительно отличаться для различных запросов. Денис заверил, что работы в этом направление ведутся и будут вестись и впредь.




Все новости