|
|
|
Новости:
Поиск глазами пользователейМы ищем с точностью до 8 нанобитов, Но у разработчиков свои представления о том, в каком направлении должны развиваться поисковые технологии, а у пользователей, как ни странно, несколько иные. Поэтому давайте посмотрим на поисковые технологии глазами пользователя. Бирюльки С точки зрения пользователя, последнее время развивается не инновационность поиска, а извращенность. Только небольшой процент пользователей систематически использует "продвинутые" поисковики, позволяющие разложить в визуальный ряд и по полочкам кластеры, пирожки и связи. Остальные относятся к таким поисковикам как к игрушкам. Да, красиво, интересно и позволяет провести неспешное исследование области поиска (что, как и с чем связано, и на что влияет), но если требуется что-то быстро найти - тут уж извините: нам не шашечки, а ехать. Тем более, что собственная индексная база у таких продвинутых поисковиков или отсутствует, или небольшая. Чего же хочет пользователь? А пользователю хочется странного - внести поисковую строку и получить небольшой, но достаточный список результатов (линков на сайты и страницы), на которых пользователь найдет именно то, что хотел. Откуда поисковик их возьмет и как догадается, что именно пользователь хотел найти - это пользователю фиолетово, а "проблемы негров шерифа не интересуют" (то есть, как этого добьются поисковики пользователя волнует мало). Распознавание образов Одна из проблем, с которой постоянно сталкивается пользователь - то, что поисковики ищут не по смыслу, а по тексту. Легко найти текст по цитате или уникальной ключевой фразе - если вы ее помните. А если нет? Если я не знаю, какими словами он (текст) писался? Еще хуже ситуация, когда вы не знаете, по каким словам искать нужные сайты; скажем, если вы ищете информацию по незнакомой вам предметной области. Например, начинающему юзеру хочется найти софтину, которая позволит вести электронный блокнот (записную книжку) с поддержкой древовидной структуры. О том, что этот тип программы называется оутлайнер (outliner), он может догадаться только случайно. У "социального поиска" (звонок другу в icq, помощь зала, форума или сообщества), который в такой ситуации справляется лучше, есть свои нюансы. Кроме того, "социальный поиск" не обладает холодной беспристрастностью, свободой выбора, и способен навязывать не лучшие решения. Поисковые системы пытаются помочь пользователю, потроша тезаурус и подбирая синонимы к словам и выражениям. Но чаще это приводит к увеличению мусора в результатах, чем к реальной помощи. Самостоятельно управлять степенью вовлеченности тезауруса в поиск пользователю не дают. А зря. При поиске в неизвестной предметной области обычно советуют найти (неизвестно какими путями) какой-то сайт по этой предметной области и по нему составить "поисковый словарик", используя который искать все остальные ресурсы и материалы. Поскольку такой метод неудобный и требует ручной работы, то пользователю хочется эту работу спихнуть на поисковик. Проще говоря, пользователю требуется нечеткий поиск ("не знаю точно, что хочу найти"). Реализуется он методом поисковой вилки: сначала идет режим "предварительного прицеливания", позволяющий шаг за шагом сузить область поиска и сформировать правильный поисковый словарик, после чего по этому словарику и осуществляется поиск. Хорошие результаты получаются, если предварительный поиск идет по семантике, а уже потом происходит переход на "линейный поиск". Актуализация Еще одним неудобством для пользователя является недостаточное внимание поисковика к актуализации. То есть поисковая система должна в первую очередь индексировать новый контент, а остальное - по графику (или как придется). Это и называется "тактика быстрого и медленного индексирования". Если новая статья опубликована - то она должна быть проиндексирована в тот же день. Многие поисковики к этому относятся халатно, а для персональных поисковиков это больной вопрос - у них слишком простые планировщики. Хотя определенные успехи в деле актуализации и оптимизации индексирования есть - Гугль, например, использует для оптимизации sitemap. Приручение поисковика Времена, когда поисковая система выдавала нейтральные результаты, ориентированные на безликую серую массу, проходят. Теперь пользователь хочет, чтобы поисковая система выдавала результаты с учетом его интересов, то есть - персонализацию. Каким образом поисковая система это обеспечит - пользователя не особенно волнует. Многие не будут возражать, если поисковая система будет не только отслеживать их поисковые запросы, клики на результатах, движение мыши в окне браузера... вплоть до составления "индивидуального поискового профиля" (анонимного, разумеется, без привязки к фамилии, месту работы и паспортным данным) - главное, чтобы результаты поиска были для конкретного человека (это, кстати, означает, что два разных человека на одном и том же поисковом запросе получат разные результаты). Пользователь даже готов обучать поисковик (и настраивать "личную релевантность") в интерактивном режиме. Но все это с условием, что при необходимости можно запретить использовать профиль, чтобы получить "нейтральные" (чистые, не персонализированные) результаты поиска. Smartass AI Не так давно Сергей Брин рассказал о ближайших планах по освоению "искусственного интеллекта". А поскольку основой Гугля является поиск, то несложно догадаться, куда этот интеллект будет прикручен. Теоретически эта штука должна отгадывать, что же хотел найти пользователь, введя какие-то слова в поисковую строку. Практически же - никто не даст гарантии, что эта штука отгадает правильно. Потому как "все, что можно понять неправильно - понимается неправильно", согласно закону Мерфи. И, как следствие, "хуже непреднамеренной ошибки может быть только сознательное введение в заблуждение". Но, с другой стороны, новый гугловский интеллект может стать неплохим и удобным интерфейсом между пользователем и поисковым движком в деле настройки, обучения и персонализации. Deep Web Некоторые сайты, как ни странно, не состоят из страниц, а строят их динамически по запросу пользователя. То есть, работают как типичная база данных (database): пользователь в формочке оформляет запрос, а система подбирает данные и выводит их на странице (я несколько утрирую). Проиндексировать такие сайты поисковый паук не может из-за отсутствия явной страничной организации. Поэтому, по некоторым оценкам, индексируется лишь около 20% от общей "информационной массы". Но скрытые 80% (которые и есть "глубокий веб") - это достаточный стимул, чтобы изобрести и отладить механизм, позволяющий пауку туда добраться. Чем, собственно, ведущие поисковые системы и занимаются. Только вот не факт, что пользователю станет от этого лучше. Мало того, что возрастет выдача в результатах запроса, так еще в лучших традициях web 2.0 начнется многократное дублирование информации "из первоисточников". А что семантика? Говоря о семантике, важно понимать, что удивительный мир Semantic Web, который нам нарисовал Тим Бернерс-Ли, отличается от поисковика, использующего семантику для поиска. Потому как семантика - это, в основном, не поисковые технологии, а агрегативные. Но использование семантики при поиске может неплохо помочь поиску. Вопрос, однако, в том, где эту семантику взять. С одной стороны, поисковики могли бы индексировать не только html, но и семантику, но ее (семантику) не дают производители контента. С другой стороны, производитель контента не готов предоставлять семантику, поскольку непонятно, как и в каком формате ее готовы брать. Ситуация осложняется еще и тем, что от наиболее динамичной и мобильной части создателей контента (и шума, соотвественно) семантики можно и не дождаться. К примеру, 90% блоггеров, пишущие (в среднем) по паре абзацев текста, вряд ли будут уделять внимание хорошему и корректному заполнению семантических данных, затраты на которых могут превысить затраты на саму запись. А с учетом того, что актуальность записи в блоге в среднем составляет 3-7 дней, такое занятие представляется сомнительным. Десять тегов воткнуть значительно проще. Кстати, ни в одном блоговском движке не предусмотрено системное внесение метаинформации к записи. Что же касается традиционных сайтов, то они более инертны, и, скорее всего, будут ждать уже работающей технологии - просто так, без конфетки, никто не будет перелопачивать большой объем контента. Что в такой ситуации делать поисковой системе? Пытаться самостоятельно "вытянуть" семантику из индексируемого текста. Для этого есть два метода: - восстановление семантики с использованием структурно-лингвистических алгоритмов; - подбор семантики по шаблону, то есть по совпадению ряда значимых слов; если ряд укладывается в шаблон - создается семантический элемент. Семантику проще не восстанавливать, а подбирать по шаблону - это более простая и менее затратная технология. Но восстановление семантики дает более надежные и лучшие результаты. Но на переходной период (до появления полномасштабного Semantic Web) такой подход (теоретически) может значительно улучшить поиск. А это хорошо для пользователя, поскольку дает возможность "логического" (смыслового) поиска. Кода Из всего вышесказанного следует одна простая мысль - надо не только совершенствовать поисковые алгоритмы, но и уделять больше внимания индивидуальному подходу к пользователю. Потому как пользователь оценивает эффективность и качество поиска не по техническим характеристикам черного ящика a.k.a. поисковая система, а по тому, насколько быстро и удобно он получит нужные ему результаты и не получит ненужные. Строить технологии нужно исходя из потребностей пользователя, а не отталкиваясь от того, что может предложить пользователю поисковая система. И еще нужно понимать, что для дальнейшего серьезного развития поиска поисковые технологии и алгоритмы должны измениться качественно и перейти на новый уровень, а не варьироваться в виде концептуальных (и не очень) надстроек к существующей (классической) поисковой технологии. Вадим Артамонов, 12.03.2007, «Вебпланета» |