Google - семантический поисковик?

Я не очень люблю переводить в последнее время, предпочитаю писать что-то свое. Но эту статью из любимого ReadWriteWeb я просто не могла не перевести. К тому же, своих мыслей по Семантик Вебу у меня пока не так уж и много))) Поехали. Перевод, как водится, волный) Точнее, даже пересказ) Кстати, рекомендую прочитать пару моих постов перед этим, они могут оказаться полезны.

Что такое Семантическая Поисковая Система?

Говорят, что Семантика - это следующий бум в поисковых технологиях. Мы, блоггеры, конечно не можем не понаписать статей по этому поводу, и, заправив все это соусом экстаза от будущих технологий, преподнести читателям, расписывая, как семантик веб перевернет вообще их жизнь, а не только юзер экспририенс) И с такой пеной у рта мы это доказываем, что в суматохе, собственно, забываем маленькую детальку рассказать - а что такое семантика?.. Вот и давайте порассуждаем. (неправда ихняя, я рассказывала. На свой профессионально-лингвистический взгляд)))

Википедия предлагает нам некоторое определение - на русском и на английском. Но вот если мне совершенно ни фига не понятно в семантическом программировании, то Фил Мидуинтер (автор статьи) не особенно втыкает в общее, изначальное определение Семантики как науки, части семиотки, науки о знаках. Но это ладно, каждый спец в своей облсти, поэтому поговорим о реалиях, о которых мы говорим здесь - о семантике поисковых систем.

Эта семантика охватывает несколько очень тесно взаимосвязанных плоскостей. И главное, что в этом отношении мы должны выяснить - сможет ли компьютер найти связь между такими словами как “собака” и “кошка”. Это нам понятно, что и собака, и кошка - это домашние животные, именно так и можно их категоризировать. Это не составляет трудности понять нам, а машине? Машине очень и очень сложно.

Но допустим. Допустим, что поисковики уже функционируют как семантические системы. И что, как это поможет усовершенствовать им свой поиск?

Итак, подводит итог Фил, по его скромному мнению

Семантическая поисковая система это такая поисковая система, которая учитывает смысл слова, как фактор в ранжировании сайтов, либо предлагает юзеру прийти к более совершенному результату путем выбора предложенных ключевых слов, адекватных смыслу его ключевого слова.

Это не совсем совпадат с мнением пуристов “Семантического Веба”, которые предполагают, что все свое свободное время мы должны проводить, помечая все свои записи, документы, картинки и другие файлы тэгами, для того, чтобы компьютер мог их прочитать. Простите, уважаемые, но вот Фил лично не собирается корпеть над этим, потому как ему хочется и ночью поспать, и чтобы компьютер сам вычленял смысл контекста.

Ну а Гугл что?

До совсем недавнего времени семантические технологи Гугла (которыми они обладали достаточно таки уже давно) был ограничен адсенсом. То есть рекламные блоки соответствуют вашему контенту (утверждение более чем спорное. именно потому сняла эту рекламу со своего сайта)))). Это хороший пример семантических технологий, однако к их главному достижению и специализации - поиску - пока относится мало. Но, даже сегодня, если вы ищете по одному ключевому слову, то есть шансы, что вот такой вот небольшой блок вы увидите внизу страницы выдачи:

Более или менее об этом Фил и говорил выше. Вам предлагают некоторые альтернативы - слова и фразы - которые соответствуют вашему начальному поисковому запросу. Citezen - это и банк, и марка часов и даже принадлежность какой-то стране, что-то в этом роде)) Вот это первый достаточно яркий и понятный пример того, как Гугл использует семантические технологии в своем поиске, которые работают на основе анализа контекста.

Некоторые могут задать совершенно справедливый вопрос: а почему такая схема не работает для многословных запросов? Статистический анализ контекста слова очень сложный и медленный. А если два и более слов, то это еще больше сбавляет скорости, которую так благословят все разаботчики сервисов. Да, Гугл пока имеет некоторые проблемы с анализом нескольких слов, и как всегда, опасается радикально менять свой интерфейс и не только. Применение семантики ими дает надежду, что они не приняли точку зрения пуристов Семантик Веба, где все тэгрованно и разложенно по маленьким аккуратненьким полочкам.

Гугл прекрасно понимает, в чем минусы такого подхода: юзеры тупые и ленивые, а еще раз перебирать и переиначивать миллиарды страниц и документов в своем индексе - это уж слишком. Да и подход, ессно, не самый лучший, потому как все гениальное - просто.

При этом я не считаю, что такой подход исповедует Гугл в отношении своей семантики. Вообще от себя я бы хотела добавить, что, видно, у Гугля пока силенок не хватает на нормальную “семантическую технологию”. Почему? Да потому что два слова, которые в итоге дают какой-то смысл - это уже семантика! Это связи и отношения между словами! И, чтобы осилить многословные запросы, то машинам надо сначала осилить простейшую семантику на уровне взаимодействия слов. Хотя их подход к отдельным словам неплох, и может, этим даже можно гордиться, я не знаю.

Как Google может использовать семантические технологии?

Тем не менее, Фил просто уверен, что Гугл вцепится за семантику и сумеет таки внедрить ее в нормальном, не топроном виде, в свой поиск (гы, с таким финансированием и я б, пожалуй, что-нибудь придумала бы)))). И главное для поиска, конечно, не забывать ни о релевантности, ни о скорости. Сейчас даже мы поговорим не конкретно о Google, а о том, какие такие феноменальные выгоды и плюсы дает семантика поиску. Именно поиску.

“Самоопределяющиеся” страницы:

Сужение и уточнение поискового запроса:

Поиск мнений:

Заключение:

Google использует семантические технологии, но назвать его полноценным семантическим поисковиком пока трудно. Он не использует NLP (Natural Language Processing), но это не барьер для появления действительно новых веб-технологий. Хотя Филу и очень противно писать об этом, но NLP скорее будет web 4.0, а вот семантический веб - web 3.0. Потому как подходы эти действительно чуток разные.

Гуглу весьма проблематично стать полностью семантичным без весьма тотальных изменений, к которым он, как говорилось выше, относится довольно настороженно. И главное, вопрос в том, нужно ли Гуглу становиться полность семантическим поисковиком.

Вот такая вот статья. Я чуть-чуть разочаровалась. Статья хорошая, но, по-моему, семантический поиск не приравнивается к поиску социальному. То есть персональному (что суть одно и то же во многих случаях. Парадокс, да). И то, что тут описываются успехи Гугла, по-моему, лишь какая-то попытка сказать, что Гугл вам всем еще покажет. Хотя вроде бы и независимый этот разработчик (хотя шайтан его знает). Гугл никогда уже не сможет себя перепозиционировать, и они это понимают сами. И не будут они никогда полностью семантическим поисковиком. Другое дело, что им легче открыть другой поиск полностью семантический. Но их семантика еще на зачаточном уровне. Думаю, что они не полезут с этим раскручивать свой другой поисковик. Да и как они его преподнесут? Новый поиск, который учитывает все ваши пожелания? Так такие уже есть, полно.. В той или иной мере могие поисковики исповедуют такой подход. По крайней мере, пытаются. Или новый Семантический поиск? А эпиграфом будет стоять определение семантики в Википедии?

Короче, имхо, статья с некоторой стороны интересная. Просто.. да.. я не пылаю любовью к Гуглу, признаю. Хоть и поиском его пользуюсь и почтой. Я не испытываю неприязни к его сервисам, просто мне не нравится его политика, скажем так. И мне не нравится, чем закончилась эта статья. Всмысле о “феноменальных перспективах”. Они не феноменальны.
Вот понимаете… Короче, все гениальное просто, и я не устаю это повторять. Нельзя все усложнять. А пока у них путь такой, что они надстраивают, надстраивают и надстраивают. А может, нужно всего лишь пару деталек мелких изменить внутри велосипеда? Или, может, просто поменять их направление…

Даже тот же семантик веб, а не только Гугл. Все как-то очень сложно.. И должен быть другой выход. Но пока его не видят.. Может быть потому, что мостик к нему должен выстраиваться из таких вот настроечек, и только они будут верной дорогой.. Все, что ни делается, так оно и нужно. Просто я уверена, что все проще. Как - мне сказать трудно, ибо я всего лишь училка..

If you enjoyed this post, please consider to leave a comment or subscribe to the feed and get future articles delivered to your feed reader.


Комментарии

Я как раз пишу диплом по поисковикам.. Может в будующем разовъётся некий распределённый поиск, в аналогии с развитием информационныйх источников из газет в блоги. Каждый будет заниматься своими поисками, это будет сохранятся и на основе его предпочтений и ассоциаций (социальных закладок?) можно будет создавать общую ассоциативную картину понятий (через RDF?)..

интересно, кто всё это печатал?

Артем, я думаю, что придумать можно все что угодно, осуществить почти все. другое дело, что не факт, что это надо. чем более изощренные подходы, тем на меньшую аудиторию они рассчитаны. Поверьте, коммерческие сайты никогда не дадут умереть поисковикам)))) они будут его главной движущей силой)))
и вот лично я бы не согласилась на личный поисковик. я не знаю чего я хочу. я просто хочу умный поиск. который бы мыслил как человек, ну хотя бы в приближенном значении.

blogger, вы что имеете в виду?

вай, какая умная женщина)

И неграмотная…

Alex, ну вы такой настойчивый мужчина, я поражена. Примените свою настойчивость в другом месте, я это уже слышала от вас. если хотите, чтобы это знали все - напишите на Хабре лучше.

“гы, с таким финансированием и я б, пожалуй, что-нибудь придумала бы”

Не всё так просто - лбвиная доля этого финансирования идёт на то, чтобы закупать железо и создавать софт для лавинообразно плодящегося контента. Иными словами, Google больше развивается “вширь”, чем “вглубь” (повышение степени релевантности поиска)

Замечательная статья. Гуглу действительно далеко до семантического поиска. Его жалкие попытки использования Википедии и предобработки запросов пользователя для создания иллюзии QA поиска так далеки от NLP. Но коммерческий подход для Гугла важнее научного. Поэтому и так сойдет. А для того, чтобы понять как могло бы быть надо либо быть специалистом по NLP, либо почитать материалы конференций TREC, РОМИП и др.

>”Это не совсем совпадат с мнением пуристов “Семантического Веба”, которые предполагают, что все свое свободное время мы должны проводить, помечая все свои записи, документы, картинки и другие файлы тэгами, для того, чтобы компьютер мог их прочитать”.

Это не совсем так, достаточно создавать семантические сервисы. Ну или просто сервисы вроде одноклассников. Вы вводите данные, а сервис уже сам определяет семантические связи на основе готовых онтологий.

“…рекламные блоки соответствуют вашему контенту…”
Если посмотреть на тэги в этом блоге, то никакие семантические технологи Гугла не подберут ему релевантный адсенс.

“я просто хочу умный поиск. который бы мыслил как человек, ну хотя бы в приближенном значении.” UNREAL

Откомментировать

(Важно)

(Важно)