LearningApps Логин: stu10b72 Пароль: sonne61

четверг, 4 октября 2018 г.

Поисковые системы

Результаты работы над совместным проектом "Что Google знает о нас":

Фамилия, имя
Оценка
Артём Терещенко,Вилен Куприенко
11
Андриенко, Познанский
10
Ростовцева, Савенкова
10
Кудряшова Катя
11
Ермакова Полина,
Кобзева Ксения

11
Горбатенко, Ковалёв, Мажара
8
Куц, Искендеров, Лисняк
10














Откройте презентацию совместного доступа "Что Google знает о нас"



Поисковые каталоги представляют из себя справочники, в которых все сайты находятся в алфавитном или тематическом порядке. Отличием каталогов от поисковых систем является то, что каталоги не используют пауков, которые ищут странички по всему интернету.

В то время как поисковые машины принимают почти любые сайты, без требований к качеству, каталоги же, как правило, предъявляют требования к качеству и содержанию сайта. Так как в наиболее крупных и известных каталогах сайты проверяются людьми, то низкокачественные сайты не попадают в базу данных.  В каталогах регистрируют обычно только главную страницу сайта (еще одно отличие от поисковиков).

История создания первого каталога

 В 1994 году, студенты Стэндфордского университета, Джерри Янг и Дэвид Фило, готовились к защите диссертации в области компьютерного проектирования интегральных схем. Для этого им приходилось много времени проводить в сети Интернет, в поисках нужной информации и копить ссылки. Списки со ссылками росли, потом Янг и Фило забросили диссертацию и принялись исключительно коллекционировать ссылки. К середине 1994 года их стало много, они отсортировали ссылки по категориям, потом в категориях ссылок стало тоже много, появились подкатегории.

И кто бы мог подумать, что у самого успешного проекта www.yahoo.com собственный поиск появился относительно недавно! Но список Джерри и Дэвида не был предназначен для всеобщего обозрения - он составлялся исключительно для друзей. Время шло, а посещаемость все росла и росла. Адрес сайта пошел по рукам....

Первым шагом к успеху стало новое, запоминающееся название - Yahoo!. Следуя пожеланиям пользователей, создатели www.Yahoo.com, стали преобразовывать сайт. Появились новые категории, и разделы "What's New" и "What's Cool". К концу 1994 Янг и Фило забросили свои диссертации и полностью отдались работе над поисковиком Яху.

В это время на дороге появилась компания Netscape, предложившая ресурсы для содержания поисковой системы Yahoo!. В результате у Yahoo! появился свой домен - yahoo.com, и каталог переехал на 10 станций Silicon Graphics Indy. Примерно в это же время Yahoo! получил и первого инвестора - инвестиционный фонд "Seqouia Capital". Джерри и Янг обзавелись офисами и наняли энергичную команду web-серферов. Темп роста составил, в среднем, 1000 страниц в день.

Подробнее об истории Yahoo  и Google  смотрите в документальном фильме "Загрузка: подлинная история интернета"





Популярные каталоги:

Яндекс-Каталог
Rambler Top100
Апорт-Каталог

Каталог Google

Поисковая система — это компьютерная система, предназначенная для поиска информации. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации в интернете. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: страницы,изображения , аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов или вследствие человеческого фактора. По состоянию на 2017 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %.

Как работает поисковая система?

По методам поиска и обслуживания разделяют четыре типа поисковых систем: 
  • системы, использующие поисковых роботов 
  • системы, управляемые человеком
  • гибридные системы 
  • мета-системы.

В архитектуру поисковой системы обычно входят:
  • поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,
  • индексатор, обеспечивающий быстрый поиск по накопленной информации, и
  • поисковик — графический интерфейс для работы пользователя.

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML страниц. Поисковый робот или «краулер» — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt, используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя. Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш, а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы.

Использование кэша помогает ускорить извлечение информации с уже посещённых страниц. Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая. Эта ситуация связана с потерей ссылок и дружественным по отношению к пользователю подходом Google. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст запроса.

Действует принцип наименьшего удивления, пользователь обычно ожидает увидеть искомые слова в текстах полученных страниц. Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска.

Самые популярные поисковые системы в Украине:



Полезность поисковой системы зависит от релевантности найденных ею страниц.
Релевантность в  поиске—соответствие поискового запроса и поискового образа документа. В более общем смысле одно из наиболее близких понятию  «релевантности»— «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата.

Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, по-разному.

С тем, как работает гугловский алгоритм PageRank, вам поможет инфографика (к сожалению, на английском, можно увеличить):


Еще одна инфографика поясняет, какие факторы влияют на релевантность страниц в Google:





С историей Google  вы можете познакомиться в фильме "Взгляд изнутри: Google":





Также рекомендую вашему вниманию лекцию Сергея Брина и Ларри Пейджа на конференции TED:


Комментариев нет:

Отправить комментарий