Книга Искусство обмана, страница 16 – Кристофер Хэднеги

Авторы: А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ч Ш Ы Э Ю Я
Книги: А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ы Э Ю Я
Бесплатная онлайн библиотека LoveRead.me

Онлайн книга «Искусство обмана»

📃 Cтраница 16

И что же, на этом все? Конечно, нет. На ринг выходит настоящий чемпион по сбору данных из открытых источников в тяжелом весе.

Зайдите в Google

Google. Как много в этом звуке! Одного этого слова достаточно, чтобы заставить социального инженера радостно хихикать. Ладно-ладно, извините, что растревожил вас столь недобрым образом. Забудем о хихикающем социальном инженере и вообразим на его лице ухмылку уверенного в своих знаниях человека.

Почему? Google — это всеведущий оракул. Он знает обо всем, что вы когда-либо делали, хранит эту информацию и даже прячет ее в кэше на случай, если вы вдруг попытаетесь ее удалить (бережливый, знаете ли).


ФАКТЫ О GOOGLE

Google — мощная компания. Ей принадлежит порядка 88 % рынка контекстной рекламы. По данным самого Google, в его поисковой системе индексированы более 100 000 000 гигабайт сайтов (https://www.google.com/search/howsearchworks/crawling-indexing/).

Только представьте себе эти бесконечные триллионы индексированных страниц! Как одному маленькому социальному инженеру найти среди этого изобилия крупицы необходимой информации? Прежде чем я отвечу на этот вопрос, позвольте объяснить принцип работы Google (и всех остальных поисковых систем).

Раскроем тайны поисковиков!

Честно говоря, ни о каких тайнах в этой главе я рассказывать не буду. Заголовок ввел вас в заблуждение, чтобы вы бросились читать этот раздел. Вы уже наверняка имеете представление о том, как работают поисковики. Но если нет, то сейчас я вкратце это объясню.

Поисковики используют коды, которые называют поисковыми роботами, или «веб-пауками». Такие пауки «проползают» (и здесь я ничего не выдумываю!) по каждой размещенной в Сети странице и кэшируют (то есть сохраняют) все, к чему получают доступ. Некоторые файлы (например, robots.txt) стараются не позволить такому пауку проиндексировать определенные разделы сайта. Но обычно под индексацию и кэширование попадает большая часть информации.

Затем весь кэш сохраняется в базе данных, и когда вы вводите текст запроса в окошко на странице поисковика, то получаете результаты в духе тех, что изображены на скриншоте 2.13.

Хочу подчеркнуть, на какие детали на этом изображении необходимо обратить внимание. Во-первых, за 0,59 сек поисковик выдал 105 000 результатов. Как же ему удалось просмотреть 20 трлн страниц меньше чем за секунду? Вы же помните: информация о каждой из них была в свое время занесена в специальную базу данных, которая и позволяет достигать такой умопомрачительной скорости поиска.

Иллюстрация к книге — Искусство обмана [i_015.jpg]

Пролистать 105 000 ссылок вы вряд ли сможете физически. Поэтому позвольте рассказать вам об операторах.

За дело принимаются операторы

Google создал набор специальных слов (их и называют операторами). Операторы включают в поисковый запрос вместе с искомыми словами, чтобы ограничить диапазон поиска. Разница между поиском с операторами и без них похожа на разницу между лупой и микроскопом. Оба приспособления позволяют рассмотреть объект подробно, но, если вас интересуют мельчайшие детали, без микроскопа не обойтись. Операторы можно назвать микроскопом мира веб-поиска.

Вот пара сайтов, на которых перечислены полезные операторы для Google (и даже некоторые для Yahoo! и Bing):

• https://support.google.com/websearch/answer/2466433?hl=en&ref_topic=3081620

• http://www.googleguide.com/advanced_operators_reference.html


А вот список операторов, которых считаю особенно полезными лично я:

• intext: этот оператор ищет ваш запрос в текстах веб-страниц и документах. Например, если ввести в поисковую строку intext: Альпина, Google найдет для вас все тексты, в которых используется это слово. По запросу разведка intest: Альпина найдутся тексты по разведке, в которых есть слово «Альпина».

• site: позволяет ограничить диапазон поиска конкретным сайтом. Например, по запросу разведка site: alpinabook.ru вы найдете все о разведке на сайте издательства.

• inurl: с одной стороны, он похож на предыдущий, однако ограничивает поиск указанным URL. Следовательно, если набрать inurl: alpinabook.ru, в поиск будут включены все сайты, в ссылках которых встречается inurl: alpinabook.ru. Например, если бы существовал сайт с адресом http://all-book-publishers.ru/alpinabook.ru/, этот оператор нашел бы его, а site — нет.

• filetype: как и следует из его названия, этот оператор ограничивает поиск по необходимому вам типу файлов. Можно искать файлы pdf, doc, xls, ppt и многие другие. Например, по запросу разведка filetype: pdf найдутся PDF-файлы, имеющие отношение к разведке (а по запросу разведка filetype: pdf site: alpinabook.ru — все PDF-файлы о разведке на сайте издательства).

• cache: этот оператор ищет попавшие в кэш домены, файлы или другие артефакты, указанные вами. Закэшированные, а не актуальные, то есть если кто-то недавно изменил информацию на странице или убрал ее, высока вероятность найти по этому запросу то, что владелец страницы решил скрыть. Например, cache: alpinabook.ru покажет, как выглядела главная страница сайта издательства несколько дней назад.

• info: выдаст вам информацию по указанному домену и связанные с ним страницы. Например, по info: alpinabooks.ru можно найти информацию о сайте издательства, о самом издательстве, времени его работы и т. д.


Как и большинство вещей, связанных с программным обеспечением, поиск в Google работает по определенным правилам:

• Поисковый запрос должен следовать за оператором через двоеточие (:), без пробелов. Например, если ввести запрос site: alpinabook.ru, поиск будет ограничен ресурсом alpinabook.ru. Но если ввести site: alpinabook.ru, поиск ограничится пробелом после знака двоеточия. Запрос, как вы понимаете, нужных ответов не даст.

• Если перед оператором поставить дефис (-), указанные результаты будут исключены из поиска. Например, если вас интересуют отсылки к cайту издательства «Альпина», не относящиеся к самому сайту издательства, вы можете ограничить пространство поиска следующим образом: inurl: alpinabook.ru — site: alpinabook.ru. Аналогично с помощью дефисов можно исключить из поиска заведомо нерелевантные результаты: разведка — нефти — геологическая исключит из поиска документы, касающиеся геологоразведки.

• Если ваш поисковый запрос состоит более чем из одного слова и они нужны вам именно в таком сочетании, используйте кавычки. Например, чтобы найти упоминание книги в текстах, можно поставить в кавычки ее название: intext: «Думай как шпион».

Реклама
Вход
Поиск по сайту
Ищем:
Календарь