по принципу организации и использования средства поиска можно выделить следующие инструменты

5rik.ru

Материалы для учебы и работы

Методы поиска информации

Средства поиска информации

По принципу организации и использования средства поиска можно выделить следующие инструменты:

· поисковые машины – являются ключевым инструментом поиска информации, поскольку содержат индексы большинства web-серверов Интернета. Однако именно это достоинство оборачивается их главным недостатком. На любой запрос они выдают обычно чрезмерно большое количество информации, среди которой только незначительная часть является полезной, после чего требуется значительный объем времени для ее извлечения и обработки;

· мета-средства поиска – позволяют ускорить выполнение запроса путем передачи аргументов поиска, то есть ключевых слов, одновременно нескольким поисковым системам. При значительном ускорении процесса и увеличении охвата поиска, этот способ имеет ряд недостатков, связанных с необходимостью координации во времени поступления результатов обработки запроса от нескольких систем, а также тем, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств;

· специализированные средства поиска – представляют собой «программы-пауки», которые в автоматическом режиме просматривают web-страницы, отыскивая на них нужную информацию. Механизм их работы близок к механизму, который используют поисковые системы для построения своих индексных таблиц. Выбор между первыми и вторыми представляет собой классический выбор между применением универсальных или специализированных средств;

· каталоги – как и поисковые машины, используются посетителями Интернета для нахождения необходимой информации. Каталог представляет собой иерархически организованную структуру, в которую данные заносится по инициативе пользователей. Как следствие, объем информации в них несколько ограничен по сравнению с поисковыми системами, но в то же время более упорядочен благодаря лежащей в их основе иерархической тематической структуре.

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен при помощи двух основных методов, которые, в зависимости от его целей и задач, могут быть использованы по отдельности или в комбинации друг с другом:

· использование поисковых систем – сегодня этот метод является одним из основных при проведении предварительного поиска. Его применение основано на ключевых словах, которые передаются системе в качестве аргумента поиска. Результатом является список ресурсов Интернета, подлежащих детальному рассмотрению. Получение наиболее релевантного результата требует проведения предварительной работы по составлению тезауруса;

· поиск по гипертекстовым ссылкам – поскольку все сайты Интернета связаны между собой гиперссылками, поиск информации может быть произведен путем последовательного просмотра с помощью браузера связанных ссылками web-страниц. К этому виду поиска также относится использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников. Такой метод наиболее трудоемок, однако «ручной» просмотр web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, требующего глубокого анализа. Он может быть также более эффективен при проведении повторных циклов или просмотре вновь образованных ресурсов.

Источник

Средства поиска информации

по принципу организации и использования средства поиска можно выделить следующие инструменты по принципу организации и использования средства поиска можно выделить следующие инструменты по принципу организации и использования средства поиска можно выделить следующие инструменты по принципу организации и использования средства поиска можно выделить следующие инструменты

по принципу организации и использования средства поиска можно выделить следующие инструменты

по принципу организации и использования средства поиска можно выделить следующие инструменты

По принципу организации и использования средства поиска можно выделить следующие инструменты:

— поисковые машины – являются ключевым инструментом поиска информации, поскольку содержат индексы большинства web-серверов Интернета. Однако именно это достоинство оборачивается их главным недостатком. На любой запрос они выдают обычно чрезмерно большое количество информации, среди которой только незначительная часть является полезной, после чего требуется значительный объем времени для ее извлечения и обработки;

— мета-средства поиска – позволяют ускорить выполнение запроса путем передачи аргументов поиска, то есть ключевых слов, одновременно нескольким поисковым системам. При значительном ускорении процесса и увеличении охвата поиска, этот способ имеет ряд недостатков, связанных с необходимостью координации во времени поступления результатов обработки запроса от нескольких систем, а также тем, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств;

— специализированные средства поиска – представляют собой «программы-пауки», которые в автоматическом режиме просматривают web-страницы, отыскивая на них нужную информацию. Механизм их работы близок к механизму, который используют поисковые системы для построения своих индексных таблиц. Выбор между первыми и вторыми представляет собой классический выбор между применением универсальных или специализированных средств;

— каталоги – как и поисковые машины, используются посетителями Интернета для нахождения необходимой информации. Каталог представляет собой иерархически организованную структуру, в которую данные заносится по инициативе пользователей. Как следствие, объем информации в них несколько ограничен по сравнению с поисковыми системами, но в то же время более упорядочен благодаря лежащей в их основе иерархической тематической структуре.

Источник

По принципу организации и использования средства поиска можно выделить следующие инструменты

Полезные ресурсы и публикации:

Как говорилось ранее, одним из основных аспектов проведения вторичных маркетинговых исследований при помощи Интернета является поиск источников информации. Сотни миллионов сайтов, находящихся сегодня в Сети делают поставленную задачу достаточно сложной. Для того чтобы облегчить этот процесс и сделать его более эффективным, в данном разделе описывается подход к решению задачи поиска информации в Интернете.

Для получения качественного результата при проведении поиска необходимо соблюдать ряд условий. Основными из них являются контроль полноты охвата ресурсов и достоверности найденной информации.

Наряду с полнотой охвата ресурсов, качество проводимого поиска определяется достоверностью найденной информации. Контроль ее достоверности может производиться разными способами, в которые входит нахождение и сверка с альтернативными источниками информации, установление частоты его использования другими источниками, выяснение статуса документа и сайта, на котором он находится, получение сведений о компетентности и положении автора материала и ряд других.

Проблема определения достоверности информации, размещаемой в Интернете, выходит за пределы рассмотрения в рамках данной книги, поэтому основное внимание будет уделено вопросу ее поиска.

По способу организации и хранения информации ее источники в Интернете можно разделить на следующие основные категории:

· w eb-сайты являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Сайт может содержать информацию, представленную в самой произвольной форме: графической, звуковой, видеоизображения и т. д.;

· телеконференции могут являться источником необходимой информации, как правило, носящей неофициальный характер. Телеконференции представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации. Они позволяют добиться обратной связи со множеством лиц и произвести детальное обсуждение какой-либо проблемы территориально разобщенными людьми;

Все названные ранее источники можно классифицировать по ряду признаков:

· по языковому признаку — в силу историко-географических причин наиболее распространенным языком в Интернете является английский, однако в Сети представлены практически все основные языки мира и, как отмечают исследовательские компании, их доля постоянно растет. Часто встречается ситуация, когда сайт поддерживают одновременно несколько языков — на выбор пользователя;

· по географическому признаку — у информационных ресурсов обычно есть своя целевая аудитория, и ее местонахождение часто может быть сопоставлено с каким-то географическим регионом. Следует заметить, что территориальное разделение не относится к возможности доступа к ресурсам, который может быть осуществлен из любой точки земного шара;

· по виду и характеру представляемой информации (новости, рекламная информация, тематическая информация, справочная информация) — это наиболее важное, с практической точки зрения, разделение по виду и характеру представляемой информации, поскольку именно информационное наполнение в конечном итоге оказывается решающим при отборе источников. В то же время как раз этот аспект может являться наиболее трудно формализуемым по причине неоднородности представляемой информации. Например, один и тот же w eb-сайт может содержать информацию самых разных видов. Поэтому приведенное разделение на подгруппы в достаточной степени условно.

По принципу организации и использования средства поиска можно выделить следующие инструменты:

· поисковые машины — являются ключевым инструментом поиска информации, поскольку содержат индексы большинства w eb-серверов Интернета. Однако именно это достоинство оборачивается их главным недостатком. На любой запрос они выдают обычно чрезмерно большое количество информации, среди которой только незначительная часть является полезной, после чего требуется значительный объем времени для ее извлечения и обработки;

· мета-средства поиска — позволяют ускорить выполнение запроса путем передачи аргументов поиска, то есть ключевых слов, одновременно нескольким поисковым системам. При значительном ускорении процесса и увеличении охвата поиска, этот способ имеет ряд недостатков, связанных с необходимостью координации во времени поступления результатов обработки запроса от нескольких систем, а также тем, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств;

· специализированные средства поиска — представляют собой «программы-пауки», которые в автоматическом режиме просматривают w eb-страницы, отыскивая на них нужную информацию. Механизм их работы близок к механизму, который используют поисковые системы для построения своих индексных таблиц. Выбор между первыми и вторыми представляет собой классический выбор между применением универсальных или специализированных средств;

· каталоги — как и поисковые машины, используются посетителями Интернета для нахождения необходимой информации. Каталог представляет собой иерархически организованную структуру, в которую данные заносится по инициативе пользователей. Как следствие, объем информации в них несколько ограничен по сравнению с поисковыми системами, но в то же время более упорядочен благодаря лежащей в их основе иерархической тематической структуре.

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен при помощи двух основных методов, которые, в зависимости от его целей и задач, могут быть использованы по отдельности или в комбинации друг с другом:

· использование поисковых систем — сегодня этот метод является одним из основных при проведении предварительного поиска. Его применение основано на ключевых словах, которые передаются системе в качестве аргумента поиска. Результатом является список ресурсов Интернета, подлежащих детальному рассмотрению. Получение наиболее релевантного результата требует проведения предварительной работы по составлению тезауруса;

Наиболее широко используемым, но в то же время наиболее сложным является метод поиска с использованием поисковых систем. Его широкая распространенность обусловлена тем, что поисковые системы содержат в себе индексы громадного количества сайтов и при правильно сформированном запросе можно сразу же получить ссылки на интересующие ресурсы. Сложность метода состоит в том, что для того, чтобы результат был качественным, необходимо уметь выбрать наиболее подходящие поисковые системы, правильно формулировать запросы к ним, учитывать их особенности и функциональные возможности.

Двоякая характеристика данного метода связана с тем, что проведение эффективного поиска требует одновременного решения двух противоположных задач: увеличении охвата с целью извлечения максимального количества значимой информации и уменьшении охвата с целью минимизации шумовой информации. Нетрудно увидеть, что одновременно осуществить и то и другое довольно сложно, хотя найти оптимальное соотношение все-таки возможно.

Для эффективного использования поисковых серверов, прежде всего необходим список ключевых слов, организованный с учетом семантических отношений между ними, то есть тезаурус.

Одним из подходов [1] к составлению тезауруса может стать использование законов Ципфа. Рассмотрим их более подробно.

Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте равно отношению частоты вхождения слова к числу слов в тексте. Ципф определил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

по принципу организации и использования средства поиска можно выделить следующие инструменты

где f — частота вхождения слов, r — ранг частоты, n — число слов

Это значит, что график зависимости ранга от частоты представляет из себя равностороннюю гиперболу.

Ципф также установил, что зависимость количества слов с данной частотой от частоты постоянна для всех текстов в пределах одного языка и также является гиперболой.

Исследование вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой, как правило, являются предлогами, частицами, местоимениями, в английском языке — артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Таким образом, данная особенность может помочь правильно выбрать ключевые слова для проведения поиска информации.

Процедура оптимального выбора ключевых слов, основанная на применении законов Ципфа, заключается в следующем: берут любой текст-источник, близкий к искомой теме, то есть «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, w eb-страница, любой другой документ. Анализ текста производится в следующем порядке:
1. «стоп-слова» удаляются из текста;
2. вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты;
3. выбирается диапазон частот, лежащий в середине списка, и из него отбираются слова, наиболее полно соответствующие смыслу текста;
4. составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором OR(ИЛИ) Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов, то есть расположению их в порядке убывания частоты вхождения в документ слов запроса, применяемому в большинстве поисковых машин, на первых страницах найденных ресурсов практически все документы должны оказаться релевантными.

Данный этап требует установить последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Всего известно около нескольких сотен поисковых систем, различающихся по регионам охвата, принципам проведения поиска (а, следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию и т. д. Основными критериями выбора поисковых систем являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Это наиболее сложный и трудоемкий этап, связанный с обработкой значительного количества информации, большая часть которой обычно является шумовой. На основе тезауруса формируются запросы к выбранным поисковым серверам. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных релевантными, собираются для последующего анализа.

Как формат, так и семантика запросов может варьироваться в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы должны составляться так, чтобы область поиска была максимально конкретизирована и сужена, то есть предпочтение следует отдавать использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится их пробная реализация — как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.

Языки запроса различных машин поиска в основном являются сочетанием следующих функций:
· осуществление поиска документов при помощи операторов булевой алгебры AND, OR, NOT. AND (И) — содержащих все термины, соединенные им, OR (ИЛИ) — искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором; NOT (НЕ) — поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором;
· осуществление поиска документов при помощи операторов расстояния, ограничения порядка следования и расстояния между словами. NEAR — второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов; FOLLOWED BY — термины следуют в заданном порядке; ADJ — термины, соединенные оператором, являются смежными;
· возможность усечения терминов — использование символа * вместо его окончания термина; позволяет включить в искомый список все слова, производные от его начальной части шаблона;
· учет морфологии языка — машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск;
· возможность поиска по словосочетанию, фразе;
· ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т. д.);
· ограничение по дате опубликования документа;
· ограничение на количество совпадений терминов;
· возможность поиска графических изображений;
· чувствительность к строчным и прописным буквам.

Результат запроса, то есть выведенный системой список ссылок на найденные ресурсы, обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Конечной стадией поиска является анализ ресурсов и сбор искомой информации. Первичный анализ ресурсов может основываться на аннотациях, если они есть, а при их отсутствии — на ознакомлении с информационным наполнением ресурса. Далее информация извлекается с отобранных источников и используется в соответствующих поиску целях.

Источник

ПОИСК ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ КОМПЬЮТЕРА.docx

по принципу организации и использования средства поиска можно выделить следующие инструменты

по принципу организации и использования средства поиска можно выделить следующие инструменты

Тема: «ПОИСК ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ КОМПЬЮТЕРА. ПРОГРАММНЫЕ ПОИСКОВЫЕ СЕРВИСЫ»

Вопрос поиска информации с использованием компьютера рассмотрим на примере поиска информации в Интернете. Для получения качественного результата при проведении поиска необходимо соблюдать ряд условий. Основными из них являются контроль полноты охвата ресурсов и достоверности найденной информации.

Возможность нахождения той или иной информации в Сети определяется полнотой охвата ее ресурсов. Зачастую проведение поиска требует задействования максимального объема возможных источников, в роли которых могут выступать не только web-сайты, но и базы данных, региональные телеконференции, FTP-архивы и т. д. При этом необходимым условием успешного планирования и проведения поисковых работ становится знание всех основных существующих на сегодняшний день типов ресурсов Интернета, понимание технической и тематической специфики их информационного наполнения и особенностей доступа к ним.

Качество проводимого поиска определяется достоверностью найденной информации. Контроль ее достоверности может производиться разными способами, в которые входит нахождение и сверка с альтернативными источниками информации, установление частоты его использования другими источниками, выяснение статуса документа и сайта, на котором он находится, получение сведений о компетентности и положении автора материала и ряд других.

По способу организации и хранения информации ее источники в Интернете можно разделить на следующие основные категории:

· файловые серверы — являются традиционным способом хранения данных и представляют собой компьютеры, часть дискового пространства которых доступна через Интернет. Доступ к данным на таком сервере осуществляется с помощью специальных программ, поддерживающих протокол передачи файлов — FTP. Данный протокол в общем случае требует авторизации, то есть идентификации пользователя. Для осуществления доступа к файлам со стороны произвольного пользователя Сети обычно используется так называемый анонимный вход под регистрационным именем anonymous, для которого пароль не требуется. Этот протокол поддерживается всеми стандартными браузерами;

· web-сайты являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Сайт может содержать информацию, представленную в самой произвольной форме: графической, звуковой, видеоизображения и т. д.;

· телеконференции могут являться источником необходимой информации, как правило, носящей неофициальный характер. Телеконференции представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации. Они позволяют добиться обратной связи со множеством лиц и произвести детальное обсуждение какой-либо проблемы территориально разобщенными людьми;

· базы данных могут содержать самую произвольную информацию: публикации, справочную информацию, другие данные. Наиболее широко распространен способ доступа к базам данных через стандартные браузеры, так как он обеспечивает максимальную потенциальную аудиторию потребителей информации. Наряду с непосредственным извлечением информации из баз данных широко используется 32 динамическое построение web-страниц в процессе исполнения пользовательских запросов.

По принципу организации и использования средства поиска можно выделить следующие инструменты:

Поиск информации в Интернете может быть произведен при помощи двух основных методов, которые, в зависимости от его целей и задач, могут быть использованы по отдельности или в комбинации друг с другом:

Наиболее широко используемым, но в то же время наиболее сложным является метод поиска с использованием поисковых систем. Его широкая распространенность обусловлена тем, что поисковые системы содержат в себе индексы громадного количества сайтов и при правильно сформированном запросе можно сразу же получить ссылки на интересующие ресурсы. Сложность метода состоит в том, что для того, чтобы результат 33 был качественным, необходимо уметь выбрать наиболее подходящие поисковые системы, правильно формулировать запросы к ним, учитывать их особенности и функциональные возможности.

Для эффективного использования поисковых серверов необходимо:

• составить тезаурус (список ключевых слов, организованный с учетом семантических отношений между ними;

• отобрать поисковую систему (основными критериями выбора поисковых систем являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов);

• составить и выполнить запрос к поисковым машинам (на основе тезауруса формируются запросы к выбранным поисковым серверам. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных релевантными, собираются для последующего анализа.

• провести анализ ресурсов и сбор искомой информации. Первичный анализ ресурсов может основываться на аннотациях, если они есть, а при их отсутствии — на ознакомлении с информационным наполнением ресурса. Далее информация извлекается с отобранных источников и используется в соответствующих поиску целях.

Программные поисковые сервисы.

Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. Улучшение поиска — это одна из приоритетных задач современного Интернета.

Необычные поисковые системы: Koogle (с его помощью ортодоксальные иудеи могут найти контент*, признанный раввинами удовлетворяющим религиозным требованиям); Yauba (индийский поиск «для параноиков» — в отличие от привычных поисковиков, за пользователями не следят, а все записи о его действиях удаляются с сервера); TinEye (поисковая система, специализирующаяся на поиске изображений в Интернете); Генон (поисковая система, собирающая и создающая контент у себя на сайте).

Рассмотрим пример поиска информации при помощи поисковой системы Яндекс (www.yandex.ru.). Как на любых поисковых серверах, на Яндексе есть поле для ввода запроса. Запрос – это набор ключевых слов, которые сообщают поисковой системе, что вы хотите найти. Помните, чем конкретнее запрос, тем точнее будет результат. После того, как вы введете запрос и нажмете Enter, Яндекс произведет поиск по своей базе данных и покажет вам результаты в виде ссылок на подходящие страницы и краткие выдержки из текстов. Нередко это число бывает очень большим: тысячи или даже миллионы страниц могут соответствовать запросу. Разумеется, загрузить сразу все найденные ссылки невозможно. Яндекс выдает результат по 10 ссылок за один раз. 34 Ссылки отсортированы по релевантности. Вероятнее всего, вы найдете то, что вам нужно, среди первого десятка ссылок.

Управляющие символы в запросах. Знаки препинания в запросах позволяют более точно описать, что мы хотим найти. С помощью символов «+» и «-» показывают значимость того или иного слова. Символ «+» означает, что слово обязательно должно встречаться на странице. Символ «-» означает, что данное слово не должно встречаться вообще. Эти символы ставятся вплотную к слову (без пробела).

Между словами можно поставить знак «|», чтобы найти документы, содержащие любое из этих слов. Удобно при поиске синонимов. Запрос фото | фотография | фотоснимок | снимок | фотоизображение задает поиск документов, содержащих хотя бы одно из перечисленных слов. Еще один знак, тильда «

» позволит найти документы с предложением, содержащим первое слово, но не содержащее второе. По запросу билет

студенческий будут найдены все документы, содержащие слово «билет», радом с которыми (в пределах предложения) нет слова «студенческий».

1. Чем определяется возможность нахождения и качество поиска информации в сети Интернет?

2. Перечислите инструменты поиска информации.

3. Каковы основные методы поиска информации в Интернете?

4. Каков алгоритм эффективного использования поисковых серверов?

5. Что такое поисковая система?

6. Какие популярные поисковые системы вы знаете?

7. Назовите необычные поисковые системы.

8. Как правильно составить запрос для поиска информации?

9. Какую роль играют управляющие символы в запросах?

10. Как осуществить поиск картинок в системе Яндекс?

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *