Вебометрические индикаторы определяются в соответствии с известными подходами Cybermetrics Lab [источник -
]. Методики измерений (с некоторыми изменениями и дополнениями, связанными с развитием поисковых систем) в основном следуют работе В.В. Мазалова, Печникова [источник -
].
– размер сайта, общее количество страниц, обнаруживаемых на сайте поисковыми машинами;
– видимость сайта, количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми машинами;
– количество полнотекстовых файлов, суммарное количество файлов с расширениями PDF, DOC, PS и др., обнаруживаемых поисковыми машинами;
.
В качестве «измерительных устройств» Cybermetrics Lab предлагает использовать Google, Yahoo, Bing Search, Yahoo Site Explorer, а также данные проекта SCImago Institutions Rankings[источник -
]. Ряд замечаний по этому поводу сделан в упомянутой работе В.В. Мазалова, Печникова [источник -
]. Здесь мы не будем вступать в дискуссию и давать обоснования использования тех или иных поисковых машин и способов измерений. Часть этой дискуссии приводится в следующем фрагменте указанной статьи.
Алгоритмы работы поисковых роботов и механизмы индексации страниц являются секретными особенностями поисковых машин, о которых можно лишь догадываться [7].
Однако полученные авторами результаты измерений не могут не вызвать вопроса о применимости коммерческих поисковых машин для измерения вебометрических индикаторов. Критические публикации на эту тему появились достаточно давно и продолжают появляться [18, 24, 25], что, однако, не останавливает исследователей, имеющих в качестве «измерительных устройств» только поисковые системы.
Продемонстрируем особенности измерений общего количества страниц на примере сайта Карельского научного центра РАН (КарНЦ РАН) www.krc.karelia.ru. Бросается в глаза существенная зависимость результатов от поисковой машины: S
Яндекс = 30 000, S
Google = 5 670, а S
Yahoo = 18.
Детальный анализ перечня страниц сайта
www.krc.karelia.ru, проиндексированных Яндексом, показывает, что сюда же отнесены страницы самостоятельных сайтов, имеющих доменные имена 4-го уровня (
rcdl2009.krc.karelia.ru,
tender.krc.karelia.ru,
mathem.krc.karelia.ru и многие другие). В то же время измерение значения S
Яндекс, к примеру, для сайта Института прикладных математических исследований КарНЦ РАН дает значение 811, т. е. этот сайт рассматривается Яндексом как самостоятельная единица анализа. Отсюда следует, что реальное значение SЯндекс для КарНЦ РАН существенно завышено за счет самостоятельных сайтов, имеющих доменные имена 4-го уровня, входящие в домен третьего уровня
krc.karelia.ru. Практически та же ситуация наблюдается и при измерениях RЯндекс.
Конечно, эти ситуации могут быть обойдены, если нам известен полный перечень всех доменных имен так называемой «доменной зоны». К сожалению, эта информация известна далеко не всегда. Более того, она ничем не поможет нам в случаях измерений посредством
Google и
Yahoo (S
Google = 5 670 и S
Yahoo = 18), хотя и добавит понимания того факта, что поисковый робот обходит не весь Веб. Авторам достоверно известно, что реальное количество страниц на сайте КарНЦ РАН чуть меньше 17 000. Но вряд ли мы когда-нибудь достоверно узнаем, почему Google индексирует примерно треть из них, а Yahoo – лишь тысячную часть. (Одна из авторских гипотез зависимости S
Яндекс от реального размера сайта и/или его структурной организации приводится в [10]).
По поводу измерений количества уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми машинами, также приведем пример для КарНЦ РАН: V
Яндекс = 215, V
Google = 189 и V
Yahoo = 1 025. Эти результаты трудно поддаются объяснению, поэтому лишь сошлемся на критическую работу [18], в которой показано, что для конкретных случаев
Google скрывает от 48 до 70% проиндексированных им же страниц, содержащих ссылки на заданный сайт.
Соображения по поводу применения в качестве «измерительных устройств» не поисковых машин, а другого программного обеспечения, будут изложены в следующем разделе.
Остановимся подробнее на вопросе о том, что считать единицей анализа при ранжировании сайтов. В разделе «Целевое множество исследований» было отмечено, что авторы в рамках данного исследования для каждого учреждения РАН анализируют только официальный сайт. При этом понятным кажется и подход, используемый в [14] и [22], когда в случае наличия у организации нескольких доменных имен используется их совокупность.
Расширим такой подход до уровня веб-ресурсов крупной организации в целом. Тогда следует вести речь о сложном информационном комплексе, являющемся в каком-то смысле отражением ее организационно-управленческой и научной структуры. Как правило, в этом информационном комплексе существует так называемая точка входа (основной сайт организации), а далее следуют: административный сайт, сайты лабораторий, сайты выполняемых проектов, страницы сотрудников и т. д. При этом некоторые подразделения крупных институтов (в особенности это свойственно подразделениям, профессионально связанным с информационными технологиями), имеют веб-ресурсы, зарегистрированные под именами, не содержащими доменного имени основного сайта организации. И в противовес им могут существовать сайты организаций, содержащих доменное имя основного сайта, но не имеющих отношения к его научной деятельности (сайт профсоюзной организации института – это еще куда ни шло, но могут быть и сайты туристических клубов и др.).
В этом случае только содержательный анализ ресурса может дать ответ на вопрос, является ли этот ресурс частью веб-ресурсов организации. Учитывая, что мы сталкиваемся с определенными проблемами даже на стадии выявления официальных сайтов, хотелось бы говорить о веб-ресурсах организации как о некотором официально утвержденном и опубликованном перечне. Только в этом случае под единицей анализа можно понимать «веб-ресурсы организации в целом». В противном случае очень многое зависит от субъективных знаний исследователей об институтах и трактовок о том, следует ли считать некоторый сайт веб-ресурсом организации или нет. Например, использование в качестве единицы анализа не только доменного имени официального сайта Института прикладных математических исследований КарНЦ РАН (ИПМИ КарНЦ РАН), но и всех его веб-ресурсов, известных авторам, изменяет положение в рейтинге с 34-го на 16-е.
Литература
[7] НЕКРЕСТЬЯНОВ И., ПАНТЕЛЕЕВА Н. Системы текстового поиска для Веб [Электронный ресурс] // Группа исследования методов организации информации. – URL: http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html (дата обращения: 18.03.2009).
[10] ПЕЧНИКОВ А. А., ЛУГОВАЯ Н. Б. Измерения научных сайтов // Телематика’2008. Труды XV Всероссийской научно-методической конференции, С-Петербург, 2008 г. – Т. 1. – С. 166.
14. ШОКИН Ю. И., КЛИМЕНКО О. А., РЫЧКОВА Е. В., ШАБАЛЬНИКОВ И. В. Рейтинг сайтов научных организаций СО РАН // Вычислительные технологии. – 2008. – Т. 13, №3. – С. 128-135.
[18] Bar-Ilan J. How much information do search engines disclose on the links to a web page? A longitudinal case study of the ‘cybermetrics’ home page // Journal of Information Science. – 2002. – Vol. 28, No. 6. – P. 455-466.
[22] Ranking Web of World Research Centers [Электронный ресурс] – Режим доступа: http://research.webometrics.info.
[24] SNYDER H.; ROSENBAUM H. Can search engines be used as tools for web-link analysis? A critical view // Journal of documentation. – 1999. – Vol. 55(4). – P. 375-384.
[25] THELWALL M. Web impact factors and search engine coverage // Journal of Documentation. – 2000. – Vol. 56(2). – P. 185-189.