Общие сведения

Основные понятия и определения

Веб-сайт – совокупность html-страниц и веб-документов, связанных внутренними гиперссылками и обладающих единством содержания, идентифицируемый в Вебе по уникальному доменному имени.

Подробнее...

Официальный веб-сайт организации – веб-ресурс, обеспечивающий официальное представление информации в Вебе об организации, являющейся юридическим лицом, создаваемый и функционирующий в соответствии с нормативным актом организации-владельца сайта. Нормативный акт определяет цели и задачи официального веб-сайта, структуру и порядок размещения в Вебе информационных материалов, образующих веб-ресурс, права, обязанности и лиц, осуществляющих программно-техническую поддержку данного сайта и лиц, осуществляющих предоставление информации для размещения в его разделах.

Веб-сайт подразделения – веб-ресурс подразделения, входящего в состав организации и не являющегося юридическим лицом, обеспечивающий представление информации в Вебе о данном подразделении.

Тематический веб-сайт – веб-ресурс организации, не являющийся официальным веб-сайтом или веб-сайтом подразделения, создаваемый и функционирующий для представления в Вебе информации на заданную тему.

Неофициальный веб-сайт – веб-ресурс организации, обеспечивающий представление информации в Вебе об организации, являющейся юридическим лицом, не являющийся официальным сайтом организации.

Информационное веб-пространство организации – это множество взаимосвязанных веб-сайтов перечисленных типов.

Вебометрические индикаторы
Вебометрические индикаторы определяются в соответствии с известными подходами Cybermetrics Lab [источник - Ranking Web or Research Centres]. Методики измерений (с некоторыми изменениями и дополнениями, связанными с развитием поисковых систем) в основном следуют работе В.В. Мазалова, Печникова [источник - О рейтинге официальных сайтов научных учреждений Северо-Запада России].

Вебометрические индикаторы сайта S, V, R и Sc это:
S (size) – размер сайта, общее количество страниц, обнаруживаемых на сайте поисковыми машинами;
V (visibility) – видимость сайта, количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми машинами;
R (rich files) – количество полнотекстовых файлов, суммарное количество файлов с расширениями PDF, DOC, PS и др., обнаруживаемых поисковыми машинами;
Sc (scholar) – научность сайта, количество ссылок на сайт, обнаруживаемых Google Scholar. Подробнее...

В случае если индикатор измеряется несколькими поисковыми машинами, в качестве итогового значения индикатора берется некоторая комбинация значений (среднее, среднее с отбрасыванием максимального и т.д. – способы комбинирования неоднократно изменялись). На данном этапе проекта измерения проводятся с использованием поисковых машин Яндекс и Google и далее значения индикаторов не комбинируются, а используются для ранжирования в полученном виде.

«Измерительные устройства» и способы измерений
В качестве «измерительных устройств» Cybermetrics Lab предлагает использовать Google, Yahoo, Bing Search, Yahoo Site Explorer, а также данные проекта SCImago Institutions Rankings[источник - http://www.scimagoir.com]. Ряд замечаний по этому поводу сделан в упомянутой работе В.В. Мазалова, Печникова [источник - О рейтинге официальных сайтов научных учреждений Северо-Запада России]. Здесь мы не будем вступать в дискуссию и давать обоснования использования тех или иных поисковых машин и способов измерений. Часть этой дискуссии приводится в следующем фрагменте указанной статьи.

О применимости поисковых машин в качестве «измерительных устройств» и уточнении понятия «единица анализа»
Алгоритмы работы поисковых роботов и механизмы индексации страниц являются секретными особенностями поисковых машин, о которых можно лишь догадываться [7]. Подробнее...

Однако полученные авторами результаты измерений не могут не вызвать вопроса о применимости коммерческих поисковых машин для измерения вебометрических индикаторов. Критические публикации на эту тему появились достаточно давно и продолжают появляться [18, 24, 25], что, однако, не останавливает исследователей, имеющих в качестве «измерительных устройств» только поисковые системы.

Продемонстрируем особенности измерений общего количества страниц на примере сайта Карельского научного центра РАН (КарНЦ РАН) www.krc.karelia.ru. Бросается в глаза существенная зависимость результатов от поисковой машины: S_Яндекс = 30 000, S_Google = 5 670, а S_Yahoo = 18.

Детальный анализ перечня страниц сайта www.krc.karelia.ru, проиндексированных Яндексом, показывает, что сюда же отнесены страницы самостоятельных сайтов, имеющих доменные имена 4-го уровня (rcdl2009.krc.karelia.ru, tender.krc.karelia.ru, mathem.krc.karelia.ru и многие другие). В то же время измерение значения S_Яндекс, к примеру, для сайта Института прикладных математических исследований КарНЦ РАН дает значение 811, т. е. этот сайт рассматривается Яндексом как самостоятельная единица анализа. Отсюда следует, что реальное значение SЯндекс для КарНЦ РАН существенно завышено за счет самостоятельных сайтов, имеющих доменные имена 4-го уровня, входящие в домен третьего уровня krc.karelia.ru. Практически та же ситуация наблюдается и при измерениях RЯндекс.

Конечно, эти ситуации могут быть обойдены, если нам известен полный перечень всех доменных имен так называемой «доменной зоны». К сожалению, эта информация известна далеко не всегда. Более того, она ничем не поможет нам в случаях измерений посредством Google и Yahoo (S_Google = 5 670 и S_Yahoo = 18), хотя и добавит понимания того факта, что поисковый робот обходит не весь Веб. Авторам достоверно известно, что реальное количество страниц на сайте КарНЦ РАН чуть меньше 17 000. Но вряд ли мы когда-нибудь достоверно узнаем, почему Google индексирует примерно треть из них, а Yahoo – лишь тысячную часть. (Одна из авторских гипотез зависимости S_Яндекс от реального размера сайта и/или его структурной организации приводится в [10]).

По поводу измерений количества уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми машинами, также приведем пример для КарНЦ РАН: V_Яндекс = 215, V_Google = 189 и V_Yahoo = 1 025. Эти результаты трудно поддаются объяснению, поэтому лишь сошлемся на критическую работу [18], в которой показано, что для конкретных случаев Google скрывает от 48 до 70% проиндексированных им же страниц, содержащих ссылки на заданный сайт.

Соображения по поводу применения в качестве «измерительных устройств» не поисковых машин, а другого программного обеспечения, будут изложены в следующем разделе.

Остановимся подробнее на вопросе о том, что считать единицей анализа при ранжировании сайтов. В разделе «Целевое множество исследований» было отмечено, что авторы в рамках данного исследования для каждого учреждения РАН анализируют только официальный сайт. При этом понятным кажется и подход, используемый в [14] и [22], когда в случае наличия у организации нескольких доменных имен используется их совокупность.

Расширим такой подход до уровня веб-ресурсов крупной организации в целом. Тогда следует вести речь о сложном информационном комплексе, являющемся в каком-то смысле отражением ее организационно-управленческой и научной структуры. Как правило, в этом информационном комплексе существует так называемая точка входа (основной сайт организации), а далее следуют: административный сайт, сайты лабораторий, сайты выполняемых проектов, страницы сотрудников и т. д. При этом некоторые подразделения крупных институтов (в особенности это свойственно подразделениям, профессионально связанным с информационными технологиями), имеют веб-ресурсы, зарегистрированные под именами, не содержащими доменного имени основного сайта организации. И в противовес им могут существовать сайты организаций, содержащих доменное имя основного сайта, но не имеющих отношения к его научной деятельности (сайт профсоюзной организации института – это еще куда ни шло, но могут быть и сайты туристических клубов и др.).

В этом случае только содержательный анализ ресурса может дать ответ на вопрос, является ли этот ресурс частью веб-ресурсов организации. Учитывая, что мы сталкиваемся с определенными проблемами даже на стадии выявления официальных сайтов, хотелось бы говорить о веб-ресурсах организации как о некотором официально утвержденном и опубликованном перечне. Только в этом случае под единицей анализа можно понимать «веб-ресурсы организации в целом». В противном случае очень многое зависит от субъективных знаний исследователей об институтах и трактовок о том, следует ли считать некоторый сайт веб-ресурсом организации или нет. Например, использование в качестве единицы анализа не только доменного имени официального сайта Института прикладных математических исследований КарНЦ РАН (ИПМИ КарНЦ РАН), но и всех его веб-ресурсов, известных авторам, изменяет положение в рейтинге с 34-го на 16-е.

Литература

[7] НЕКРЕСТЬЯНОВ И., ПАНТЕЛЕЕВА Н. Системы текстового поиска для Веб [Электронный ресурс] // Группа исследования методов организации информации. – URL: http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html (дата обращения: 18.03.2009).

[10] ПЕЧНИКОВ А. А., ЛУГОВАЯ Н. Б. Измерения научных сайтов // Телематика’2008. Труды XV Всероссийской научно-методической конференции, С-Петербург, 2008 г. – Т. 1. – С. 166.
14. ШОКИН Ю. И., КЛИМЕНКО О. А., РЫЧКОВА Е. В., ШАБАЛЬНИКОВ И. В. Рейтинг сайтов научных организаций СО РАН // Вычислительные технологии. – 2008. – Т. 13, №3. – С. 128-135.

[18] Bar-Ilan J. How much information do search engines disclose on the links to a web page? A longitudinal case study of the ‘cybermetrics’ home page // Journal of Information Science. – 2002. – Vol. 28, No. 6. – P. 455-466.

[22] Ranking Web of World Research Centers [Электронный ресурс] – Режим доступа: http://research.webometrics.info.

[24] SNYDER H.; ROSENBAUM H. Can search engines be used as tools for web-link analysis? A critical view // Journal of documentation. – 1999. – Vol. 55(4). – P. 375-384.

[25] THELWALL M. Web impact factors and search engine coverage // Journal of Documentation. – 2000. – Vol. 56(2). – P. 185-189.