пятница, 18 сентября 2009 г.

Рейтинг новостей Google и показатели качества для источников новостей

Являются ли крупные новостные агентства с широким международным охватом по нескольким темам с большим количеством репортеров и хорошо отредактированных статей лучшими источниками новостей, чем небольшие и более местные газеты или узкие нишевые блоги?

На этой неделе был выдан патент на ранжирование статей в Новостях Google, который был первоначально подан в 2003 году, и в нем обсуждается ряд факторов ранжирования, которые он может использовать для представления новостной статьи на основе «качества» соответствующих источников новостей.
Что очень интересно в этом, так это то, что он дает некоторое представление о предположениях, лежащих в основе этих факторов ранжирования. Я подозреваю, что с тех пор Google, возможно, изменил свою позицию в отношении некоторых из этих факторов.
Патент не включает в себя полный спектр сигналов, которые Google, вероятно, учитывает при ранжировании новостных сообщений, таких как свежесть новостей (как отмечено в патентной заявке Google на Universal Search), или является ли определенный источник оригиналом.
Кроме того, довольно техническая, но интересная статья на тему поиска источников контента в реальном времени или источников, близких к реальному времени, из статей новостей, постов блога или веб-страниц от исследователей Google - Эффективное определение происхождения текстовых сегментов (pdf ).
Предпосылка для разработки качественных сигналов для новостных статей уже установлена ​​в патенте:
Например, предположим, что человек хочет получать последние новости по определенной теме через Интернет. Человек получает доступ к веб-сайту, который включает в себя обычную поисковую систему. Человек вводит один или несколько терминов, относящихся к интересующей теме, таких как «Ирак», в поисковую систему, чтобы попытаться найти источник новостей, опубликовавший статью, относящуюся к этой теме.
Использование поисковой системы таким образом для поиска отдельных веб-сайтов, которые предоставляют новостные статьи, относящиеся к желаемой теме, часто приводит к ранжированному списку из сотен или даже тысяч «посещений», где каждое посещение может соответствовать веб-странице, которая относится к условия поиска.
Хотя каждый из совпадений в ранжированном списке может относиться к желаемой теме, источники новостей, связанные с этими совпадениями, могут, однако, быть неодинакового качества.
Например, CNN и BBC широко рассматриваются как высококачественные источники точности сообщений, профессионализма в письменной форме и т. Д., В то время как местные источники новостей, такие как источники новостей в родном городе, могут быть более низкого качества.
Следовательно, существует потребность в системах и способах улучшения ранжирования новостных статей, основанных на качестве источника новостей, с которым эти статьи связаны.
Я подвергаю сомнению это предположение, что источники, такие как CNN или BBC, могут быть лучшими источниками качественной информации, чем источники новостей в родном городе во многих случаях. Я думаю, что часто возможно, что местный репортер и местный источник новостей из родного города могут предоставить информацию, идеи и информацию, которые может пропустить более крупная организация. Однако стоит посмотреть на сигналы, перечисленные в патенте.
Патент это:
Системы и методы повышения рейтинга новостных статей,
изобретенных Майклом Кертиссом, Кришной Бхаратом и Майклом Шмиттом.
Назначен в Google.
Патент США 7 577 655 Получено
18 августа 2009 г.
Подано 16 сентября 2003 г.
абстрактный
Система ранжирует результаты. Система может получить список ссылок. Система может идентифицировать источник, с которым связана каждая из ссылок, и ранжировать список ссылок, основываясь, по меньшей мере, частично на качестве идентифицированных источников.
Рейтинг источника
В основе патента лежит метод ранжирования источников для статей, которые могут быть на одну и ту же тему, для представления этих статей по порядку (или определения того, что может быть показано на первой странице Новостей Google или в результатах поиска Новостей Google). ,
Процесс определения рейтинга источника для источника новостей основан на рассмотрении количества метрик для каждого источника новостей, которые измеряют различные атрибуты источника.
Вот эти показатели:
Количество статей, созданных источником новостей за определенный период времени
Предположительно, чем больше статей (неповторяющихся статей) произведено источником за определенный период времени, тем лучше. Нам говорят, что в качестве альтернативы поисковая система может учитывать количество оригинальных предложений, опубликованных источником новостей за это время.
Средняя длина статьи из источника новостей
Можно измерить словами или предложениями. Если в статьях CNN содержится в среднем 300 слов, в то время как в местном источнике в среднем 150 слов для каждой статьи, CNN может быть присвоено значение 300 для этой метрики, в то время как для локального источника может быть задано значение 150.
Более длинные статьи лучше? Если поисковая система будет просматривать 100 лучших новостей CNN за последнюю неделю и 100 лучших новостей из другого источника и сравнивать их длину, следует
ли считать источник с самыми длинными статьями более качественным? Если бы вместо этого поисковая система объединила воедино все статьи по определенной истории и проверила их длину, самой продолжительной будет история с более высоким качеством. Эта метрика указывает на то, что это сигнал для рассмотрения.
Срочные новости
Как скоро после того, как происходит важное событие, источник новостей публикует историю об этом? Если бы все истории об этом событии были сгруппированы вместе, а даты и время публикации были просмотрены, источники, которые ответили бы быстрее всего, имели бы более высокую «оценку последних новостей».
Шаблон использования
Если поисковая система отслеживала, сколько людей переходило по ссылкам на конкретные источники новостей, когда им предоставлялись ссылки на эти источники, какие источники люди чаще посещали? Это не измеряет «популярность» новостных источников, а показывает, действительно ли люди переходят по ссылкам на конкретные источники, когда видят эти ссылки в результатах поиска.
Человеческое мнение источника новостей
Люди, которые используют поисковую систему, могут быть опрошены, чтобы определить источники новостей, которые им нравится читать или которые они посещали. Другие меры также могут быть использованы. Например, нам говорят, что газеты можно сравнивать, по крайней мере частично, по количеству Пулитцеровских премий, которые выиграли газеты. Нам также говорят, что возраст источника новостей «может быть воспринят публикой как мера доверия». В качестве другой альтернативы оценщикам может быть представлен выбор статей из разных источников, и ему будет предложено присвоить оценку для их источники.
Тиражная статистика источника новостей
Можно рассмотреть статистику тиражей печатных публикаций, связанных с источником, статистику использования агентства «такими как Media Metrix и Nielsen Netratings» и другие возможные способы измерения трафика к источнику.
Численность персонала, связанного с источником новостей
Количество отдельных имен журналистов из статей в источнике новостей может быть просмотрено.
Количество информационных агентств, связанных с источником новостей
Это, кажется, в пользу крупных и более авторитетных информационных агентств.
Оригинальные именованные объекты, появляющиеся в статьях, созданных источником новостей
Именованная сущность - это конкретная личность, место, организация или вещь.
Если все истории об определенном событии были сгруппированы вместе, и одна из них содержала упоминание именованных сущностей, которые не включены в другие статьи на одну и ту же тему, она может иметь более высокий рейтинг, чем другие. Предполагается, что этот показатель указывает на то, что источники новостей «способны к оригинальному сообщению». Существуют некоторые ограничения при использовании этого подхода. Например, даты публикации статей могут быть рассмотрены, чтобы увидеть, какая статья включала какой названный объект, когда. Различия в написании и сокращении могут также учитываться при определении того, являются ли названные объекты в статьях уникальными.
Количество тем, по которым источник производит контент
Статьи из новостных источников могут быть разделены на разные темы, и диапазон этих тем можно рассматривать как указание на широту этого источника. Это, кажется, предпочитает более общие источники, чем те, которые сосредоточены на более узкой нише. Возможно, что более сфокусированный источник может иметь более качественные статьи по темам, в которых они специализируются.
Международное разнообразие источника новостей
Здесь рассматривается количество стран, из которых новостной сайт получает трафик в Интернете. Поисковая система может выглядеть примерно так, как IP-адреса людей, которые переходят по ссылкам на источники, чтобы увидеть, насколько распространена их аудитория по всему миру.
Стиль письма, используемый источником новостей
Поисковая система может использовать автоматические тесты для измерения правописания, грамматики и уровней чтения для источника новостей.
Также могут быть рассмотрены другие сигналы, такие как количество ссылок, указывающих на новостной веб-сайт.
Вывод
Было несколько других патентных заявок от Google о Новостях Google, но ни одна из них не вдавалась в конкретные подробности о сигналах, которые поисковая система могла бы рассмотреть при ранжировании источников и статей, подобных этой.
Хотя это было подано почти 6 лет назад, в нем содержатся подробности алгоритмического подхода к присвоению оценок источникам новостей, которые можно использовать для ранжирования новостных статей в новостях Google, а также многие предположения, лежащие в основе конкретных факторов в этом алгоритме. Возможно, что какая-то версия этого алгоритма все еще используется сегодня, и может быть использован ряд факторов ранжирования.
Я подвергаю сомнению некоторые из сделанных предположений.
Например, если появилась новая история о новом открытии в Physics, а авторитетный и уважаемый сайт на Physics News опубликовал проницательную и подробную статью об открытии, возможно, это может быть лучшим источником для этой темы, чем новости источник, который, возможно, первым написал об открытии, имеет гораздо больше репортеров и гораздо более широкий тираж, узнается гораздо большей международной аудиторией, имеет большое количество новостных бюро, публикуется с 1800-х годов и был написан кем-то, кто совсем не разбирается в физике.

Комментариев нет:

Отправить комментарий