Внимание! В течении ближайших 6 месяцев сайт полностью переедет на домен www.fafik.ru НАВСЕГДА
Глоссарий SEO - Вэбмастеру
Добавить в избранное

Вернуться назад на предыдущую страницу

Глоссарий SEO

асессор булевская модель
векторная модель вероятностная модель
внетекстовые критерии входные страницы
графематический анализ, лексический анализ, токенизация дизамбигуация
дубликаты приблизительные дубликаты
иллюзия свежести инвертированный файл
индекс цитирования индексирование, индекс, индексация
информационный поиск клоакинг
лемматизация обратная встречаемость в документах
обратная связь основа
подпись, сигнатура поиск по смыслу
поиск похожих документов поисковая система
поисковый запрос, предписание омонимия, многозначность
полнота, охват прюнинг
прямой поиск различительная сила слова
регулярное выражение релевантность
словоизменение словообразование
спам поисковых систем стемминг
стоп-слова суффиксные деревья
точность хеш-значение
частота (слова) в документах частота термина
шингл статическая популярность
TF*IDF

Значения

  • асессор, эксперт (assesor) – специалист, выносящий заключение о релевантности документа, найденного поисковой системой;
  • Наверх
  • булевская или двоичнаямодель (boolean model) – модель поиска, опирающаяся на операции пересечения, объединения и вычитания множеств;
  • Наверх
  • векторная модель – модель информационного поиска, рассматривающая документы и запросы как векторы в пространстве слов, а релевантность как расстояние между ними;
  • Наверх
  • вероятностная модель – модель информационного поиска, рассматривающая релевантность как вероятность соответствия данного документа запросу на основании вероятностей соответствия слов данного документа идеальному ответу;
  • Наверх
  • внетекстовые (внестраничные) критерии (off-page) – критерии ранжирования документов в поисковых системах, учитыващие факторы, не содержащиеся в тексте самого документа и не извлекаемые оттуда никаким образом;
  • Наверх
  • входные страницы (doorways, hallways) – страницы, созданные для искусственного повышения ранга в поисковых системах (поискового спама). При попадании на них пользователя перенаправляют на целевую страницу;
  • Наверх
  • графематический анализ, лексический анализ, токенизация (tokenization, lexical analysis) – выделение в тексте слов, чисел, и иных токенов, в том числе, например, нахождение границ предложений;
  • Наверх
  • дизамбигуация, таггинг (tagging, part of speech disambiguation) - выбор одного из нескольких омонимов c помощью контекста; в английском языке часто сводится к автоматическому назначению грамматической категории «часть речи»;
  • Наверх
  • дубликаты (duplicates) – разные документы с идентичным, с точки зрения пользователя, содержанием;
  • Наверх
  • приблизительные дубликаты (near duplicates) - в отличие от точных дубликатов, содержат незначительные отличия;
  • Наверх
  • иллюзия свежести– эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями;
  • Наверх
  • инвертированный файл,инверсный файл, инвертированный индекс, инвертированный список (inverted file) – индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось;
  • Наверх
  • индекс цитирования (citation index) – число упоминаний (цитирований) научной статьи, в традиционной библиографической науке рассчитывается за промежуток времени, например, за год;
  • Наверх
  • индексирование, индекс, индексация (indexing) – процесс составления или приписывания указателя (индекса) – служебной структуры данных, необходимой для последующего поиска. Латентно-семантическим индексированием называетсязапатентованный алгоритм поиска по смыслу, идентичный факторному анализу. Основан на сингулярном разложении матрицы связи слов с документамиl
  • Наверх
  • информационный поиск (Information Retrieval, IR) – поиск неструктурированной информации, единицой представления которой является документ произвольных форматов. Предметом поиска выступает информационная потребность пользователя, неформально выраженная в поисковом запросе. И критерий поиска, и его результаты недетермированы. Этими признаками информационный поиск отличается от «поиска данных», который оперирует набором формально заданных предикатов, имеет дело со структурированной информацией и чей результат всегда детерминирован. Теория информационного поиска изучает все составляющие процесса поиска, а именно, предварительную обработку текста (индексирование), обработку и исполнение запроса, ранжирование, пользовательский интерфейс и обратную связь;
  • Наверх
  • лемматизация, нормализация (lemmatization) – приведение формы слова к словарному виду, то есть лемме;
  • Наверх
  • обратная встречаемость или частота в документах (inverted document frequency, IDF) – показатель поисковой ценности слова (его различительной силы); обратная говорят, потому что при вычислении этого показателя в знаменателе дроби обычно стоит число документов, содержащих данное слово;
  • Наверх
  • обратная связь, псевдо-обратная связь – отклик пользователей на результат поиска, их суждения о релевантности найденных документов, зафиксированные поисковой системой и использующиеся, например, для итеративной модификации запроса. Следует отличать от псевдо-обратной связи – техники модификации запроса, в которой несколько первых найденных документов автоматически считаются релевантными;
  • Наверх
  • основа – часть слова, общая для набора его словообразовательных и словоизменительных (чаще) форм;
  • Наверх
  • подпись, сигнатура (signature) – множество хеш-значений слов некоторого блока текста. При поиске по методу сигнатур все сигнатуры всех блоков коллекции просматриваются последовательно в поисках совпадений с хеш-значениями слов запроса;
  • Наверх
  • поиск по смыслу – алгоритм информационного поиска, способный находить документы, не содержащие слов запроса;
  • Наверх
  • поиск похожих документов (similar document search) – задача информационного поиска, в которой в качестве запроса выступает сам документ и необходимо найти документы, максимально напоминающие данный;
  • Наверх
  • поисковая система, информационно-поисковая система, ИПС, поисковая машина, машина поиска, «поисковик» (search engine, SE) – программа, предназначенная для поиска информации, обычно текстовых документов;
  • Наверх
  • поисковый запрос, предписание (query) – обычно строчка текста;
  • Наверх
  • полисемия, омонимия, многозначность, омография (polysemy, homography) - наличие нескольких значений у одного и того же слова;
  • Наверх
  • полнота, охват (recall) – доля релевантного материала, заключенного в ответе поисковой системы, по отношению ко всему релевантному материалу в коллекции;
  • Наверх
  • прюнинг(pruning) – отсечение заведомо нерелевантных документов при поиске с целью ускорения выполнения запроса;
  • Наверх
  • прямой поиск– поиск непосредственно по тексту документов, без предварительной обработки (без индексирования);
  • Наверх
  • различительная сила слова или контрастность термина (term specificity, term discriminating power) – степень ширины или узости слова. Слишком широкие термины в поиске приносят слишком много информации, при это существенная часть ее бесполезна. Слишком узкие термины помогают найти слишком мало документов, хотя и более точных;
  • Наверх
  • регулярное выражение, шаблон, маска (regualr expression, pattern) – способ записи поискового предписания, позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и т.д. В широком смысле – язык, позволяющий задавать запросы неограниченной сложности;
  • Наверх
  • релевантность (relevance, relevancy) – соответствие документа запросу;
  • Наверх
  • словоизменение (inflection)  – образование формы определенного грамматического значения, обычно обязательного в данном грамматическом контексте, принадлежащей к фиксированному набору форм (парадигме), характерного для слов данного типа. В отличие от словообразования никогда не приводит к смене типа и порождает предсказуемое значение. Словоизменение имен называют склонением (declension), а глаголов – спряжением (conjugation);
  • Наверх
  • словообразование (derivation) – образование слова или основы из другого слова или основы. Чаще приводит к смене типа и к образованию слов, имеющих идеосинкразическое значение;
  • Наверх
  • спам поисковых систем, накрутка поисковых систем, спамдексинг (spam) – попытка воздействовать на результат информационного поиска со стороны авторов документов. К спаму относится также клоакинг (cloaking) техника поискового спама, состоящая в распознании авторами документов робота (индексирующего агента) поисковой системы и генерации для него специального содержания, принципиально отличающегося от содержания, выдаваемого пользователю. Ещё одним видом спама является непотизм: – вид спама поисковых систем, установка авторами документов взаимных ссылок с единственной целью поднять свой ранг в результатах поиска;
  • Наверх
  • стемминг – поцесс выделения основы слова;
  • Наверх
  • стоп-слова (stop-words) – те союзы, предлоги и другие частотные слова, которые данная поисковая система исключила из процесса индексирования и поиска для повышения своей производительности и/или точности поиска;
  • Наверх
  • суффиксные деревья, суффиксные массивы (suffix trees, suffix arrays, PAT-arrays) – индекс, основанный на представлении всех значимых суффиксов текста в структуре данных, известной как бор (trie). Суффиксом в этом индексе называю любую «подстроку», начинающуюся с некоторой позиции текста (текст рассматривается как одна непрерывная строка) и продолжающуюся до его конца. В реальных приложениях длина суффиксов ограничена, а индексируются только значимые позиции – например, начала слов. Этот индекс позволяет выполнять более сложные запросы, чем индекс, построенный на инвертированных файлах;
  • Наверх
  • точность (precision) - доля релевантного материала в ответе поисковой системы;
  • Наверх
  • хеш-значение (hash-value) – значение хеш-функции (hash-function), преобразующей данные произвольной длины (обычно, строчку) в число фиксированного порядка;
  • Наверх
  • частота (слова) в документах, встречаемость в документах, документная частота (document frequency) – число документов в коллекции, содержащих данное слово;
  • Наверх
  • частота термина (term frequency, TF) – частота употреблений слова в документе;
  • Наверх
  • шингл (shingle) – хеш-значение непрерывной последовательности слов текста фиксированной длины;
  • Наверх
  • статическая популярность (PageRank) – алгоритм расчета статической (глобальной) популярности страницы в интернете, назван в честь одного из авторов - Лоуренса Пейджа. Соответствует вероятности попадания пользователя на страницу в модели случайного блуждания;
  • Наверх
  • TF*IDF –численная мера соответствия слова и документа в векторной модели; тем больше, чем относительно чаще слово встретилось в документе и относительно реже в коллекции.
  • Наверх

Вернуться назад на предыдущую страницу