существительных – именительный падеж единственного числа;
• для прилагательных – именительный падеж единственного числа мужского рода;
• для глаголов, причастий и деепричастий – глагол в инфинитиве.
Все современные поисковые системы, работающие с учетом морфологии русского языка, базируются на «Грамматическом словаре русского языка», составленном А. А. Зализняком. Основное назначение этого словаря – отразить русское словоизменение, то есть для каждого входящего в словарь слова дать сведения о том, изменяемо ли оно, а если да, то как именно это слово склоняется или спрягается. В ранней редакции этот словарь был назван «Обратный словарь русского языка», так как в нем принят не обычный алфавитный порядок расположения слов, а инверсионный (от конца слова к началу). Это обусловлено тем, что одинаковый или похожий тип словоизменения в русском языке имеют слова со сходным концом, а не со сходным началом. Таким образом, при инверсионном алфавитном расположении слова с одинаковым или сходным типом словоизменения обычно оказываются рядом и образуют большие массивы.
Работы по формальному описанию естественного языка тесно связаны с идеями автоматического перевода, появление которых относится к 30-м годам XX века. Первые эксперименты в этой области начались в 1954 году в Джорджтаунском университете (США). До сих пор все существующие автоматические переводчики, как отечественные, так и зарубежные, хотя и умеют делать более-менее грубый подстрочник, даже близко не подошли к уровню профессионального художественного перевода.
Важная часть морфологической обработки – выделение основы слова. Основой называется часть, которая остается после отсечения окончания слова и с которой связано его лексическое значение.
Одна из сложностей формального анализа русского языка – наличие в нем омонимов. Омонимы (от греч. homуs – одинаковый и уnyma – имя) – разные по значению, но одинаково звучащие и пишущиеся слова, например: «рысь» – способ бега и «рысь» – животное. С точки зрения автоматического разбора особенно сложны не полные омонимы (поскольку они имеют одинаковую словоизменительную схему), а омоформы. Это разные слова, часто являющиеся и разными частями речи, но совпадающие по звучанию в отдельных формах, например: существительное «печь» (печи, печью) и глагол «печь» (пеку, печешь); существительное «раздел» (раздел книги) и глагол «раздел» (раздел донага). Очевидно, что определение семантики в таких случаях можно произвести только по контексту.
Упомянутый выше словарь А. А. Зализняка включает 90 000 слов. Однако в русском языке их больше, кроме того, постоянно появляются новые. Некоторые системы, работающие с учетом морфологии русского языка (например, Яndex), умеют обрабатывать эти слова, используя описанные в словаре Зализняка словообразовательные типы. Результат обработки будет тем лучше, чем больше новое слово похоже на обычные слова языка.
Релевантность
Релевантность – это мера соответствия