32.973.202 Ч-90 Чумак, Д. Нерезированный поиск : Ищем идеальную поисковую систему с ELASTICSEARCH / Д. Чумак> // Хакер. - 2015. - май (№ 196). - С. 132-137 : фот. - 16+
Рубрики: Компьютерные системы--Программное обеспечение компьютерных систем Кл.слова (ненормированные): текстовые данные -- полнотекстовый поиск -- поисковые бренды -- анализатор для обработки данных -- стемминг Аннотация: Стемминг-нахождение основы слова для заданного исходного слова. Основа необязательно совпадает с морфологическим корнем слова. Лемматизация-приведение слова к нормальной (словарной) форме. Для существительных это именительный падеж и единственное число. Корпус- в лингвистике корпусом называется совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту. Стоп-слова, или шумовые слова,- предлоги, суффиксы, междометия, цифры, частицы и подобное. N-грамма- последовательность из n элементов. С семантической точки зрения это может быть последовательность звуков, слогов, слов или букв. Держатели документа: Чувашская республиканская детско-юношеская библиотека |