Привелось мне в начале девяностых работать в очень амбициозной
творческой программерской команде. Интернет в эмбриональном состоянии,
наработок и технологий кот наплакал. Наша звёздная команда
(лингвисты-профессионалы, профессора и доктора наук, со словарями и
опытом, при этом отличные программеры) разрабатывала систему
русскоязычного полнотекстового поиска. Вкратце о поиске с учётом
морфологии: задача состоит в том, чтобы найти каждое слово из
пользовательского запроса во всех формах, падежах и склонениях; к
примеру, «иду», «идёшь» и «шли» — формы глагола «идти». Для этого при
индексации страниц надо было привести каждое из встречающихся слов к
основе. Сейчас это воспринимается как само собой разумеющееся, но в то
время ни Гугла, ни Яндекса ещё не было. Написали — пора
отлаживать. Нужен текст приличного размера. Начало девяностых, начало
Рунета, начало российской государственности; как результат, лучшим
текстом, найденном в почти девственном отечественном кусочке интернета,
оказалась свежеиспеченная Конституция РФ. Ура — запускаем! По
задумке движок должен выдать в алфавитном порядке список основ,
встречающихся в предложенном тексте. Народ толпится у монитора, жадно
вчитываясь в каждое очередное слово. Через несколько секунд раздаётся
дружный хохот — в середине первой же страницы гордо красуется глагол
«АДЫГЕТЬ». Прежде чем окончательно сползти под стол, на излёте успеваем
заметить еще один не менее шедевральный глагол «АЛТАТЬ»...
Прозрение пришло быстро — всё-таки профессиональные лингвисты.
Вспомнили классику типа «дочь генерала» (кто? — дочь, что делала? —
генерала), а также географию великой российской империи — республики
Адыгею и Алтай. В общем, как писал известный сатирик Александр
Иванов, «велик могучим русский языка». Адыгев от выкрутасов поискового
движка, после работы всем коллективом мы отправились алтать.
|