» » Палех - новий алгоритм Яндекс

Палех - новий алгоритм Яндекс

2 листопада в блозі Яндекса з'явилася новина про запуск нового алгоритму - Палех . Даний алгоритм створений з метою більш детально розпізнавати запити користувачів. Завдяки йому користувачі зможуть більш точно потрапляти на цільові сторінки, не тільки з аналізу ключових слів, а й по смислового навантаження запиту.
Палех - новий алгоритм Яндекс


За офіційною статистикою Яндекса кожен день пошукова система обробляє 280 млн запитів . Більшість з них повторюються постійно, наприклад, запит "однокласники", але і є частина унікальних запитів, їх близько 100 млн в день. Такі запити практично не повторюються, але все ж вони є і користувачі по ним повинні потрапляти на запитувані веб-ресурси.

Всі запити системи поділяють на три категорії, які в цілому можна уявити у вигляді птаха . Її дзьоб це ті запити, які найбільш часто зустрічаються, ті, які користувачі вводять щодня, це по суті короткі запити. Середньочастотні запити зустрічаються періодично, і це тулуб "птахи". Але в даній статті нас цікавить "хвіст птаха" - істотна частина пошукового потоку, запити, які зустрічаються досить рідко.

Новий алгоритм дозволяє пошуку набагато якісніше відповідати на складні запити з «довгого хвоста». Цей хвіст є у казковій Жар-птиці, яка з'являється на палехской мініатюрі. Тому алгоритм отримав назву Палех.

Якщо аналізувати всі запити з хвоста, то можна навіть виділити кілька груп. Серед них вагому частку займають запити дітей, які ще не вміють правильно користуватися пошуковою системою. Наприклад, запит типу "дорогою яндекс підкажи мультик про котиків", точно належить дитині. Ще є група запитів від людей, який шукають музику або фільм по якомусь уривку. Наприклад, фільм про людину, що летів на місяць і тп.

Рідкісні запити складно аналізувати Яндексу, тому що по них немає поведінкової статистики. Пошукової системі складно зрозуміти які сайти підходять під дані запити, а які ні. Ускладнення і в тому, що далеко не в кожному випадку на релевантної сторінці зустрічаються слова із запиту - адже один і той же сенс у запиті і на сторінці може бути виражений зовсім в різних варіантах.

Для того, щоб по кожному довгому запитом знаходити вірний і відповідей розробники Яндекса вирішили застосувати основи роботи нейронних мереж .

Даний метод машинного навчання став особливо популярним останнім часом. Нейронні мережі добре аналізують картинки, звукову інформацію і текст. В даному випадку вони мають справу з текстами. Аналізуючи поведінку відвідувачів, нейросеть розуміє зв'язок між запитами і заголовками сторінок.

За заявою Яндекса, для розуміння роботи алгоритму, потрібно знати, що будь-якого комп'ютера простіше працювати з числами, а не з текстами. Тому нейронні мережі алгоритму будуть переводити текст в числа . Дана схема дуже складна для розуміння. Але її суть роботи полягає в тому, що мільярди відомих Яндексу заголовків веб-сторінок будуть переводитися в числа, а якщо бути точніше, то в групи з 300 чисел кожна. У підсумку всі документи з бази даних Яндекса отримали координати в трьохсот вимірному просторі.

Спосіб обробки запиту і його зіставлення з відповідними відповідями отримали назву семантичного вектора . Це добре працює у випадках, коли запит є виду «довгого хвоста». Семантичні вектори дозволяють якісніше знаходити відповіді на складні і довгі низькочастотні запити, за якими дуже мало статистики по користувачах. Більш того, представляючи запит і веб-сторінку у вигляді вектора в 300-х просторі, можна зрозуміти, що вони добре відповідають один одному, навіть якщо у них немає жодного схожого слова.

Даний семантичний вектор за заявою пошукової системи почали використовувати ще кілька місяців тому. Про те, як відбувалося навчання нейронної мережі опублікована навіть спеціальна стаття .

Семантичний вектор застосовується не тільки в пошуковому сервісі, але і в Картинках для здійснення більш точного пошуку.

Дана технологія має величезний потенціал і має велике майбутнє. Наприклад, переводити в такі вектори можна не тільки заголовки, а й повні тексти документів. Це дасть можливість ще більш точно зіставляти запити і сторінки.


177 24.11.16



Напівжирний Нахилений текст Підкреслений текст Перекреслений текст | Вирівнювання по лівому краю По центру Вирівнювання по правому краю | Вставка смайликів Вибір кольору | Прихований текст Вставка цитати Перетворити вибраний текст з транслітерації в кирилицю Вставка спойлеру