Не такий уже й розумний: найефективніші моделі штучного інтелекту "збиваються" через простий прийом, який придумали дослідники.

Технологія

Навіть найменша деталь може вивести мовні моделі з ритму і призвести до помилок.

У Apple з’ясували, що великі системи штучного інтелекту "мислять" значно гірше, ніж це передбачалося. Інформацію про це опублікував сайт Futurism.

Слово "міркування" сьогодні широко використовується в сфері штучного інтелекту, особливо коли розробники презентують можливості своїх інноваційних мовних моделей. Як і термін "інтелект", його важко чітко визначити, а можливості — точно оцінити. Однак компанія Apple провела дослідження, яке показало, що здібності мовних моделей є досить обмеженими, і вони суттєво знижуються, щойно завдання стає дещо складнішим.

У своїх дослідженнях науковці детально проаналізували бенчмарк GSM8K — популярний набір даних, який слугує для оцінки розумових здібностей штучного інтелекту та включає тисячі математичних завдань, призначених для учнів початкової школи. Вражаюче, але виявилося, що навіть незначні зміни в умовах завдань — такі як заміна цифри або імені персонажа, чи додавання неістотної деталі — призводять до значного збільшення кількості помилок з боку ШІ. Іншими словами, будь-яке коригування запитання, яке не змінює його суть, здатне порушити роботу моделі.

На думку науковців, це свідчить про те, що штучні інтелекти не думають так, як люди, і не володіють логічним мисленням. Замість цього вони лише повторюють ті ж самі етапи та послідовності, які були представлені в навчальних наборах даних.

Наприклад, команда з Apple згадала про математичну задачу:

Олівер у п'ятницю зібрав 44 ківі. У суботу він додав ще 58. А в неділю його улов склав вдвічі більше, ніж у п'ятницю, проте п'ять з цих ківі були трохи меншими за стандартний розмір. Скільки ківі має Олівер у підсумку?

Розмір ківі не має жодного значення для вирішення поставленої задачі, однак більшість моделей звертали увагу на такі незначні деталі, що призводило до систематичних помилок. Наприклад, модель "o1-mini" (раніше відома як Strawberry) компанії OpenAI вирішила відняти менші ківі з підсумкової суми.

За підрахунками дослідників, загалом точність моделей ШІ знизилася з 17,5% до приголомшливих 65,7% залежно від моделі. А в ще простішому тесті дослідники виявили, що просте виключення таких деталей, як власні імена або числа, призвело до значного зниження здатності моделі правильно відповідати на запитання: точність знизилася з 0,3% до майже 10% у 20 найкращих моделях міркувань.

Раніше повідомлялося, що штучний інтелект починає дистанціюватися від людського способу мислення. Нова модель OpenAI o1 тепер використовує метод проб і помилок для пошуку коректних відповідей на запитання.

Експеримент Модель Apple Inc.Штучний інтелект Розвідка Ківі OpenAI Бенчмарк (обчислення)Міркування