@kyrillic

Про AI в задачах реального мира, ч.1: бухгалтерия

Недавно мы делали опрос "когда будет налоговый AI супер агент", где многие из вас оказались очень оптимистичны. На эту тему есть интересная работа AccountingBench, где описана качественная попытка сравнить модели для bookkepping обычного SaaS стартапа.

Результаты грустные!

photo_2025-09-20 12

1️⃣ Взяли транзакции реального стартапа за год и сравнили с точностью рядового CPA (бухгалтера).

В первый месяц LLM делали минимум ошибок, но позже расхождения копились. Что быстро привело к по сути полностью некорректным данным.

Некоторые модели не справились даже с первым месяцем.

LLM в какой-то момент начинали выдумывать транзакции, подгонять цифры и искать способы успешно обходить проверки.

2️⃣ Самое главное: bookkeeping - это самая дешевая часть работы CPA! А дорогая - это его ответсвенность за результат. То есть CPA в США может брать $200/час именно потому что имеет материальную ответственность за то, что подано в налоговую.

Bookkeeping многие стартапы очень дешево делегируют в страны вроде Филиппин. И даже с такой работой LLM не справляется. И непонятно, как должны улучшиться модели, чтобы получалось делать такую простую работу.

3️⃣ В AccountingBench много интересных деталей, в частности опубликован полный системный промпт (гитхаб).

AccountingBench очень хорошо демонстрирует пропасть между умозрительными бенчмарками (которые мы читаем в сми) и задачами реального мира (которые и должны решать фаундеры).

Предыдущие посты (о том, как не работают AI агенты 🙂) - раз, два.

@kyrillic

https://t.me/kyrillic/1526

#AI #стартапы