Деякі роздуми про безкоштовне оновлення перекладу PDF, поговоримо про те, чому ми відмовилися від половинної ціни Gemini

Сьогодні я хочу провести відверту розмову з вами, перш за все, висловити щирі вибачення кожному, хто постраждав від нещодавнього поганого досвіду нашого безкоштовного продукту.

Протягом останнього часу ми отримали велику кількість негативних відгуків про досвід безкоштовної версії. Ми почули ці голоси і відчули їх. Багато користувачів зазначили, що "час очікування в години пік просто неймовірний"; перекладені документи "якість перекладу дуже нестабільна", то краща, то гірша; деякі скаржилися, що переклад "мішаний англійською та китайською, читати важко", наповнений незабутнім "враженням машинного перекладу".

Кожного разу, коли ми бачимо ці відгуки, наша команда відчуває велику провину. Ми повністю розуміємо, що коли вам терміново потрібен важливий науковий документ або робочий звіт, але ви змушені стикатися з тривалим очікуванням і неясним, логічно заплутаним перекладом, це викликає розчарування і невдоволення. Це зовсім не те, що ми хочемо, щоб Doclingo приносив вам, і це повністю суперечить нашій меті створення цього продукту.

Doclingo з самого початку використовував модель безкоштовного доповнення, оскільки ми віримо, що якісний переклад документів не повинен бути привілеєм небагатьох. Ми хочемо, щоб через достатньо зручну безкоштовну версію більше людей могли подолати мовні бар'єри і отримати доступ до передових знань та інформації. Однак поганий безкоштовний досвід не лише не може утримати користувачів, але й є зрадою довіри. Саме це усвідомлення змусило нас вирішити: ми повинні повністю вирішити ці проблеми, не зважаючи на витрати.

Після численних внутрішніх обговорень і технічних оцінок ми дійшли висновку: поточний AI-двигун, що використовується в безкоштовній версії, вже не може відповідати нашим зобов'язанням щодо якості та ефективності. Єдиний спосіб вирішити проблеми з чергами та якістю перекладу — це замінити його на більш потужний AI-двигун — справжній двигун, який заслуговує на наших користувачів.

Це рішення поставило нас на важкий роздоріжжя. Найкращі AI-двигуни на ринку — це, в основному, серії GPT від OpenAI та серії Gemini від Google. Вони обидва представляють найвищий рівень сучасного штучного інтелекту, але стиль, вартість і результати в конкретних завданнях перекладу мають свої особливості.

Отже, ця стаття має на меті поділитися з вами повним процесом роздумів, що стоїть за нашим рішенням про це значне оновлення: як ми робили важкий вибір між цими двома провідними AI-двигунами? Чому ми врешті-решт відмовилися від Gemini, вартість якого вдвічі нижча, і вибрали дорожчий варіант?

Ми сподіваємося, що через цю прозору комунікацію ми не лише вибачимося за поганий досвід у минулому, але й покажемо вам нашу рішучість і зобов'язання щодо покращення продукту.

Досвід чи вартість?

Я щодня думаю про те, як створити більше цінності для користувачів. Але в бізнес-світі за створенням цінності завжди стоїть невидимий рахунок витрат. Коли Doclingo вирішив оновити основний двигун перекладу, наша команда опинилася на такому важкому роздоріжжі: з одного боку, величезна спокуса знизити витрати майже вдвічі, з іншого — досвід користувачів, якого ми завжди дотримувалися.

Кожен, хто відповідає за прибуток і збитки продукту, розуміє, що контроль витрат — це меч, що висить над головою. Коли ми оцінювали нові великі моделі двигунів, перед нами постала дуже приваблива опція — серія Gemini від Google.

Чесно кажучи, цінова стратегія Gemini була для нас дуже привабливою. Згідно з нашим дослідженням, витрати на вибір Gemini нижчі, ніж на GPT, простий підрахунок показує, що якщо перейти на Gemini, наші витрати на виклик основного двигуна можуть знизитися майже вдвічі. Для Doclingo, який щодня обробляє величезну кількість запитів на переклад, ця економія є досить значною. Ці гроші можна вкласти в маркетинг, розвиток команди або безпосередньо відобразити в більш гнучкій ціновій стратегії. З огляду на таку величезну перевагу в витратах, сказати, що ми не були вражені, було б абсолютно неправдою.

Однак після запеклих внутрішніх обговорень ми врешті-решт ухвалили рішення, яке здавалося "економічно невигідним": дотримуватися досвіду, вибрати GPT.

Тому що у нас є достатні підстави.

Три причини вибору GPT

1. Точне розуміння академічної термінології

Для будь-якого перекладного інструменту, орієнтованого на науку та академічну сферу, точне розуміння професійної термінології є його основою. Це не лише стосується перекладу "вірно, зрозуміло, елегантно", але й безпосередньо визначає, чи може бути точно передана основна цінність документа.

У цьому глибокому оцінюванні один яскравий приклад справив на нас велике враження. Коли ми перекладали документ з області конденсованої матерії, ми зіткнулися з терміном, що часто вживається: "pair distribution function".

Переклад GPT: "функція розподілу пар"
Переклад Gemini: "функція парного розподілу"

На перший погляд, "парний" здається ближчим до первісного значення "pair", це дуже інтуїтивний і розумний переклад. Однак для вчених і студентів цієї області "функція розподілу пар" є тим, що є загальноприйнятим терміном. Ця маленька різниця, як межа, чітко розділяє "зовнішніх" і "внутрішніх". Переклад Gemini, хоча і не є помилковим, все ж видає певну жорсткість "машинного перекладу", тоді як GPT демонструє глибоке розуміння знань у конкретній академічній сфері.

Ця різниця не є поодинокою. Дослідження показують, що в медичних, наукових та інших високоспеціалізованих областях моделі рівня GPT-4 часто перевершують конкурентів у точності при обробці складних концепцій і термінів. Наприклад, у порівняльних оцінках GPT-4 продемонстрував вищу правильність і менше серйозних помилок при відповіді на складні клінічні питання. Хоча відповіді Gemini іноді легше зрозуміти, це часто відбувається за рахунок технічної точності. Така тенденція "жертвувати точністю заради легкості читання" є вкрай небезпечною в академічному перекладі.

Ми добре знаємо, що основні користувачі Doclingo — це численні науковці та студенти, які щодня мають справу з цими високоспеціалізованими термінами. Для вас "незначна" помилка в термінах може призвести до "величезної" помилки в розумінні. Неправильний термін не лише перериває потік читання, змушуючи вас зупинитися, щоб перевірити чи здогадатися, але й може спотворити основну думку автора оригіналу, навіть ввести вас в оману щодо напрямку вашого дослідження. Точні терміни є основою академічної строгості та життєво важливими для підвищення ефективності читання документів.

Модель GPT здатна досягти цього не випадково. Її потужні когнітивні та логічні здібності були підтверджені визнаними тестами, такими як MMLU (масштабне багатозадачне мовне розуміння). Наприклад, навіть легка версія GPT досягла вражаючого балу 82.0% у MMLU, що свідчить про її глибокі знання в розумінні та логіці в багатьох академічних сферах. Саме ця потужна "освітня база" дозволяє їй під час перекладу перевершувати буквальне значення, точно вловлюючи правильні вирази в контексті конкретної дисципліни.

Отже, коли ми бачимо "функцію розподілу пар" як точний переклад, ми знаємо, що за цим стоїть глибоке розуміння професійних знань. Щоб зберегти цю "точність" і "строгість" в академічному спілкуванні, ми вважаємо, що вибір GPT є єдино правильним рішенням.

2. Китайський контекст

Ми добре знаємо, що хороший інструмент не лише має бути потужним, але й "розуміти" користувача. У контексті перекладу академічних документів "розуміти" означає глибоко усвідомлювати звички читання та культурний контекст китайських читачів. Здається, незначна деталь може визначити якість користувацького досвіду, навіть вплинути на професіоналізм всього продукту. І в цьому порівнянні різниця між GPT і Gemini в обробці імен авторів є відмінним прикладом "істини в деталях".

Коли ми передали документ з автором "Xiaohao Yang" для перекладу обом моделям, з'явилася приємна деталь: GPT майже "зрозумів" і відновив це ім'я в китайському варіанті "杨晓浩", тоді як Gemini просто зберіг оригінальну піньїнь. Ця різниця, хоч і невелика, але суттєва. Для будь-якого китайського читача, особливо при читанні перекладу, що відповідає стандартам китайських журналів, бачити знайоме китайське ім'я замість довгого рядка піньїнь — це зовсім інший рівень плавності та близькості. Це не просто переклад, це культурна чутливість, повага до "людини".

Чому GPT може це зробити? За цим стоять його потужні здібності до розуміння контексту та розпізнавання іменованих сутностей (NER). Дослідження показують, що GPT-4 досяг рівня початкового людського перекладача в загальній якості перекладу і має чутливість до оцінки якості перекладу, що означає, що він не просто виконує механічну заміну слів, а розуміє глибокий зміст тексту. При обробці імен, як спеціальних термінів, GPT може точніше використовувати контекстуальні підказки для прийняття рішень. Наприклад, у дослідженні, що стосується розпізнавання імен у російських культурних новинах, GPT продемонстрував F1-оцінку 0.93, що свідчить про його видатні результати в конкретних мовах та типах сутностей. Ця здатність дозволяє йому, коли він стикається з "Xiaohao Yang", припустити, що це, ймовірно, китайський автор, і спробувати знайти найбільш відповідну комбінацію китайських ієрогліфів у своїй базі знань, врешті-решт успішно "вгадати" "杨晓浩". Це інтелект на основі ймовірності та контексту, а не просте правило.

На відміну від цього, Gemini в даному випадку підтверджує деякі проблеми, виявлені в відповідних дослідженнях. Хоча Gemini демонструє відмінні результати в деяких завданнях NER (наприклад, розпізнавання контекстно чутливих імен), він часто виявляє непослідовність, помилки або пропуски при обробці спеціальних термінів. Дослідження вказують на недостатню точність Gemini при обробці імен, географічних назв та інших спеціальних термінів, що призводить до пропусків або помилок. Наприклад, при перекладі класичних текстів він може неправильно перекласти спеціальне ім'я "佛國白禪師" на описове речення. Тому, що Gemini не зміг відновити "Xiaohao Yang" у китайському варіанті, ймовірно, є наслідком нестабільності в обробці спеціальних термінів і недостатньої глибини контекстуального розуміння.

Ця маленька різниця в перекладі імені має для нас велике значення. Це не лише доказ технічної переваги, але й відображення "тепла" продукту. Модель, яка "розуміє" китайський контекст, може передбачити потенційні потреби користувачів — у китайському світі ми звикли звертатися до людей за іменем. Відновлення піньїнь імені китайського автора в ієрогліфи є підтвердженням особи автора та відповіддю на звички читання китайських читачів. Ця "розумність" і "чутливість" в деталях можуть значно підвищити занурення та довіру користувачів у контексті глибокого читання.

3. Розуміння контексту

У наших відгуках користувачів є одне спостереження, яке дуже точно вказує на основну різницю в стилі між двома основними моделями: "Особливість Gemini полягає в тому, що інформації занадто багато, іноді це призводить до надмірної багатослівності. А вираз GPT більш стиснутий."

Ця оцінка влучно вказує на суть. Для академічного та документального перекладу, де важливі ефективність і глибина, "стислість" не є просто естетичним аспектом, вона безпосередньо пов'язана з "відчуттям міри" — знанням, коли бути детальним, а коли стриманим, щоб максимізувати ефективність передачі інформації. Коли ви стикаєтеся з величезною кількістю документів, найцінніше — це час. Перекладач, який розуміє "відчуття міри", може швидко виділити зайву інформацію, зосередитися на основних аргументах, а не загромаджувати вас деталями. Це стосується не лише точності, але й ефективності читання та когнітивного навантаження.

Отже, звідки береться це "відчуття міри"? Воно походить з глибокого, глобального розуміння контексту моделлю. Цікаво, що хоча Gemini відомий своїм величезним контекстуальним вікном, яке налічує мільйони токенів, теоретично здатним "бачити" далі, на практиці збереження єдиного стилю та емоційного тону стало викликом. Дослідження показують, що Gemini може послаблювати емоційний колорит оригіналу, його стильова послідовність виявляє значну варіативність. Іноді він навіть може заплутати сюжет у тривалих наративних текстах, що призводить до "стильового зсуву".

На відміну від цього, GPT, хоча також має контекстуальне вікно на 128K токенів, демонструє кращі результати в збереженні емоційного тону та стилістичної послідовності. Багато досліджень показують, що виходи GPT емоційно ближчі до перекладів людських експертів і мають більшу резонансність. Він краще підтримує єдиний наративний голос, демонструючи "найбільшу послідовність і надійність". Ця стабільність виходу, вірність оригінальному духу, є відмінним прикладом "відчуття міри". Він розуміє, що хороший переклад — це не просто накопичення інформації, а вибіркове, акцентоване представлення.

З іншого боку, ми також можемо підтвердити цю різницю. Ми помітили, що деякі користувачі скаржилися, що фільтри безпеки Gemini іноді занадто "чутливі", перериваючи переклад через окремі слова, навіть у цілком нормальних академічних чи історичних текстах. Це в певній мірі також відображає деякі недоліки моделі в розумінні реального контексту та відчутті "міри" — вона бачить "дерева" (чутливі слова), але не розуміє "ліс" (академічний контекст).

Отже, справжнє розуміння контексту полягає не лише в здатності обробляти довгі тексти, але й у тому, наскільки глибоко можна зрозуміти наміри, тон і стиль тексту та відтворити їх у відповідний спосіб. Для нас, дослідників у морі знань, AI-партнер, який має "відчуття міри", є набагато ціннішим, ніж просто "бібліотека" інформації.

Перспективи та зобов'язання: новий початок, кращий досвід

Після детального пояснення нашого важкого, але рішучого вибору, я з великим хвилюванням оголошую: безкоштовна послуга перекладу, що інтегрує новий двигун GPT, наразі перебуває на останньому етапі внутрішнього тестування і буде запущена для всіх користувачів на цьому тижні!

Це означає, що проблеми, з якими ви довгий час скаржилися, такі як надмірний час очікування та нестабільна якість перекладу в години пік, будуть значно зменшені. Ми добре знаємо, що кожна хвилина очікування виснажує вашу терплячість, а кожен незадовільний результат перекладу підриває вашу довіру. Це оновлення покликане покласти край всьому цьому.

Прийняття цього рішення було нелегким. Вибір дорожчого варіанту для команди, яка все ще розвивається, означає величезний тягар. Але ми постійно запитували себе: у чому сенс існування Doclingo? Відповідь завжди була однією: створювати цінність для користувачів. Ми віримо, що видатний і надійний користувацький досвід є ядром і душею продукту, і ніколи не повинен бути затьмарений витратами. Тому це оновлення є не лише технічною ітерацією, але й серйозним виконанням нашого зобов'язання "перш за все, користувач". Ми готові вкласти більше, щоб забезпечити вам ту безтурботну зосередженість і плавність під час читання документів.

Звичайно, новий початок потребує нашої спільної участі. Потужніший двигун — це лише початок, а ваші реальні враження є єдиним критерієм оцінки нашої роботи. Тому ми щиро запрошуємо кожного користувача після запуску нового двигуна насолоджуватися ним, використовувати його та оцінювати.

Чи стали довгі складні абзаци більш природними, плавними, вірними "відчуттю міри" оригіналу?
Чи зникли ті набридливі проблеми з плутаниною імен та назв організацій?
Чи став ваш переклад дисертації більш точним і професійним?

Будь ласка, поділіться своїм реальним досвідом через канали зворотного зв'язку в продукті. Ваше кожне "подобається" є для нас найбільшою підтримкою; ваша кожна критика є найціннішим двигуном для нашої оптимізації та ітерації. Ми обіцяємо уважно прочитати та проаналізувати кожен відгук і включити його в нашу майбутню дорожню карту продукту, створивши прозорий і ефективний цикл зворотного зв'язку.

Це не лише кінець оновлення, але й початок спільної роботи над створенням провідного перекладного інструменту. Ми впевнені в майбутньому і сподіваємося разом з вами свідчити про кожен прогрес Doclingo.