無料PDF翻訳のアップグレードに関する考察、なぜ半額のGeminiを放棄したのか

今日は皆さんと率直にコミュニケーションを取りたいと思います。まず、私たちの無料版製品の最近のひどい体験について、影響を受けたすべての方々に心からお詫び申し上げます。

ここ最近、私たちは無料版の体験に関する多くの否定的なフィードバックを受け取りました。これらの声はすべて私たちに届いており、私たちも共感しています。多くのユーザーが、ピーク時の「待機時間が異常に長い」と言及し、翻訳された文書の「翻訳品質が非常に不安定」であると述べ、時には良く、時には悪いと感じています。また、訳文が「中英混在で読みづらい」と不満を漏らし、機械翻訳の感覚が拭い去れないと感じている方もいます。

これらのフィードバックを見るたびに、私たちのチームは深い罪悪感を抱きます。重要な学術文献や業務報告書が急に必要なときに、長い待機時間と意味不明で論理が混乱した訳文に直面することがどれほど失望と落胆をもたらすか、私たちは完全に理解しています。これは決して私たちがDoclingoに望んでいる体験ではなく、この製品を立ち上げた目的にも完全に反しています。

Doclingoは最初から無料のプレミアムモデルを採用しており、高品質の文書翻訳は少数の特権ではないと信じています。私たちは、十分に使いやすい無料版を通じて、より多くの人々が言語の壁を越え、最前線の知識や情報にアクセスできるようにしたいと考えています。しかし、ひどい無料体験はユーザーを引き留めることができず、皆さんの信頼を裏切ることになります。この認識が、私たちを決意させました：これらの問題を徹底的に解決しなければならないと。

内部での繰り返しの議論と技術評価を経て、私たちは一つの結論に達しました：現在の無料版で使用されているAI翻訳エンジンは、私たちの品質と効率に対する約束を支えることができなくなっています。待機時間と翻訳品質の問題を根本的に解決する唯一の方法は、より強力なAIエンジンに切り替えることです——本当に私たちのユーザーにふさわしいエンジンです。

この決定は、私たちを困難な岐路に導きました。市場で最も優れたAIエンジンは、主にOpenAIのGPTシリーズとGoogleのGeminiシリーズから来ています。どちらも現在の人工知能の最高レベルを代表していますが、スタイル、コスト、特定の翻訳タスクにおけるパフォーマンスはそれぞれ異なります。

したがって、この記事では、私たちがこの重要なアップグレードの決定を下す際の完全な思考過程を共有したいと思います：私たちはどのようにこの2つのトップAIエンジンの間で難しい選択を行ったのか？なぜ私たちはコストが半分のGeminiを放棄し、より高価な選択をしたのか？

私たちは、この透明なコミュニケーションを通じて、過去の不満な体験に対する謝罪だけでなく、製品体験を向上させるための決意と約束を皆さんに示したいと考えています。

体験かコストパフォーマンスか？

私は毎日、ユーザーにより多くの価値を提供する方法を考えています。しかし、ビジネスの世界では、価値を創造する背後には常に目に見えないコストの請求書があります。Doclingoがコア翻訳エンジンをアップグレードすることを決定したとき、私たちのチームはこのような困難な岐路に立たされました：一方にはコストをほぼ半分に抑える巨大な誘惑があり、もう一方には私たちが常に守ってきたユーザー体験があります。

製品の利益と損失に責任を持つ人は誰でも、コスト管理が頭上にぶら下がるダモクレスの剣であることを理解しています。新しい大規模モデルエンジンを評価する際、私たちの前には非常に魅力的な選択肢がありました——GoogleのGeminiシリーズです。

率直に言って、Geminiの価格戦略は私たちにとって非常に魅力的です。私たちの調査によれば、Geminiを選択するコストはGPTよりも低く、単純に計算すると、Geminiに切り替えればコアエンジンの呼び出しコストをほぼ半分に削減できることがわかりました。Doclingoのように毎日大量の翻訳リクエストを処理するアプリケーションにとって、この節約はかなりの額になります。このお金はマーケティング、チーム構築、またはより柔軟な価格戦略に直接反映されることができます。このような大きなコストの利点に直面して、私たちが心を動かされなかったと言うのは絶対に嘘です。

しかし、激しい内部議論の後、私たちは最終的に「経済的ではない」ように見える決定を下しました：体験を守り、GPTを選択することです。

なぜなら、私たちには十分な理由があるからです。

GPTを選ぶ3つの理由

1. 学術用語の正確な把握

研究や学術分野向けの翻訳ツールにとって、専門用語の正確な把握はその存在意義の根本です。これは翻訳の「信、達、雅」に関わるだけでなく、文献の核心的価値が正確に伝わるかどうかを直接決定します。

今回の詳細な評価の中で、私たちのチームに強い印象を与えた生きた例があります。凝縮系物理学の文献を翻訳する際に、高頻度の用語「pair distribution function」に出会いました。

GPTの翻訳は：「対分布関数」
Geminiの翻訳は：「配対分布関数」

字義的には、「配対」は「pair」の原意に近いように思えますが、特定の分野の学者や学生にとっては、「対分布関数」がその心の中での共通理解であり、慣用句です。この小さな違いは、まるで境界線のように「局外者」と「業界の人」を明確に分けます。Geminiの翻訳は字面上間違ってはいませんが、機械翻訳の感覚が漂っており、GPTは特定の学術分野の知識を深く理解していることを示しています。

このような違いは孤立したものではありません。研究によれば、医学や科学などの高度に専門化された分野では、GPT-4レベルのモデルが複雑な概念や用語を処理する際に、その正確性と厳密性が競合製品よりも優れていることが多いとされています。例えば、比較評価において、GPT-4は難易度の高い臨床問題に対する回答でより高い正確性と少ない重大な誤りを示しました。Geminiの回答は時には理解しやすいですが、これはしばしば技術的な正確性を犠牲にすることになります。この「読みやすさのために正確性を犠牲にする」傾向は、学術翻訳において非常に危険です。

私たちは、Doclingoのコアユーザーである広範な研究者や学生が、毎日これらの高度に専門的な用語と向き合っていることを深く理解しています。あなたにとって、用語の「わずかな誤り」が理解の「大きな誤り」を引き起こす可能性があります。正確な用語は、学術的な厳密性を保証する基盤であり、文献の読解効率を向上させる命綱です。

GPTモデルがこれを実現できるのは偶然ではありません。その強力な認知と推論能力は、業界で公認されているMMLU（大規模多タスク言語理解）などのベンチマークテストで十分に検証されています。例えば、軽量版のGPTでさえ、そのMMLUスコアは驚異的な82.0%に達しており、これは多くの学術分野における理解と推論能力の深い蓄積を証明しています。この強力な「学識の基盤」があるからこそ、翻訳時に字義を超えて特定の学科の文脈における正しい表現を正確に捉えることができるのです。

したがって、「対分布関数」という正確な訳を見たとき、私たちはこの背後にモデルの専門知識の深い理解があることを知っています。この学術交流における「正確さ」と「厳密さ」を守るために、私たちはGPTを選ぶことが唯一の正しい答えだと考えています。

2. 中国語の文脈

私たちは、良いツールは機能が強力であるだけでなく、ユーザーを「理解する」必要があることを深く理解しています。学術文献翻訳のシーンにおいて、「理解する」とは、中国語の読者の読書習慣や文化的文脈を深く理解することを意味します。一見些細なディテールが、ユーザー体験の良し悪しを決定し、製品全体の専門性に影響を与えることがあります。この比較の中で、GPTとGeminiが華人著者の名前を処理する際の違いは、まさに「細部に真実が見える」絶好の例です。

「Xiaohao Yang」という著者を含む文献をそれぞれのモデルに翻訳させたとき、驚くべきディテールが現れました：GPTはほぼ「心が通じ合う」ようにこのピンイン名を中国語の「杨晓浩」に戻しましたが、Geminiはただ原文のピンインをそのまま保持しました。この違いは小さいですが、核心を突いています。中国語の読者にとって、特に中国のジャーナルのレイアウト習慣に合った翻訳を読む際に、馴染みのある中国語の名前を見ることは、長いピンインの列を見ることとはまったく異なる流暢さと親しみをもたらします。これは単なる翻訳ではなく、文化的な配慮であり、「人」に対する尊重です。

なぜGPTはこれを実現できるのでしょうか？その背後には、強力な文脈理解と命名実体認識（NER）能力が働いています。研究によれば、GPT-4は全体的な翻訳品質において初級の人間翻訳者のレベルに達しており、鋭い翻訳品質評価能力を備えています。これは、単に機械的な語の置き換えを行うのではなく、テキストの背後にある深い意味を理解していることを意味します。人名のような固有名詞を処理する際、GPTは文脈の手がかりをより正確に利用して判断することができます。例えば、ロシア語の文化ニュースにおける人名認識に関する研究では、GPTは適切なプロンプトを通じてF1スコアが0.93に達し、特定の言語と実体タイプにおける卓越したパフォーマンスを示しました。この能力により、「Xiaohao Yang」に出会ったとき、これはおそらく華人著者であると推測し、彼の中国語の知識ベースから最も適切な漢字の組み合わせを探し出し、最終的に「杨晓浩」を正しく「推測」することができました。これは確率と文脈に基づく知性であり、単なるルールマッチングではありません。

対照的に、Geminiのここでのパフォーマンスは、関連研究で発見された問題を裏付けています。Geminiは特定のNERタスク（文脈に敏感な人名の認識など）で優れたパフォーマンスを示す一方で、固有名詞を処理する際には一貫性が欠けたり、誤訳や漏訳が発生することがよくあります。研究によれば、Geminiは人名や地名などの固有名詞を処理する際に正確性が不足し、漏れや誤訳が発生しやすいことが指摘されています。例えば、古典文献を翻訳する際、「佛国白禪師」のような固有名詞を説明的な文に誤訳することがあります。したがって、「Xiaohao Yang」を中国語に戻せなかったのは、固有名詞の処理における安定性の不足と文脈判断の深さが不十分であることを示しています。

この小さな名前の翻訳の違いは、私たちにとって重要な意味を持ちます。それは単なる技術の優劣の証明ではなく、製品の「温度」を示すものです。中国語の文脈を理解するモデルは、ユーザーの潜在的なニーズを予測することができます——中国の世界では、私たちは名前を直接呼ぶことに慣れています。華人著者のピンイン名を漢字に戻すことは、著者のアイデンティティの確認であり、中国語の読者の読書習慣に従うことでもあります。このような細部における「賢さ」と「配慮」は、ユーザーが深く読書する場面での没入感と信頼感を大いに高めることができます。

3. 文脈の理解

私たちのユーザーフィードバックの中には、非常に鋭い観察があり、現在の2つの主流モデルのスタイルの核心的な違いを正確に指摘しています：「Geminiの特徴は情報量が非常に多く、すべての角標を翻訳しようとするため、時には文章が冗長になりすぎる。一方、GPTの表現はより凝縮されている。」

この評価は核心を突いています。効率と深さを追求する学術および文献翻訳のシーンにおいて、「凝縮」は単なる美しい言葉ではなく、「分寸感」に直接関係しています——いつ詳細に、いつ抑制するかを知り、情報伝達の効率を最大化する知恵です。膨大な文献資料に直面したとき、最も貴重なのは時間です。「分寸感」を理解する翻訳アシスタントは、冗長な情報を迅速に剥ぎ取り、核心的な論点に直撃することができます。これは正確性だけでなく、読書効率と認知負荷にも関わります。

では、この「分寸感」はどこから来るのでしょうか？それはモデルの文脈に対する深い理解から来ています。興味深いことに、Geminiは百万トークンの超大規模な文脈ウィンドウで知られ、理論的には「より遠くを見る」ことができますが、実際の長文翻訳では一貫したスタイルと感情の基調を維持することが課題となっています。研究によれば、Geminiは翻訳プロセス中に原文の感情的な色合いを弱める可能性があり、そのスタイルの一貫性は大きな変動を示します。時には、長時間の物語の中でプロットを混同し、「スタイルの漂流」が発生することもあります。

対照的に、GPTは同様に128Kトークンの文脈ウィンドウを持っていますが、感情の基調と文体の一貫性を維持する点でより優れたパフォーマンスを示しています。多くの研究が示すように、GPTの出力は感情的に人間の専門家の翻訳に近く、共鳴感を持っています。意味、文の構造、文脈の一貫性において「最も一貫して信頼できるモデル」です。この安定した出力と原文の神韻に忠実な能力は、「分寸感」の絶好の表れです。良い翻訳は情報の積み重ねではなく、選択的で重点的な提示であることを理解しています。

別の側面からもこの違いを裏付けることができます。私たちは、いくつかのユーザーがGeminiの安全フィルターが時に「過敏すぎる」とフィードバックしていることに気付きました。完全に正常な学術的または歴史的なテキストを処理する際に、特定の語彙のために翻訳が中断されることがあります。これは、モデルが実際の文脈を理解し、「分寸」を把握する上でのいくつかの不足を反映しています——それは「木」（敏感な語）を見ているが、全体の「森」（学術的文脈）を理解していないのです。

要するに、真の文脈理解は、どれだけ長いテキストを処理できるかだけでなく、テキストの意図、トーン、スタイルをどれだけ深く理解し、それを適切な方法で再現できるかにかかっています。知識の海を航行する私たちにとって、「分寸感」を持つAIパートナーは、単に情報を提供する「データベース」よりもはるかに価値があります。

展望と約束：新たな始まり、より良い体験

私たちが困難だが確固たる選択を詳細に説明した後、今、私は非常に興奮した気持ちで皆さんに正式に発表します：新しいGPTエンジンを統合した無料翻訳サービスが、現在内部テストの最終段階にあり、今週中にすべてのユーザーに向けて全面的に公開されます！

これは、皆さんが長い間私たちに不満を持っていた待機時間の長さや、ピーク時の翻訳品質の不安定さなどの問題が大幅に緩和されることを意味します。私たちは、待つ1分1秒があなたの忍耐を消耗し、満足できない翻訳結果があなたの信頼を裏切ることを深く理解しています。このアップグレードは、すべてを終わらせるためのものです。

この決定を下すことは容易ではありませんでした。コストの高い選択をすることは、成長中のチームにとって大きなプレッシャーを意味します。しかし、私たちは繰り返し自問しました：Doclingoの存在意義は何ですか？答えは常に同じです：ユーザーに価値を創造することです。私たちは、卓越した信頼性のあるユーザー体験こそが製品の核心であり、魂であると信じています。どんな時でもコストによって妥協されるべきではありません。したがって、このアップグレードは単なる技術的な進化ではなく、「ユーザー第一」という約束を真剣に果たすことでもあります。私たちはより多くを投入する意欲があり、あなたが文献を読む際にその集中力と流暢さを得るために努力します。

もちろん、新たな始まりは私たちとあなたが共に開く必要があります。より強力なエンジンは出発点に過ぎず、あなたの真の体験こそが私たちの仕事の価値を測る唯一の基準です。したがって、私たちはすべてのユーザーに心から招待します。新しいエンジンが稼働した後、それを体験し、使用し、評価してください。

長文で複雑な段落が、より自然で流暢に、原文の「分寸感」に忠実になっていますか？
煩わしい人名や機関名の混乱は解消されましたか？
あなたの論文翻訳はより正確で専門的になっていますか？

あなたの真の体験を、製品内のフィードバックチャネルを通じて私たちに教えてください。あなたの一つ一つの「いいね」は、私たちにとって最大の励みです；あなたの一つ一つの批判は、私たちの最も貴重な改善の原動力です。私たちは、すべてのフィードバックを真剣に読み、分析し、それを今後の製品ロードマップに組み込み、透明で効率的なフィードバックの閉ループを形成することを約束します。

これは単なるアップグレードの終わりではなく、私たちがあなたと共に最高の翻訳ツールを磨き上げる始まりです。私たちは未来に自信を持っており、あなたと共にDoclingoの進歩を見守ることを楽しみにしています。