Über einige Gedanken zur kostenlosen PDF-Übersetzungsupgrade, warum wir auf das halbe Preisangebot von Gemini verzichtet haben

Heute möchte ich eine ehrliche Kommunikation mit Ihnen führen und mich zunächst aufrichtig bei jedem bedanken, der von der schlechten Erfahrung mit unserem kostenlosen Produkt betroffen war.

In der letzten Zeit haben wir eine Vielzahl von negativen Rückmeldungen zur Erfahrung mit der kostenlosen Version erhalten. Diese Stimmen haben wir gehört und können sie nachvollziehen. Viele Benutzer erwähnten, dass die "Wartezeiten während der Spitzenzeiten absurd lang" sind; die übersetzten Dokumente "eine sehr unbeständige Übersetzungsqualität" aufweisen, mal gut, mal schlecht; und einige beschwerten sich über die Übersetzungen, die "eine Mischung aus Chinesisch und Englisch sind und schwer zu lesen", und die einen unausweichlichen "Maschinenübersetzungs-Geschmack" haben.

Jedes Mal, wenn wir diese Rückmeldungen sehen, fühlen wir uns schuldig. Wir verstehen vollkommen, dass es frustrierend und enttäuschend ist, wenn Sie dringend ein wichtiges akademisches Dokument oder einen Arbeitsbericht benötigen, aber mit langen Wartezeiten und einer ungenauen, logisch verworrenen Übersetzung konfrontiert werden. Das ist definitiv nicht die Erfahrung, die wir Ihnen mit Doclingo bieten möchten, und es widerspricht völlig dem ursprünglichen Zweck, dieses Produkt zu schaffen.

Doclingo hat von Anfang an ein freemium-Modell verwendet, weil wir fest daran glauben, dass hochwertige Dokumentenübersetzungen kein Privileg für wenige sein sollten. Wir möchten, dass mehr Menschen durch eine ausreichend gute kostenlose Version Sprachbarrieren überwinden und Zugang zu modernem Wissen und Informationen erhalten. Eine schlechte kostenlose Erfahrung kann jedoch nicht nur Benutzer nicht halten, sondern ist auch ein Verrat an dem Vertrauen, das Sie in uns gesetzt haben. Diese Erkenntnis hat uns dazu gebracht, entschlossen zu handeln: Wir müssen diese Probleme unbedingt lösen, koste es, was es wolle.

Nach wiederholten internen Diskussionen und technischen Bewertungen sind wir zu dem Schluss gekommen, dass die derzeit verwendete KI-Übersetzungsengine in der kostenlosen Version nicht mehr in der Lage ist, unser Versprechen in Bezug auf Qualität und Effizienz zu erfüllen. Um die Probleme mit Wartezeiten und Übersetzungsqualität grundlegend zu lösen, gibt es nur einen Weg: den Wechsel zu einer leistungsstärkeren KI-Engine – einer Engine, die unseren Benutzern wirklich gerecht wird.

Diese Entscheidung hat uns an einen schwierigen Scheideweg gebracht. Die besten KI-Engines auf dem Markt stammen hauptsächlich aus der GPT-Serie von OpenAI und der Gemini-Serie von Google. Beide repräsentieren das höchste Niveau der aktuellen künstlichen Intelligenz, unterscheiden sich jedoch in Stil, Kosten und Leistung bei spezifischen Übersetzungsaufgaben.

Daher möchte ich in diesem Artikel den vollständigen Denkprozess hinter unserer Entscheidung für dieses bedeutende Upgrade teilen: Wie haben wir zwischen diesen beiden führenden KI-Engines eine schwierige Wahl getroffen? Warum haben wir letztendlich auf das kostengünstigere Gemini verzichtet und uns für die teurere Lösung entschieden?

Wir hoffen, dass wir durch diese transparente Kommunikation nicht nur für die schlechten Erfahrungen in der Vergangenheit um Entschuldigung bitten, sondern auch unser Engagement und unsere Entschlossenheit zur Verbesserung des Produkterlebnisses zeigen können.

Erfahrung oder Preis-Leistungs-Verhältnis?

Ich denke jeden Tag darüber nach, wie ich mehr Wert für die Benutzer schaffen kann. Aber in der Geschäftswelt gibt es immer eine unsichtbare Kostenrechnung hinter der Wertschöpfung. Als Doclingo beschloss, die Kernübersetzungsengine zu aktualisieren, standen wir an einem solchen schwierigen Scheideweg: Auf der einen Seite die enorme Versuchung, die Kosten fast zu halbieren, auf der anderen Seite das Benutzererlebnis, das wir stets gewahrt haben.

Jeder, der für den Gewinn und Verlust eines Produkts verantwortlich ist, weiß, dass Kostenkontrolle das Damoklesschwert ist, das über einem schwebt. Als wir neue große Modell-Engines bewerteten, stellte sich uns eine äußerst attraktive Option vor – die Gemini-Serie von Google.

Um ehrlich zu sein, war die Preisstrategie von Gemini für uns äußerst verlockend. Laut unserer Recherche sind die Kosten für die Wahl von Gemini niedriger als die von GPT. Wenn wir zu Gemini wechseln, könnten wir die Kosten für den Kern-Engine-Aufruf fast halbieren. Für eine Anwendung wie Doclingo, die täglich eine große Anzahl von Übersetzungsanfragen bearbeitet, ist diese Einsparung erheblich. Dieses Geld könnte in Marketing, Teamentwicklung investiert werden oder sich direkt in einer flexibleren Preisstrategie widerspiegeln. Angesichts eines so großen Kostenvorteils zu sagen, dass wir nicht interessiert waren, wäre absolut gelogen.

Nach intensiven internen Diskussionen haben wir jedoch letztendlich eine scheinbar "unwirtschaftliche" Entscheidung getroffen: Wir haben uns für das Benutzererlebnis entschieden und GPT gewählt.

Denn wir haben gute Gründe dafür.

Drei Gründe für die Wahl von GPT

1. Präzise Handhabung von Fachterminologie

Für jedes Übersetzungstool, das sich an die Forschungs- und Wissenschaftsbereiche richtet, ist die präzise Handhabung von Fachterminologie von grundlegender Bedeutung. Dies betrifft nicht nur die "Treue, Verständlichkeit und Eleganz" der Übersetzung, sondern entscheidet auch direkt darüber, ob der Kernwert der Literatur genau vermittelt werden kann.

In dieser tiefgehenden Bewertung hat uns ein lebendiges Beispiel besonders beeindruckt. Als wir ein Dokument aus dem Bereich der Festkörperphysik übersetzten, stießen wir auf einen häufig verwendeten Begriff: "pair distribution function".

Die Übersetzung von GPT lautet: "对分布函数"
Die Übersetzung von Gemini lautet: "配对分布函数"

Auf den ersten Blick scheint "配对" näher am ursprünglichen Sinn von "pair" zu sein, was eine sehr intuitive und vernünftige Übersetzung ist. Für Wissenschaftler und Studenten in diesem Bereich ist jedoch "对分布函数" der allgemein akzeptierte Fachausdruck. Diese kleine Differenz ist wie eine Trennlinie, die klar zwischen "Außenstehenden" und "Insidern" unterscheidet. Obwohl die Übersetzung von Gemini wörtlich nicht falsch ist, vermittelt sie ein gewisses Gefühl von "Maschinenübersetzung", während GPT ein tiefes Verständnis für das spezifische akademische Wissen zeigt.

Diese Differenz ist kein Einzelfall. Studien zeigen, dass Modelle auf GPT-4-Niveau in hochspezialisierten Bereichen wie Medizin und Wissenschaft oft eine höhere Genauigkeit und Strenge bei der Verarbeitung komplexer Konzepte und Terminologien aufweisen. Beispielsweise zeigte GPT-4 in Vergleichstests eine höhere Genauigkeit und weniger schwerwiegende Fehler bei der Beantwortung schwieriger klinischer Fragen. Obwohl die Antworten von Gemini manchmal leichter verständlich sind, geschieht dies oft auf Kosten der technischen Präzision. Diese Tendenz, "für die Lesbarkeit die Genauigkeit zu opfern", ist in der akademischen Übersetzung äußerst gefährlich.

Wir wissen, dass die Kernbenutzer von Doclingo – eine große Anzahl von Forschern und Studenten – täglich mit diesen hochspezialisierten Begriffen umgehen. Für Sie kann ein "Fehler um einen Hauch" in der Terminologie leicht zu einem "Missverständnis um Meilen" führen. Ein ungenauer Begriff kann nicht nur den Fluss des Lesens unterbrechen und Sie zwingen, innezuhalten, um nachzuschlagen oder zu raten, sondern schlimmer noch, er kann die Kernargumentation des ursprünglichen Autors verzerren und sogar Ihre Forschungsrichtung irreführen. Präzise Terminologie ist das Fundament für akademische Strenge und die Lebensader für die Effizienz des Lesens von Literatur.

Dass das GPT-Modell dies leisten kann, ist kein Zufall. Seine starke kognitive und schlussfolgernde Fähigkeit wurde in branchenweit anerkannten Benchmark-Tests wie MMLU (Massive Multitask Language Understanding) umfassend validiert. Selbst als leichtgewichtige Version hat GPT eine beeindruckende MMLU-Punktzahl von 82,0 erreicht, was beweist, dass es über tiefgehende Kenntnisse in vielen akademischen Bereichen verfügt. Diese starke "Wissenstiefe" ermöglicht es ihm, über die wörtliche Bedeutung hinauszugehen und die korrekte Ausdrucksweise im spezifischen Fachkontext präzise zu erfassen.

Daher wissen wir, dass wir, wenn wir die präzise Übersetzung "对分布函数" sehen, hinter dieser Übersetzung ein tiefes Verständnis des Modells für Fachwissen haben. Um diese "Präzision" und "Strenge" in der akademischen Kommunikation zu bewahren, glauben wir, dass die Wahl von GPT die einzig richtige Antwort ist.

2. Chinesischer Kontext

Wir wissen, dass ein gutes Werkzeug nicht nur leistungsstark sein muss, sondern auch die Benutzer "verstehen" sollte. Im Kontext der Übersetzung akademischer Literatur bedeutet "verstehen", die Lesegewohnheiten und kulturellen Kontexte chinesischer Leser tief zu begreifen. Ein scheinbar unbedeutendes Detail kann oft die Qualität des Benutzererlebnisses entscheidend beeinflussen und sogar das gesamte Produkt professioneller erscheinen lassen. In diesem Vergleich ist der Unterschied zwischen GPT und Gemini bei der Handhabung von Namen chinesischer Autoren ein hervorragendes Beispiel für "Wahrheit im Detail".

Als wir ein Dokument mit dem Autor "Xiaohao Yang" beiden Modellen zur Übersetzung gaben, trat ein überraschendes Detail auf: GPT hat diesen Pinyin-Namen fast "telepathisch" in "杨晓浩" zurückübersetzt, während Gemini einfach den ursprünglichen Pinyin beibehalten hat. Dieser Unterschied mag klein erscheinen, trifft aber den Kern. Für jeden chinesischen Leser, insbesondere beim Lesen eines Übersetzung, das darauf abzielt, den typografischen Gewohnheiten chinesischer Zeitschriften zu entsprechen, ist es ein ganz anderes Leseerlebnis, einen vertrauten chinesischen Namen zu sehen, anstatt eine lange Reihe von Pinyin. Das ist nicht nur Übersetzung, das ist eine kulturelle Rücksichtnahme, eine Form des Respekts gegenüber "Menschen".

Warum kann GPT das leisten? Dahinter stehen seine starken Fähigkeiten im Verständnis des Kontexts und der Erkennung benannter Entitäten (NER). Studien zeigen, dass GPT-4 in der Gesamtübersetzungsqualität das Niveau eines anfänglichen menschlichen Übersetzers erreicht hat und über eine ausgeprägte Fähigkeit zur Bewertung der Übersetzungsqualität verfügt. Das bedeutet, dass es nicht nur mechanisch Wörter ersetzt, sondern die tiefere Bedeutung des Textes versteht. Bei der Verarbeitung von Eigennamen kann GPT kontextuelle Hinweise präziser nutzen. Beispielsweise zeigte GPT in einer Studie zur Erkennung von Personennamen in russischen Kulturberichten mit geeigneten Hinweisen eine F1-Punktzahl von 0,93 und demonstrierte damit seine hervorragende Leistung in bestimmten Sprachen und Entitätstypen. Diese Fähigkeit ermöglicht es ihm, bei "Xiaohao Yang" zu erkennen, dass es sich wahrscheinlich um einen chinesischen Autor handelt, und in seiner chinesischen Wissensdatenbank nach der am besten passenden Kombination von Schriftzeichen zu suchen, was schließlich zu "杨晓浩" führt. Dies ist eine intelligente Entscheidung, die auf Wahrscheinlichkeit und Kontext basiert, nicht einfach eine Regelanpassung.

Im Vergleich dazu bestätigt die Leistung von Gemini hier einige in der Forschung festgestellte Probleme. Obwohl Gemini in bestimmten NER-Aufgaben (wie der Erkennung kontextsensitiver Personennamen) hervorragend abschneidet, zeigt es oft Inkonsistenzen, falsche Übersetzungen oder Auslassungen bei der Verarbeitung von Eigennamen. Studien haben gezeigt, dass Gemini bei der Verarbeitung von Eigennamen, geografischen Namen und anderen spezifischen Begriffen ungenau ist und leicht zu Auslassungen oder Fehlübersetzungen neigt. Beispielsweise würde es bei der Übersetzung klassischer Literatur den Eigennamen "佛國白禪師" fälschlicherweise in eine beschreibende Aussage übersetzen. Daher ist es wahrscheinlich, dass Gemini "Xiaohao Yang" nicht ins Chinesische zurückübersetzen konnte, was auf seine mangelnde Stabilität und Tiefe bei der Verarbeitung von Eigennamen hinweist.

Dieser kleine Unterschied in der Namensübersetzung hat für uns eine große Bedeutung. Es ist nicht nur ein Beweis für technische Überlegenheit, sondern auch ein Ausdruck der "Wärme" des Produkts. Ein Modell, das den chinesischen Kontext versteht, kann die potenziellen Bedürfnisse der Benutzer vorwegnehmen – in der chinesischen Welt gewöhnen wir uns daran, die Namen direkt zu nennen. Die Rückübersetzung des Pinyin-Namens eines chinesischen Autors in Schriftzeichen ist eine Bestätigung der Identität des Autors und eine Anpassung an die Lesegewohnheiten chinesischer Leser. Diese "Intelligenz" und "Rücksichtnahme" in den Details können das Benutzererlebnis beim tiefen Lesen erheblich verbessern und das Vertrauen stärken.

3. Verständnis des Kontexts

In unserem Benutzerfeedback gab es eine sehr prägnante Beobachtung, die den Kernunterschied im Stil zwischen den beiden führenden Modellen präzise erfasste: "Gemini zeichnet sich durch eine extrem vollständige Informationsmenge aus, es scheint, als wolle es jedes Fußnote übersetzen, was manchmal zu einer übermäßig umständlichen Ausdrucksweise führt. GPT hingegen ist prägnanter."

Diese Bewertung trifft den Nagel auf den Kopf. Für akademische und literarische Übersetzungen, die Effizienz und Tiefe anstreben, ist "Prägnanz" nicht nur eine Frage der schönen Sprache, sondern betrifft direkt das "Maßgefühl" – das Wissen, wann man detailliert und wann man zurückhaltend sein sollte, um die Effizienz der Informationsübertragung zu maximieren. Wenn Sie mit einer Flut von Literatur konfrontiert sind, ist Zeit das wertvollste Gut. Ein Übersetzungshilfe, die das "Maßgefühl" versteht, kann Ihnen helfen, überflüssige Informationen schnell zu entfernen und den Kernpunkt zu erfassen, anstatt Sie mit Details zu überfluten. Das betrifft nicht nur die Genauigkeit, sondern auch die Leseeffizienz und die kognitive Belastung.

Woher kommt also dieses "Maßgefühl"? Es stammt aus dem tiefen, globalen Verständnis des Modells für den Kontext. Interessanterweise, obwohl Gemini für sein extrem großes Kontextfenster von bis zu Millionen von Tokens bekannt ist und theoretisch "weiter sehen" kann, wird es in der Praxis zur Herausforderung, einen einheitlichen Stil und emotionalen Ton in langen Übersetzungen beizubehalten. Studien haben gezeigt, dass Gemini während des Übersetzungsprozesses die emotionale Färbung des Originals möglicherweise abschwächt und eine große Variabilität in der stilistischen Konsistenz aufweist. Manchmal kann es sogar in langen Erzählungen die Handlung verwirren und zu einem "Stilwechsel" führen.

Im Vergleich dazu zeigt GPT, obwohl es ebenfalls ein Kontextfenster von 128K Tokens hat, eine überlegene Leistung bei der Beibehaltung des emotionalen Tons und der stilistischen Konsistenz. Mehrere Studien haben gezeigt, dass die Ausgaben von GPT emotional näher an den Übersetzungen menschlicher Experten liegen und mehr Resonanz erzeugen. Es kann eine konsistente Erzählstimme aufrechterhalten und ist "das konsistenteste und zuverlässigste Modell" in Bezug auf Bedeutung, Satzstruktur und Kontextkohärenz. Diese Fähigkeit, stabile Ausgaben zu liefern und dem ursprünglichen Geist treu zu bleiben, ist das beste Beispiel für "Maßgefühl". Es versteht, dass gute Übersetzung nicht das Anhäufen von Informationen ist, sondern eine selektive und fokussierte Präsentation.

Ein weiterer Aspekt, der diese Differenz bestätigt, ist, dass einige Benutzer berichtet haben, dass die Sicherheitsfilter von Gemini manchmal zu "sensibel" sind und bei der Verarbeitung völlig normaler akademischer oder historischer Texte aufgrund einzelner Wörter die Übersetzung unterbrechen. Dies spiegelt in gewissem Maße auch die Unzulänglichkeiten des Modells im Verständnis des realen Kontexts und im Erfassen des "Maßes" wider – es sieht die "Bäume" (sensible Wörter), versteht aber nicht den gesamten "Wald" (akademischer Kontext).

Zusammenfassend lässt sich sagen, dass echtes Kontextverständnis nicht nur darin besteht, wie lange Texte verarbeitet werden können, sondern wie tief die Absicht, der Ton und der Stil des Textes verstanden und in angemessener Weise wiedergegeben werden können. Für uns, die wir im Ozean des Wissens segeln, ist ein KI-Partner mit "Maßgefühl" weitaus wertvoller als eine "Datenbank", die nur Informationen ausspuckt.

Ausblick und Versprechen: Ein neuer Anfang, ein besseres Erlebnis

Nachdem ich nun ausführlich erklärt habe, warum wir diese schwierige, aber entschlossene Wahl getroffen haben, freue ich mich, Ihnen offiziell anzukündigen: Der kostenlose Übersetzungsdienst, der die neue GPT-Engine integriert, befindet sich derzeit in der letzten Phase der internen Tests und wird noch in dieser Woche für alle Benutzer vollständig online gehen!

Das bedeutet, dass die langen Wartezeiten, über die Sie sich seit langem beschwert haben, sowie die unbeständige Übersetzungsqualität während der Spitzenzeiten erheblich gemildert werden. Wir wissen, dass jede Minute des Wartens Ihre Geduld aufbraucht und jedes unbefriedigende Übersetzungsergebnis Ihr Vertrauen enttäuscht. Dieses Upgrade ist dazu gedacht, all dies zu beenden.

Diese Entscheidung zu treffen, war nicht einfach. Die Wahl einer teureren Lösung bedeutet für ein noch wachsendes Team einen enormen Druck. Aber wir haben uns immer wieder gefragt: Was ist der Sinn von Doclingo? Die Antwort bleibt unverändert: Wert für die Benutzer zu schaffen. Wir sind fest davon überzeugt, dass ein hervorragendes und zuverlässiges Benutzererlebnis das Herz und die Seele eines Produkts ist und niemals durch Kosten beeinträchtigt werden sollte. Daher ist dieses Upgrade nicht nur eine technische Iteration, sondern auch die ernsthafte Erfüllung unseres Versprechens, "den Benutzer an erste Stelle zu setzen". Wir sind bereit, mehr zu investieren, nur um Ihnen die ungeteilte Aufmerksamkeit und den reibungslosen Fluss beim Lesen von Literatur zu ermöglichen.

Natürlich erfordert ein neuer Anfang, dass wir ihn gemeinsam mit Ihnen beginnen. Ein leistungsstärkerer Motor ist nur der Anfang, und Ihr echtes Gefühl ist der einzige Maßstab für den Wert unserer Arbeit. Daher laden wir jeden Benutzer herzlich ein, die neue Engine nach ihrem Start zu erleben, zu nutzen und zu bewerten.

Sind lange, komplexe Absätze natürlicher und flüssiger, und bewahren sie das "Maßgefühl" des Originals?
Sind die lästigen Probleme mit durcheinandergebrachten Namen und Institutionen verschwunden?
Ist Ihre Übersetzung von Arbeiten präziser und professioneller geworden?

Bitte teilen Sie uns Ihre echten Erfahrungen über die Feedback-Kanäle innerhalb des Produkts mit. Ihr jedes Lob ist die größte Ermutigung für uns; jede Ihrer Kritiken ist der wertvollste Antrieb für unsere Optimierung und Iteration. Wir versprechen, jedes Feedback sorgfältig zu lesen und zu analysieren und es in unsere zukünftige Produkt-Roadmap zu integrieren, um einen transparenten und effizienten Feedback-Loop zu schaffen.

Dies ist nicht nur das Ende eines Upgrades, sondern der Beginn einer gemeinsamen Verfeinerung eines erstklassigen Übersetzungstools mit Ihnen. Wir sind zuversichtlich in die Zukunft und freuen uns darauf, mit Ihnen zusammen Doclingos Fortschritte zu erleben.