Riflessioni sull'aggiornamento del servizio di traduzione PDF gratuito: perché abbiamo rinunciato a Gemini a metà prezzo
Oggi voglio avere una comunicazione sincera con tutti voi. Innanzitutto, desidero porgere le mie più sincere scuse a tutti coloro che hanno subito un'esperienza negativa con il nostro prodotto gratuito.
Negli ultimi tempi, abbiamo ricevuto un gran numero di feedback negativi riguardo all'esperienza della versione gratuita. Abbiamo ascoltato e compreso queste voci. Molti utenti hanno segnalato che "i tempi di attesa durante i picchi sono ridicolmente lunghi"; la qualità della traduzione dei documenti è "molto instabile", a volte buona e altre volte cattiva; altri si sono lamentati che le traduzioni "mescolano cinese e inglese, rendendo difficile la lettura", trasmettendo una persistente "sensazione di traduzione automatica".
Ogni volta che vediamo questi feedback, il nostro team si sente profondamente in colpa. Comprendiamo perfettamente la delusione e la frustrazione che si provano quando si ha bisogno urgente di un importante documento accademico o di un rapporto di lavoro, ma si deve affrontare una lunga attesa e una traduzione confusa e illogica. Questa non è affatto l'esperienza che desideriamo offrire con Doclingo e va completamente contro il motivo per cui abbiamo creato questo prodotto.
Doclingo ha adottato fin dall'inizio un modello freemium, perché crediamo fermamente che la traduzione di documenti di alta qualità non debba essere un privilegio per pochi. Vogliamo che un numero maggiore di persone possa superare le barriere linguistiche e accedere a conoscenze e informazioni all'avanguardia attraverso una versione gratuita sufficientemente utile. Tuttavia, un'esperienza gratuita scadente non solo non riesce a trattenere gli utenti, ma tradisce anche la fiducia riposta in noi. È questa consapevolezza che ci ha spinti a prendere la decisione di risolvere completamente questi problemi, a qualsiasi costo.
Dopo ripetute discussioni interne e valutazioni tecniche, siamo giunti a una conclusione: il motore di traduzione AI attualmente utilizzato nella versione gratuita non è più in grado di sostenere il nostro impegno per qualità ed efficienza. L'unico modo per risolvere fondamentalmente i problemi di attesa e qualità della traduzione è sostituire il motore AI con uno più potente: un motore che meriti davvero i nostri utenti.
Questa decisione ci ha portato a un difficile bivio. I motori AI più avanzati sul mercato provengono principalmente dalla serie GPT di OpenAI e dalla serie Gemini di Google. Entrambi rappresentano il massimo livello attuale dell'intelligenza artificiale, ma hanno stili, costi e prestazioni in compiti di traduzione specifici molto diversi.
Pertanto, ciò che vogliamo condividere in questo articolo è il processo di riflessione completo che ci ha portato a questa importante decisione di aggiornamento: come abbiamo fatto a scegliere tra questi due motori AI di punta? Perché abbiamo infine rinunciato a Gemini, che costa solo la metà, e abbiamo scelto l'opzione più costosa?
Speriamo che attraverso questa comunicazione trasparente, non solo ci scusiamo per le esperienze passate, ma vogliamo anche dimostrare il nostro impegno e la nostra determinazione a migliorare l'esperienza del prodotto.
Esperienza o rapporto qualità-prezzo?
Ogni giorno rifletto su come creare più valore per gli utenti. Ma nel mondo degli affari, dietro la creazione di valore c'è sempre una fattura invisibile dei costi. Quando Doclingo ha deciso di aggiornare il motore di traduzione principale, il nostro team si è trovato di fronte a un bivio difficile: da un lato, la grande tentazione di ridurre i costi quasi della metà, dall'altro, l'esperienza utente che abbiamo sempre difeso.
Chiunque gestisca un prodotto sa che il controllo dei costi è una spada di Damocle che pende sopra di noi. Quando abbiamo valutato i nuovi motori di grandi modelli, un'opzione molto allettante si è presentata a noi: la serie Gemini di Google.
A dire il vero, la strategia di prezzo di Gemini è stata estremamente allettante per noi. Secondo le nostre ricerche, i costi per scegliere Gemini sono inferiori a quelli di GPT; semplicemente calcolando, se passassimo a Gemini, i costi di utilizzo del nostro motore principale potrebbero quasi ridursi della metà. Per un'applicazione come Doclingo, che gestisce ogni giorno un'enorme quantità di richieste di traduzione, questo risparmio è notevole. Questi soldi potrebbero essere investiti in marketing, sviluppo del team o riflessi direttamente in una strategia di prezzo più flessibile. Di fronte a un vantaggio di costo così grande, dire che non siamo stati tentati sarebbe una bugia.
Tuttavia, dopo accese discussioni interne, abbiamo infine preso una decisione che sembrava "non economica": mantenere l'esperienza e scegliere GPT.
Perché abbiamo avuto motivi più che sufficienti.
Tre motivi per scegliere GPT
1. Precisione nella terminologia accademica
Per qualsiasi strumento di traduzione rivolto al settore della ricerca e accademico, la precisione nella terminologia è fondamentale. Questo non riguarda solo la "fedele, chiara e elegante" traduzione, ma determina direttamente se il valore centrale della letteratura possa essere trasmesso accuratamente.
In questa valutazione approfondita, un esempio vivido ha colpito profondamente il nostro team. Quando abbiamo tradotto un documento nel campo della fisica della materia condensata, ci siamo imbattuti in un termine ad alta frequenza: "pair distribution function".
- La traduzione di GPT è: "funzione di distribuzione di coppie"
- La traduzione di Gemini è: "funzione di distribuzione abbinata"
A prima vista, "abbinata" sembra più vicina al significato originale di "pair", ed è una traduzione molto intuitiva e ragionevole. Tuttavia, per gli studiosi e gli studenti di questo campo, "funzione di distribuzione di coppie" è il termine convenzionale e accettato. Questa piccola differenza segna un confine chiaro tra "estranei" e "insider". Sebbene la traduzione di Gemini non sia letteralmente errata, trasmette una certa "sensazione di traduzione automatica", mentre GPT dimostra una profonda comprensione delle conoscenze specifiche del campo accademico.
Questa differenza non è un caso isolato. Ricerche hanno dimostrato che nei campi altamente specializzati come la medicina e la scienza, i modelli di livello GPT-4 tendono a superare i concorrenti in termini di accuratezza e rigore nel trattare concetti e terminologie complesse. Ad esempio, nei test comparativi, GPT-4 ha mostrato una maggiore correttezza e meno errori gravi nel rispondere a domande cliniche difficili. Sebbene le risposte di Gemini siano talvolta più facili da comprendere, ciò avviene spesso a scapito della precisione tecnica. Questa tendenza a "sacrificare l'accuratezza per la leggibilità" è estremamente pericolosa nella traduzione accademica.
Sappiamo bene che gli utenti principali di Doclingo—un vasto numero di ricercatori e studenti—si confrontano quotidianamente con queste terminologie altamente specializzate. Per voi, una "mancanza di precisione" nella terminologia può portare a "grandi fraintendimenti" nella comprensione. Un termine impreciso non solo interrompe il flusso di lettura immersivo, costringendovi a fermarvi per verificare o indovinare, ma può anche distorcere il punto centrale dell'autore originale e persino deviare la vostra direzione di ricerca. La precisione terminologica è la pietra angolare per garantire la rigorosità accademica e la linea vitale per migliorare l'efficienza della lettura della letteratura.
Il motivo per cui il modello GPT riesce a fare tutto ciò non è casuale. La sua potente capacità cognitiva e di ragionamento è stata ampiamente convalidata in test di riferimento come l'MMLU (Massive Multitask Language Understanding). Ad esempio, anche la versione leggera di GPT ha ottenuto un punteggio MMLU straordinario di 82.0%, dimostrando una solida base nella comprensione e nel ragionamento attraverso numerosi campi accademici. È proprio questa "profondità di conoscenza" che consente al modello di andare oltre il significato letterale e catturare con precisione l'espressione corretta nel contesto di discipline specifiche.
Pertanto, quando vediamo "funzione di distribuzione di coppie" come traduzione precisa, sappiamo che dietro c'è una profonda comprensione delle conoscenze specialistiche da parte del modello. Per proteggere questa "precisione" e "rigore" nella comunicazione accademica, riteniamo che scegliere GPT sia l'unica risposta corretta.
2. Contesto cinese
Sappiamo bene che un buon strumento non deve solo essere potente, ma deve anche "comprendere" gli utenti. Nel contesto della traduzione di documenti accademici, "comprendere" significa avere una profonda comprensione delle abitudini di lettura e del contesto culturale dei lettori cinesi. Un dettaglio apparentemente insignificante può spesso determinare la qualità dell'esperienza utente e persino influenzare la professionalità dell'intero prodotto. In questo confronto, la differenza tra GPT e Gemini nel trattare i nomi degli autori cinesi è un esempio perfetto di "verità nei dettagli".
Quando abbiamo sottoposto un documento contenente l'autore "Xiaohao Yang" a entrambi i modelli per la traduzione, è emerso un dettaglio sorprendente: GPT ha quasi "intuito" di tradurre questo nome in cinese come "杨晓浩", mentre Gemini ha semplicemente mantenuto il pinyin originale. Questa differenza, sebbene piccola, colpisce nel segno. Per qualsiasi lettore cinese, soprattutto quando si legge un documento tradotto destinato a rispettare le abitudini di impaginazione delle riviste cinesi, vedere un nome cinese familiare anziché una lunga serie di pinyin cambia radicalmente la fluidità e la familiarità della lettura. Non si tratta solo di traduzione, ma di una considerazione culturale, di un rispetto per "l'individuo".
Perché GPT riesce a fare questo? Dietro c'è la sua potente capacità di comprensione del contesto e di riconoscimento delle entità nominate (NER). Ricerche hanno dimostrato che GPT-4 ha raggiunto un livello di qualità di traduzione paragonabile a quello di traduttori umani di livello base e possiede una sensibilità acuta nella valutazione della qualità della traduzione, il che significa che non si limita a sostituire meccanicamente le parole, ma comprende il significato profondo del testo. Quando si tratta di nomi propri, GPT è in grado di utilizzare indizi contestuali per fare valutazioni più precise. Ad esempio, in uno studio sulla riconoscibilità dei nomi in notizie culturali russe, GPT ha ottenuto un punteggio F1 di 0.93, dimostrando prestazioni eccezionali in lingue e tipi di entità specifici. Questa capacità gli consente di dedurre che "Xiaohao Yang" è probabilmente un autore cinese e di cercare nella sua base di conoscenza cinese la combinazione di caratteri più adatta, riuscendo infine a "indovinare" correttamente "杨晓浩". Si tratta di un'intelligenza basata su probabilità e contesto, non di un semplice abbinamento di regole.
Al contrario, le prestazioni di Gemini in questo caso confermano alcuni problemi riscontrati in ricerche correlate. Sebbene Gemini si comporti bene in alcuni compiti di NER (come il riconoscimento di nomi contestualmente sensibili), spesso mostra incoerenza, errori di traduzione o omissioni quando si tratta di nomi propri. Alcuni studi hanno evidenziato che Gemini ha una scarsa accuratezza nel trattare nomi propri, nomi di luoghi e simili, e tende a commettere omissioni o errori di traduzione. Ad esempio, nella traduzione di testi classici, potrebbe tradurre un nome proprio come "佛國白禪師" in una frase descrittiva. Pertanto, il fatto che Gemini non sia riuscito a tradurre "Xiaohao Yang" in cinese potrebbe riflettere la sua instabilità nel trattare nomi propri e la sua insufficiente comprensione del contesto.
Questa piccola differenza nella traduzione del nome ha un significato enorme per noi. Non è solo una prova di superiorità tecnica, ma rappresenta anche il "calore" del prodotto. Un modello che "comprende" il contesto cinese è in grado di anticipare le esigenze potenziali degli utenti: nel mondo cinese, siamo abituati a chiamare le persone per nome. Tradurre il nome pinyin di un autore cinese in caratteri cinesi è una conferma dell'identità dell'autore e un adeguamento alle abitudini di lettura dei lettori cinesi. Questa "intelligenza" e "considerazione" nei dettagli possono migliorare notevolmente l'immersione e la fiducia degli utenti in scenari di lettura approfondita.
3. Comprensione del contesto
Tra i feedback degli utenti, c'è un'osservazione molto acuta che evidenzia la differenza principale nello stile tra i due modelli principali: "Gemini è caratterizzato da un'informazione estremamente completa, quasi vorrebbe tradurre ogni nota a piè di pagina, il che porta a testi a volte eccessivamente prolissi. Al contrario, l'espressione di GPT è più concisa."
Questa valutazione colpisce nel segno. In scenari di traduzione accademica e documentale, la "concisione" non è solo una questione di bellezza del linguaggio, ma riguarda direttamente il "senso delle proporzioni"—una saggezza che sa quando essere dettagliata e quando essere contenuta, massimizzando così l'efficienza della trasmissione delle informazioni. Quando ci si trova di fronte a una vasta quantità di documenti, il tempo è il bene più prezioso. Un assistente di traduzione che comprende il "senso delle proporzioni" può aiutarvi a separare rapidamente le informazioni superflue e a colpire il punto centrale, piuttosto che sommergervi con dettagli eccessivi. Questo non riguarda solo l'accuratezza, ma anche l'efficienza della lettura e il carico cognitivo.
Da dove deriva quindi questo "senso delle proporzioni"? Proviene dalla comprensione profonda e globale del contesto da parte del modello. È interessante notare che, sebbene Gemini sia noto per la sua finestra di contesto ultra grande, in grado di "vedere" più lontano, mantenere uno stile e un tono emotivo coerenti durante la traduzione di testi lunghi si è rivelato una sfida. Alcuni studi hanno indicato che Gemini potrebbe indebolire il colore emotivo del testo originale durante la traduzione, mostrando una notevole variabilità nella coerenza stilistica. A volte, potrebbe persino confondere la trama in una narrazione lunga, portando a una "deriva stilistica".
Al contrario, sebbene GPT abbia anch'esso una finestra di contesto di 128K token, si distingue per la sua capacità di mantenere la coerenza del tono emotivo e dello stile. Diversi studi hanno dimostrato che le uscite di GPT sono emotivamente più vicine a quelle di traduttori umani esperti e hanno una maggiore risonanza. È in grado di mantenere una voce narrativa coerente, risultando "il modello più coerente e affidabile" in termini di significato, struttura delle frasi e coerenza del contesto. Questa capacità di output stabile e di fedeltà all'essenza del testo originale è una perfetta manifestazione del "senso delle proporzioni". Sa che una buona traduzione non è un accumulo di informazioni, ma una presentazione selettiva e mirata.
Un altro aspetto che conferma questa differenza è il feedback di alcuni utenti che hanno notato che il filtro di sicurezza di Gemini è talvolta eccessivamente "sensibile", interrompendo la traduzione di testi accademici o storici del tutto normali a causa di singole parole. Questo riflette in parte la difficoltà del modello di comprendere il contesto reale e di afferrare il "senso delle proporzioni": vede "gli alberi" (parole sensibili), ma non riesce a comprendere "la foresta" (il contesto accademico).
In sintesi, la vera comprensione del contesto non riguarda solo la capacità di gestire testi lunghi, ma quanto profondamente si può cogliere l'intento, il tono e lo stile del testo e riprodurli in modo appropriato. Per noi che navighiamo nell'oceano della conoscenza, un partner AI con "senso delle proporzioni" è molto più prezioso di un "archivio" che si limita a riversare informazioni.
Prospettive e impegno: un nuovo inizio, un'esperienza migliore
Dopo aver spiegato dettagliatamente la nostra difficile ma ferma scelta, ora, con grande emozione, annuncio ufficialmente a tutti voi: il servizio di traduzione gratuito integrato con il nuovo motore GPT è attualmente nella fase finale di test interni e sarà lanciato a tutti gli utenti entro questa settimana!
Ciò significa che i problemi di attesa e di qualità della traduzione che ci avete segnalato a lungo, come i tempi di attesa eccessivi e l'instabilità della qualità durante i picchi, saranno notevolmente alleviati. Sappiamo che ogni minuto di attesa consuma la vostra pazienza e ogni traduzione insoddisfacente tradisce la vostra fiducia. Questo aggiornamento è stato progettato per porre fine a tutto ciò.
Prendere questa decisione non è stato facile. Scegliere un'opzione più costosa comporta una grande pressione per un team ancora in crescita. Ma ci siamo ripetutamente chiesti: qual è il significato dell'esistenza di Doclingo? La risposta è sempre la stessa: creare valore per gli utenti. Siamo convinti che un'esperienza utente eccezionale e affidabile sia il cuore e l'anima del prodotto e non dovrebbe mai essere compromessa dai costi. Pertanto, questo aggiornamento non è solo un'iterazione tecnica, ma una seria attuazione del nostro impegno per "l'utente al primo posto". Siamo disposti a investire di più, solo per garantirvi quella concentrazione e fluidità senza distrazioni durante la lettura dei documenti.
Naturalmente, un nuovo inizio richiede che lo avviamo insieme a voi. Un motore più potente è solo l'inizio, mentre le vostre esperienze reali sono l'unico standard per misurare il valore del nostro lavoro. Pertanto, vi invitiamo sinceramente a ogni utente, dopo il lancio del nuovo motore, a sperimentarlo, utilizzarlo e valutarlo.
- I lunghi e complessi paragrafi sono ora più naturali e fluidi, mantenendo il "senso delle proporzioni" del testo originale?
- I fastidiosi problemi di confusione nei nomi di persone e istituzioni sono scomparsi?
- La traduzione della vostra tesi è ora più precisa e professionale?
Vi preghiamo di farci sapere la vostra esperienza reale attraverso i canali di feedback all'interno del prodotto. Ogni vostro "mi piace" è il nostro più grande incoraggiamento; ogni vostra critica è la forza motrice più preziosa per il nostro miglioramento e iterazione. Ci impegniamo a leggere e analizzare attentamente ogni feedback e a integrarlo nella nostra futura roadmap del prodotto, creando un ciclo di feedback trasparente ed efficiente.
Questo non è solo la fine di un aggiornamento, ma l'inizio di un processo di affinamento congiunto di uno strumento di traduzione di alta qualità. Siamo fiduciosi nel futuro e non vediamo l'ora di vedere insieme a voi ogni progresso di Doclingo.