如何翻譯 PDF 並保持原始佈局 (2026)
如何翻譯 PDF 並保持原始佈局
你翻譯了一個 PDF。你打開結果。表格消失了。標題合併到正文中。圖像移到了錯誤的頁面。兩欄佈局崩潰成一串未格式化的文本。
聽起來熟悉嗎?這幾乎發生在每一個翻譯工具上。翻譯的內容可能是準確的,但文件看起來與原始文件完全不同。如果你需要與同事、客戶或政府機構分享該文件,混亂的佈局是不可接受的。
好消息是:不必如此。有一些方法——以及特定的工具——可以在保留原始格式的同時翻譯 PDF。本文將分析格式為何會破壞,“保持格式”實際上意味著什麼,以及哪些方法在 2026 年能最好地保留你的佈局。
目錄
為什麼大多數 PDF 翻譯工具會破壞你的格式
要理解為什麼翻譯後的 PDF 看起來會破壞,你需要了解 PDF 的運作原理。
PDF 與 Word 文檔不同。在 Word 中,文本以連續流的方式流動——一段接著一段,自上而下。PDF 將文本存儲為放置在畫布上絕對位置的片段。單個句子可能被存儲為五個獨立的文本塊,每個文本塊都有自己的坐標、字體和大小。沒有固有的閱讀順序,沒有“段落”概念,也沒有流動的佈局。
當翻譯工具處理 PDF 時,它必須從這種碎片化結構中提取文本,發送進行翻譯,然後再放回去。大多數工具在前兩個步驟上處理得相當好,但在第三步上完全失敗。翻譯的文本被直接放入一個新文檔中,沒有嘗試重建原始佈局。
以下是格式破壞的具體原因:
句子長度在不同語言之間變化。 德文文本大約比英文長 30%。日文可能會顯著更短。當翻譯的文本無法適應與原始相同的空間時,文本框溢出,列錯位,頁面斷裂。
從右到左的語言翻轉整個流。 阿拉伯語和希伯來語是從右到左閱讀的。將從左到右的文檔翻譯成這些語言需要鏡像整個佈局——不僅僅是交換單詞。
表格失去結構。 PDF 中的表格並不是真正的表格。它是文本在特定坐標上定位,周圍有繪製的線條。大多數翻譯工具提取每個單元格的文本,但無法追蹤哪些文本屬於哪個單元格、哪一行和哪一列。
字體可能不支持目標語言。 原始文檔可能使用不包含中文字符或阿拉伯字形的字體。翻譯工具需要替換為兼容的字體,而不改變文檔的視覺風格。
多欄佈局被壓平。 兩欄的學術論文、宣傳冊和新聞稿特別脆弱。翻譯工具將兩欄的內容視為一個單一流,產生混亂的輸出。
這正是為什麼“翻譯 PDF 保持格式”是網上最常搜索的翻譯查詢之一。人們感到沮喪——這是有道理的。
相關: PDF 翻譯:完整指南 (2026) 詳細介紹了所有翻譯方法,包括那些不保留格式的方法。
什麼是“保持格式”的實際含義
當我們談論在不失去格式的情況下翻譯 PDF 時,我們的意思是保留原始文檔的每個視覺元素。具體來說:
文本位置和對齊。 翻譯的文本出現在頁面上與原始文本相同的位置。標題保持在頂部。腳註保持在底部。側邊欄保持在邊緣。
字體樣式和大小。 粗體文本保持粗體。斜體保持斜體。字體大小保持或按比例調整,以便文檔在視覺上保持一致。
表格結構。 行、列、標題、合併單元格和單元格邊框都保持完整。翻譯的內容位於正確的單元格內。
圖像和圖形。 圖像保持在其原始位置。圖像下方或旁邊的標題和標籤被翻譯。嵌入圖像中的文本需要 OCR,並單獨處理。
頁眉和頁腳。 運行的頁眉、頁腳和頁碼在所有頁面上保持不變。
頁面佈局。 多欄佈局、文本框、標註框和側邊欄保持其視覺排列。頁面斷裂發生在合乎邏輯的地方。
顏色和背景。 背景顏色、陰影和高亮文本保持不變。
並非所有工具都能提供這些功能。有些保留基本文本格式(粗體、斜體),但破壞表格結構。其他工具保持圖像不變,但壓平多欄佈局。最好的工具能夠同時處理所有這些元素。
5 種保留 PDF 格式的方法(排名)
方法 1:Doclingo(最佳整體)
Doclingo 專為在保留原始佈局的同時翻譯文檔而設計。它不是提取文本並從頭重建文檔,而是首先分析 PDF 結構——識別表格、列、標題、頁腳、圖像和文本塊——然後在現有結構內翻譯內容。
佈局保留: 保持 95% 以上的原始格式,包括表格、多欄佈局、圖像、標題和頁腳。
工作原理:
- 上傳 PDF,系統映射完整的文檔結構
- 在每個識別的元素內應用 AI 翻譯
- 輸出的 PDF 保留原始的精確視覺佈局
- 提供雙語並排輸出,顯示原始和翻譯內容
優勢:
- 對於複雜文檔的完整佈局保留
- 內置 OCR 用於掃描的 PDF
- 多引擎 AI(GPT-4o、Claude、Gemini、DeepSeek)——選擇最適合你的語言對的引擎
- 雙語輸出以供審查和比較
- 支持 90 多種語言
- 在線編輯器用於翻譯後的調整
限制:
- 高度專業化的內容(法律、醫療)應由領域專家審查
- 極其複雜的分層設計(重疊的文本框、裝飾元素)可能需要輕微的手動調整
最佳對象: 任何需要翻譯 PDF 並且實際看起來像原始文件的人。
方法 2:DeepL(部分保留)
DeepL 提供文檔翻譯,翻譯質量強勁,特別是對於歐洲語言對。它保留了一些格式——粗體、斜體、段落結構——但在更複雜的佈局上表現不佳。
佈局保留: 基本格式保持。表格、多欄佈局和複雜結構經常破壞或需要手動修復。
優勢:
- 對於歐洲語言(德語、法語、西班牙語、荷蘭語)翻譯質量優秀
- 簡潔的界面
- 保留基本文本格式(粗體、斜體、段落)
限制:
- 表格結構經常破壞
- 多欄佈局壓平為單列
- 限於 33 種語言——不支持中文、阿拉伯語、印地語、泰語或越南語
- 對於掃描文檔沒有 OCR
- 免費層限於每月 3 個文檔和 5MB 文件大小
- 沒有雙語輸出
最佳對象: 在歐洲語言之間翻譯的簡單單欄文檔。
相關: DeepL 與 Doclingo:文檔翻譯比較 提供詳細的逐對比較。
方法 3:DocTranslator
DocTranslator 使用 Google 翻譯 API,並試圖保留一些文檔格式。結果不一致——基本佈局可能會通過,但任何複雜的內容往往會破壞。
佈局保留: 對於簡單文檔的基本格式。複雜佈局失敗。
優勢:
- 通過 Google 翻譯支持多種語言
- 簡單的上傳和翻譯工作流程
- 小文檔免費
限制:
- 依賴 Google 翻譯質量,雖然足夠但不優質
- 複雜的表格、列和圖像經常錯位
- 對於掃描文檔沒有 OCR 支持
- 沒有雙語輸出
- 根據文檔的複雜性結果不一致
最佳對象: 快速翻譯簡單的單欄 PDF,對於格式的近似要求可以接受。
方法 4:Adobe Acrobat + 翻譯插件
如果你已經訂閱了 Adobe Acrobat Pro,你可以將 PDF 導出為 Word,使用單獨的工具翻譯 Word 文件,然後再轉換回 PDF。一些第三方插件也可以直接在 Acrobat 中添加翻譯功能。
佈局保留: 嚴重依賴 PDF 到 Word 的轉換質量。簡單文檔轉換良好。複雜佈局在轉換過程中經常破壞。
優勢:
- 專業級 PDF 編輯工具,用於手動修復
- 對輸出每個元素的完全控制
- 適合已經在 Adobe 生態系統中的用戶
限制:
- 需要 Adobe Acrobat Pro 訂閱($22.99/月)
- 沒有內置的 AI 翻譯——需要單獨的工具或插件
- 多步工作流程,速度慢且手動
- 每個轉換步驟都可能破壞格式
- 學習曲線陡峭
最佳對象: 已經為 Adobe Creative Cloud 付費並且對手動多步驟過程感到舒適的用戶。
方法 5:手動 Word 轉換
自助方法:使用任何轉換器將 PDF 轉換為 Word,翻譯 Word 文件,然後再導出回 PDF。
佈局保留: 差。每個轉換步驟都會引入累積的格式錯誤。
步驟:
- 將 PDF 轉換為 Word(使用 Adobe、在線工具或 Word 的內置轉換器)
- 翻譯 Word 文件(使用任何翻譯工具)
- 修復翻譯後 Word 文件中的格式問題
- 導出回 PDF
優勢:
- 對每個步驟的完全控制
- 可以在 Word 文件上使用任何翻譯工具
- 在整個過程中允許手動編輯
限制:
- PDF 到 Word 的轉換經常破壞表格、列和圖像
- 多次轉換步驟意味著累積的格式損失
- 對於長或複雜的文檔來說非常耗時
- 每個階段都需要手動格式清理
最佳對象: 需要大量編輯翻譯且不介意花費大量時間進行格式清理的人。
方法比較摘要
| 標準 | Doclingo | DeepL | DocTranslator | Adobe + Plugin | 手動 Word |
|---|---|---|---|---|---|
| 佈局保留 | 完整 (95%+) | 部分 | 基本 | 變數 | 差 |
| 表格結構 | 保留 | 經常破壞 | 經常破壞 | 變數 | 經常破壞 |
| 多欄 | 保留 | 壓平 | 壓平 | 變數 | 壓平 |
| OCR 支持 | 是 | 否 | 否 | 需要插件 | 否 |
| 雙語輸出 | 是 | 否 | 否 | 否 | 否 |
| 語言 | 90+ | 33 | 130+ | 變數 | 變數 |
| 速度 | 快 (1-2 分鐘) | 快 | 快 | 慢 | 非常慢 |
| 成本 | 免費增值 | 免費增值 | 免費增值 | $23/月 | 免費-ish |
逐步指南:在保持佈局的同時翻譯 PDF
以下是如何使用 Doclingo 翻譯 PDF 並保留格式的步驟:
步驟 1:上傳你的 PDF
訪問 doclingo.ai 並將你的 PDF 拖入上傳區域或點擊瀏覽你的文件。該平台接受基於文本和掃描的 PDF。當檢測到掃描文檔時,OCR 會自動啟用。
步驟 2:讓系統分析文檔結構
上傳後,系統會自動映射你的文檔佈局——識別表格、列、標題、頁腳、圖像、文本塊和其他結構元素。這種結構分析使得在翻譯過程中能夠保留格式。
步驟 3:選擇你的目標語言和 AI 引擎
選擇源語言(或保持在“自動檢測”)和你的目標語言。然後選擇最適合你的文檔的 AI 引擎:
- GPT-4o — 對於技術和商業內容的強大全能表現
- Claude — 對於細緻、上下文豐富的文檔和較長文本的優秀選擇
- Gemini — 適合多語言內容和亞洲語言對
- DeepSeek — 對於中文語言對和學術內容的優化
如果你不確定,GPT-4o 是一個可靠的默認選擇。
步驟 4:啟用雙語輸出(可選)
如果你想要一個並排的 PDF,包含原始和翻譯文本,啟用雙語輸出。這對於審查、比較、語言學習以及雙方需要參考原文的情況特別有用。
步驟 5:翻譯並下載
點擊翻譯。大多數文檔在 30 到 90 秒內完成。完成後:
- 在瀏覽器中直接預覽翻譯的 PDF
- 下載保留原始格式的翻譯 PDF
- 使用在線編輯器進行任何微調
- 如果啟用了雙語版本,下載雙語版本
五個步驟,兩分鐘內,格式完整。
按文件類型的格式挑戰
不同類型的文檔會呈現不同的格式挑戰。以下是它們的分解:
| 文檔類型 | 常見格式問題 | 需要注意的事項 |
|---|---|---|
| 學術論文 | 兩欄佈局、引用、腳註、方程式 | 驗證引用標記和方程式位置 |
| 商業報告 | 圖表、數據表、圖形、品牌標題 | 檢查數據和貨幣格式是否正確 |
| 合同 | 編號條款、定義術語、簽名區 | 確認條款編號是連續的,術語是一致的 |
| 演示文稿(PDF) | 幻燈片佈局、項目符號、圖像、演講者註釋 | 檢查幻燈片邊界是否保持 |
| 宣傳冊 | 多欄佈局、圖像、標註框、引述 | 檢查複雜佈局中圖像與文本的對齊 |
| 手冊 | 步驟說明、圖表、警告框 | 驗證圖表標籤和警告文本是否翻譯正確 |
對於任何文檔類型,你能做的最有影響力的事情就是從高質量的源 PDF 開始。乾淨的、基於文本的 PDF 具有嵌入字體,將始終比低分辨率掃描產生更好的結果。
相關: 如何翻譯研究論文而不失去引用 更深入地探討學術文檔翻譯。
最佳佈局保留的提示
- 從基於文本的 PDF 開始,而不是掃描。 如果你可以訪問原始的 Word、InDesign 或 LaTeX 源文件,從那裡導出一個新的 PDF。基於文本的 PDF 翻譯的格式遠比掃描文檔好。
- 對於掃描的 PDF,使用高質量的掃描。 如果掃描是不可避免的,使用 300 DPI 或更高的掃描。確保文檔是直的,均勻照明,沒有陰影或皺摺。黑色文本在白色背景上產生最佳的 OCR 結果。
- 為你的語言對選擇合適的 AI 引擎。 不同的 AI 模型有不同的優勢。GPT-4o 是一個可靠的通才。DeepSeek 在中文方面表現出色。Claude 對於長篇、細緻的文檔處理良好。如果準確性至關重要,可以在同一頁面上測試兩個引擎。
- 使用雙語輸出進行質量審查。 看到原文和翻譯並排顯示是捕捉錯誤的最快方法。雙語視圖中格式不對齊也會立即變得明顯。
- 審查輸出並使用在線編輯器。 即使是最好的 AI 驅動工具有時也需要輕微的調整。文本塊可能會稍微溢出,或者表格單元格可能需要小調整。在線編輯器讓你在不重新開始的情況下修復這些問題。
- 避免具有極其複雜的分層設計的 PDF。 具有重疊文本框、跨文本的水印或高度裝飾性佈局的文檔對任何工具來說都更難處理。如果可能,簡化源文件。
相關: 翻譯掃描文檔:OCR + AI 解釋 涵蓋了翻譯掃描文檔所需了解的一切。
常見問題
哪個翻譯工具最能保持 PDF 格式?
專為文檔翻譯設計的 AI 驅動工具能夠保留最多的格式。Doclingo 保持 95% 以上的原始佈局,包括表格、列、標題、圖像和文本樣式。像 Google 翻譯這樣的通用翻譯工具則完全剝奪了所有格式。
Google 翻譯能保持 PDF 格式嗎?
不能。Google 翻譯的文檔模式翻譯文本內容,但完全破壞了原始格式。輸出是新佈局中的純文本,沒有表格、列或原始的視覺結構。如果格式很重要,你需要一個專門的文檔翻譯工具。
我可以翻譯帶有表格的 PDF 並保持表格結構嗎?
可以,但僅限於那些在翻譯之前分析文檔結構的工具。Doclingo 識別表格行、列、標題和合併單元格,然後在該結構內翻譯內容。大多數其他工具提取表格中的文本,並完全失去網格佈局。
那麼帶有圖像的 PDF 呢——圖像會保持在原位嗎?
使用像 Doclingo 這樣的格式保留工具,圖像保持在其原始位置。圖像周圍的文本標題和標籤被翻譯。如果圖像內部嵌入有文本(例如帶有標籤的圖表),則需要 OCR 來提取和翻譯該文本。
我可以翻譯掃描的 PDF 並保持格式嗎?
可以,但需要一個內置 OCR 的工具。OCR 引擎從掃描的圖像中提取文本,AI 翻譯它,然後結果放回原始佈局中。Doclingo 自動處理此過程。為了獲得最佳結果,請從高質量的掃描開始,300 DPI 以上。
翻譯後的 PDF 與原始 PDF 的頁數相同嗎?
在大多數情況下,是的。格式保留工具旨在保持相同的頁面結構。然而,如果目標語言比源語言長得多(例如,從中文翻譯成德文),某些頁面可能需要容納額外的文本,這有時會增加頁數。
雙語輸出對於跟踪格式有用嗎?
絕對有用。雙語並排輸出顯示原始和翻譯文本在一起。這使得驗證格式是否保留變得容易——你可以一目了然地看到表格、標題和佈局元素在兩個版本之間是否匹配。這對於審查和批准工作流程也很有價值。
結論
在不破壞格式的情況下翻譯 PDF 曾經幾乎是不可能的。在 2026 年,AI 驅動的工具已經解決了這個問題——但並非所有工具都是平等的。
如果你的文檔有表格、列、圖像或任何比單列純文本更複雜的佈局,你需要一個理解文檔結構的工具,而不僅僅是語言。
這裡是快速的決策框架:
- 簡單的單欄文檔在歐洲語言之間? DeepL 對基本格式的處理足夠好。
- 任何佈局重要的文檔? Doclingo 保留 95% 以上的原始格式,處理掃描的 PDF,並提供雙語輸出。
- 需要完全手動控制並有時間的話? Adobe 或手動 Word 轉換路徑讓你在付出大量努力的同時擁有完全控制。
最快的方式是親自嘗試。上傳一個 PDF,翻譯它,並比較輸出。
免費試用 Doclingo——在 60 秒內翻譯你的第一個 PDF
更多文檔翻譯指南:
