如何翻译 PDF 并保持原始布局 (2026)
如何翻译 PDF 并保持原始布局
你翻译了一个 PDF。你打开结果。表格消失了。标题合并到正文中。图像移到了错误的页面。双栏布局崩溃成一串未格式化的文本。
听起来很熟悉吗?几乎每个翻译工具都会发生这种情况。翻译后的内容可能是准确的,但文档看起来与原始文档完全不同。如果你需要与同事、客户或政府办公室分享该文档,混乱的布局是不可接受的。
好消息是:情况不必如此。有一些方法——以及特定的工具——可以在保留原始格式的情况下翻译 PDF。本文将分析格式为何会破坏,“保持格式”实际上意味着什么,以及哪些方法在 2026 年能够最好地保留你的布局。
目录
为什么大多数 PDF 翻译工具会破坏你的格式
要理解为什么翻译后的 PDF 看起来会破损,你需要了解 PDF 的工作原理。
PDF 与 Word 文档不同。在 Word 中,文本以连续流的方式排列——一个段落接一个段落,从上到下。PDF 将文本存储为放置在画布上绝对位置的片段。一个句子可能被存储为五个独立的文本块,每个块都有自己的坐标、字体和大小。没有固有的阅读顺序,没有“段落”概念,也没有流动布局。
当翻译工具处理 PDF 时,它必须从这种碎片化结构中提取文本,发送进行翻译,然后再放回去。大多数工具在前两个步骤上处理得相当不错,但在第三步上完全失败。翻译后的文本被直接放入一个新文档中,完全没有尝试重建原始布局。
以下是格式破坏的具体原因:
句子长度在不同语言之间变化。 德语文本大约比英语长 30%。日语可能会显著更短。当翻译后的文本无法适应与原文相同的空间时,文本框溢出,列错位,分页发生变化。
从右到左的语言翻转整个流。 阿拉伯语和希伯来语是从右到左阅读的。将从左到右的文档翻译成这些语言需要镜像整个布局——不仅仅是交换单词。
表格失去结构。 PDF 中的表格并不是真正的表格。它是以特定坐标定位的文本,周围有绘制的线条。大多数翻译工具提取每个单元格中的文本,但无法跟踪哪些文本属于哪个单元格、哪一行和哪一列。
字体可能不支持目标语言。 原始文档可能使用不包含中文字符或阿拉伯字形的字体。翻译工具需要替换为兼容的字体,而不改变文档的视觉风格。
多列布局被压平。 双栏学术论文、宣传册和通讯特别容易受到影响。翻译工具将两个列中的内容视为一个单一流,从而产生混乱的输出。
这正是“翻译 PDF 保持格式”成为在线搜索最多的翻译查询之一的原因。人们感到沮丧——这也是有道理的。
相关内容: PDF 翻译:完整指南 (2026) 详细介绍了所有翻译方法,包括那些不保留格式的方法。
“保持格式”实际上意味着什么
当我们谈论在翻译 PDF 时不丢失格式时,我们指的是保留原始文档的每个视觉元素。具体来说:
文本位置和对齐。 翻译后的文本出现在页面上与原文相同的位置。标题保持在顶部。脚注保持在底部。侧边栏保持在边缘。
字体样式和大小。 粗体文本保持粗体。斜体保持斜体。字体大小保持不变或按比例调整,以使文档在视觉上保持一致。
表格结构。 行、列、标题、合并单元格和单元格边框都保持完整。翻译后的内容位于正确的单元格内。
图像和图形。 图像保持在原始位置。图像下方或旁边的标题和标签被翻译。嵌入图像中的文本需要 OCR,并单独处理。
页眉和页脚。 所有页面的运行页眉、页脚和页码都被保留。
页面布局。 多列布局、文本框、标注框和侧边栏保持其视觉排列。分页发生在合乎逻辑的地方。
颜色和背景。 背景颜色、阴影和高亮文本保持不变。
并非所有工具都能满足所有这些要求。有些工具保留基本的文本格式(粗体、斜体),但破坏表格结构。其他工具保持图像位置,但压平多列布局。最好的工具能够同时处理所有这些元素。
5 种保留 PDF 格式的方法(排名)
方法 1:Doclingo(最佳整体)
Doclingo 专为在保留原始布局的情况下翻译文档而设计。它不是提取文本并从头重建文档,而是首先分析 PDF 结构——识别表格、列、标题、页脚、图像和文本块——然后在现有结构内翻译内容。
布局保留: 95% 以上的原始格式得以保持,包括表格、多列布局、图像、标题和页脚。
工作原理:
- 上传 PDF,系统映射完整文档结构
- 在每个识别的元素内应用 AI 翻译
- 输出 PDF 保留原始的确切视觉布局
- 提供双语并排输出,显示原文和翻译
优点:
- 对复杂文档的完整布局保留
- 内置 OCR 处理扫描的 PDF
- 多引擎 AI(GPT-4o、Claude、Gemini、DeepSeek)——选择最适合你的语言对的引擎
- 提供双语输出以供审阅和比较
- 支持 90 多种语言
- 在线编辑器用于翻译后的调整
局限性:
- 高度专业化的内容(法律、医学)应由领域专家审阅
- 极其复杂的分层设计(重叠文本框、装饰元素)可能需要小的手动调整
最佳适用对象: 任何需要翻译后 PDF 实际看起来像原始文档的人。
方法 2:DeepL(部分保留)
DeepL 提供文档翻译,翻译质量强,尤其适用于欧洲语言对。它保留了一些格式——粗体、斜体、段落结构——但在更复杂的布局上表现不佳。
布局保留: 基本格式得以保持。表格、多列布局和复杂结构通常会破坏或需要手动修复。
优点:
- 对欧洲语言(德语、法语、西班牙语、荷兰语)提供出色的翻译质量
- 界面简洁
- 保留基本文本格式(粗体、斜体、段落)
局限性:
- 表格结构经常破坏
- 多列布局压平为单列
- 限制在 33 种语言——不支持中文、阿拉伯语、印地语、泰语或越南语
- 不支持扫描文档的 OCR
- 免费层限制为每月 3 个文档和 5MB 文件大小
- 不提供双语输出
最佳适用对象: 在欧洲语言之间翻译的简单单列文档。
相关内容: DeepL 与 Doclingo:文档翻译比较 提供详细的逐对比较。
方法 3:DocTranslator
DocTranslator 使用 Google Translate API,并尝试保留一些文档格式。结果不一致——基本布局可能会通过,但任何复杂的内容往往会破坏。
布局保留: 简单文档的基本格式。复杂布局失败。
优点:
- 通过 Google Translate 支持多种语言
- 简单的上传和翻译工作流程
- 小文档免费
局限性:
- 依赖 Google Translate 的质量,虽然足够但不算优质
- 复杂的表格、列和图像经常错位
- 不支持扫描文档的 OCR
- 不提供双语输出
- 根据文档复杂性结果不一致
最佳适用对象: 快速翻译简单的单列 PDF,格式大致可接受。
方法 4:Adobe Acrobat + 翻译插件
如果你已经订阅了 Adobe Acrobat Pro,你可以将 PDF 导出为 Word,使用单独的工具翻译 Word 文件,然后再转换回 PDF。一些第三方插件也可以直接在 Acrobat 中添加翻译功能。
布局保留: 在很大程度上取决于 PDF 转 Word 的转换质量。简单文档转换良好。复杂布局在转换过程中往往会破坏。
优点:
- 专业级 PDF 编辑工具用于手动修复
- 对输出的每个元素完全控制
- 适合已经在 Adobe 生态系统中的用户
局限性:
- 需要 Adobe Acrobat Pro 订阅($22.99/月)
- 没有内置的 AI 翻译——你需要一个单独的工具或插件
- 多步骤工作流程缓慢且手动
- 每个转换步骤都可能破坏格式
- 学习曲线陡峭
最佳适用对象: 已经为 Adobe Creative Cloud 付费并且对手动多步骤过程感到舒适的用户。
方法 5:手动 Word 转换
自己动手的方法:使用任何转换器将 PDF 转换为 Word,翻译 Word 文件,然后再导出回 PDF。
布局保留: 较差。每个转换步骤都会引入格式错误,累积起来。
步骤:
- 将 PDF 转换为 Word(使用 Adobe、在线工具或 Word 内置转换器)
- 翻译 Word 文件(使用任何翻译工具)
- 修复翻译后的 Word 文件中的格式问题
- 导出回 PDF
优点:
- 对每个步骤完全控制
- 可以在 Word 文件上使用任何翻译工具
- 允许在整个过程中进行手动编辑
局限性:
- PDF 转 Word 转换通常会破坏表格、列和图像
- 多个转换步骤意味着累积格式损失
- 对于长或复杂文档来说极其耗时
- 每个阶段都需要手动格式清理
最佳适用对象: 需要大量编辑翻译且不介意花费大量时间进行格式清理的人。
方法比较总结
| 标准 | Doclingo | DeepL | DocTranslator | Adobe + Plugin | 手动 Word |
|---|---|---|---|---|---|
| 布局保留 | 完整 (95%+) | 部分 | 基本 | 变量 | 较差 |
| 表格结构 | 保留 | 经常破坏 | 经常破坏 | 变量 | 经常破坏 |
| 多列 | 保留 | 压平 | 压平 | 变量 | 压平 |
| OCR 支持 | 是 | 否 | 否 | 需要插件 | 否 |
| 双语输出 | 是 | 否 | 否 | 否 | 否 |
| 语言 | 90+ | 33 | 130+ | 变化 | 变化 |
| 速度 | 快 (1-2 分钟) | 快 | 快 | 慢 | 非常慢 |
| 成本 | 免费增值 | 免费增值 | 免费增值 | $23/月 | 免费-ish |
逐步指南:在保持布局的情况下翻译 PDF
以下是如何使用 Doclingo 翻译 PDF 并保留格式的步骤:
步骤 1:上传你的 PDF
访问 doclingo.ai,将你的 PDF 拖入上传区域或点击浏览文件。该平台接受基于文本和扫描的 PDF。当检测到扫描文档时,OCR 会自动启用。
步骤 2:让系统分析文档结构
上传后,系统会自动映射你的文档布局——识别表格、列、标题、页脚、图像、文本块和其他结构元素。这种结构分析使得在翻译过程中能够保留格式。
步骤 3:选择目标语言和 AI 引擎
选择源语言(或保持“自动检测”)和目标语言。然后选择最适合你文档的 AI 引擎:
- GPT-4o — 对技术和商业内容的强大全能表现
- Claude — 对于细致、上下文丰富的文档和较长文本表现出色
- Gemini — 适合多语言内容和亚洲语言对
- DeepSeek — 针对中文语言对和学术内容进行了优化
如果不确定,GPT-4o 是一个可靠的默认选择。
步骤 4:启用双语输出(可选)
如果你想要一个并排的 PDF,包含原文和翻译文本,请启用双语输出。这在审阅、比较、语言学习以及双方需要同时参考原文和翻译的情况下特别有用。
步骤 5:翻译并下载
点击翻译。大多数文档在 30 到 90 秒内完成。完成后:
- 在浏览器中直接预览翻译后的 PDF
- 下载保留原始格式的翻译 PDF
- 使用在线编辑器进行任何细微调整
- 如果启用了双语版本,下载双语版本
五个步骤,少于两分钟,格式完好。
按文档类型的格式挑战
不同类型的文档呈现不同的格式挑战。以下是它们的细分:
| 文档类型 | 常见格式问题 | 注意事项 |
|---|---|---|
| 学术论文 | 双栏布局、引用、脚注、方程式 | 验证引用标记和方程式位置 |
| 商业报告 | 图表、数据表、图形、品牌标题 | 检查数字数据和货币格式是否正确 |
| 合同 | 编号条款、定义条款、签名块 | 确认条款编号是连续的,术语一致 |
| 演示文稿(PDF) | 幻灯片布局、项目符号、图像、演讲者笔记 | 检查幻灯片边界是否保持 |
| 宣传册 | 多列布局、图像、标注框、引用 | 检查复杂布局中图像与文本的对齐 |
| 手册 | 步骤说明、图表、警告框 | 验证图表标签和警告文本是否翻译 |
对于任何文档类型,影响最大的事情就是从高质量的源 PDF 开始。干净的、基于文本的 PDF 具有嵌入字体,通常会比低分辨率的扫描产生更好的结果。
相关内容: 如何翻译研究论文而不丢失引用 深入探讨学术文档翻译。
最佳布局保留技巧
- 从基于文本的 PDF 开始,而不是扫描件。 如果你可以访问原始的 Word、InDesign 或 LaTeX 源文件,请从那里导出一个新的 PDF。基于文本的 PDF 翻译时的格式远比扫描文档好。
- 对于扫描的 PDF,使用高质量的扫描。 如果无法避免扫描,请使用 300 DPI 或更高的分辨率。确保文档是直的,光线均匀,没有阴影或折痕。黑色文本在白色背景上产生最佳的 OCR 结果。
- 为你的语言对选择合适的 AI 引擎。 不同的 AI 模型有不同的优势。GPT-4o 是一个可靠的通用型。DeepSeek 在中文方面表现出色。Claude 处理长篇、细致的文档效果很好。如果准确性至关重要,可以在同一页面上测试两个引擎。
- 使用双语输出进行质量审查。 并排查看原文和翻译是捕捉错误的最快方法。双语视图中,格式不对齐也会立即显现。
- 审查输出并使用在线编辑器。 即使是最好的 AI 驱动工具也可能偶尔需要小的调整。一个文本块可能会稍微溢出,或者一个表格单元格可能需要小的调整。在线编辑器让你在不重新开始的情况下修复这些问题。
- 避免使用极其复杂的分层设计的 PDF。 包含重叠文本框、跨文本的水印或高度装饰性布局的文档对任何工具来说都更难处理。如果可能,简化源文件。
相关内容: 翻译扫描文档:OCR + AI 解释 涵盖了你需要了解的关于翻译扫描件的所有内容。
常见问题
哪个翻译工具最能保留 PDF 格式?
专为文档翻译设计的 AI 驱动工具能够保留最多的格式。Doclingo 保持 95% 以上的原始布局,包括表格、列、标题、图像和文本样式。像 Google Translate 这样的通用翻译工具会完全剥离所有格式。
Google Translate 能保留 PDF 格式吗?
不能。Google Translate 的文档模式翻译文本内容,但完全破坏原始格式。输出是新布局中的纯文本,没有表格、列或原始的视觉结构。如果格式很重要,你需要一个专门的文档翻译工具。
我可以翻译带有表格的 PDF 并保持表格结构吗?
可以,但仅限于在翻译之前分析文档结构的工具。Doclingo 识别表格的行、列、标题和合并单元格,然后在该结构内翻译内容。大多数其他工具提取表格中的文本,完全失去网格布局。
带有图像的 PDF — 图像会保持原位吗?
使用像 Doclingo 这样的格式保留工具,图像保持在原始位置。图像周围的文本标题和标签被翻译。如果图像本身嵌入了文本(例如带标签的图表),则需要 OCR 来提取和翻译该文本。
我可以翻译扫描的 PDF 并保持格式吗?
可以,但需要一个内置 OCR 的工具。OCR 引擎从扫描图像中提取文本,AI 翻译它,然后结果放回原始布局中。Doclingo 自动处理此过程。为了获得最佳结果,请从 300 DPI 或更高质量的扫描开始。
翻译后的 PDF 与原始 PDF 页数相同吗?
在大多数情况下,是的。格式保留工具旨在保持相同的页面结构。然而,如果目标语言比源语言长得多(例如,从中文翻译成德文),某些页面可能需要容纳额外的文本,这可能偶尔会增加一页。
双语输出对跟踪格式有用吗?
绝对有用。双语并排输出将原文和翻译文本一起显示。这使得验证格式是否保留变得容易——你可以一目了然地看到表格、标题和布局元素在两个版本之间是否匹配。这在审查和批准工作流程中也很有价值。
结论
在不破坏格式的情况下翻译 PDF 曾经几乎是不可能的。在 2026 年,AI 驱动的工具解决了这个问题——但并非所有工具都是平等的。
如果你的文档包含表格、列、图像或任何比单列纯文本更复杂的布局,你需要一个理解文档结构的工具,而不仅仅是语言。
以下是快速决策框架:
- 简单的单列文档在欧洲语言之间? DeepL 对基本格式的处理足够好。
- 任何布局重要的文档? Doclingo 保留 95% 以上的原始格式,处理扫描的 PDF,并提供双语输出。
- 需要完全手动控制并有时间? Adobe 或手动 Word 转换路线让你完全控制,但付出显著的努力。
最快的方式是亲自尝试。上传一个 PDF,翻译它,并比较输出。
免费试用 Doclingo — 60 秒内翻译你的第一个 PDF
更多文档翻译指南:
