如何将PDF文件转换成WORD文档

广告:

情况一:如果pdf文档本身就是用pagemaker或word转换而来的(文字非常清晰锐利,很容易识别),那你就方便了。你可以先用acrobat打开,然后点文件——>另存为——>把他保存成rtf文档,这样将把所有的pdf页保存成rtf文档,在用word打开。注意最好保存成rtf文档,要不很有可能产生乱码。小技巧:如果你只想识别pdf文件中的其中几页,那你可以现把那几页另存为新的pdf文档,再进行识别。

情况二:如果你所得到的pdf文档是用扫描仪扫进去的图片转换的,那么就麻烦了,不过还是比手输入快多了,所以继续往下看。首先你用acrobat把pdf文件打开,然后点文件——>另存为——>把他保存成图片格式*.tiff(这是无压缩图片格式,以便识别),然后到网上下载文字识别软件,建议用尚书六号(现在好像出到七号了,很有名,随处都可以下到),安装好后,打开转换好的tiff图片,点击识别,看,文字出来了吧,尚书系列文字识别软件功能十分强大,你可以在里面把文字都编辑好了,再保存成rtf或txt文件,然后粘贴到word里就可以使用了,注意过滤回车符。

尚书6 下载地址:

http://ljms.sdedu.net/down/down/ocr_ss6.zip

怎么把PDF转化为Word格式

pdf已经是图片格式了 要转word只能如下

一、“选择文字工具,选好了贴到word里”

如果你的PDF文件是用文字制做而不是图片制做的,可以“在Adobe Acrobat 7.0中有选择文字的工具,可以选好了贴到word里”。但是根据你介绍的情况,你的PDF文件是用图片做的,所以不能用这种方法。

二、批量截图

截图的办法对于不是很清楚的图片来说,并不可取,因为它要么会损失信息,要么会如楼主所说加大工作量。

我建议你先用Adobe Acrobat中的导出功能,将这个文件导出为图像。做法:在上面菜单上选文件>导出>提取图像为>JPEG文件(其他二种也行,JPEG文件比较小),再按提示,选择一个适当的文件夹,保存图像 。

这种方法保存下来的一张张图片,比你一页页截图省力多了,而且保留了原文件的全部信息。不过500页可不一个小数,会很慢,但至少不用你亲自动手干预了。

三、批量识别

如果你想进行编辑,就必须进行OCR识别。关键在于你如何能够批量进行这个工作。

好一点的OCR软件都可以一次导入多幅图片进行识别,然后输出。不过,好像500页的确有点多了,我从来也没有超过50页的记录,通常也就是二、三十页。就算50页,也比一页一页强,是吧?

我用过不少OCR软件,觉得汉王文本王、清华紫光TH比较好用。它们的识别率都非常高,还可以识别表格、繁体字、英文、竖排文字等;输出方式也很灵活,可以只输出文字,也可以按原稿排版格式输出WORD文件;使用起来也都不复杂。 不知你用的是什么版本的汉王,识别率会那么低。我有的时候识别质量很次的报纸上的文章,它的识别率也还是可以接受的。

四、提高识别率

如果你的底图质量非常差的话,建议你先在图片处理软件中将导出的图片进行放大、去点、锐化等处理,然后再送到OCR中识别。

我估计,你可能还是送入OCR的图片损失了部分原文的信息,造成识别率下降。因为你既然能放大,放大后截图的识别率还可以,那就说明原图的信息足够OCR识别了。只是你在操作过程中损失了部分东西。

所以,我建议你:

1)先将你的PDF文件导出5-10页图片出来

2)用汉王等OCR软件进行批量识别(识别中注意将不规则的部分框除)

3)输出成word文档

如果它们能很顺利地被识别出来,那后面的事就不用我说了。如果不行,那就真的是你的底图的问题了,这就需要对导出的图片进行批量修正处理。

一款将PDF转换为WORD的工具Solid Converter PDF

下载地址:http://www.yeacool.net/down/softb060616c.exe

说明:安装的时候是英文,装好就是中文了!

注册方法:Name:zhou_S_@sohu.com

Email:zhou_S_@sohu.com

Organization:

zhou_S_@sohu.com

Unlock code: XGXT

注:邮箱与注册码是必须填写正确,其余则是可以随便填写的。

注册运行后有网络验证,把注册表里的HKEY_CURRENT_USER\Software\SolidDocuments\SolidConverterPDF\HistoryList键值删除即可。(或者用防火墙禁止访问网络?)

转换好后,只需要调整一些格式即可,如字体和文字大小等。

(http://soft.yiiu.com/Software/Catalog106/1654.html)

如果以上注册码不可用的话, 在http://www2.fixdown.com/soft/20963.asp可以下载 Solid Converter PDF V2.2.158 和 Solid Converter PDF v2.2.158 [ 破解补丁 / Cracked ]。

二. ScanSoft PDF Converter for Microsoft Word v1.0 特别版(CR)

还在为只读的PDF文档发愁吗?还在垂涎PDF文档中精美图片而不可得吗?给你介绍一款ScanSoft同微软共同研发的软件ScanSoft PDF Converter for Microsoft插件。该插件可以帮助我们将PDF文档转换为Word文档,并且完全保留原来的版式。

下载PDF Converter后,解压,执行AutoRun.exe,直接进行安装,安装完成后不须任何设置,它会自动整合到Word中。当我们在Word中点击“打开”菜单时,在“打开”对话框的“文件类型”下拉菜单中可以看到“PDF”选项,这就意味着我们可以用Word直接打开PDF文档了!

ScanSoft PDF Converter的工作原理其实很简单,它先捕获PDF文档中的信息,分离文字、图片、表格和卷,再将它们统一成Word格式。由于Word在打开PDF文档时,会将PDF格式转换成DOC格式,因此打开速度会较一般的文件慢。打开时会显示PDF Converter转换进度。转换完毕后可以看到,文档中的文字格式、版面设计保持了原汁原味,没有发生任何变化,表格和图片也完整地保存下来了,可以轻松进行编辑。

除了能够在Word中直接打开PDF文档外,右击PDF文档,在弹出菜单中选择“Open PDF in Word”命令也可打开该文件。另外,它还会在Outlook中加入一个工具按钮,如果收到的电子邮件附件中有PDF文档,就可以直接点击该按钮将它转换成Word文件。

有时我们在网上搜索到PDF格式的文件,同样可以通过右键菜单的相关命令直接在Word中打开它。

美中不足:在Word中完成对PDF文档的编辑后,只能将它保存为Word格式,无法直接存为PDF格式。不过,现在把文件转换为PDF格式的软件非常多,例如Acrobat5.0自带的虚拟打印机Acrobat Assistant、PDF995、Go2pdf和本报第2期介绍的pdfFactory等等。另外,该软件对中文的支持还有待改进。

ScanSoft and 同微软共同组队开发了一个全新的 Office 2003 插件。该插件可以帮助你通过 Word直接将 PDF 文档转换为Word文档,并且完全保留原来的格式和版面设计。

这个名为 ScanSoft PDF Converter for Microsoft Word 的插件是首先捕获PDF文档中的信息,分离文字同图片,表格和卷,再将其统一到Word格式。现在你可以重新利用早先你从网络上下载或email中收到的PDF文件中的信息,而无需添加任何其他软件。

ScanSoft PDF Converter for Microsoft 已经非常紧密的同 Office 2003整合在一起了,在 Microsoft Word 2003 中你可以直接通过 "File>>Open" 来打开PDF 文件, 其次ScanSoft 也已经开发了基于此的Smart Tag(Office 2003中重要的功能元件)能够轻松的的通过右键来将PDF文件转换成为 Microsoft Word 文件。

ScanSoft PDF Converter for Microsoft Word能够让你:

1.在Microsoft Office直接打开pdf文件!2.在Microsoft Outlook直接打开email附件里的pdf文件!3.随时随地用右鼠键做文件转换!4.把网上的pdf文件直接在Word里打开!

使用说明:1.首先请确定你已经卸载了旧版本的程序!2.运行Setup目录中的文件进行安装!Code:Serial #: B309D-833-3E2D-34EE-333.安装结束后复制CR目录中的shkpc10.exe文件到安装目录,并运行此文件激活程序!4.恭喜你,你成功了!

注:安装的时候建议关闭正在运行的WORD,INTERNET EXPLORER和OUTLOOK!

广告:

相关内容

编辑:Admin 时间:2011/10/30 8:26:25 阅览:3289   返回    
PDF
word
扫描关注53BK报刊官网
扫描关注阅速公司微信