文逸首页 小文论坛 文逸博客 精华文章
 首页 | 新闻 | 论坛 | 博客 | 专题 | FTP | 金融 | 微博 | 图库 | MyHome | 搜索 | 登陆 | 注册 | 帮助 | 设为首页  ·在线人数: 2382

发表新帖 我的主页  用户登陆 返回上页 收藏本帖 文友爬行榜

标题:(转贴)各种格式文件ocr成word文件的方法
[作者] dsj [发表时间] 2004/11/21 19:13:18  [回复] 10  [点击] 2544

 [作者] dsj   [头衔] 论坛坛主  [经验] 220862  [等级] 大主帅   [发帖] 15642   [回帖] 1366  [登陆] 7956
[发表时间] 2004/11/21 19:13:18  [楼主]
标题: (转贴)各种格式文件ocr成word文件的方法
 
各种格式文件ocr成word文件的方法(作者:qhyqhy)


你还在为不同格式的文件怎么变成word文件发愁吗?各种识别软件各有缺陷,识别效率低,让你痛苦不堪,有的只能识别字,对表格和图形无能为力,识别完了,版面乱七八糟,无法使用。现在好了,本文针对各种情况下文字识别进行总结,帮助大家掌握正确方法,节省时间,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案:

1、PDF文件的识别:

1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 5 专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word等中。

2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF文件识别输出到word文件中。

注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)


3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)
4)繁体pdf文件:用2)的方法识别到word后,用word中的“工具”--“语言”---“中文繁简转换”


2、caj文件的识别:

1)局部文字识别:直接使用caj浏览器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样
3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为word。


3、超星文件的识别:

1)局部文字识别:直接使用超星浏览器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。

3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成word


4、其他情况下的识别:

使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。


注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2word,以及各种被推荐的软件等等,我都装过,现在都像垃圾一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。

针对一些问题的补充:
经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。
另外页面显示大时,转化的识别率较高。
如果页数多的文件,包括超星,如果有问题,可以分多次转化。

再次补充:
1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。

2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\windows\systems32\snagit临时文件。

3、caj5.5不能下载博硕论文,无法打开下载的论文,要用caj5.0下载。


分享到:

我的QQ群:500人财富群11470502;投资群5920530;资源群6648659;交友群5713862;娱乐群6925950。
我的博客:http://104508155.qzone.qq.com/

 [作者]yaogx [头衔]认证会员(综) [经验]1410 [等级]二等兵  [发帖]105  [回帖]103 [登陆]326
[发表时间]2004/11/21 20:29:14 [1楼]
好东西,有空的时候试一试。  



 [作者]lby75 [头衔] [经验]16 [等级]三等兵  [发帖]45  [回帖]0 [登陆]16
[发表时间]2004/11/23 21:00:38 [2楼]
很有用处,支持一下!!!!!!!!!!!!!!  



 [作者]lrjwyq [头衔] [经验]20 [等级]三等兵  [发帖]26  [回帖]-1 [登陆]74
[发表时间]2004/11/25 17:44:00 [3楼]
很有用处,大力支持!!!!!!!!!!!!!!   



 [作者]stng2003 [头衔] [经验]268 [等级]三等兵  [发帖]28  [回帖]1 [登陆]66
[发表时间]2004/11/26 10:51:46 [4楼]
谢谢,从你那里总能得到很多有用的信息!  



 [作者]xyj66770148 [头衔] [经验]14 [等级]三等兵  [发帖]22  [回帖]0 [登陆]44
[发表时间]2004/11/26 16:45:43 [5楼]
ding,ding,ding  



 [作者]jiangshengping [头衔] [经验]395 [等级]中士  [发帖]47  [回帖]0 [登陆]242
[发表时间]2004/11/26 17:04:22 [6楼]
谢谢老大了,我学到不少东西啊。长见识。



永远支持小文!!!  



 [作者]wall1999 [头衔] [经验]194 [等级]一等兵  [发帖]68  [回帖]10 [登陆]110
[发表时间]2004/11/26 21:28:23 [7楼]
精彩好文,读后有益。谢谢。
只是我用的98系统,弄不成office2003。  



 [作者]ouyangjinchun [头衔]高级认证会员 [经验]51635 [等级]一等兵  [发帖]16  [回帖]84 [登陆]488
[发表时间]2005/4/13 16:35:47 [8楼]
受益匪浅,谢谢  



 [作者]金凤凰 [头衔]初级认证会员 [经验]1586 [等级]上尉  [发帖]35  [回帖]86 [登陆]156
[发表时间]2005/4/14 12:05:31 [9楼]
2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF文件识别输出到word文件中。

注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)

这个方法很好!
大主帅真好人呀~~~  



9 条回复; 10 条/页;  1 / 1     第   ↑到页首
您未登陆,发帖前请填写:用户名 密码 注册新用户  
 回复: (转贴)各种格式文件ocr成word文件的方法
排版
粗体斜体下划线居中飞翔文字移动文字发光文字阴影文字插入超级链接插入网页插入下载地址插入Email地址插入图片插入Flash插入RealPlay文件插入Media文件插入QuickTime影片插入背景音乐插入代码插入引用
插入表情:表情符号   使用帮助
内容 (8000字以内)
 
  关闭窗口  
[论坛列表]

小文诊所 创业经验
金融创新 家庭理财
居家旅行 国内资源
职业生活 配置应用
饮食文化 实盘记录
温情一刻 国外资源
法律频道 红旗社区
妇幼天地 商标标准
站务处理 蓝总看盘
奖励认证 开源软件
故障咨询 求助中心
公益活动 手机软件
网络经济 文史研究
期货专版 代理试用
网页制作 人才交流
分类广告 房产观澜
体育资讯 雅瑟风流
初学园地 美术贴图
股海风云 听风茶轩
管理学院

[今日热帖]

关于文逸 | 小文论坛 | 文逸博客 | 文逸金融 | 精华文章网站地图 | 联系我们 | 隐私保护
 Copyright© WWW.WONYEN.NET 2003 - 2021  闽ICP备09016518号-16   本站最高 10508 人同时在线,发生时间 2005-5-17 5:09:15 
 文逸科技 制作维护