返回顶部

[文摘] 怎样复制PDF格式里面的文字<转载>

[复制链接]
awagink 显示全部楼层 发表于 2009-4-27 18:37:15 |阅读模式 打印 上一主题 下一主题
现在许多网站都有电子书下载,常见的格式有exe、chm、pdf等。为了保护作者的权益,这些电子书可以看,但是其中的内容却不能进行复制,因为它简直就像一幅图片一样。如果我们需要使用这些资料中的文本内容的话,是不是就一定要重新输入一遍呢?当然不用这么麻烦。下面就为大家介绍如何将这些内容从资料中提取出来。

  第一种方法:用SnagIt工具进行文字提取。

  首先使用SnagIt的文字捕捉功能将文字提取出来。SnagIt当前版本为7.1.1,大小为9756 KB,下载链接:http://tjtt-http.skycn.net:8080/down/snagit.exe。启动SnagIt ,选择菜单“输入/区域”,选择菜单“工具/文字捕获”。






  然后我们打开要捕捉的文件窗口,按下捕捉快捷键,选定捕捉区域即可捕捉到文字。
  接着用相应工具重排文字。此时我们发现提取的文字可能会有很多空格或段落错乱等现象,而且字号、字体等不合自己的心意。这时我们可以用熟悉的Wps和Word软件进行重新编排。我们以Wps Office 2003为例看看如何对付提取后文章的编排。
  用Wps Officd 2003打开提取文章;然后选择“工具”菜单下的“文字”\“段落重排”。






这时你会看到提取文章重新进行排版;接下来选择“工具”菜单下的“文字”\“删除段首空格”命令,使得文章的每段参差不齐的行首空格被删除;再选择“工具”菜单下的“文字”\“增加段首空格”,文章变为正常的书写格式;提取文章一般都留有空段,为删除这些空段,继续选择“工具”菜单下的“文字”\“删除空段”命令,这时文章完全变为我们所要的形式;用你熟悉的界面任意编辑(格式化)文章吧。

  第二种方法:用屏幕截图然后让OCR软件识别。

  打开带有文字的图片或电子书籍,翻页到你希望提取的页面,点击键盘上的捕获键(Print Screen)进行屏幕捕获;打开Windows自带的画图工具,将刚才捕获的屏幕截图,粘贴进去,保存为一个.bmp文件;接着打开刚才保存的文件,在编辑器中进行修正,根据你所要提取的文字进行裁剪,尽量去除不要的部分;最后启动OCR软件,在OCR中打开刚才保存的修改文件,进行文字识别,然后可随心所欲进行编辑。






OCR软件下载地址:http://d1.papac.net/download/ban ... 识别软件)绿色版.rar






第三种方法用 Office 提取图片中的文字

有时我们发现某张图片上有一些文字很有用,可是却不能将文字复制下来,真让人郁闷。其实要想把图片中的文字抠下来也不是件难事,Office 2003就能做到。下面就说说如何利用Office 2003组件中的Microsoft Office Word 2003和Microsoft Office Document Imaging提取图片中的文字。
安装组件
  因为Microsoft Office Document Imaging不是默认的安装选项,所以要使用它提取图片中的文字首先得安装。依次点击“开始”→“程序”→“Microsoft Office”→“Microsoft Office 工具”→“Microsoft Office Document Imaging”,如果没有安装,系统会提示你插入Office的安装光盘进行安装,只要按提示信息操作即可。
提取文字
  运行Word 2003,单击“插入”→“图片”→“来自文件”,插入一张带有文字的图片,然后点击“文件”→“打印”,弹出“打印”窗口,在“打印机”下拉列表中选择“Microsoft Office Document Imaging Writer”(安装了Microsoft Office Document Imaging后,系统会自动添加一个名为“Microsoft Office Document Imaging Writer”的打印机),其他选项默认,单击“确定”按钮,弹出“另存为”对话框,设置好保存路径和文件名后,单击“保存”,会生成一个MDI格式的文档,并自动启动Microsoft Office Document Imaging将其打开,单击“工具”→“使用OCR识别文本”,系统开始用OCR对图片中的文字进行识别,识别完成后,用鼠标选中图片中需要的文字,单击鼠标右键,在弹出的快捷菜单中选择“将文本发送到Word文档”,稍等片刻,系统就会从图片中提取选定的文字,并将其发送到一个新的Word文档中,你就可以在这个新文档中对提取到的文字进行编辑了。

精彩评论1

yaokai 显示全部楼层 发表于 2009-5-9 21:47:56
高 ,实在是高~

我之前一直在研究OCR,今日一见,茅塞顿开
您需要登录后才可以回帖 登录 | 注册

本版积分规则

纳速健身网成立于2006年8月,是国内优秀健身运动网站,现拥浏览人数超30万。网站是集养生、武术、太极拳和健身气功等多种健身项目于一体的多功能交流平台。平台提供大量优质的教学视频、伴奏音乐(太极拳晨练音乐,广场舞音乐,健身气功音乐)、图文教程、运动科普和经验分享,为健身爱好者提供完善的运动指导平台。
  • 纳速QQ群乙:151815303
  • 纳速QQ群丙:79104490
  • 微信交流群:微信好友搜索【nasuwang】加小纳微信进群交流健身知识,备注【纳速】
  •                     或者扫描页面底部右侧二维码添加小纳微信>>>
  • 微信公众号

  • 微信群客服交流

  • Copyright © 2006-2021, 纳速健身网. | | 辽ICP备13002388号-1 辽公安网备21050202000005号公安网备号 纳速武术-乙 QQ