
这是博主在某软件网站看到的,收集并整理到了这里以备以后使用,如果作者不同意,请私聊删除。
原作者下载网址在文末!
2019-3-6日更新:
更新到版本0.95
主要更新内容:
1:支持ppt下载,不过百度返回的ppt是图片,不是源文件,PPT下载后只是图片格式,不是源文件,这个真的没办法。不过如果只是把PPT下载下来播放,不需要太多修改的,用这个也就够了。
2:大家提出意见希望可以支持选择文件下载路径,一起修改上去了。
下载链接: https://pan.baidu.com/s/1TKLLq9f4P93wCsoIx6iqJQ 提取码: rg7t
2019-2-15 日更新:
更新版本到0.9:
主要更新内容:
1:可以支持图片下载,我看过,word里面直接粘贴图片的,基本上都可以正确裁剪并且下载,可能插入位置有的时候会要大家手动去搞个换行....但是大部分都是正确的。
2:下载后缀名为docx,解决老版本word不能打开问题。
遗留问题:
1:如果在word里面用线段绘制的图形不能下载。
2: 50页逻辑不能下载
3:ppt不能下载
4:界面还是难以置信的丑。。。
最近这两天孩子放寒假,没办法,有点空都在陪他们,实在抽不出时间,不好意思啊。
下载链接:
0.9版本:
链接: https://pan.baidu.com/s/1V77iTXR3N-av_pHjLvEmCA 提取码: 6uvu
2018---12---30日:
记录两个问题:
1:有兄弟反馈下载不全,看了一下,百度超过50页的有另外一个逻辑,需要再破解一下。这部分容我再想想。在此记录一下。
临时解决方案:
原来百度文库超过50页的,是有其他逻辑的,这个要容我再看看。临时解决方案,先直接下载一次。文件改名。 然后用链接
https://wenku.baidu.com/view/xxx ... x.html?from=search&pn=51 下载第二次。
https://wenku.baidu.com/view/xxx ... x.html?from=search&pn=101 下载第三次
把三个doc拼在一起即可。
请记得改名,因为三个文档名称相同,会覆盖的。
2:word 老版本打开乱码的,请把后缀改成docx试试看。因为老版本的word是不能直接识别docx格式,需要从后缀名判断。下个版本我直接保存成docx后缀。
2018---12---28日:
今日得宽裕,更新一版 到0.02:
1:应该支持32位windows了,我是照着教程上做的,但是本地没环境,那个兄弟有环境测试过,私信给我一下,多谢。我就不为这事装一个32位windows了。。。
2:pdf 百度有两种格式,一种是图片拍照上去的,一种是文字版本的,文字版本pdf的现在可以支持了。
3:有兄弟反馈文件名每次都是test太丑,修改为下载的文件名,这个已经改好。
遗留问题和大家反馈的问题:
1:图片问题还不能下载,其实基本已经搞定,但是测试中发现有些图片无法下载下来,感觉很奇怪,可能问题出在PIL库里面,需要再多一点时间调试一下。国庆后的那个月中旬可以给大家一个版本,不过插入位置可能会有点小问题。
2:ppt格式现在不能下载。
3:界面太丑。。。。我也知道。捂脸。。。
pdf文字版本下载后,图片示例如下:左边是百度文库的pdf预览,右边是下载后的格式
2018---12----25 回复一下大家的几个问题:
1:32位windows用不了, 这个是pyinstall在windows 64位上打包的问题。这个应该属于可以解决的问题,不过容我把它放到图片下载之后解决吧。
2:MS Word打开不了是乱码, 我本机没有按照word,用的是wps,用wps一定是可以的。我用的是python的docx包转存的,这个问题我可能搞不定。记录一下,回头有空安装个word看看。
3:收费的为啥不能下全部。 目前确确实实只能下载可以预览的部分,如果收费的部分不能预览,就无法下载,这部分没有计划去做,因为有点越线了,偶不太想去做,所以抱歉。
4:到底这个下载的和其他下载有啥不同,其实主要就一句话,大部分的文字格式 ,段落,颜色都是可以保留的,都是和在百度文库上看到的差不多。
5:excel的格式和word有很大不同,分析起来要费很大劲了,不过pdf格式倒是可以先支持起来。
开发计划:
1:支持PDF
2:支持PIC下载
3: 32位 windows支持
4: 看一下word会有乱码问题。
帖子太长了,有着急的问题私信我把,我争取两天就把整个楼爬一边。
原文 =====================================================================
最近用百度文库里面的word文档,每个都要下载券,搞得火大。到网上搜索,可以下载原格式的,都是需要千方百计的要付费,反正不是要付给百度,就是要付给淘宝或者微信。
唯一几个不需要付费的,下载下来格式惨不忍睹,几乎都不能用,只是单纯的txt文本,还没有什么换行。
明确几点:
1:不能下载付费文档。 也就是需要付人民币的,都不行。
2:其实说白了,就是把可以预览的word部分给整理出来,变成doc格式。
3:如果word里面都是图片的。已经遇到过这种情况了,现在还不能支持。是不是图片,用鼠标在百度文库页面划拉一下就知道了,不能被选中的就是图片。(其实也是可以整出来的,但是偶有点懒。。。现在没动力)
其实我的诉求很简单 ,就是把word文件下载下来,不要求格式完全正确,但是要八九不离十。
为啥不用冰点文库?
主要是因为冰点是先导出pdf,然后扫描出txt,文字识别有可能会错误,还有就是用word打开txt文档还是有字体,颜色等丢失,pdf本身编辑又不方便。还有就是总是要设置我的首页。。。。。
特意做了这样的一个小工具,共享给大家。有很多地方还可以继续优化,可是做的非常累,给大家看看有没有人喜欢,有人喜欢的话,偶就继续再做做。
偶本身不是做界面出身的,因为要给大家使用,还强行去学了一个界面,搞得丑的自己都不想要,大家克服一下吧。
界面逻辑,就一个按钮(实在是不会写界面),空白框里面输入百度文库地址,点击提交。
文档下载到当前目录下的download文件夹里面,无论啥文件,下载号以后都叫test.doc,自己注意重命名,不然会覆盖。 (下个版本加上自动命名吧)
还有就是偶用python做的,不知道为啥python3.7打包出来文件好大好大,要37.6MB,我也很崩溃呀,如果是我自己看到这样的大小,我也以为是病毒呀,可是确实就是这么大,这里面没有任何广告,后门 。。。。。
界面后面故意留了个command窗口,是因为不会做进度条,下载时有信息都是直接输出到command窗口的。大家要是不希望回头我去学怎么做个进度条出来。。。。
当前可以做到的是:
1:仅仅支持DOC格式,虽然pdf,txt格式不难,但是还没有时间去做。
2:这个工具可以做到的就是doc文件格式文本下载,字体,颜色,段落基本上都是正确的。
3:目前只能撷取doc文章中的文字部分,图片部分当前还没有完成,已经有思路了,技术上是可行的,回头我再想想怎么整合到代码里面去。
当前实现功能
1:doc格式可以下载,可以识别部分:
1.1:硬回车换行,基本可以正常识别。
1.2:表格中偶尔有硬回车,基本可以识别。
1.3:软回车,基本可以识别
2:文字应该不会有错别字,因为不是用pdf扫描识别做的。
最后放地址:
版本0.01, 64位only
链接: https://pan.baidu.com/s/197YJMV1v6RCIE_8kkXpZ0w 提取码: 9zm2
版本0.02, 64/32位
链接: https://pan.baidu.com/s/1m1UjgoaieK13-6NnwplzgQ 提取码: gwf7
下载链接:
0.9版本,64/32位
链接: https://pan.baidu.com/s/1V77iTXR3N-av_pHjLvEmCA 提取码: 6uvu
0.95版本:64/32位
链接: https://pan.baidu.com/s/1TKLLq9f4P93wCsoIx6iqJQ 提取码: rg7t
有啥问题此贴给我留言吧,希望有人喜欢,你们喜欢了我才用动力继续开发
本文原文来自:https://www.52pojie.cn/thread-843957-1-1.html
源码网欢迎您的查阅与支持,公号:【聚网志成网站建设,找szcy114】
已有 3282 位网友参与,快来吐槽:
发表评论