You signed in with another tab or window.
Reload
to refresh your session.
You signed out in another tab or window.
Reload
to refresh your session.
You switched accounts on another tab or window.
Reload
to refresh your session.
By clicking “Sign up for GitHub”, you agree to our
terms of service
and
privacy statement
. We’ll occasionally send you account related emails.
Already on GitHub?
Sign in
to your account
对于pdf来说,翻译的时候需要转换成epub,这个过程中有个很常见的问题是段落划分错误,导致文本可读性降低。
如果逐行翻译的话,那么将会降低到难以忍受的程度,如果合并翻译的话,那么容易导致合并翻译行数不一致。
建议为pdf增加一个「段落重排」的预处理。
灵感来自WPS文字中的「段落重排」,现在翻译pdf会先转换成word,然后调用「段落重排」,「段落重排」在wps中的运行速度非常快,能够以低成本明显改善文件质量。
对于行的合并来说,可以使用LLM对于这些行进行预处理。
对于没有以标点符号结尾的行,把前文和后文摘录出来问LLM是一个句子可能性有多大,超过阈值判定为一个句子。
如果是的话那么就合并,如果不是就不合并。
通用的模型加提示工程估计就可以起到比较好的效果。
对于行的合并来说,可以使用LLM对于这些行进行预处理。 对于没有以标点符号结尾的行,把前文和后文摘录出来问LLM是一个句子可能性有多大,超过阈值判定为一个句子。 如果是的话那么就合并,如果不是就不合并。 通用的模型加提示工程估计就可以起到比较好的效果。
有哪款免费的程序或者软件可以实现么?WPS的这个功能要付费会员才能用
对于行的合并来说,可以使用LLM对于这些行进行预处理。 对于没有以标点符号结尾的行,把前文和后文摘录出来问LLM是一个句子可能性有多大,超过阈值判定为一个句子。 如果是的话那么就合并,如果不是就不合并。 通用的模型加提示工程估计就可以起到比较好的效果。
这个需要自己编程才能实现吧?有类似的代码的例子吗?
对于pdf来说,翻译的时候需要转换成epub,这个过程中有个很常见的问题是段落划分错误,导致文本可读性降低。 如果逐行翻译的话,那么将会降低到难以忍受的程度,如果合并翻译的话,那么容易导致合并翻译行数不一致。 建议为pdf增加一个「段落重排」的预处理。 灵感来自WPS文字中的「段落重排」,现在翻译pdf会先转换成word,然后调用「段落重排」,「段落重排」在wps中的运行速度非常快,能够以低成本明显改善文件质量。
确实,一本pdf的书,直接尝试进行翻译有4300个翻译条目,转为word只有1900个。每个段落是真正的段落而不是一两行,这样翻译出来的意思更好,发送的request更少(有些api有每分钟request限制,例如claude)。
也就是说,我们自己用wps打开pdf,对其使用wps的"段落重排",再另存为word,然后再使用插件进行翻译不就行了?
不需要让插件再去实现wps里的功能了吧
如果能集成这个功能,而不是需要用word先转换了再进行翻译可以方便很多。
请问哪个工具可以解决pdf转word后,段落中的换行问题?
pdf转word用的不多,我记得可以直接用word打开pdf,大部分换行转化的还是比较良好。剩下一些,用正则或者通配符,进行替换下基本就够用。当然不是非常严格,自己阅读用的 话,是够用的了。
用word打开pdf,编辑多余的元素之后保存为docx,然后再calibre中将docx转换成epub,应该是目前比较好的解决方案
还有一种方法是使用abbyy reader将pdf转换为epub,不过感觉效果没有word好
但是如果是扫描版的pdf,这种方法不失为一种选择
Solid PDF converter is very powerful to convert PDF to Word docx
https://www.soliddocuments.com/pdf/new_in_v8/314/1
https://www.soliddocuments.com/products.htm?product=SolidPDFtoWord
https://apryse.com/brands/soliddocuments
https://www.pixelplanet.com/pdfgrabber/features/pdf-to-word/
convert PDF to Word , HTML5