说明

主要文件为txt2dic.py程序,windows可直接使用此程序，里面包含相关内容注释
主要提取全是字母且长度在4-15的字符串

脚本使用python3，在windows10的bash上运行正常

此程序目的在于提取相关专业文献中的单词，导入欧陆词典生词本进行背诵，再看文献时能减少自己的生词数

├── INPUT 输入文件夹 │ ├── file1.txt │ └── file2.txt ├── OUTPUT 输出文件夹 │ └── output.txt 输出文件 ├── README.md ├── Script │ ├── txt2dic.py txt转dic单词python脚本 │ └── txt2word_bash txt提取单词python脚本 ├── txt2dic.sh 执行程序 ├── html2word2dic.sh 执行程序 └── txt2word2dic.sh 执行程序

使用Adobe DC等程序将文献pdf导出为txt格式

使用记事本打开,另存为UTF8编码(Adobe DC可以直接导出UTF8编码的txt)

原始txt还可以来自网页等多种格式,最后保存或转码成UTF8的txt都可以

将文件保存到./INPUT目录

运行


             ./txt2dic.sh

或


             txt2word2dic.sh

结果输出在OUTPUT目录
使用欧陆词典网页版在线导入生词

txt中没有无意义字符串时(pdf转txt时识别错误产生)
txt2dic.sh能够提取txt中的所有只含字母且长度在3-15之间的字符串

txt中有大量无意义字符串时
txt2word2dic.sh能提取txt的所有只含字母且长度大于3的字符串,并按照频率排序，然后取频率最高的前5000个词(在txt2word2dic.sh中可修改数量),我认为在输入大量txt文献时，可以剔除一些因为pdf转txt时产生的无意义字符串

html2word2dic.sh 仅更改了txt2word2dic.sh 里面的输入文件由,./INPUT/ .txt变为./INPUT/html/ .html

vasp manual的单词整理

递归下载mannual网站

wget -r -e robots=off http://cms.mpi.univie.ac.at/vasp/vasp/
将下载的html文件复制到./INPUT/html目录
html2word2dic.sh
手动删除output.txt中前面高频出现的html标签的单词
结合欧陆词典，去除检索到的无意义词汇

空白的欧陆词典账号（为了防止有笔记，影响后续导出后排序的操作），网页端，学习记录导入txt
客户端导出html，浏览器复制，粘贴到excel，按照解释排序或筛选，去除无解释单词，再将单词列提出另存为txt，导入常用欧陆词典账户
随后，只需要将筛选出的列，重新导入常用欧陆词典的网页端即可

我导出的一份vasp guide的单词下载vaspdic

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
INPUT		INPUT
OUTPUT		OUTPUT
Script		Script
README.md		README.md
html2word2dic.sh		html2word2dic.sh
txt2dic.sh		txt2dic.sh
txt2word2dic.sh		txt2word2dic.sh

Folders and files

Latest commit

History

OUTPUT (adsbygoogle = window.adsbygoogle || []).push({});

Repository files navigation

说明

vasp manual的单词整理

结合欧陆词典，去除检索到的无意义词汇

OUTPUT