主要提取全是字母且长度在4-15的字符串
./txt2dic.sh
或
txt2word2dic.sh
使用欧陆词典网页版在线导入生词
txt2dic.sh能够提取txt中的所有只含字母且长度在3-15之间的字符串
txt2word2dic.sh能提取txt的所有只含字母且长度大于3的字符串,并按照频率排序,然后取频率最高的前5000个词(在txt2word2dic.sh中可修改数量),我认为在输入大量txt文献时,可以剔除一些因为pdf转txt时产生的无意义字符串
递归下载mannual网站
wget -r -e robots=off http://cms.mpi.univie.ac.at/vasp/vasp/
将下载的html文件复制到./INPUT/html目录
html2word2dic.sh
手动删除output.txt中前面高频出现的html标签的单词
空白的欧陆词典账号(为了防止有笔记,影响后续导出后排序的操作),网页端,学习记录导入txt
客户端导出html,浏览器复制,粘贴到excel,按照解释排序或筛选,去除无解释单词,再将单词列提出另存为txt,导入常用欧陆词典账户
随后,只需要将筛选出的列,重新导入常用欧陆词典的网页端即可
我导出的一份vasp guide的单词下载vaspdic