英文文章单词自动查找脚本
文章目录
- 1. 引言
- 2. 脚本介绍:
- 3. 使用前准备
- 4. 使用方法
- 5. 脚本下载
1. 引言
我们有时候会遇到一些自己比较感兴趣的英语书籍或者文章,阅读这些文章的过程中会遇到一些生词,但查找单词的过程特别繁琐麻烦,有时候我们查词的时间会远大于读文档的时间。而且经常后面的单词查完了前面的单词又忘记它们的意思了。当然我们可以在文档上做笔记,但在电脑上这种笔记特别难做。
当然,我们也可以去找本单词书背单词扩充词汇量,但背单词不是一蹴而就的事情,而且我们在某段时间里背下的单词可能在之后很长时间里都不会实际用到,那么我们实际上并不能知道自己背单词的效果如何。
针对这两个问题,我用Python和Java写了两个脚本,它们可以自动把文章中的所有单词都提取出来并自动查找它们的音标和释义,并把单词、音标和释义写入到Excel表格中 。我们可以先把文章中出现的单词背熟再阅读文章,顺便在文章中检验我们背单词的效果。
2. 脚本介绍:

这个脚本程序中包含了五个文件,他们各自为:
concise-bing-little.txt:词典文件get_words_from_txt.py:单词提取脚本,负责把文章中的单词全部提取出来SearchWords.jar:单词查找脚本,负责自动查找提取出来的单词的释义并将其写入Excel表格familiar_words.txt:熟悉单词汇总文件,存储熟悉词汇SetFamiliarWords.jar:熟悉词整理脚本,负责将Excel表格中标注出的熟悉词汇存入熟悉单词汇总文件
3. 使用前准备
要使用这两个脚本程序,我们必须先配置好Java环境和Python环境,关于如何安装Java请参考:如何安装JAVA JDK。关于如何安装Python请参考:怎么安装Anaconda3。
另外,单词提取脚本用到了Spacy和PyEnchant两个包,因此需要提前在电脑上安装这两个包,安装方法如下所示:
同时按windows和R键:

输入cmd,打开命令行界面:


输入pip install pyenchant --user,安装PyEnchant包;
输入pip install spacy --user,安装Spacy包
4. 使用方法
首先,我们需要在脚本所在目录新建一个名为text.txt的文本文档,然后将我们想要阅读的文章内容复制到这个文本文档中并保存。

在脚本文件所在目录的地址栏中输入cmd后按回车键,打开命令行界面


在命令行中输入代码python get_words_from_txt.py "text.txt",把文本文档中的词汇都提取出来并存储到文本文档中

这个时候文件夹下会出现一个名为words_text.txt的文档,这是我们从文章中提取出来的词汇。

在命令行中输入代码java -jar SearchWords.jar "words_text.txt",查找上一步中提取出的词汇

命令行上显示的信息表明我们提取出的词汇总共有909个,其中908个查找成功,1个查找失败,这个查找失败的单词为"cal"
这个时候文件夹中会出现一个名为words_text.xls的文件,这是脚本建立的词汇表

词汇表分为四栏,分别是单词、音标、释义和熟悉度,前三栏的内容是自动生成的,第四栏需要自己手动输入。
在用词汇表背单词的时候,如果我们发现这个单词我们已经完全掌握了的话,我们就在熟悉度一栏输入"1",如果这个单词完全不熟悉,就输入"0",如果发现这个单词自己只记住了部分含义,就输入"0.5".


5. 脚本下载
脚本文件已存入迅雷云盘,有需要的话请自取,另外源码可以通过jd-gui反编译获得。
脚本地址:
链接:https://pan.xunlei.com/s/VMjiiuNerfvVjuhcuexenkmPA1
提取码:kag2
