Advertisement

我的nlp学习路线

阅读量:

一、机器学习框架

(一)三大深度学习框架比较

这个项目是一个基于数据流图的数值计算工具包,并且是一个非常受欢迎的开源软件库

2.Keras–目前封装有全连接网络、卷积神经网络、RNN和LSTM等算法。
3.Caffe–考虑了代码清洁、可读性及速度的深度学习框架
4.NLTK–用来编写处理人类语言数据的Python程序

(二) 原版文档

5.scikit-learn–基于SciPy的机器学习模块
6.gensim–主题建模工具
7.pytorch

主要的数据分析工具包包括pandas以及 numpy ,它是一个强大的计算和建模平台。

在Python编程中进行数据可视化时常用到的库包括matplotlib


二、机器学习算法

1.朴素贝叶斯
2.决策树
3.Logistic回归
4.K邻近算法=KNN
5.SVM
6.聚类算法(k-means算法)
7.优化方法(Adaboost方法及其应用)
8.LDA主题模型
9.EM算法


三、nlp的应用和对应算法

(一) 中文自然语言处理流程

0.语料获取:公用语料集、爬虫技术
1.中文分词:jieba工具包
2.提取关键词:tf-idf
3.相似度计算:word2vec等
4.文本分类算法:朴素贝叶斯、SVM、FastText等
5.句子生成:Seq2Seq
6.命名实体识别:隐马模型、条件随机场、RNN等


四、nlp研究内容

1.信息检索
2.机器翻译
3.文本分类
4.问答系统
5.命名实体识别
6.自动文摘
7.信息抽取
8.舆情分析
9.机器写作
10.OCR或语音识别

五、其他

5.1 git操作
5.2 数据库安装及使用

mysql

MongoDB

Redis

5.3 jsonxml格式处理

5.4 Linux

全部评论 (0)

还没有任何评论哟~