1、贪心NLP——课程介绍及NLP概论
一、毕业要求
1、完成9个课程项目(每个5~15小时)40%
2、完成聊天机器人项目(40~80小时)15%
3、完成casptone项目(40~100小时)25%
4、完成6篇以上技术博文写作
5、个人github项目满足学院要求
6、通过期中期末考试,完成一周一次Quiz
7、提交不定期布置的论文的阅读总结
8、制作满足要求的简历
二、AI工程师必须具备的核心技能
现实生活中的问题——数学优化问题——通过合适的工具解决
难点:抽象现实问题为数学问题
三、NPL概论
1、NLP = NLU + NLG (Natural Language Processing = ... Understand + ... Generration)
自然语言处理 = 自然语言理解 + 自然语言生成
NLU:语音/文本 → 意思(关键)
NLG:意思 → 语音/文字
四、为什么NLP相对较难
图像识别
图像识别
2、同一个意思有多种表达方式
3、词义存在一词多义现象(Ambiguity),或称作歧义性
4、解决一词多义的方法:词义概率统计、联系上下文(context)建立关联性
五、案例:机器翻译
怎么实现?
1、对照统计来的对照表,进行概率匹配(慢、语义、上下文、语法、规则统计)
2、可通过 AI/模型 的方法解决 慢的问题
3、具体过程

plan A: 分词 → 打散的词 → 逐词翻译 → 排列出所有情况,挑选出概率最大的一个(n!)
plan B: 将翻译问题和语法排列问题同时进行(算法、概率论)
4、plan B 的提出是为了解决 A 计算量非常大、复杂度高的问题
5、挑选最符合英语语法的排列,这一步是用算法实现(Language Modle)
6、概率论知识
条件概率:p(e|c) 表示在 c 条件下 e 事件发生的概率
贝叶斯定理:p(e|c) = p(c|e) * p(e) / p(c),这里p(c) 因为是被翻译的固定句子,所以视为C
p(x, y) = p(x) * p(y) 若 x 与 y 独立
p(x, y) = p(x) * p(y|x) = p(y) * p(x|y) 若 x 与 y 不独立
7、语言模型训练
计算每个部分的概率问题
p(x, y, z, w) = p(x) * p(y|x) * p(z|x y) * p(w|x y z)
= p(x,y) * p(z|x y) * p(w|x y z)
= p(x, y, z) * p(w|x y z)
= p(x, y, z, w)
uni - grand model = p(x) * p(y) * p(z) * p(w)
bi - grand ... = p(x) * p(y|x) * p(z|y) * (w|z)
tri ... = p(x) * p(y|x) * p(z|x y) * (w|y z)
六、NLP的应用场景
问答系统、情感分析、机器翻译、自动摘要、聊天机器人、信息抽取

七、NLP关键技术
语义(NLU、机器学习)
句子结构(句法分析、依存分析)
单词(分词、pos(词性)、NER(命名实体识别))
声音
