![]()
作者:Susan Li
翻译:陈之炎
校对:陈汉青
本文 约1900字,建议阅读 5分钟 在这篇文章,我们将LDA应用于一组文档,并将文档按照主题分类。
标签:LDA 算法
- 标记化——将文本分成句子,将句子分成单词,把单词变为小写,去掉标点符号。
- 删除少于3个字符的单词。
- 删除所有的句号。
- 词形还原——将第三人称的单词改为第一人称,将过去和未来时态中的动词改为现在时。
- 词根化——将单词简化为词根形式。
[nltk_data] Downloading package wordnet to[nltk_data]
C:\Users\SusanLi\AppData\Roaming\nltk_data…[nltk_data] Package wordnet is already up-to-date!
True
源文件:
[‘rain’, ‘helps’, ‘dampen’, ‘bushfires’]
标记化和词形还原后的文件:
[‘rain’, ‘help’, ‘dampen’, ‘bushfir’]
成了!
预处理标题文本,将结果保存为“processed_docs’
0 broadcast
1 communiti
2 decid
3 licenc
4 awar
5 defam
6 wit
7 call
8 infrastructur
9 protect
10 summit
Gensim filter_extremes
- 在少于15个文档中出现(绝对数)或
- 在总语料库中占比分数超过0.5
Gensim doc2bow
[(76, 1), (112, 1), (483, 1), (3998, 1)]
Word 76 (“bushfir”) appears 1 time.
Word 112 (“help”) appears 1 time.
Word 483 (“rain”) appears 1 time.
Word 3998 (“dampen”) appears 1 time.
[(0, 0.42693),
(1, 0.57926),
(2, 0.015836),
(3, 0.40635)]
[‘rain’, ‘help’, ‘dampen’, ‘bushfir’]
图6
测试文档被模型精确归类为可能性最大的那个主题,说明分类准确。
https://www.udacity.com/course/natural-language-processing-nanodegree--nd892
编辑:王菁
校对:汪雨晴
译者简介
陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

点击“阅读原文”拥抱组织
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/bcyy/54299.html