博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【语言处理与Python】1.1文本和单词
阅读量:5023 次
发布时间:2019-06-12

本文共 1005 字,大约阅读时间需要 3 分钟。

【前言】

自然语言:日常交流使用的语言
NLP:Natural Language Processing
【第1章 语言处理与Python】
1.1语言计算:文本和单词
基本入门
-想要获得我们期望的小数除法,要输入from __future__ import division
-下载NLTK数据包
 import nltk
 nltk.download()
-加载要用的文本
 from nltk.book import *
搜索文本
-concordance词汇索引,会显示词汇所处的上下文
text1.concordance("monstrous")
-similar,查找还有哪些词会出现在相似的上下文中
text1.similar("monstrous")
-common_contexts,允许我们研究两个或者两个以上的词共同的上下文
text2.common_contexts(["monstrous","very"])
-dispersion_plot,判断词汇在文本中的位置,使用离散图来表示位置。
text4.dispersion_plot(["citizens","democracy","freedom","duties","America"])
-不同风格生成文本
text3.generate()
计数词汇
-len(text3)出现的词和标点符号的个数
-sorted(set(text3))所有文章出现的词汇,并且进行排序(词类型,一个词在一个文本中独一无二出现的形式或者拼写)
-from __future__ import division
 len(text3)/len(set(text3))
 丰富度测量,每个字平均被使用的次数
-text3.count("smote")特定次出现的次数
-100*text4.count('a')/len(text4)特定的词在文本中占据的百分比
-定义函数,进行重复运算。
 def lexical_diversity(text):
    return len(text)/len(set(text))
 def percentage(count,total):
    return 100*count/total

转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/14/3078333.html

你可能感兴趣的文章
LeetCode 895. Maximum Frequency Stack
查看>>
模仿segmentfault 评论
查看>>
一个简单的日志函数C++
查看>>
Java 8 中如何优雅的处理集合
查看>>
IOS程序的启动过程
查看>>
连接Linux下 XAMPP集成环境中部署的禅道的数据库MariaDB
查看>>
Java操作Excel和Word
查看>>
Oracle 体系结构之ORACLE物理结构
查看>>
ORA-12538: TNS: no such protocol adapter
查看>>
盒子模型
查看>>
局域网协议
查看>>
[HNOI2012]永无乡 线段树合并
查看>>
Spring整合hibernate:3、使用XML进行声明式的事务管理
查看>>
SqlServer之Convert 函数应用格式化日期(转)
查看>>
软件测试领域中的10个生存和发展技巧
查看>>
Camera前后摄像头同时预览
查看>>
HDU 1856
查看>>
课堂作业01--架构师的职责
查看>>
iOS计算富文本(NSMutableAttributedString)高度
查看>>
2017/09/15 ( 框架2)
查看>>