文本特征提取


文本中 单词,句子,短语,字母 什么作为特征值比较好 单词

先来第一个API

data = ["life is short,i like like python", "life is too long,i dislike python"]
# 1、实例化一个转换器类
transfer = CountVectorizer(stop_words=["is", "too"])

# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字:\n", transfer.get_feature_names())

我们来查看结果

首先它会把所有的单词都放到一个列表里面(但是i没有放进来,因为i作为情感分析的作用不大,所有会自动忽略

这里我们可以发现,文本特征提取时获取的特征值实际上就是每个单词出现的次数

中文特征值抽取

data = ["我爱北京天安门", "天安门上太阳升"]
# 1、实例化一个转换器类
transfer = CountVectorizer()

# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字:\n", transfer.get_feature_names())

但是这样不行,我们需要自己手动隔开

像这样

data = ["我 爱 北京 天安门", "天安门 上 太阳升"]

显示结果(不过这里会自动去掉单个词)


文章作者: 小游
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 小游 !
  目录