文本中 单词,句子,短语,字母 什么作为特征值比较好 单词
先来第一个API
data = ["life is short,i like like python", "life is too long,i dislike python"]
# 1、实例化一个转换器类
transfer = CountVectorizer(stop_words=["is", "too"])
# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字:\n", transfer.get_feature_names())
我们来查看结果
首先它会把所有的单词都放到一个列表里面(但是i没有放进来,因为i作为情感分析的作用不大,所有会自动忽略
这里我们可以发现,文本特征提取时获取的特征值实际上就是每个单词出现的次数
中文特征值抽取
data = ["我爱北京天安门", "天安门上太阳升"]
# 1、实例化一个转换器类
transfer = CountVectorizer()
# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字:\n", transfer.get_feature_names())
但是这样不行,我们需要自己手动隔开
像这样
data = ["我 爱 北京 天安门", "天安门 上 太阳升"]
显示结果(不过这里会自动去掉单个词)