跳转到帖子

游客您好,欢迎来到黑客世界论坛!您可以在这里进行注册。

赤队小组-代号1949(原CHT攻防小组)在这个瞬息万变的网络时代,我们保持初心,创造最好的社区来共同交流网络技术。您可以在论坛获取黑客攻防技巧与知识,您也可以加入我们的Telegram交流群 共同实时探讨交流。论坛禁止各种广告,请注册用户查看我们的使用与隐私策略,谢谢您的配合。小组成员可以获取论坛隐藏内容!

TheHackerWorld官方

精选回复

发布于

既然选择的是不重复的元素,那么试图在[1,100]这样的区间里选择500个元素,当然是不可能的,但是机器不知道这事,就一直尝试,没有精力做别的事了。

今天的话题是分词:Python扩展库jieba和snownlp很好地支持了中文分词,可以使用pip命令进行安装。在自然语言处理领域经常需要对文字进行分词,分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。

>>> import jieba #导入jieba模块

>>> x = 分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。

>>> jieba.cut(x) #使用默认词库进行分词

>>> list(_)

[分词, 的, 准确度, 直接, 影响, 了, 后续, 文本处理, 和, 挖掘, 算法, 的, 最终, 效果, 。]

>>> list(jieba.cut(纸杯))

[纸杯]

>>> list(jieba.cut(花纸杯))

[花, 纸杯]

>>> jieba.add_word(花纸杯) #增加新词条

>>> list(jieba.cut(花纸杯)) #使用新题库进行分词

[花纸杯]

>>> import snownlp 导入snownlp模块

>>> snownlp.SnowNLP(学而时习之,不亦说乎).words

[学而, 时习, 之, ,, 不亦, 说乎]

>>> snownlp.SnowNLP(x).words

[分词, 的, 准确度, 直接, 影响, 了, 后续, 文本, 处理, 和, 挖掘, 算法, 的, 最终, 效果, 。]

如果有一本Python书,像下面图中所展示的写作风格,大家会不会很喜欢呢,至少我是会的。

创建帐户或登录后发表意见

最近浏览 0

  • 没有会员查看此页面。