深圳易捷网络科技注册咨询网-jiujiuya.com.cn 返回首页

基于SNS文本数据挖掘:分析关键词分词技巧

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2025-5-4

作为中文系应用语言学专业的学生以及一名数学 Geek ,我非常热衷于用计算的方法去分析汉语资料。汉语是一种独特而神奇的语言。对汉语资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,比如分词 ——汉语的词与词之间没有空格,那计算机怎么才知道,已结婚的和尚未结婚的青年都要实行计划生育究竟说的是已/结婚/的/和/尚未/结婚/的/青年,还是已/结婚/的/和尚/未/结婚/的/青年呢?这就是所谓的分词歧义难题。不过,现在很多语言模型已经能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西——未登录词。中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等等,它们的产生机制似乎完全无规律可寻。最近十年来,中文分词领域都在集中攻克这一难关。自动发现新词成为了关键的环节。

挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。这似乎陷入了一个怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没有新词,我们又怎么能信任分词结果呢?此时,一种大胆的想法是,首先不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较,不就能找出新词了吗?有了抽词算法后,我们还能以词为单位做更多有趣的数据挖掘工作。这里,我所选用的语料是人人网 2011 年 12 月前半个月部分用户的状态。非常感谢人人网提供这份极具价值的网络语料。

要想从一段文本中抽出词来,我们的第一个问题就是,怎样的文本片段才算一个词?大家想到的第一个标准或许是,看这个文本片段出现的次数是否足够多。我们可以把所有出现频数超过某个阈值的片段提取出来,作为该语料中的词汇输出。不过,光是出现频数高还不够,一个经常出现的文本片段有可能不是一个词,而是多个词构成的词组。在人人网用户状态中,的电影出现了389 次,电影院只出现了175 次,然而我们却更倾向于把电影院当作一个词,因为直觉上看,电影和院凝固得更紧一些。

为了证明电影院一词的内部凝固程度确实很高,我们可以计算一下,如果电影和院真的是各自独立地在文本中随机出现,它俩正好拼到一起的概率会有多小。在整个 2400 万字的数据中,电影一共出现了 2774 次,出现的概率约为 0.000113 。院字则出现了 4797 次,出现的概率约为 0.0001969 。如果两者之间真的毫无关系,它们恰好拼在了一起的概率就应该是 0.000113 × 0.0001969 ,约为 2.223 × 10-8 次方。但事实上,电影院在语料中一共出现了 175 次,出现概率约为 7.183 × 10-6 次方,是预测值的 300 多倍。类似地,统计可得的字的出现概率约为 0.0166 ,因而的和电影随机组合到了一起的理论概率值为 0.0166 × 0.000113 ,约为 1.875 × 10-6 ,这与的电影出现的真实概率很接近——真实概率约为 1.6 × 10-5 次方,是预测值的 8.5 倍。计算结果表明,电影院更可能是一个有意义的搭配,而的电影则更像是的和电影这两个成分偶然拼到一起的。

当然,作为一个无知识库的抽词程序,我们并不知道电影院是电影加院得来的,也并不知道的电影是的加上电影得来的。错误的切分方法会过高地估计该片段的凝合程度。如果我们把电影院看作是电加影院所得,由此得到的凝合程度会更高一些。因此,为了算出一个文本片段的凝合程度,我们需要枚举它的凝合方式——这个文本片段是由哪两部分组合而来的。令 p(x) 为文本片段 x 在整个语料中出现的概率,那么我们定义电影院的凝合程度就是 p(电影院) 与 p(电) · p(影院) 比值和 p(电影院) 与 p(电影) · p(院) 的比值中的较小值,的电影的凝合程度则是 p(的电影) 分别除以 p(的) · p(电影) 和 p(的电) · p(影) 所得的商的较小值。可以想到,凝合程度最高的文本片段就是诸如蝙蝠、蜘蛛、彷徨、忐忑、玫瑰之类的词了,这些词里的每一个字几乎总是会和另一个字同时出现,从不在其他场合中使用。

光看文本片段内部的凝合程度还不够,我们还需要从整体来看它在外部的表现。考虑被子和辈子这两个片段。我们可以说买被子、盖被子、 进被子、好被子、这被子等等,在被子前面加各种字;但辈子的用法却非常固定,除了一辈子、这辈子、上辈子、下辈子,基本上辈子前面不能加别的字了。辈子这个文本片段左边可以出现的字太有限,以至于直觉上我们可能会认为,辈子并不单独成词,真正成词的其实是 一辈子、这辈子之类的整体。可见,文本片段的自由运用程度也是判断它是否成词的重要标准。如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。

信息熵是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ,当你知道它确实发生了,你得到的信息量就被定义为 - log(p) 。 p 越小,你得到的信息量就越大。如果一颗骰子的六个面分别是 1 、 1 、 1 、 2 、 2 、 3 ,那么你知道了投掷的结果是 1 时可能并不会那么吃惊,它给你带来的信息量是 - log(1/2) ,约为 0.693 。知道投掷结果是 2 ,给你带来的信息量则是 - log(1/3) ≈ 1.0986 。知道投掷结果是 3 ,给你带来的信息量则有 - log(1/6) ≈ 1.79 。但是,你只有 1/2 的机会得到 0.693 的信息量,只有 1/3 的机会得到 1.0986 的信息量,只有 1/6 的机会得到 1.79 的信息量,因而平均情况下你会得到 0.693/2 + 1.0986/3 + 1.79/6 ≈ 1.0114 的信息量。这个 1.0114 就是那颗骰子的信息熵。现在,假如某颗骰子有 100 个面,其中 99 个面都是 1 ,只有一个面上写的 2 

知道骰子的抛掷结果是 2 会给你带来一个巨大无比的信息量,它等于 - log(1/100) ,约为 4.605 ;但你只有百分之一的概率获取到这么大的信息量,其他情况下你只能得到 - log(99/100) ≈ 0.01005 的信息量。平均情况下,你只能获得 0.056 的信息量,这就是这颗骰子的信息熵。再考虑一个最极端的情况:如果一颗骰子的六个面都是 1 ,投掷它不会给你带来任何信息,它的信息熵为 - log(1) = 0 。什么时候信息熵会更大呢?换句话说,发生了怎样的事件之后,你最想问一下它的结果如何?直觉上看,当然就是那些结果最不确定的事件。没错,信息熵直观地反映了一个事件的结果有多么的随机。

相关行业资讯

1、5个不容忽略的百度中文推广优化细节
2、电商类网站上改善SEO和转化的6条建议
3、行业网站制作的常见问题
4、常见快照异常的原因以及解决方式
5、首页如何布局更利于排名优化
6、做好网站优化能够提高企业业绩吗
7、做推广优化要扬长避短,发挥自身优势
8、SEO网站优化怎么提高网站排名
9、推广优化人员需要具备的素质
10、如何优化网站内链建设
11、推广优化能为品牌客户做什么
12、知道这些让企业网站制作不再一筹莫展
13、做网站怎么才能显得优秀
14、SEO优化怎样提升排名以及稳定在首页?
15、网站推广的时候,要遵循外链的原则
16、站长对站内锚文本内链建设知多少
17、网站建设seo中关于H标签的优化作用
18、阿里云盾网站安全防御(WAF)的正确使用方法
19、网站关键词需要注意哪些事项
20、网站BNANER设计的方法有哪些
21、外贸网站建设需要注意的地方
22、网站内链SEO优化的4个技巧
23、电影网站提升流量3个方法
24、解析关键词密度设置能否决定网站优化成功
25、文本外链建设对网站排名有何帮助
26、新手站长必备的自助建站平台
27、深圳网站制作中背景设计要求
28、网站建设中网站前端制作到底是做什么的
29、国内视频网站平台行业运营分析
30、网巢教你如何打造百度喜欢的网站内容
31、中小企业进行网络营销的两大技巧
32、未来网络推广怎么做?
33、HTML5与推广优化的那些事
34、企业网站运营参数有哪些
35、浅谈网站关键词分析的五大技巧
36、企业网站建设之关键词布局
37、想要购买域名,如何操作
38、为何网站文章被收录后不久又遭被删厄运
39、响应式网站建设一般需要多少钱
40、网站发布前测试需要注意哪些方面
41、针对用户的网站优化
42、容易惹毛搜索引擎的4种优化策略
43、什么是网站运营及如何理解
44、你需要知道什么才能成为一个网络推广员
45、网站批改标题有什么影响
46、中国站长第一人:李兴平
47、现在做手机网站建设报价费用是多少呢?
48、图片过多的网站如何优化
49、如何做好品牌专区?注重品牌特性和用户体验
50、企业建设网站要准备什么

相关视频推荐

自动化行业网站制作焊锡机/点胶机/螺丝机网站
企业网站制作新模式全部仅需800元/年
如何提高企叫网站打开速度
公司网站到期了该怎小续费
企业为什么必须要做一网站
企业网站的导航栏一般要规划哪些栏目
国际物流FBA物流网站建设深圳易捷网站公司公司
银制品金银器网站建设深圳易捷网站公司
包装印刷行业网站设计
膜结构公司网站设计
工商财务公司网站设计
购买一个域名需要多少钱
企业网站建设云虚拟主机需要多少钱
财务公言的网站怎么做才能显示在搜索引擎的首页
网站建设一站式服务
深圳网站建设公司网站排行榜
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号