首页 > 试题广场 >

apriori

几个概念

置信度

置信度是对简单关联规则准确度的测量量,定义为包含项目的事务中同时也包含项目的概率,数学表述为:

置信度的本质就是我们所学过的条件概率,置信度越高,则说明出现则出现的可能性也就越高。假设在电脑杀毒软件的关联规则中,置信度,表示购买电脑的顾客中有的顾客也购买了杀毒件。
先通过支持度产生频繁项集

规则支持度(Support)

支持度测量量了简单关联规则应用的普适性,定义为项目A与项目B同时出现的概率,数学表述为:Support
假设某天共有100个顾客到商场购买物品,其中有10个顾客同时购买了电脑和杀毒软件,那么上述关联规则的支持度就为10%,同样,支持度越高,表明某一关联规则的适用性就越大。一个有效的简单关联规则,势必同时具有较高的置信度与⽀支持度。因为,如果支持度较高而置信度较低,则证明规则的可信度差;而相反,如果支持度较低而置信度较⾼高,则说明规则的应用范围较小。

举例来说,假设在1000个顾客购买行为的事务中,只有一个顾客购买了了烧烤炉,同时也只有他购买了碳,虽然规则“烧烤-->炉碳”的置信度很高,为100%,但支持度仅有0.1%,说明这条规则缺乏普遍性,应用价值不不⾼高。

所以一个有效的关联规则,必须具有较高的置信度与支持度,那么在实际应用中,我们就需要给定最小的置信度与支持度,只要同时大于和的规则,我们才可以将其定义为是“有效”的。

规则提升度(Lift)

置信度与后项支持度之比,数学表述为:

提升度反映了项目的出现对项目出现的影响程度。从统计角度来看,如果的出现对项的出现没有影响,即与相互独立的化, ,此时规则提升度为1。所以,具有实
用性的关联规则应该是提升度大于1的规则,即A的出现对B的出现有促进作用。同样,提升度越
大,证明规则实用性越强。

Apirio算法

  • 先通过支持度得出频繁项集
  • 然后通过对频繁项集的子集进行构造,得出候选的关联规则,然后通过置信度得出有效的关联规则
发表于 2019-05-30 20:40:15 回复(0)