相似性度量笔记

1. 引言相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性的过程。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统中,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时间空间开..


LSH那些事儿 (I): 总览

本篇是对LSH及其相关技术的总体介绍,包括其应用场景等。 1. 概念引用自Wikipedia: Locality-sensitive hashing (LSH) is a method of performing probabilistic dimension reduction of h..


Introduction to Latex

This introduction is given by David Reid Why is LATEX great for technical docs? Separate content from style. Good layout (usually). Excellent for ..


ICDM:数据挖掘十大算法

2006年12月,国际会议IEEE International Conference on Data Mining(ICDM)评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Ba..


游青城山记

青城,古谓之曰丈人,邛崃余脉焉。依岷川雪岭,面天府袤野,木林青翠,四季常青,诸峰环峙,状若城廓,故名之。丹梯千级,曲径通幽,至者皆惊叹,无不挥毫放歌,故誉天下以此。余居成都数月有余,甚慕其名,奈何术业繁忙,未有隙,寻,终得云游之机,携同游者并十数人,驱车而至,阴雾缭绕,风凝寒袭,虽为申时,仙观奇..