cca

Python 实现Jaccard相似度计算,判断英文新闻标题相似度

相似文档检测 Mission data.csv中包含了一个新闻标题列表,试通过近似检测方法,通过Jaccard相似度,检测相似文章,将结果保存到csv文件中,不同文章间用空行隔开。 Work 思路: 两个词作为一段来计算,末尾不够截掉 Jaccard相关系数大于0.5则认为两个新闻标题相似 利用并查集将相似的合并在一起 Code import pandas as pd import nltk im... »

多视角子空间学习系列之 CCA 典型相关分析

多视角学习与子空间学习 多视角学习(Multi-view learning)是陶大成提出的一个研究方向。我们都知道,在机器学习中样本可以用不同的特征(如图片可以用LBP、SIFT等特征)来表示,或者从不同的角度进行观察(如从前后左右观察一个对象),甚至是采用不同的传感器来观测(如RGB摄像头,Depth摄像头),这些不同的观测手段、角度或特征在多视角学习中称为“视角”。多视角学习通过对不同的视角进... »