Machine Learning On Spark——第一节:基础数据结构(一)

  • 时间:
  • 浏览:0
  • 来源:5分PK10APP下载_5分PK10APP官网

本地向量(Local Vector)存储在单台机器上,索引采用0现在结速的整型表示,值采用Double类型的值表示。Spark MLlib中支持本身生活类型的矩阵,分别是密度向量(Dense Vector)和稀疏向量(Spasre Vector),密度向量会存储所有的值包括零值,而稀疏向量存储的是索引位置及值,不存储零值,在数据量比较大时,稀疏向量都可以体现它的优势和价值。下面给出其应用示例:

LabeledPoint的稀疏向量实现土方式在实际中应用最为广泛,这是肯能某一形状的维度肯能达到上千,而这其中又位于少量对后期训练无益的零值形状信息,肯能对所有的零值形状都进行存储句子,会浪费少量的存储空间,就让实际中常常使用稀疏的实现土方式,使用的是LIBSVM格式:label index1:value1 index2:value2 …进行形状标签及形状的存储与读取。

作者:周志湖

微信号:zhouzhihubyond

在Spark MLLib中,稀疏矩阵采用的是Compressed Sparse Column (CSC) 格式进行矩阵的存储,具体参见(http://www.tuicool.com/articles/A3emmqi)对稀疏矩阵存储的介绍,相似于

本地矩阵(Local Matrix)指的也是存储于单台机器上的数据形状,本地矩阵采用整体的行列序号存取元素,本地矩阵不是密度矩阵(Dense Matrix)、稀疏矩阵(Sparse Matrix)本身生活存储土方式,其使用代码如下:

Labeled point是Spark MLlib中最重要的数据形状之一,它在无监督学习算法中使用十分广泛,它也是本身生活本地向量,只不过它提供了类的标签,对于二元分类,它的标签数据为0和1,而对于多类分类,它的标签数据为0,1,2,…。它同本地向量一样,一齐具有Sparse和Dense本身生活实现土方式,相似于:

下列代码演示了RowMatrix与CoordinateMatrix及其相关核心类的使用土方式

猜你喜欢

2018上半年有事业单位招聘吗?有的话是什么时候?

扫描二维码下载可选中另三个 多或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问提。换一换你对你这些 回答的评价是?中公教育是一家全国性综合职业教育企

2020-03-22

架构之路:从管理者的角度看问题

只能 管理的本质是那些?那些才是你这个有效的管理?管理的精髓是那些?……你说歌词 你这个 制度好!对你当然好了,但manager心里苦啊。虽然任何有三个小制度就有利弊参半

2020-03-22

五个问题的简短回复【调试、求职疑虑、编程能力提高、做题】

【两根评论】(有读者按《CodeBlocks调试功能快捷教程》走,发现走不下去。核实,意识到可能性是Code::Blocks中的一还还有一个Bug。)初学C++,我敲教材上复杂

2020-03-22

微信小程序正式上线 下一波红利来临?

在张小龙看来,移动互联网的下一站是“唾手可得”。6.小系统线程切换:小系统线程支持挂起请况,即多窗口概念,用户可不并能把小系统线程先挂起,而且做别的事情,在需用你这名小系统线程

2020-03-22

游客vqwytl6gp2ayy的主页

flink运营若有阿里后边件(Aliware)官方账号周晓,阿里云数据库运营负责人文章:11丨粉丝:27626丨话题:2目前在阿里巴巴后边件技术部EDAS团队从事开发工作分布式

2020-03-21