归档: 2019

Spark笔记(3):集群运行Spark程序实例讲解

之前都是在spark shell上执行,当数据量达到一定程度,我们可以利用Spark的集群模式来运行,增加算力,而且本地小数据量验证成功的代码可以直接放到集群上跑。 这一小节从提交一个集群环境下的Spark Job出发,讨论了在集群运行Spark Job时的配置项,再讲到Spark基础的架构,最后讲解了一下Spark Job性能调试的经验。 一、spark-submit应用部署Spark使用sp

Spark笔记(2):Pair RDD与数据分区

这一章节我们来看一下在Spark常用来进行聚合操作的Pair RDD,其实类似于字典,由key-value对构成,同样的,Pair RDD也有很多的操作接口,比如reduceByKey()、join(),下面会逐一对介绍,很多语言的语法都是相同的,这里的聚合操作就类似于SQL中的group by或者python中的groupby,所以领会起来也不难。 然后再看一下数据分区相关的内容,数据分区对分布

广告&推荐面面观(2):大规模分片线性模型MLR

一、动机点击率预估需要解决的超高维度离散特征空间模式识别的问题,它需要算法在做到可以有效发现当前数据规律的同时,还要具有足够的泛化能力去应对线上多变的user-context-content模式,所以到目前为止有许多的CTR模型被应用于实际场景中,诸如LR、DNN、Tree Model、FM/FFM,这些模型都有各自的优势,但也存在缺陷,整理如下: 阿里妈妈在2011年提出了MLR模型,全称L

广告&推荐面面观(1):经久不衰的逻辑回归

推荐和广告已成为互联网公司的标配,这两者之间有相通的地方,推荐系统被广泛的应用于计算广告中,是其不可或缺的模块,当然推荐系统可以有更多其他的场景,比如淘宝京东的商品推荐、APP Store的应用推荐,今日头条的内容推荐等等,它需要兼顾媒体和用户这样个参与者;而广告作为互联网公司的核心业务模块,需要有推荐系统的支持,它将来自广告主的广告更有效的推荐给在媒体端观看的用户,串联的是广告主、媒体、用户三个参与方,必须要这三方玩的开心。广告的永恒目标是直接或者间接地帮助公司盈利,偏重商业,而推荐更多的是改善用户体验,提高留存,偏重产品。 这个系列,我们会从经典的点击率预估算法开始,包括LR、MLR、GBDT+LR、FM/FFM、DeepFM、Wide&Deep、DIN、DIEN、PNN、NFM、AFM、DCN等等,层出不穷的算法模型正是为了因具体的业务场景而生,即使是很微小的提升,也会对公司的收益有很大的贡献。再之后深入到计算广告和推荐系统身后更为广义的业务相关的知识、系统的架构等等。这一系列的文章会邀请业界的前辈来撰写或者转载优质的总结,争取有一个完整的展示。 第一篇,我们先从逻辑回归模型开始。 虽然目前已经有很多深度学习模型可以在不同场景下获得不错的预测广告点击率,但仍然有很多公司的广告算法部门在使用逻辑回归模型,那为何在深度时代背景下传统的逻辑回归模型在点击率预估中仍然有其用武之地呢?可以归纳为以下几点:

机器学习笔记(1):线性回归

初入机器学习领域,我们都会听闻各种模型的名字,比如SVM、树模型、聚类算法等等,这个机器学习笔记系列从基础的模型出发,如线性回归、逻辑回归、随机森林、LightGBM、SVM、孤立森林、聚类算法等,再到机器学习的特征工程、优化算法等等,以公式推导模型理解为主要内容,辅以编程实现。 第一篇我们先介绍一下最容易解释与扩展的线性回归模型。 一、线性回归模型线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。

Spark笔记(1):RDD编程

Spark笔记系列我们准备以《Spark大数据分析》这本书的总体框架为主线,从RDD编程的核心概念说起,到基本的RDD操作、数据IO、Spark Job,以及Spark SQL、Spark Streaming、Spark MLlib这些Spark组件,结合实例系统的进行讲解,之后会将其延伸开来,争取照顾到Spark的方方面面。 “Apache Spark is a unified analytics engine for large-scale data processing.”这是来自官网的介绍,Spark是一个用于大数据处理的统一分析引擎,上亿的大数据集在单机上跑一个分析几乎不可能,而在Spark上可以以分钟级别的速度就可以完成,这要归功于其先进的调度程序DAG、查询优化器和物理执行引擎,这几个概念在后边会一一介绍,总而言之就是Spark出乎意料的快。除了性能好,Spark还异常亲民,你可以用Java写、用Scala写、用Python写,同时也支持R、SQL,上手非常简单,用惯了python DataFrame的可以在Spark找到对应的DataFrames库,用惯了SQL的分析员也可以在里头找到SQL,机器学习工程师也照样可以使用MLlib进行建模。 在Spark中,有一个核心概念叫RDD(Resilient Distributed Dataset),基本所有的操作都是围绕其展开的,所以第一节我们先讲解RDD编程的核心概念和基本操作,当然这之前要先按照官网提供的安装教程进行安装好Spark。如果没有集群,可以先在单机版上练习。

帝都高校应统考研倾心解析

2019年应统考研大热,背后的原因在于人工智能的时兴激起了大量的毕业生规划从事数据领域职业的热情,作为一个不像CS专业那么硬核的理工专业,应统考研深受非理工类专业毕业生的爱戴,它衔接了数据科学与特定业务领域,降低了初入人工智能领域的门槛。随着各大院校人工智能学院的建立,统计学也会在其中大放异彩,回归人工智能的本质。

魔都四校应统考研必备智库

2019年应统考研大热,背后的原因在于人工智能的时兴激起了大量的毕业生规划从事数据领域职业的热情,作为一个不像CS专业那么硬核的理工专业,应统考研深受各专业毕业生的爱戴,衔接了数据科学与特定业务领域,降低了初入人工智能领域的门槛。伴随着各大院校人工智能学院的建立,统计学也会在其中大放异彩,回归人工智能的本质。 这次我们来到了小资情调的魔都,与您分享这座城市四所顶级院应统专业的考研事宜,一块来看

19北师大应用统计专硕考研心得经验分享

本人19年报考的北师大应用统计专硕(其实是18年12月份考的),2019年4月给通知已进入拟录取名单,初试405分,政治64,英语81,数学三和统计学都是130,初试排名12,复试成绩第二,目前已经被拟录取,我本科是南京某211统计系的,本科虽然学的统计但是基础并不扎实,加上我是二战,所以本科学的忘了很多,复习考研的专业课基本上从零开始,今年的专业课自我感觉比往年难一点点,不过还好都在大纲以内,超