{"msg":"请求数据成功!","code":0,"data":[{"create_time":"2020-04-18 10:10:54","abstracts":"

\n\t正态分布是统计学中最为基础的,也是我们最常见最常用的一个分布,亦被称为分布之王。可是你会惊喜的发现EXCEL中竟然没有正态分布图表!本文教大家如何制作正态曲线,让你的EXCEL今后也以随时随地画出正态分布图~ \n

","tag_info":"数据分析","remark":null,"avatar":"http://img.lovedata.cn/portal_pic/item/a2f3ef7e76e34e2b911c1a3bb0273811.jpg","title":"如何用EXCEL绘制正态曲线","content":"

\n小编前几天在做数据分析的时候,碰到了一组数据,总觉得柱状图和折线图都不能很好的展示其分布趋势,这时候就在想要是能有个正态分布图就好了。可是搜寻无果,EXCEL中并没有自带正态曲线。于是想到了Minitab,这是一款用于质量管理统计的软件,制程能力分析的时候会经常用到正态分布,只要输入数据,它可以自动帮你生成正态曲线。可是用minitab制作出的图表不能美化,直接放在数据报告里着实不太协调。而且平时用不到它,相信你也不会愿意在自己的电脑里下载多余的东西。还是跟着小编一起学习如何在EXCEL中绘制正态曲线吧!\n

\n

\n
\n

\n

\n举一个简单的例子,我们想要看下表中男生和女生的身高分布。\n

\n

\n\"\" \n

\n

\n
\n

\n

\n想要绘制正态曲线我们只需要借助NORM.DIST函数,返回一列正态函数值。\n

\n

\nNORM.DIST(x,mean,standard_dev,cumulative)\n

\n

\n先来回顾下正态分布的公式\n

\n

\n\"\" \n

\n

\n大家可以发现,μ和σ是两个非常重要的值,他们也正是NORM.DIST函数中的两个参数。所以我们利用函数分别求出女生和男生身高的均值和标准差。\n

\n\"\" \n

\n
\n

\n

\n
\n

\n

\n接下来,对身高范围进行分组,并确定组距。这里我们把身高分成15组,组距为5。得到下表。\n

\n

\n\"\" \n

\n

\n
\n

\n

\n下面,我们利用frequency函数,分段统计男女生身高分布频数。\n

\n

\n\"\" \n

\n

\n选中I2:I16,输入’=FREQUENCY(A:A,H2:H16),然后按crrl+shift+enter,以数组的形式输入就得到了女生的身高分布频数。男生同样,在J2:J16中输入’=FRENQUENCY(B:B,H2:H16)即可。\n

\n

\n接下来就用NORM.DIST函数计算正态分布函数值\n

\n

\n\"\" \n

\n

\n\"\" \n

\n

\n分别在K2,L2单元格中输入上图公式,再向下拖动填充就好啦。\n

\n

\n
\n

\n

\n下面我们只要选中表中的数据插入组合图就可以了。\n

\n

\n\"\" \n

\n

\n将正态曲线折线图选择在次坐标轴,确定后得到以下图表\n

\n

\n\"\" \n

\n

\n将横坐标轴范围选择为组坐标,如下图\n

\n

\n\"\" \n

\n

\n
\n

\n

\n选中折线图,设置为平滑线。\n

\n

\n\"\" \n

\n

\n最后调整一下坐标轴的最小值,分类间距,以及标题字体等。正态曲线图就绘制好了,你也可以根据自己的喜好对图表进一步美化。\n

\n

\n\"\" \n

\n

\n
\n

\n

\n大家如果感兴趣,可以思考一下如何制作正态曲线模板,下次再需要绘制正态曲线图的时候,只要更改数据,图表就可以自动生成。原理可以参照之前介绍过的动态图表制作,利用名称管理器和offset函数。如何有问题,欢迎留言,小编为大家解答~\n

\n

\n
\n

\n

\nEnd.\n

\n

\n作者:Candice\n

","score":null,"user_id":200431,"name":"62Ns_1550878215116","id":99991429,"pageview":52795,"cover_img":"http://img.itongji.cn/portal_pic/item/20190724/a947642af28b47a68bec03b15e7e2453.png"},{"create_time":"2020-04-18 10:22:23","abstracts":"

\n\t我们知道Python之所以很流行,有一个很重要的原因是因为它有很多包可以供我们使用,但是这些包很多都不是自带的,需要手动去安装,本篇我们就讲一下安装Python包的几种方式。\n

","tag_info":"干货分享","remark":null,"avatar":"http://img.lovedata.cn/portal_pic/vip/defaultavatar.png","title":"几种Python包的安装方式","content":"

\n我们知道Python之所以很流行,有一个很重要的原因是因为它有很多包可以供我们使用,但是这些包很多都不是自带的,需要手动去安装,本篇我们就讲一下安装Python包的几种方式。 \n

\n

\n
\n
\n

\n

\n \n

\n

\n1.前言 \n

\n

\n我们平常用到的包都是在https://pypi.org/这个网站获取的,开发者按照一定的开发标准将包发布到Pypi中,然后用户也就是使用包的我们通过不同的方式从该网站进行包的下载并安装。 \n

\n

\n
\n
\n

\n\"\" \n

\n
\n

\n

\nPython包主要有.whl和.tar.gz两种格式,下面是Pandas包两种格式文件: \n

\n

\n\"\" \n

\n

\n\"\" \n

\n

\n
\n

\n

\n2.在线安装 \n

\n

\n在线安装是比较简单的一种方式,直接运行下面代码即可: \n

\n\"\"
\n

\n
\n

\n

\nxxx表示具体的包的名字,那么具体在哪里运行这一行代码呢?主要有两个地方可以运行这一行代码。 \n

\n

\n如果你的Python有配置环境变量,那么你可以通过组合快捷键Win+R调用电脑自带的终端(cmd),然后输入上面的代码,敲回车运行即可。 \n

\n\"\"
\n

\n
\n

\n

\n如果你用的是Anaconda且你的Python没有配置环境变量,那么你需要在Anaconda自带的Anaconda Promt中运行上面的代码,敲击回车。 \n

\n

\n
\n

\n

\n\"\" \n

\n

\n
\n

\n

\n在线安装很简单,只要输入pip命令敲击回车以后,就等着就好了,不需要其他的操作。但是在线安装也有一个不好处就是下载比较慢,对于那些比较大的包可能就会出现连接超时的报错,导致最后安装失败。 \n

\n

\n所以除了在线安装以外,我们还有必要学习一下手动安装。 \n

\n

\n
\n
\n

\n

\n3.whl文件安装 \n

\n

\n前面说过.whl格式的文件是Python包的其中一种类型,你可以在https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype这里找到几乎所有的.whl格式的文件。 \n

\n\"\"
\n

\n
\n

\n

\n
\n

\n

\n这里需要注意一下每个文件后面的cp部分,这一部分是用来说明你要下载包的版本,包的版本需要与你Python的版本是一致的,cp36就表示Python3.6对应的包。win32表示系统是x32位的,win_amd64表示系统位数是x64位的。 \n

\n

\n
\n
\n

\n

\n将文件下载好以后,打开命令窗口,这里的命令窗口也是有两个,就是在线安装中用到的两个窗口,大家根据自己的情况进行选择即可,打开命令窗口以后利用cd命令切换到到whl文件所在的路径下。 \n

\n

\n我这里把pandas包下载到D盘中: \n

\n

\n
\n
\n

\n\"\" \n

\n
\n

\n

\n利用cd命令切换到D盘,然后运行pip install xxx.whl即可完成安装。 \n

\n

\n
\n
\n

\n

\n\"\" \n

\n

\n
\n

\n

\n4.tar.gz文件安装 \n

\n

\ntar.gz文件需要到https://pypi.org/中选择对应格式的文件进行下载,下载下来以后是一个压缩包,需要进行解压,解压完以后打开命令窗口,同样需要切换到文件所在的路径下,然后运行python setup.py install命令进行安装即可。 \n

\n

\n
\n
\n

\n

\n\"\" \n

\n

\n
\n
\n

\n

\n其实安装.whl和.tar.gz格式的文件用到的方法基本一致,只不过两者用到的命令不同。 \n

\n

\n
\n

\n

\nEnd.\n

\n

\n作者:张俊红\n

","score":null,"user_id":104328,"name":"15234021227","id":1380,"pageview":36058,"cover_img":"http://img.itongji.cn/portal_pic/item/20190221/f0d733e6c45446bda825701bd12e9ea4.png"},{"create_time":"2020-04-18 09:37:01","abstracts":"据不完全统计,Excel中的函数多达405种。号称精通Excel的砖家们会掌握全部的函数吗?显然是不可能的。我们不去挑战不可能,踏踏实实的来学习Excel数据分析必备的常用函数吧。","tag_info":"数据分析","remark":null,"avatar":"http://img.lovedata.cn/portal_pic/item/a2f3ef7e76e34e2b911c1a3bb0273811.jpg","title":"EXCEL函数篇——计算统计函数","content":"

\n今天来介绍EXCEL中的计算统计类函数。我们大致分成7类来介绍统计类函数。 \n

\n

\n1. 求和SUM,SUMIF,SUMIFS \n

\n

\nSUM(Number1,[Number2],……):计算单元格区域中所有数值的和 \n

\n

\nSUMIF(range,criteria,[sum_range]);对满足的单元格求和 \n

\n

\nSUMIFS (sum_rang,criteria_range1,criteria1,[criteria_range2,criteria2],…):对一组给定条件指定的单元格求和。 \n

\n

\nSUM函数大家太过于熟悉,我们这里只看SUMIF和SUMIFS的使用方法。 \n

\n

\n简单来说,SUMIF函数是对单个条件限制的区域求和,SUMIFS函数是对多个条件限制的区域求和。两个函数都有三个关键的参数: \n

\n

\na. sum_range求和区域,在SUMIF函数中放在最后,在SUMIFS函数中放在最前面 \n

\n

\nb. criteria_range条件区域,SUMIF函数中只有一个,SUMIFS函数中可以有任意多个。 \n

\n

\nc. criteria条件值,SUMIF函数中只有一个,SUMIFS函数中可以有任意多个。 \n

\n

\n举个例子,下表是爱数据学院的学生成绩单 \n

\n

\n\"\" \n

\n

\n现在想要统计所有人所有课程的总成绩,所有男生的总成绩,所有男生Python课程的总成绩。计算公式如下 \n

\n

\n\"\" \n

\n

\nSUMIF函数计算男生总成绩 \n

\n

\n\"\" \n

\n

\nSUMIFS函数计算男生Python的总成绩 \n

\n

\n\"\" \n

\n

\n
\n

\n

\n2. 求平均值AVERAGE,AVERAGEIF,AVERAGEIFS \n

\n

\nAVERAGE(number1,[number2],…):返回其参数的算数平均值;参数可以是数值或者包含数值的名称、数组或引用。 \n

\n

\nAVERAGEIF(range,criteria,[average_range]):查找给定条件指定的单元格的平均值(算数平均值) \n

\n

\nAVERAGEIFS (average_range,criteria_range1,criteria1,[criteria_range1,criteria2],…):查找一组给定条件指定的单元格的平均值(算数平均值) \n

\n

\nAVERAGEIF和AVERAGEIFS函数的用法与SUMIF和SUMIFS函数的用法是一样的,只不过一个是求平均值一个是求和。这里不再重复介绍了。 \n

\n

\n
\n

\n

\n3. 计数COUNT,COUNTIF,COUNTIFS \n

\n

\nCOUNT (value1,[value2],…):计算区域中包含数字的单元格个数 \n

\n

\nCOUNTIF (range,criteria):计算某个区域中满足给定条件的单元格数目 \n

\n

\nCOUNTIFS (criteria_range1,criteria1,[criteria_range1,criteria2],…):统计一组给定条件所指的单元格数 \n

\n

\n举个例子,我们想要统计学生总数,男生人数,以及学习python的男生人数。实现方式如下图: \n

\n

\n\"\" \n

\n

\n统计学生总数就是用COUNT函数,统计成绩的单元格个数即学生总人数 \n

\n

\n用COUNTIF函数统计男生总人数(单个限制条件) \n

\n

\n\"\" \n

\n

\n用COUNTIFS函数统计学习python的男生人数(多个限制条件) \n

\n

\n\"\" \n

\n

\n
\n

\n

\n4. 最值MAX,MIN \n

\n

\nMAX(number1,[number2],…):返回一组数值中的最大值,忽略逻辑值及文本 \n

\n

\nMIN(number1,[number2],…):返回一组数值中的最小值,忽略逻辑值及文本 \n

\n

\n
\n

\n

\n5. 保留小数位数ROUND,ROUNDUP,ROUNDDOWN,INT \n

\n

\nROUND(number,num_digits):按指定的位数对数值进行四舍五入 \n

\n

\nROUNDUP(number,num_digits):向上舍人数字 \n

\n

\nROUNDDOWN(number,num_digits):向下舍入数字 \n

\n

\nROUND函数是四舍五入,ROUNDUP函数是除0以外的所有数值都进位,ROUNDDOWN函数是所有的数值都舍去。看下面的例子理解起来会更清晰。以3.14159为例 \n

\n

\n\"\" \n

\n

\n
\n

\n

\n6. 取整,平方根INT,SQRT \n

\n

\nINT(number):将数值向下取整为最接近的整数 \n

\n

\nSQRT(number):返回数值的平方跟 \n

\n

\n
\n

\n

\n7. 分段统计FREQUENCY \n

\n

\nFREQUENCY(data_array,bins_array):以一列垂直数组返回一组数据的频率分布 \n

\n

\n此函数用于分段统计频率分布,例如统计各个分数段的学生人数 \n

\n

\n\"\" \n

\n

\n先选中I2:I6即你需要填充的单元格,按F2,之后输入公式=FREQUENCY(E2:E11,G2:G6),然后按ctrl+shift+enter 就完成啦。 \n

\n

\n\"\" \n

\n

\n
\n

\n

\n常用的计算统计类函数就介绍这些,希望对大家有所帮助。后续还会整理汇总EXCEL其他类型常用函数,请持续关注小编。 \n

\n

\n \n

\n

\n
\n
\n

\n

\n常用的文本类函数介绍请见下文 \n

\n

\nExcel函数篇——文本函数 \n

\n

\n
\n

\n

\nEnd. \n

\n

\n作者:Candice \n

","score":null,"user_id":200431,"name":"62Ns_1550878215116","id":99991370,"pageview":25971,"cover_img":"http://img.itongji.cn/portal_pic/item/20190603/54b4c08ec83a403ab368a360931aec46.png"},{"create_time":"2020-04-18 10:25:17","abstracts":"对于大数据,我想不管你是否行业内人士,在这高度信息化的社会里面,都会有意无意的听说过大数据这么一个概念。","tag_info":"数据平台","remark":null,"avatar":"http://img.lovedata.cn/portal_pic/item/ff9a2fa697f44b359858da36ca897319.png","title":"谈谈大数据及大数据的价值","content":"

\n第一部分:我先通俗的解释下什么是大数据 \n

\n

\n小到一个店家,大到一个国家,都在讲大数据。不过,真正搞清楚什么是大数据的人可能真不那么多。其实,故名思议,大数据肯定体现在“大”上,可数据是一个比较抽象的东西,我们该怎么去描述数据的“大”呢?这里面就涉及到一些专业领域的东西了。 \n

\n

\n
\n
\n

\n

\n世界著名咨询机构麦肯锡曾对“大数据”给出一个明确的定义:大数据就是 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和低价值密度四大特征。 \n

\n

\n
\n

\n \n

\n
\n

\n

\n我们应该怎么去理解这句话呢,首先,我们知道,在大数据出现之前,我们对数据的日常处理分析常常使用的是诸如sqlsever/oracle/mysql等传统关系数据库,处理T级别的数据量已经是这些数据库的极限,面对PB/EB/ZB级的数据量那就更无能为力了。那是不是以前就没有这么大的数据量呢,也不是,早在20世纪80年代,未来学家 阿尔文托夫勒 就将大数据称作“第三次浪潮的华彩乐章”,只不过当时由于数据处理能力有限,所以大数据一直没有发展起来,直到2005年,提供大数据基础能力的Hadoop项目诞生,从技术层面上搭建了一个对结构化和复杂数据快速、可靠分析变为现实的平台。从这个时候开始,“大数据”才逐步成为互联网信息技术行业的高频热词而为人们所熟知。从这点上,我们可以看出,技术的发展不仅在改变人们的生活,其本身也在推进着更高级的技术的诞生。话说回来,“大数据”是不是只是一种规模大的数据集合就够了呢,显然不是的,还必须具备前面所说的4V特征。 \n

\n

\n
\n

\n

\n先说说海量的数据规模,前面说到处理PB/EB/ZB级的数据量,正是大数据优势所在,处理PB级数据,以前是不可能的事情,但在大数据时代,将会是一个常态,这是一个什么概念呢,一部高清电影约4g,1PB=1024*1024g,大数据瞬时处理1PB的数据量,就相当于瞬时处理26万部的高清电影容量。其次,是“快速的数据流传”,怎么说呢,所有数据都有时效的,商业业务决策也是有时效的,如果不快速处理,快速得到结果,那么就很可能会失去商机,所以,我们也在一直强调利用大数据做实时分析。再次,“多样的数据类型”又是什么呢,在大数据走进大众之前,传统的数据处理工具,往往处理的是标准的结构化的数据,也就是存在我们的数据库表格中的数据。针对非结构化的数据,比如文本、语音、视频、图像等等,这是大数据要经常面对的事情。最后,“低价值密度”,这个概念有点抽象,怎么去理解呢,大数据就是一个海量的数据,在大海中捞金子,这金子就是我们的宝藏。但我们把这块金子经过一系列的分析处理过程之后,我们就能确定是在某一平方米的水域,那么这个密度就会高很多了,这块金子就分布在这一平方米中,在这一块区域去捞金子那么就容易得多了。 \n

\n

\n
\n
\n

\n

\n以上,就是我对什么是大数据及大数据的4个特征的的通俗理解。 \n

\n

\n
\n

\n

\n第二部分:理解大数据的价值 \n

\n

\n大数据的核心价值,从业务角度出发,主要有如下的3点: \n

\n

\n
\n

\n

\na.数据辅助决策:为企业提供基础的数据统计报表分析服务。分析师能够轻易获取数据产出分析报告指导产品和运营,产品经理能够通过统计数据完善产品功能和改善用户体验,运营人员可以通过数据发现运营问题并确定运营的策略和方向,管理层可以通过数据掌握公司业务运营状况,从而进行一些战略决策; \n

\n

\n
\n
\n

\n

\nb.数据驱动业务:通过数据产品、数据挖掘模型实现企业产品和运营的智能化,从而极大的提高企业的整体效能产出。最常见的应用领域有基于个性化推荐技术的精准营销服务、广告服务、基于模型算法的风控反欺诈服务征信服务,等等 \n

\n

\n
\n
\n

\n

\nc.数据对外变现:通过对数据进行精心的包装,对外提供数据服务,从而获得现金收入。市面上比较常见有各大数据公司利用自己掌握的大数据,提供风控查询、验证、反欺诈服务,提供导客、导流、精准营销服务,提供数据开放平台服务,等等 \n

\n

\n
\n

\n

\n但在实践中,我更加喜欢把数据的价值分为两个方面,一个方面是给企业创造营收,另一个方面就是给企业节省成本。整体梳理的框架如下,请大家参考: \n

\n

\n
\n

\n \n

\n
\n

\n

\n除了上面我对数据价值的理解外,阿里前数据委员会主席车品觉老师从数据的应用价值出发,归纳出如下的5类数据价值,也有一定的道理,大家可以作为参考: \n

\n

\n
\n
\n

\n \n

\n
\n
\n

\n

\n以下就是我对数据价值的理解。 \n

\n

\n
\n
\n

\n

\nEnd \n

\n

\n作者:王礼 \n

\n

\n来源:知乎 \n

\n

\n本文为爱数据整理分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520) \n

","score":null,"user_id":108863,"name":"vRv1_1530696357832","id":1008,"pageview":24738,"cover_img":"http://img.itongji.cn/portal_pic/item/20181115/0f3785b6bb674cbb8dbbf3e420538cc7.png"}]}