更全的杂志信息网

Python 数据分析技术综述

更新时间:2009-03-28

1 引言

随着人工智能技术的兴起,对数据的需求呈指数级的态势增长。与此同时,网络和信息技术的发展不断地改变着人们的生活方式,人们在使用网络和信息技术的时候,产生的数据也呈爆炸态势增长。在此背景下,数据分析技术应运而生。Python 作为时下流行的编程语言之一,其丰富的第三方库为数据分析提供了各种高效的方法,所以其成为数据分析领域使用最多的编程语言。

2 数据分析的概念

随着人们生活的日益丰富,产生的数据也爆炸式地增长,数据科学领域的数据分析技术需要处理的数据也随之增长,由此,对大数据进行分析成为数据科学从业者必备的技能之一,掌握数据分析的基本概念是进入数据科学领域研究的第一步。

数据分析是指利用数学和计算机的手段,对收集来的数据进行适当的处理和开发,从而发现数据规律的过程。随着数据科学的发展,新的数据处理方法层出不穷,计算机处理数据的能力不断增强,处理数据的量也不断增加。利用数据分析的方法,可以把收集来的各种形式的数据进行提炼,以此从数据中发现规律,利用发现的规律对数据的走向进行预测,从而帮助人们进行生产经营或者其他的决策。

数据分析充斥在我们生活的方方面面。例如商场的经营者利用收集来的客户消费信息,使用适当的数据分析方法,可以从这些数据中提取一年四季客户的消费规律,不同性别的人群的消费规律,不同年龄段人群的消费规律,不同季节人们对各种商品购买量的不同。根据这些规律,对商场的下一步经营策略作出决策。由此及彼,其他企业也可以收集跟自己业务相关的数据进行分析,找出规律,企业的管理层根据数据规律做出决策。

3 数据分析步骤

对数据进行分析的过程也是解决实际问题的过程。所以数据分析可以分为这样几个步骤来进行:问题定义、数据获取、数据预处理、数据分析与建模、数据可视化以及数据报告的撰写。

3.1 问题定义

数据分析有其使用的场景,不同的场景有不同类型的数据。在采用一定的方法对这些数据进行分析之前,必须明确我们想要分析什么?想从数据中得到哪些信息?如:商场销售额度的变化趋势?王者荣耀什么时间在线人数最多?经常在王者荣耀上进行消费的人群有哪些?

通过校内实训室、校外实训基地2个实践教学环境,学校、政府、企业3层实践教学平台,为本门课程的实践教学提供有力保障。除了通过课堂实训、教学实习等多种方式进行实践教学之外,还经常组织学生参与礼SHOW社团活动、学校各种礼仪接待活动、酒店礼仪展示观摩、行业礼仪风采大赛、地市大型节事礼仪志愿服务等。例如,带学生到校外实训基地中乐百花酒店,对酒店前厅部、餐饮部、客房部进行观摩学习及实地练习,组织学生参与学校运动会、大科节、美食文化节及信阳市环南湾湖自行车赛、茶文化旅游节的一系列礼仪志愿服务等等,让学生通过真实体验、参与、分析、感悟礼仪在不同场合、不同岗位的运用,寻找自身差距、主动学习。

目前世界各国在分析波磨对车辆通过的影响时,主要采用三维弹性体滚动接触理论来进行蠕滑计算并分析车辆的动力学性能。其中精度最好、使用最多的是荷兰学者Kalker创立的三维弹性体非线性滚动接触理论,但是由于Kalker在分析时做了几个方面的假设,其中最重要的一条假设就是整个滚动过程是稳态的,因此其具有局限性。在稳态滚动接触的过程中,接触斑的形状、大小保持不变,因此蠕滑率、法向力、切向力也保持不变。但如果在滚动过程中,接触斑的形状、大小产生较大变化,从而导致蠕滑率、法向力、切向力随时间变化发生较大的改变,这种情况就是非稳态滚动接触。

3.2 收集数据

综上所述,新课程背景下的小学语文课堂教学中合作学习模式的应用,要注重合作学习目标的一致性、合作学习小组建立的合理性、角色分配的科学性,能够体现学生的主体性地位,使每个学生都能够发挥自己的长处,实现共同提升。

可以通过多种方式获取数据。其中常见的有三种:一种是从相关行业的企业中获取;第二种是获取外部公开的数据集;第三种是编写网页爬虫,去收集互联网上的数据。

3.3 数据预处理

通常情况下,我们采集来的数据不能直接使用,因为这些数据对于定义的问题来说是有噪声的、不一致的数据,直接利用这些数据进行数据分析,我们得到的结果是不准确的。如:收集来的环境监测数据可能某些天由于设备故障没有采集到。只有对收集来的数据进行适当的预处理,如:去除缺失值、数据格式转换、清理无效数据等,才能通过使用正确的数据分析方法,从数据中得到我们需要的准确结果。

3.4 数据分析与建模

建模是数据分析的一个关键环节,综合运用统计学的方法和适当的计算机程序设计算法,对所要分析的问题搭建模型。同时,使用不同的方法对数据进行反复的分析对比也是很必要的,每一种方法都有其使用的场景和局限性,使用多种不同的方法对数据进行分析对比得出的结果才具有更高的准确性。

3.5 分析结果展示和撰写报告

● 标准的数学库函数功能。

4 Python-功能强大的数据分析工具

4.1 Python 语言介绍

Python 是一种解释执行的、支持面向对象特性的、具有高度封装性的程序设计语言;简单、易学、免费。首先,python 是一种高级语言,甚至比普通的高级语言(比如c++)还要“高级”,当你用python 语言编写程序时,你无需考虑你所编写的应用程序如何使用诸如内存等一类的底层细节;其次,python 具有很强的可移植性,由于其开源的本质,已经被移植在许多平台上,按照开源的理论,python 几乎适应各种平台;再次,python 是解释执行的,即python 语言写的程序可以直接从源代码运行,无需先通过编译生成可执行文件。最后,要说明的最重要的一点,python 既支持面向过程的编程也支持面向对象的编程。

NumPy(Numerical Python)是python 科学计算的基础工具包。其包含的功能非常全面、丰富。其中,重要的部分功能如下:

4.2 利用python 做数据分析的优势

● 集成其他语言编写的功能模块(如C/C++)。

1.语法简练,对于没有接触过计算机编程的初学者,相比其他编程语言来说,特别容易入门。

①在具体的施工现场,施工单位要认真落实对污染物进行有效的遮挡的相关规定,减少对大气的直接污染。②建筑企业还要科学合理的规划施工现场,利用隔离墙对各类材料进行科学的分类和合理的存放。③对于施工中建筑垃圾,工程渣土和其他施工现场裸露的土方等,都要提高洒水降尘的力度,及时采用高密度覆盖网进行覆盖。④在条件允许的情况下,建筑企业还应在施工现场建立全封闭垃圾场,不仅可以有效的处理建筑垃圾,更能直接改善空气质量。

4.不仅适用于理论研究,而且适用于工程实现。在产品的研究阶段和实现阶段使用同一门编程语言,不仅为企业节省了成本,还提高了开发效率。

3.强大的“结合性”,python 提供多种方式和接口,可以很方便地与其他语言结合起来构建高效的应用程序。

2.丰富的第三方资源库支持。Python 之所以功能如此强大,应用如此广泛,很大程度上都要归功于其丰富的第三方库,其拥有适用于各个领域的第三方资源库。比如应用于数据科学领域的numpy 和pandas。

通过专业建设委员会共同制订人才培养方案,共同培养学生。为企业培养合格的技术技能人才,提升企业新员工综合素质。一方面为企业的健康长期发展提供了有力的人才支撑;另一方面也提升了学院专业水平,锻炼了师资队伍,提高了人才培养的质量和就业质量。

5.丰富的工具集,python 具有的各种各样的工具使它兼具脚本语言和系统语言的特点,不仅适合简单脚本程序的编写,还适合大型软件的开发。

(3)力学性能分析 维氏硬度检测结果如表2所示。测试方法按ASTM E384-11五个数值的平均数,并根据ASTME140-12b转换成洛氏硬度,由裂纹处硬度检测结果可知符合技术要求。

4.3 Python 常用数据分析第三方库介绍

针对科学计算领域的Python 开源生态系统在过去的十年中得到了飞速发展。Python 用于数据分析的第三方库资源非常丰富,其中常用的有ipython、numpy、pandas、matplotlib、Scipy、Spyder、Scikit-learn 等,这些库齐全的功能、统一的接口,为数据分析工作提供了极大的便利。NumPy

①[美]雨果·德·加里斯:《智能简史——谁会取代人类成为主导物种》,胡静译,清华大学出版社2007年版,第2~4页。

● Ndarray,一个多维数组,提供了高效的存储效率和矢量运算能力。

(2)传统孝道的制约。国人对待长辈,强调孝道。而中小城市教育水平较低,致使许多文化程度低的子女一味地愚孝。长辈在患重大疾病,生命时间有限的情况下,故儿女们大多一味用机械、技术手段延长生命。传统孝道要求儿女必须在膝前塌下服侍,送入临终关怀医院被认为是放弃治疗,不愿伺候照顾的表现,是传统意义上的不孝。

● 可以快速对某个数据块进行某种运算,而无需取出单个元素进行操作。

(2)制备新型建材技术。地质聚合物、碱激发水泥是近年来发展起来的新型无机非金属材料,与传统水泥相比,这两种建材不用烧制水泥熟料,生产能耗极低,只有普通硅酸盐水泥生产能耗的10%~30%,但在许多应用环境下却有着比水泥更优异的性能,被认为是21世纪最具发展潜力的绿色胶凝材料。经过反复实验,确定了制备流程,见图7。

● 对磁盘和内存文件进行操作。

数据分析报告是数据分析过程和思路的最后呈现,得出分析的结论并给出解决方案。为了更加形象地展示数据分析的结论以及依据,可以利用数据分析工具根据数据规律来绘制各种各样的图表,使整个分析过程和结论一目了然。

python 是一门功能强大的编程语言,在计算机的很多领域都有着广泛的应用,尤其是在数据科学领域,它有着其他语言所无法比拟的优秀特性,所以,随着数据分析的不断发展,其正在成为数据分析领域的首选编程语言。总的来说,python 在数据分析领域具有以下几方面的优势。

最后一点,也是从生态系统的角度来看最重要的一点。由于Numpy 提供了一个简单易用的C API,因此很容易将数据传递给由低级语言编写的外部库,外部库也能以Numpy 数组的形式将数据返回给python。这个功能使python 成为一种包装C/C++/Fortan 历史代码库的选择,并使被包装库拥有一个动态的、易用的接口。此外,Numpy 是pandas 的基础。

Pandas

Pandas 是python 数据分析的首选库。它含有各种各样的数据结构如DataFrame、Series 等,使数据分析工作变得简单而高效。由于Pandas 是以Numpy 为基础构建的,所以以Numpy 为中心的应用,如果使用Pandas 进行实现,将变得简单高效。

● 具备按轴自动或显式数据对齐功能的数据结构。

● 集成时间序列功能。

● 其提供的数据结构既能处理时间序列也能处理非时间序列。

从定义的问题出发,采用多种方式、多种途径收集需要的数据。如果想探究建国以来我国铁路货运量的变化趋势,就需要从铁路部门收集这些数据。如果想探究恢复高考以来我国高考人数的变化,就需要从网上或者教育考试部门收集相关的数据。

● 数学运算和约简可以轴向执行。

“宣讲有高度也有温度,让我们心潮澎湃。”一场场娓娓道来、切中肯綮的宣讲,犹如一场场“及时雨”,在垦区的干部群众中引起强烈共鸣,引发深度聚焦。通过宣讲,广大干部职工的思想在交融,共识在凝聚,力量在传递,对总书记重要讲话精神的把握更全面,理解更深刻,对推进农垦改革的信心更坚定,思路更清晰,方向更明确。

● 强大的缺失数据处理功能。

● 合并常见数据库中的关系型运算。

此外,还有一些数据标准化和数据转换的功能等。

Matplotlib

Matplotlib 是一个2D python 绘图库,使用该库,可以绘制具有出版质量的、跨平台的、具有交互性的数据描述图。Matplotlib 可以用在各种开发平台上,比如python 脚本、python 或者ipython shells、Jupyter、网络应用服务等。在数据分析中,可以使用Matplotlib 呈现对数据的分析处理过程,形象地展示数据分析的结果。

IPython

IPython 不仅是高效的Python 开发环境还是python 数据分析工具集的组成部分,它提供了一个交互式的综合开发环境,特别适合进行基于交互式和探索式计算的python 应用程序的开发。相比python shell,它的功能更为强大,是一个增强的Python shell,其强大的交互式计算能力极大地提高了我们编写、测试、调试python 源代码的能力。特别适合交互式数据处理和数据的可视化。

5 结束语

本文通过对python 数据分析有关内容的介绍,总结出利用python 进行数据分析的学习和训练流程:首先是掌握python 程序设计的基础知识;其次是学习numpy、pandas、matplotlib 等数据分析的重要库;最后,通过实际案例利用这些类库的工具进行训练,提高综合运用这些类库的能力。

实验组患者中术后复发例数为1例,复发率为3.57%,参照组患者术后复发例数为9例,复发率为32.14%,组间差异明显,P<0.05,存在统计学意义,详见表2。

参考文献

[1] 嵩天,黄天羽,礼欣.程序设计基础:PYTHON语言[M] .北京:高等教育出版社,2014

[2] 罗霄,任勇,山秀明.基于Python的混合语言编程及其实现[J] .计算机应用与软件,2004,21(12):17~18

[3] 伊德里斯.Python数据分析[M] .北京:人民邮电出版社,2016

[4] 聂晶.Python在大数据挖掘和分析中的应用优势[J] .广西民族大学学报(自然科学版),2018,(1)

[5] 黎爽.基于Python科学计算包的金融应用实现[D] .南昌:江西财经大学,2017

 
高鸿斌,申肖阳
《邯郸职业技术学院学报》2018年第04期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号