FlayerVEO 学无止境

Python 大数据 Pandas文件处理-读写HTML文件

#读写HTML文件： ##写入HTML文件： 1\. 创建DataFrame： ![](http://www.flayerveo.com/usr/uploads/2020/02/3665373129.png) 2\. 直接print出to_html()的内容可以发现将DataFrame转为了HTML中的格式 ![](http://www.flayerveo.com/usr/uploads/2020/02/3331273964.png) 3\. 使用df.t- 阅读剩余部分 -

Python 大数据 Pandas文件处理-读写CSV和文本

##读写CSV文件：什么是CSV文件：以逗号分隔元素的文本文件。 ![](http://www.flayerveo.com/usr/uploads/2020/02/93417749.png) --- ####读取CSV文件：格式1： ```python pd.read_csv('文件名') ``` ![](http://www.flayerveo.com/usr/uploads/2020/02/2376577349.png) read_csv(- 阅读剩余部分 -

Python 大数据 Pandas - NaN数据处理

##NaN： NaN数据即空数据，这种数据在数据处理中是非常常见的。 --- ####一、初始化NaN数据：使用numpy模块中的nan方法创建nan数据： ![](http://www.flayerveo.com/usr/uploads/2020/02/2089827602.png) --- ####二、赋值NaN数据：直接赋值None即空数据： ![](http://www.flayerveo.com/usr/uploads/2020/02/- 阅读剩余部分 -

Python 大数据 Pandas - 排序与排位

#排序与排位排序通用方法： ascending(默认为True，正序排序；False逆序排序)， axis=1(默认为0，按index行；1按columns列) ##排序： ####按索引排序：格式： ```python pd.sort_index(ascending=True/False, axis=0/1) ``` Series的排序： ![](http://www.flayerveo.com/usr/uploads/2020/02/166284- 阅读剩余部分 -

Python 大数据 Pandas - Numpy与自定义函数

#Numpy函数的应用： ##作用于单个元素的函数：介绍：Series和DataFrame数据可以像ndarray一样使用Numpy的方法。例： ![](http://www.flayerveo.com/usr/uploads/2020/02/4063336492.png) ##作用于行列的函数： ```python axis=0 表示求行元素； axis=1 表示求列元素。 ``` ![](http://www.flayerveo.com/us- 阅读剩余部分 -

Python 大数据 Pandas - 数据结构之间的计算

介绍：DataFrame与Series之间的计算相当于Series与DataFrame每行对应索引之间计算。 ![](http://www.flayerveo.com/usr/uploads/2020/02/1097162266.png) 当DataFrame与Series之间的索引行标签不同时，所涉及的元素会以NaN空元素填充： ![](http://www.flayerveo.com/usr/uploads/2020/02/4270497549.png)

Python 大数据 Pandas - 数据结构-DataFrame

#数据结构-DataFrame 介绍：DataFrame数据结构和关系型表格类似，相当于将Series扩展到多维。由多列组成，各列数据类型可以不同。 ![](http://www.flayerveo.com/usr/uploads/2020/02/3731810167.png) ##一、定义DataFrame：统一格式： ```python pd.DataFrame(矩阵，index=[行标签列表]，columns=[列标签列表]) ```  方式一- 阅读剩余部分 -

Python 大数据 Pandas - 数据结构-Series

#数据结构-Series 介绍：Series结构的内部由两个相关联的数组组成，其中一个数组用来存放索引，另一个数组用来存放数据(numpy中的任意数据类型)。 ![](http://www.flayerveo.com/usr/uploads/2020/02/2428270196.png) 如图中两列左边一列作为存放索引的索引数组，右边一列作为存放数据的主索引。 1\. 导入模块：import pandas as pd 2\. 创建Series结构数据： - 阅读剩余部分 -

Python 大数据 numpy常用概念

副本和视图： 1.在numpy中队数组做运算或操作时，返回的结果不是副本就是视图。 2.在numpy中所有的赋值运算不会为数组和数组中的任何元素创建副本。例如：创建一个数组a，将a赋值给b，修改a中的元素，结果b中的元素也会被修改。实际上a和b指向同一个地址空间。 3.数组切片操作返回的对象是原数组的视图。 4.要生成一个完整的副本，需要使用copy函数()。例：矩阵B = 矩阵A.copy() 5.向量化：向量化和广播这两个概念是Numpy内部实现- 阅读剩余部分 -

Python 大数据 numpy - 数据文件的读写

#数据文件的读写： ##内部数据读写：方法一：二进制保存读取 ```python 保存：np.save('文件名', 矩阵名) 读取：np.load('文件名') ``` ![](http://www.flayerveo.com/usr/uploads/2020/02/2298571306.png) 方法二：文本格式保存读取： ```python 保存：np.savetxt('文件名',矩阵) 读取：np.loadtxt('文件名') ``` - 阅读剩余部分 -

Python 大数据 numpy - 结构化数组

结构体中指定不同数据类型的符号：其中数字1代表1字节即1*8=8位的数据类型。 ![](http://www.flayerveo.com/usr/uploads/2020/02/2966452152.png) ###定义结构体： ```python np.array( [(元素1, 元素2...)，], dtype=[('类型名1','数据类型1'), ('类型名2','数据类型2')......] ) ``` ![](http://www.flayerve- 阅读剩余部分 -