Skip to content

Latest commit

 

History

History
88 lines (77 loc) · 1.99 KB

数据提取概念和数据的分类.md

File metadata and controls

88 lines (77 loc) · 1.99 KB

数据提取

介绍

用网络获取的数据中提取出想要的数据。

概要

  • 数据提取概念和数据的分类
  • 使用 json 模块提取数据
  • 使用正则表达式提取数据
  • 使用 xpath 提取数据
  • 使用 beautifulsoup 提取数据
  • jsoncsv 数据转换

数据提取概念和数据的分类

什么是数据提取

简单的来说,数据提取就是从响应中获取我们想要的数据的过程

数据的种类

构化数据

  • 数据类型

  • json 格式数据

{
  "name":"hello",
  "age":18,
  "parents":{
    "mother":"妈妈",
    "father":"爸爸"
  }
}
  • xml 格式数据
<bookstore>
  <book category="COOKING">
    <title lang="en">Everyday Italian</title> 
    <author>Giada De Laurentiis</author> 
    <year>2005</year> 
    <price>30.00</price> 
  </book>
  <book category="CHILDREN">
    <title lang="en">Harry Potter</title> 
    <author>J K. Rowling</author> 
    <year>2005</year> 
    <price>29.99</price> 
  </book>
  <book category="WEB">
    <title lang="en">Learning XML</title> 
    <author>Erik T. Ray</author> 
    <year>2003</year> 
    <price>39.95</price> 
  </book>
</bookstore>
  • 处理方式

通过 json 模块等直接转成 Python 数据类型

非结构化数据

  • 数据类型
    • html 格式数据
    • word 格式数据
  • 处理方式

通过 正则表达式xpathbeautifulsoup 等模块提取数据

总结

  • 数据提取 从网络获取数据中提取想要的数据
  • 数据的种类
    • 结构化数据
    • json
    • xml
  • 非结构化数据
    • html
    • word