diff --git a/_toc.yml b/_toc.yml index 3b63ed1..7ef9673 100644 --- a/_toc.yml +++ b/_toc.yml @@ -18,7 +18,7 @@ parts: title: Installation von Packages - file: ch01-api/03-intro-api.ipynb title: Einführung Web APIs - - file: ch01-api/03-webseite-runterladen.ipynb + - file: ch01-api/04-webseite-runterladen.ipynb title: Webseite dowloaden - file: ch01-api/05-exkurs-html.md title: Exkurs HTML diff --git a/ch01-api/02-webseite-runterladen.ipynb b/ch01-api/04-webseite-runterladen.ipynb similarity index 100% rename from ch01-api/02-webseite-runterladen.ipynb rename to ch01-api/04-webseite-runterladen.ipynb diff --git a/ch01-api/05-exkurs-html.md b/ch01-api/05-exkurs-html.md index ca0c06c..da16596 100644 --- a/ch01-api/05-exkurs-html.md +++ b/ch01-api/05-exkurs-html.md @@ -1,5 +1,5 @@ (html-basics)= -## Exkurs: HTML-Basics +# Exkurs: HTML-Basics Wie Sie feststellen werden, handelt es sich bei heruntergeladenen Websites jeweils um ein HTML-Dokument, das die Grundlage für die im Browser visualisierte Repräsentation ist. Wie der Datentyp *string* nahelegt, sind HTML-Dokumente reine Textdateien, deren Inhalte durch Tags und Elemente genauer spezifiziert werden und dem Browser signalisieren, wie die entsprechenden Inhalte dargestellt werden sollen. Wenn wir diese Inhalte nun extrahieren wollen, dann müssen wir uns die Struktur des HTML-Dokuments genau anschauen. diff --git a/ch01-api/06-beautiful-soup.ipynb b/ch01-api/06-beautiful-soup.ipynb index 425fd13..6a1cbfe 100644 --- a/ch01-api/06-beautiful-soup.ipynb +++ b/ch01-api/06-beautiful-soup.ipynb @@ -56,7 +56,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Informationen aus der HTML-Struktur auslesen\n", + "## Informationen aus der HTML-Struktur auslesen\n", "\n", "Um den Umgang mit HTML-Dokumente zu üben, nutzen wir als Beispiel die Landing-Page der Professur für Digital History. In den nachfolgenden Codeblöcken sehen Sie einige Beispiele dafür, wie Sie unterschiedliche Elemente innerhalb des Dokuments aufrufen können. \n", "\n", @@ -101,7 +101,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Ein HTML-Dokument durchsuchen\n", + "## Ein HTML-Dokument durchsuchen\n", "Tags können verschiedene {term}`Attribute` haben, Anker-Tags beispielsweise das Attribut \"href\", das wiederum häufig eine URL als Wert hat. Wenn wir nicht nur den ersten Link abrufen wollen, sondern alle, dann können wir die Methode `find_all(tagname, attrs, recursive, string, limit, **kwargs)` einsetzen. Der Methode werden quasi Filter übergeben anhand derer das HTML-Dokument analysiert wird. Es werden alle Nachkommen (*descendants*) eines Tags durchsucht und nur diejenigen zurückgegeben, die Ihrem definierten Filter entsprechen.\n", "\n", "Genutzt werden können dazu einfache Strings oder Listen, um auf Tag-Namen oder Attribute zu referieren, aber auch [Reguläre Ausdrücke](regex). Hier einige Beispiele:"