mitodl
diff --git a/‎Dockerfile
Lines changed: 17 additions & 0 deletions b/‎Dockerfile
Lines changed: 17 additions & 0 deletions
diff --git a/‎learning_resources/conftest.py
Lines changed: 33 additions & 33 deletions b/‎learning_resources/conftest.py
Lines changed: 33 additions & 33 deletions
diff --git a/‎learning_resources/etl/loaders.py
Lines changed: 2 additions & 32 deletions b/‎learning_resources/etl/loaders.py
Lines changed: 2 additions & 32 deletions
diff --git a/‎learning_resources/etl/loaders_test.py
Lines changed: 0 additions & 124 deletions b/‎learning_resources/etl/loaders_test.py
Lines changed: 0 additions & 124 deletions
diff --git a/‎learning_resources/etl/utils.py
Lines changed: 0 additions & 7 deletions b/‎learning_resources/etl/utils.py
Lines changed: 0 additions & 7 deletions
@@ -41,6 +41,23 @@ ENV PATH="$VIRTUAL_ENV/bin:$POETRY_HOME/bin:$PATH"
 # Install poetry
 RUN pip install --no-cache-dir "poetry==$POETRY_VERSION"
 
+
+
+# Install Chromium (commented out lines illustrate the syntax for getting specific chromium versions)
+RUN echo "deb http://deb.debian.org/debian/ sid main" >> /etc/apt/sources.list \
+  && apt-get update -qqy \
+  # && apt-get -qqy install chromium=89.0.4389.82-1 \
+  # && apt-get -qqy install chromium=90.0.4430.212-1 \
+  # && apt-get -qqy install chromium=93.0.4577.82-1 \
+  # && apt-get -qqy install chromium=97.0.4692.71-0.1 \
+  # && apt-get -qqy install chromium=98.0.4758.102-1+b1 \
+  && apt-get -qqy install chromium \
+  && rm -rf /var/lib/apt/lists/* /var/cache/apt/*
+
+# install chromedriver, which will be located at /usr/bin/chromedriver
+RUN apt-get update -qqy \
+  && apt-get -qqy install chromium-driver \
+  && rm -rf /var/lib/apt/lists/* /var/cache/apt/*
 COPY pyproject.toml /src
 COPY poetry.lock /src
 RUN chown -R mitodl:mitodl /src && \
 
@@ -84,42 +84,10 @@ def add_file_to_bucket_recursive(bucket, file_base, s3_base, file_object):
             add_file_to_bucket_recursive(bucket, local_path, file_key, child.name)
 
 
-def setup_s3_ocw(settings):
-    """
-    Set up the fake s3 data for OCW
-    """
-    # Fake the settings
-    settings.AWS_ACCESS_KEY_ID = "abc"
-    settings.AWS_SECRET_ACCESS_KEY = "abc"  # noqa: S105
-    settings.OCW_LIVE_BUCKET = "test_bucket"
-    # Create our fake bucket
-    conn = boto3.resource(
-        "s3",
-        aws_access_key_id=settings.AWS_ACCESS_KEY_ID,
-        aws_secret_access_key=settings.AWS_SECRET_ACCESS_KEY,
-    )
-    conn.create_bucket(Bucket=settings.OCW_LIVE_BUCKET)
-
-    # Add data to the fake ocw next bucket
-    ocw_next_bucket = conn.Bucket(name=settings.OCW_LIVE_BUCKET)
-
-    base_folder = OCW_TEST_JSON_PATH.replace("./test_json/", "")
-
-    for file in Path(OCW_TEST_JSON_PATH).iterdir():
-        add_file_to_bucket_recursive(
-            ocw_next_bucket, OCW_TEST_JSON_PATH, base_folder, file.name
-        )
-    LearningResourcePlatformFactory.create(code=PlatformType.ocw.name)
-    LearningResourceOfferorFactory.create(is_ocw=True)
-    LearningResourceDepartmentFactory.create(
-        department_id="16", name="Aeronautics and Astronautics"
-    )
-
-
 @pytest.fixture(autouse=True)
 def marketing_metadata_mocks(mocker):
     mocker.patch(
-        "learning_resources.etl.loaders._fetch_page",
+        "learning_resources.utils.fetch_page",
         return_value="""
         <html>
         <body>
@@ -150,6 +118,38 @@ def marketing_metadata_mocks(mocker):
     )
 
 
+def setup_s3_ocw(settings):
+    """
+    Set up the fake s3 data for OCW
+    """
+    # Fake the settings
+    settings.AWS_ACCESS_KEY_ID = "abc"
+    settings.AWS_SECRET_ACCESS_KEY = "abc"  # noqa: S105
+    settings.OCW_LIVE_BUCKET = "test_bucket"
+    # Create our fake bucket
+    conn = boto3.resource(
+        "s3",
+        aws_access_key_id=settings.AWS_ACCESS_KEY_ID,
+        aws_secret_access_key=settings.AWS_SECRET_ACCESS_KEY,
+    )
+    conn.create_bucket(Bucket=settings.OCW_LIVE_BUCKET)
+
+    # Add data to the fake ocw next bucket
+    ocw_next_bucket = conn.Bucket(name=settings.OCW_LIVE_BUCKET)
+
+    base_folder = OCW_TEST_JSON_PATH.replace("./test_json/", "")
+
+    for file in Path(OCW_TEST_JSON_PATH).iterdir():
+        add_file_to_bucket_recursive(
+            ocw_next_bucket, OCW_TEST_JSON_PATH, base_folder, file.name
+        )
+    LearningResourcePlatformFactory.create(code=PlatformType.ocw.name)
+    LearningResourceOfferorFactory.create(is_ocw=True)
+    LearningResourceDepartmentFactory.create(
+        department_id="16", name="Aeronautics and Astronautics"
+    )
+
+
 @pytest.fixture
 def summarizer_configuration():
     """Create a summarizer configuration"""
 
@@ -2,7 +2,6 @@
 
 import logging
 
-import requests
 from django.contrib.auth import get_user_model
 from django.db import transaction
 
@@ -15,15 +14,14 @@
 )
 from learning_resources.etl.constants import (
     CONTENT_TAG_CATEGORIES,
-    MARKETING_PAGE_FILE_TYPE,
     READABLE_ID_FIELD,
     ContentTagCategory,
     CourseLoaderConfig,
     ProgramLoaderConfig,
     ResourceNextRunConfig,
 )
 from learning_resources.etl.exceptions import ExtractException
-from learning_resources.etl.utils import html_to_markdown, most_common_topics
+from learning_resources.etl.utils import most_common_topics
 from learning_resources.models import (
     ContentFile,
     Course,
@@ -512,7 +510,7 @@ def load_course(
         load_image(learning_resource, image_data)
         load_departments(learning_resource, department_data)
         load_content_tags(learning_resource, content_tags_data)
-        load_marketing_page(learning_resource)
+
     update_index(learning_resource, created)
     return learning_resource
 
@@ -604,7 +602,6 @@ def load_program(
         load_image(learning_resource, image_data)
         load_offered_by(learning_resource, offered_by_data)
         load_departments(learning_resource, departments_data)
-        load_marketing_page(learning_resource)
 
         program, _ = Program.objects.get_or_create(learning_resource=learning_resource)
 
@@ -757,33 +754,6 @@ def calculate_completeness(
     return new_score
 
 
-def _fetch_page(url):
-    if url:
-        try:
-            response = requests.get(url, timeout=10)
-            if response.ok:
-                return response.text
-        except requests.exceptions.RequestException:
-            logging.exception("Error fetching page from %s", url)
-    return None
-
-
-def load_marketing_page(learning_resource: LearningResource):
-    marketing_page_url = learning_resource.url
-    page_content = _fetch_page(marketing_page_url)
-    if page_content:
-        content_file, _ = ContentFile.objects.update_or_create(
-            learning_resource=learning_resource,
-            file_type=MARKETING_PAGE_FILE_TYPE,
-            defaults={
-                "file_extension": ".md",
-            },
-        )
-        content_file.key = marketing_page_url
-        content_file.content = html_to_markdown(page_content)
-        content_file.save()
-
-
 def load_content_files(
     course_run: LearningResourceRun,
     content_files_data: list[dict],
 
@@ -1,6 +1,5 @@
 """Tests for ETL loaders"""
 
-import copy
 from datetime import timedelta
 from decimal import Decimal
 
@@ -22,7 +21,6 @@
     RunStatus,
 )
 from learning_resources.etl.constants import (
-    MARKETING_PAGE_FILE_TYPE,
     CourseLoaderConfig,
     ETLSource,
     ProgramLoaderConfig,
@@ -1612,125 +1610,3 @@ def test_calculate_completeness(mocker, is_scholar_course, tag_counts, expected_
         == expected_score
     )
     assert mock_index.call_count == (1 if resource.completeness != 1.0 else 0)
-
-
-def test_load_course_fetches_marketing_page_info(mocker):
-    """Test that loading a course produces a marketing page document"""
-    platform = LearningResourcePlatformFactory.create()
-
-    props = {
-        "readable_id": "abc123",
-        "platform": platform.code,
-        "etl_source": ETLSource.ocw.name,
-        "title": "course title",
-        "image": {"url": "https://www.test.edu/image.jpg"},
-        "description": "description",
-        "url": "https://test.edu",
-        "published": True,
-        "runs": [
-            {
-                "run_id": "test_run_id",
-                "enrollment_start": now_in_utc(),
-                "start_date": now_in_utc(),
-                "end_date": now_in_utc(),
-            }
-        ],
-    }
-    result = load_course(props, [], [], config=CourseLoaderConfig(prune=True))
-    assert ContentFile.objects.filter(key=result.url).exists()
-
-
-def test_load_program_fetches_marketing_page_info(
-    mock_upsert_tasks,
-):
-    """Test that load_program produces a marketing page document"""
-    platform = LearningResourcePlatformFactory.create()
-
-    program = ProgramFactory.create(courses=[], platform=platform.code)
-
-    LearningResourcePlatformFactory.create(code=platform.code)
-
-    learning_resource = program.learning_resource
-    learning_resource.is_published = True
-    learning_resource.platform = platform
-    learning_resource.runs.set([])
-    learning_resource.save()
-    courses = CourseFactory.create_batch(2, platform=platform.code)
-    run_data = {
-        "run_id": program.learning_resource.readable_id,
-        "enrollment_start": "2017-01-01T00:00:00Z",
-        "start_date": "2017-01-20T00:00:00Z",
-        "end_date": "2017-06-20T00:00:00Z",
-    }
-    delivery_data = {}
-    result = load_program(
-        {
-            "platform": platform.code,
-            "readable_id": program.learning_resource.readable_id,
-            "professional": False,
-            "title": program.learning_resource.title,
-            "url": program.learning_resource.url,
-            "image": {"url": program.learning_resource.image.url},
-            "published": True,
-            "runs": [run_data],
-            "availability": program.learning_resource.availability,
-            "courses": [
-                {
-                    "readable_id": course.learning_resource.readable_id,
-                    "platform": platform.code,
-                    "availability": course.learning_resource.availability,
-                }
-                for course in courses
-            ],
-            **delivery_data,
-        },
-        [],
-        [],
-    )
-    assert ContentFile.objects.filter(key=result.url).exists()
-
-
-def test_only_one_marketing_page_instance_exists(
-    mocker,
-):
-    """Test that we end up with only one marketing page instance per learning resource"""
-    platform = LearningResourcePlatformFactory.create()
-    original_url = "https://test.edu"
-    new_url = "https://newurl.com"
-    readable_id = "abc123"
-    props = {
-        "readable_id": readable_id,
-        "platform": platform.code,
-        "etl_source": ETLSource.ocw.name,
-        "title": "course title",
-        "image": {"url": "https://www.test.edu/image.jpg"},
-        "description": "description",
-        "url": original_url,
-        "published": True,
-        "runs": [
-            {
-                "run_id": "test_run_id",
-                "enrollment_start": now_in_utc(),
-                "start_date": now_in_utc(),
-                "end_date": now_in_utc(),
-            }
-        ],
-    }
-    initial_props = copy.deepcopy(props)
-    result = load_course(initial_props, [], [], config=CourseLoaderConfig(prune=True))
-    assert ContentFile.objects.filter(
-        key=result.url, file_type=MARKETING_PAGE_FILE_TYPE
-    ).exists()
-    props["url"] = new_url
-    result = load_course(props, [], [], config=CourseLoaderConfig(prune=True))
-
-    assert ContentFile.objects.filter(
-        key=new_url, file_type=MARKETING_PAGE_FILE_TYPE
-    ).exists()
-    assert (
-        ContentFile.objects.filter(
-            learning_resource__readable_id=readable_id,
-            file_type=MARKETING_PAGE_FILE_TYPE,
-        ).count()
-        == 1
-    )
@@ -19,7 +19,6 @@
 from tempfile import TemporaryDirectory
 
 import boto3
-import html2text
 import rapidjson
 import requests
 from django.conf import settings
@@ -901,9 +900,3 @@ def parse_resource_commitment(commitment_str: str) -> CommitmentConfig:
         else:
             log.warning("Invalid commitment: %s", commitment_str)
     return CommitmentConfig(commitment=commitment_str or "")
-
-
-def html_to_markdown(html):
-    htmlformatter = html2text.HTML2Text()
-    htmlformatter.body_width = 0
-    return htmlformatter.handle(html)