[ie/duoplay] Fix extractor (#11588 )

Authored by: glensc, bashonly Co-authored-by: bashonly <88596187+bashonly@users.noreply.github.com>
[ie/bilibili] Fix extractor (#11667 )
2026-06-27 05:05:01 +00:00 · 2024-12-01 22:33:11 +00:00 · 2024-12-01 21:55:18 +00:00
2 changed files with 68 additions and 35 deletions
--- a/yt_dlp/extractor/bilibili.py
+++ b/yt_dlp/extractor/bilibili.py
@ -18,7 +18,6 @@ from ..utils import (
    InAdvancePagedList,
    OnDemandPagedList,
    bool_or_none,
-    clean_html,
    determine_ext,
    filter_dict,
    float_or_none,
@ -639,31 +638,27 @@ class BiliBiliIE(BilibiliBaseIE):
        headers['Referer'] = url

        initial_state = self._search_json(r'window\.__INITIAL_STATE__\s*=', webpage, 'initial state', video_id)
+
+        if traverse_obj(initial_state, ('error', 'trueCode')) == -403:
+            self.raise_login_required()
+        if traverse_obj(initial_state, ('error', 'trueCode')) == -404:
+            raise ExtractorError(
+                'This video may be deleted or geo-restricted. '
+                'You might want to try a VPN or a proxy server (with --proxy)', expected=True)
+
        is_festival = 'videoData' not in initial_state
        if is_festival:
            video_data = initial_state['videoInfo']
        else:
-            play_info_obj = self._search_json(
-                r'window\.__playinfo__\s*=', webpage, 'play info', video_id, fatal=False)
-            if not play_info_obj:
-                if traverse_obj(initial_state, ('error', 'trueCode')) == -403:
-                    self.raise_login_required()
-                if traverse_obj(initial_state, ('error', 'trueCode')) == -404:
-                    raise ExtractorError(
-                        'This video may be deleted or geo-restricted. '
-                        'You might want to try a VPN or a proxy server (with --proxy)', expected=True)
-            play_info = traverse_obj(play_info_obj, ('data', {dict}))
-            if not play_info:
-                if traverse_obj(play_info_obj, 'code') == 87007:
-                    toast = get_element_by_class('tips-toast', webpage) or ''
-                    msg = clean_html(
-                        f'{get_element_by_class("belongs-to", toast) or ""}，'
-                        + (get_element_by_class('level', toast) or ''))
-                    raise ExtractorError(
-                        f'This is a supporter-only video: {msg}. {self._login_hint()}', expected=True)
-                raise ExtractorError('Failed to extract play info')
            video_data = initial_state['videoData']

+        if video_data.get('is_upower_exclusive'):
+            high_level = traverse_obj(initial_state, ('elecFullInfo', 'show_info', 'high_level', {dict})) or {}
+            raise ExtractorError(
+                'This is a supporter-only video: '
+                f'{join_nonempty("title", "sub_title", from_dict=high_level, delim="，")}. '
+                f'{self._login_hint()}', expected=True)
+
        video_id, title = video_data['bvid'], video_data.get('title')

        # Bilibili anthologies are similar to playlists but all videos share the same video ID as the anthology itself.
@ -689,10 +684,14 @@ class BiliBiliIE(BilibiliBaseIE):
        old_video_id = format_field(aid, None, f'%s_part{part_id or 1}')
        cid = traverse_obj(video_data, ('pages', part_id - 1, 'cid')) if part_id else video_data.get('cid')

+        play_info = (
+            traverse_obj(
+                self._search_json(r'window\.__playinfo__\s*=', webpage, 'play info', video_id, default=None),
+                ('data', {dict}))
+            or self._download_playinfo(video_id, cid, headers=headers))
+
        festival_info = {}
        if is_festival:
-            play_info = self._download_playinfo(video_id, cid, headers=headers)
-
            festival_info = traverse_obj(initial_state, {
                'uploader': ('videoInfo', 'upName'),
                'uploader_id': ('videoInfo', 'upMid', {str_or_none}),
--- a/yt_dlp/extractor/duoplay.py
+++ b/yt_dlp/extractor/duoplay.py
@ -5,15 +5,16 @@ from ..utils import (
    get_element_text_and_html_by_tag,
    int_or_none,
    join_nonempty,
+    parse_qs,
    str_or_none,
    try_call,
    unified_timestamp,
 )
-from ..utils.traversal import traverse_obj
+from ..utils.traversal import traverse_obj, value


 class DuoplayIE(InfoExtractor):
-    _VALID_URL = r'https?://duoplay\.ee/(?P<id>\d+)/[\w-]+/?(?:\?(?:[^#]+&)?ep=(?P<ep>\d+))?'
+    _VALID_URL = r'https?://duoplay\.ee/(?P<id>\d+)(?:[/?#]|$)'
    _TESTS = [{
        'note': 'Siberi võmm S02E12',
        'url': 'https://duoplay.ee/4312/siberi-vomm?ep=24',
@ -34,15 +35,16 @@ class DuoplayIE(InfoExtractor):
            'episode_number': 12,
            'episode_id': '24',
        },
+        'skip': 'No video found',
    }, {
        'note': 'Empty title',
        'url': 'https://duoplay.ee/17/uhikarotid?ep=14',
-        'md5': '6aca68be71112314738dd17cced7f8bf',
+        'md5': 'cba9f5dabf2582b224d80ac44fb80e47',
        'info_dict': {
            'id': '17_14',
            'ext': 'mp4',
-            'title': 'Ühikarotid',
-            'thumbnail': r're:https://.+\.jpg(?:\?c=\d+)?$',
+            'title': 'Episode 14',
+            'thumbnail': r're:https?://.+\.jpg',
            'description': 'md5:4719b418e058c209def41d48b601276e',
            'upload_date': '20100916',
            'timestamp': 1284661800,
@ -52,6 +54,8 @@ class DuoplayIE(InfoExtractor):
            'season_number': 2,
            'episode_id': '14',
            'release_year': 2010,
+            'episode': 'Episode 14',
+            'episode_number': 14,
        },
    }, {
        'note': 'Movie without expiry',
@ -68,10 +72,32 @@ class DuoplayIE(InfoExtractor):
            'timestamp': 1671054000,
            'release_year': 2018,
        },
+        'skip': 'No video found',
+    }, {
+        'note': 'Episode url without show name',
+        'url': 'https://duoplay.ee/9644?ep=185',
+        'md5': '63f324b4fe2dbd8194dca16a6d52184a',
+        'info_dict': {
+            'id': '9644_185',
+            'ext': 'mp4',
+            'title': 'Episode 185',
+            'thumbnail': r're:https?://.+\.jpg',
+            'description': 'md5:ed25ba4e9e5d54bc291a4a0cdd241467',
+            'upload_date': '20241120',
+            'timestamp': 1732077000,
+            'episode': 'Episode 63',
+            'episode_id': '185',
+            'episode_number': 63,
+            'season': 'Season 2',
+            'season_number': 2,
+            'series': 'Telehommik',
+            'series_id': '9644',
+        },
    }]

    def _real_extract(self, url):
-        telecast_id, episode = self._match_valid_url(url).group('id', 'ep')
+        telecast_id = self._match_id(url)
+        episode = traverse_obj(parse_qs(url), ('ep', 0, {int_or_none}, {str_or_none}))
        video_id = join_nonempty(telecast_id, episode, delim='_')
        webpage = self._download_webpage(url, video_id)
        video_player = try_call(lambda: extract_attributes(
@ -79,25 +105,33 @@ class DuoplayIE(InfoExtractor):
        if not video_player or not video_player.get('manifest-url'):
            raise ExtractorError('No video found', expected=True)

+        manifest_url = video_player['manifest-url']
+        session_token = self._download_json(
+            'https://sts.postimees.ee/session/register', video_id, 'Registering session',
+            'Unable to register session', headers={
+                'Accept': 'application/json',
+                'X-Original-URI': manifest_url,
+            })['session']
+
        episode_attr = self._parse_json(video_player.get(':episode') or '', video_id, fatal=False) or {}

        return {
            'id': video_id,
-            'formats': self._extract_m3u8_formats(video_player['manifest-url'], video_id, 'mp4'),
+            'formats': self._extract_m3u8_formats(manifest_url, video_id, 'mp4', query={'s': session_token}),
            **traverse_obj(episode_attr, {
-                'title': 'title',
-                'description': 'synopsis',
+                'title': ('title', {str}),
+                'description': ('synopsis', {str}),
                'thumbnail': ('images', 'original'),
                'timestamp': ('airtime', {lambda x: unified_timestamp(x + ' +0200')}),
-                'cast': ('cast', {lambda x: x.split(', ')}),
+                'cast': ('cast', filter, {lambda x: x.split(', ')}),
                'release_year': ('year', {int_or_none}),
            }),
            **(traverse_obj(episode_attr, {
-                'title': (None, ('subtitle', ('episode_nr', {lambda x: f'Episode {x}' if x else None}))),
-                'series': 'title',
+                'title': (None, (('subtitle', {str}, filter), {value(f'Episode {episode}' if episode else None)})),
+                'series': ('title', {str}),
                'series_id': ('telecast_id', {str_or_none}),
                'season_number': ('season_id', {int_or_none}),
-                'episode': 'subtitle',
+                'episode': ('subtitle', {str}, filter),
                'episode_number': ('episode_nr', {int_or_none}),
                'episode_id': ('episode_id', {str_or_none}),
            }, get_all=False) if episode_attr.get('category') != 'movies' else {}),
Author	SHA1	Message	Date
Elan Ruusamäe	62cba8a1be	[ie/duoplay] Fix extractor (#11588 ) Authored by: glensc, bashonly Co-authored-by: bashonly <88596187+bashonly@users.noreply.github.com>	2024-12-01 22:33:11 +00:00
N/Ame	239f5f36fe	[ie/bilibili] Fix extractor (#11667 ) Closes #11665 Authored by: grqz	2024-12-01 21:55:18 +00:00