url 获取域名,

Wd提问: url 获取域名

Ai批改: 要从一个URL中提取域名部分，可以按照以下步骤进行：

关键步骤：
1、去除协议部分（如 `http://`, `https://`, `ftp://` 等）。
2、去除路径和查询参数（如 `/path?query=value`）。
3、处理子域名和端口号（可选）。

-

示例代码（Python）：
python
from urllib.parse import urlparse

def extract_domain(url):
解析URL
parsed = urlparse(url)
获取netloc（包含域名和可能的端口）
domain = parsed.netloc
去除端口号（如:8000）
domain = domain.split(':')[0]
可选：提取主域名（如从 'sub.example.com' 到 'example.com'）
需要处理特殊情况（如.co.uk等）
return domain

示例
url = https://www.example.com:8080/path/to/page?query=123
print(extract_domain(url)) 输出: www.example.com

-

注意事项：
1、子域名处理：
如果需要主域名（如从 `sub.example.com` 提取 `example.com`），需使用公共后缀列表（如 `tldextract` 库）：
python
import tldextract
ext = tldextract.extract(https://sub.example.co.uk)
print(f{ext.domain}.{ext.suffix}) 输出: example.co.uk

2、无协议URL：
如果输入是 `example.com/path`（无协议），`urlparse` 可能无法正确解析。可手动添加 `//` 前缀：
python
if not url.startswith(('http://', 'https://')):
url = '//' + url

3、国际化域名（IDN）：
如中文域名（`http://例子.中国`）会被解析为Punycode（`xnfsq.xnfiqs8s`）。

-

其他语言示例：
JavaScript：
javascript
function extractDomain(url) {
const domain = new URL(url.startsWith('http') ? url : `https://${url}`).hostname;
return domain.replace(/:\d+$/, ''); // 去除端口
}

Bash：
bash
echo https://sub.example.com/path | sed -E 's|^https?://([^/]+).*|\1|'

根据实际需求调整规则（如是否保留子域名、处理特殊后缀等）。