多年来,PHP 开发者处理 URL 的方式大同小异:
parse_url() 拆分各部分rawurlencode() / urlencode() 转义大多数情况下这套流程能跑通。问题在于,URL 处理恰恰是那种"在边角情况下出问题"的领域:编码、fragment、userinfo、国际化域名、"等价但不相同"的 URL,以及各种只在生产日志里才冒出来的边缘场景。
PHP 8.5 提供了一个内置替代方案:一个始终可用的 URI 扩展,提供 API 来按照 RFC 3986 和 WHATWG URL 标准解析、修改 URL/URI。
如果"标准"二字让你觉得抽象,这里给出实际含义:
with*() 方法。本文是一篇实战教程,重点讲:
不讲升级指南,不讲废弃清单——只讲 URI 扩展。
PHP 的 parse_url() 返回各组件,但不会 URL 解码它们。
也就是说:
$u = parse_url("https://example.com/t%65st?name=Ali%63e#fr%61g");
var_dump($u['path']); // "/t%65st"
var_dump($u['query']); // "name=Ali%63e"
var_dump($u['fragment']); // "fr%61g"如果你在比较路径或应用路由规则时没有统一解码/规范化,可能会把等价的 URI 当成不同的来处理。
更糟的是:团队往往混用:
这种混乱很容易埋下隐蔽 bug 和安全隐患。
手动重建 URL 容易犯的错:
? 或 #一个常见的"差一点对"函数:
function addQueryParam(string $url, string $key, string $value): string
{
$parts = parse_url($url);
$query = $parts['query'] ?? '';
$query .= ($query === '' ? '' : '&') . $key . '=' . urlencode($value);
$out = $parts['scheme'] . '://' . $parts['host'] . ($parts['path'] ?? '');
if ($query !== '') {
$out .= '?' . $query;
}
if (isset($parts['fragment'])) {
$out .= '#' . $parts['fragment'];
}
return $out;
}看起来没问题。直到遇到:
rawurlencode() 规则(RFC 3986)的参数,下面这些可以指向同一个资源,但字符串不同:
HTTPS://EXAMPLE.com)%65 vs e(/t%65st vs /test)/foo/../bar/):443)如果你把 URL 当成纯字符串处理,要么:
如果你允许用户提交 URL,国际化域名可能是合法的——但也可能造成混淆。域名可以用 Unicode 或 punycode(ASCII 形式)表示。RFC 讨论中明确指出人为风险:punycode 域名在 Unicode 渲染时可能看起来像一个熟悉的、但实际不同的域名。
这不是你想用正则"手动处理"然后祈祷没问题的事。
PHP 8.5 的 URI 扩展提供两个主要类:
Uri\Rfc3986\Uri(RFC 3986 合规,严格 URI 规则)Uri\WhatWg\Url(WHATWG URL 合规,浏览器风格的 URL 规则)配套的类型包括:
Uri\InvalidUriExceptionUri\WhatWg\InvalidUrlExceptionUri\WhatWg\UrlValidationError 和 UrlValidationErrorTypeUri\UriComparisonMode(用于比较)一个关键设计决策:两个实现都是 readonly 且以不可变方式使用——withPath()、withQuery() 等方法返回新实例。
另一个要点:这个扩展在 PHP 8.5 中始终可用,底层由以下库驱动:
所以你不需要第三方库就能获得合理的 URL 处理能力。
RFC 3986:
use Uri\Rfc3986\Uri;
$uri = new Uri("https://php.net/releases/8.5/en.php");
echo $uri->getScheme(); // "https"
echo $uri->getHost(); // "php.net"
echo $uri->getPath(); // "/releases/8.5/en.php"WHATWG:
use Uri\WhatWg\Url;
$url = new Url("https://example.com/path?query=1#frag");
echo $url->getScheme(); // "https"
echo $url->getAsciiHost(); // "example.com"
echo $url->getPath(); // "/path"
echo $url->getQuery(); // "query=1"
echo $url->getFragment(); // "frag"注意:WHATWG 的 getter 故意不返回分隔符(如 : / ? #)。
两个实现都支持两种解析风格:
parse():无效时返回 nullRFC 3986 行为:
use Uri\Rfc3986\Uri;
use Uri\InvalidUriException;
try {
$uri = new Uri("not a uri");
} catch (InvalidUriException $e) {
// 拒绝输入
}
$uri = Uri::parse("not a uri");
var_dump($uri); // nullWHATWG 行为提供更丰富的错误信息:
use Uri\WhatWg\Url;
use Uri\WhatWg\InvalidUrlException;
try {
$url = new Url("invalid url");
} catch (InvalidUrlException $e) {
// $e->errors 包含 UrlValidationError 实例
}
$errors = [];
$url = Url::parse("invalid url", null, $errors);
var_dump($url); // null
var_dump($errors); // UrlValidationError 数组这种区分(硬错误 vs 软错误 vs parse-and-return-null)在 RFC 中有详细说明。
有了这个功能,你不再需要手动检查是否以 / 开头然后拼接。
在构造函数或 parse() 中使用 base URL:
use Uri\Rfc3986\Uri;
$base = new Uri("https://example.com");
$uri = new Uri("/foo", $base);
echo $uri->toString(); // "https://example.com/foo"WHATWG 类似:
use Uri\WhatWg\Url;
$base = new Url("https://example.com");
$url = Url::parse("/foo", $base);
echo $url->toAsciiString(); // "https://example.com/foo"扩展还提供了便捷的 resolve() 方法,以当前对象作为 base。
拿到对象后,可以用 with*() 方法修改组件。这些方法返回新实例,原对象保持不变。
use Uri\Rfc3986\Uri;
$uri = new Uri("https://example.com/products?sort=asc#top");
$updated = $uri
->withPath("/products/123")
->withQuery("sort=desc&ref=home")
->withFragment("reviews");
echo $uri->toString(); // 原对象不变
echo $updated->toString(); // 修改后的RFC 3986 提供"原始"和"规范化解码"两种 getter(下一节详述),以及 toString() 和 toRawString() 方法。
use Uri\WhatWg\Url;
$url = new Url("https://example.com/");
$new = $url
->withPath("/search")
->withQuery("q=php+8.5")
->withFragment("results");
echo $new->toAsciiString();
echo $new->toUnicodeString();WHATWG 有 toAsciiString() 和 toUnicodeString() 两种输出,分别用于机器处理和人类展示。
使用 WHATWG 时,如果你在设置 query/fragment 时不小心包含了 ? 或 #,它会把它们当作分隔符并去掉:
use Uri\WhatWg\Url;
$url = new Url("https://example.com/");
$url = $url->withQuery("?foo");
$url = $url->withFragment("#bar");
echo $url->getQuery(); // "foo"
echo $url->getFragment(); // "bar"这个行为在文档中有明确说明。
URI 扩展的价值不止于 API 设计——它让你能控制 URL 的表示形式。
对于大多数组件,Uri\Rfc3986\Uri 暴露:
RFC 解释了为什么需要两种形式以及何时使用——签名方和 API 客户端通常偏好 raw,而路由/缓存通常偏好规范化解码。
具体效果:
use Uri\Rfc3986\Uri;
$uri = new Uri("https://%61pple:p%61ss@ex%61mple.com:433/foob%61r?%61bc=%61bc#%61bc");
echo $uri->getRawHost(); // "ex%61mple.com"
echo $uri->getHost(); // "example.com"
echo $uri->getRawPath(); // "/foob%61r"
echo $uri->getPath(); // "/foobar"
echo $uri->getRawQuery(); // "%61bc=%61bc"
echo $uri->getQuery(); // "abc=abc"规范化示例:
use Uri\Rfc3986\Uri;
$uri = new Uri("HTTPS://EXAMPLE.COM/foo/../bar/");
echo $uri->getRawScheme(); // "HTTPS"
echo $uri->getScheme(); // "https"
echo $uri->getRawHost(); // "EXAMPLE.COM"
echo $uri->getHost(); // "example.com"
echo $uri->getRawPath(); // "/foo/../bar/"
echo $uri->getPath(); // "/bar/"如果你设置的 path 包含该组件必须百分号编码的字符,WHATWG 会自动编码:
use Uri\WhatWg\Url;
$url = new Url("https://example.com");
$url = $url->withPath("/?#:");
echo $url->getPath(); // "/%3F%23:"这能防止意外构建出损坏的 URL。
重复编码通常这样发生:
rawurlencode() 编码一个值,因为"它要放进 URL"使用 URI 对象,一个好做法是:
http_build_query() 构建 query(或你偏好的编码器)withQuery()示例:
use Uri\Rfc3986\Uri;
$base = new Uri("https://example.com/search");
$params = [
'q' => 'php 8.5 uri',
'tag' => 'url/encoding',
];
// RFC 3986 风格编码(空格用 %20 而非 +)
$query = str_replace('+', '%20', http_build_query($params));
$uri = $base->withQuery($query);
echo $uri->toString();http_build_query() 不一定适合所有场景,但好处是编码规则集中在一处,而非散落在各种字符串拼接里。
如果确实需要对 path 段进行 RFC 3986 原始编码,PHP 的 rawurlencode() 遵循 RFC 3986 规则。
如果输入来自用户(或不可信来源),验证应该有明确的立场。
对于你打算 fetch 或跳转的 URL,一个务实的安全导向模式:
WHATWG 适合处理"浏览器风格"URL 和 IDNA。
use Uri\WhatWg\Url;
use Uri\WhatWg\InvalidUrlException;
function validateExternalUrl(string $input, array $allowedHosts): Url
{
try {
$softErrors = [];
$url = new Url($input, null, $softErrors);
} catch (InvalidUrlException $e) {
throw new InvalidArgumentException("Invalid URL.");
}
// Scheme 白名单
$scheme = $url->getScheme();
if (!in_array($scheme, ['http', 'https'], true)) {
throw new InvalidArgumentException("Unsupported scheme.");
}
// 禁止凭证
if ($url->getUsername() !== null || $url->getPassword() !== null) {
throw new InvalidArgumentException("Credentials in URL are not allowed.");
}
// Host 白名单(ASCII 比较)
$host = $url->getAsciiHost();
if ($host === null || !in_array(strtolower($host), $allowedHosts, true)) {
throw new InvalidArgumentException("Host not allowed.");
}
// 可选:端口限制
$port = $url->getPort();
if ($port !== null && !in_array($port, [80, 443], true)) {
throw new InvalidArgumentException("Port not allowed.");
}
return $url;
}几点说明:
Url 即使解析成功也可能返回软错误。RFC 解释了"软 vs 硬"模型,并给出了解析继续但报告验证错误的例子。getAsciiHost() 和 getUnicodeHost();比较通常用 ASCII,展示用 Unicode。如果你在验证通用 URI(不只是 HTTP URL),或者你关心 raw vs 规范化解码的表示,Uri\Rfc3986\Uri 是个好选择。
use Uri\Rfc3986\Uri;
use Uri\InvalidUriException;
function validateHttpUri(string $input, array $allowedHosts): Uri
{
try {
$uri = new Uri($input);
} catch (InvalidUriException $e) {
throw new InvalidArgumentException("Invalid URI.");
}
$scheme = $uri->getScheme();
if (!in_array($scheme, ['http', 'https'], true)) {
throw new InvalidArgumentException("Unsupported scheme.");
}
// Userinfo 在大多数 Web 应用中是个坑
if ($uri->getUserInfo() !== null) {
throw new InvalidArgumentException("Userinfo is not allowed.");
}
$host = $uri->getHost();
if ($host === null || !in_array(strtolower($host), $allowedHosts, true)) {
throw new InvalidArgumentException("Host not allowed.");
}
return $uri;
}签名 URL(HMAC token、临时访问链接、CDN 认证)对表示形式极其敏感。一个小的"规范化变更"就能使签名失效。
这也是 RFC 明确指出"API 客户端或签名方"通常偏好原始表示的原因。
一个简单的签名 URL 方法:
示例,使用 RFC 3986 和 toRawString() 签名:
use Uri\Rfc3986\Uri;
function signUri(Uri $uri, string $secret): Uri
{
// 当你想避免意外转换时,用 raw string
$baseString = $uri->toRawString();
$sig = hash_hmac('sha256', $baseString, $secret);
$query = $uri->getRawQuery();
$query = $query ? $query . '&' : '';
$query .= 'sig=' . rawurlencode($sig);
return $uri->withQuery($query);
}
$uri = new Uri("https://download.example.com/file/%2Fsafe?expires=1736035200");
$signed = signUri($uri, "super-secret-key");
echo $signed->toRawString();两个要点:
如果你的签名算法需要规范形式(有些确实需要),可以故意对 toString() 签名——但要知道自己在做什么,而不是意外这么做。
安全重定向问题通常长这样:
/login?next=<something>next=https://evil.com 或各种变体一个健壮的模式是:
使用 WHATWG:
use Uri\WhatWg\Url;
function safeRedirectTarget(string $next, string $appBase): string
{
$base = new Url($appBase);
// 安全解析相对引用
$errors = [];
$resolved = Url::parse($next, $base, $errors);
if ($resolved === null) {
return $base->toAsciiString(); // fallback
}
// 只允许同 host
if (strtolower($resolved->getAsciiHost() ?? '') !== strtolower($base->getAsciiHost() ?? '')) {
return $base->toAsciiString();
}
// 只允许 http/https
if (!in_array($resolved->getScheme(), ['http', 'https'], true)) {
return $base->toAsciiString();
}
return $resolved->toAsciiString();
}
echo safeRedirectTarget("/dashboard", "https://app.example.com");这里用到了 base URL 解析和引用解析功能。
规范化通常意味着:
使用 Uri\Rfc3986\Uri,你已经可以通过 get*() vs getRaw*()(以及 toString() vs toRawString())清晰地获得规范化行为。
一个简单的规范化示例:
use Uri\Rfc3986\Uri;
function canonicalizeForCache(Uri $uri): Uri
{
// 从规范化解码的部分开始
$uri = $uri
->withScheme($uri->getScheme())
->withHost($uri->getHost())
->withPath($uri->getPath());
// 为缓存 key 排序 query 参数(这是一种策略选择)
$query = $uri->getQuery();
if ($query) {
parse_str($query, $params);
ksort($params);
$sorted = http_build_query($params, '', '&', PHP_QUERY_RFC3986);
$uri = $uri->withQuery($sorted);
}
return $uri;
}
$u = new Uri("HTTPS://EXAMPLE.COM/foo/../bar/?b=2&a=1");
echo canonicalizeForCache($u)->toString();这个函数不试图覆盖所有规范化策略(那是应用层面的事),但结构化 API 的好处是:规则可以显式构建、可以测试。
你不需要一次性重写所有代码。最简单的迁移路径是:
1. 找出 URL 处理对安全敏感或容易出 bug 的地方:
2. 先替换这些。
3. 纯展示用途的简单解析,等到有必要时再处理。
$parts = parse_url($input);
$host = $parts['host'] ?? null;
if ($host !== 'example.com') {
throw new Exception("Bad host");
}
$newUrl = $parts['scheme'] . '://' . $parts['host'] . '/new-path';问题:
use Uri\WhatWg\Url;
$url = new Url($input);
if (strtolower($url->getAsciiHost() ?? '') !== 'example.com') {
throw new InvalidArgumentException("Bad host");
}
$new = $url->withPath('/new-path');
echo $new->toAsciiString();代码更短,意图更明确,细节上更难出错。
使用 Uri\WhatWg\Url 当:
getUnicodeHost() 用于展示,getAsciiHost() 用于比较)使用 Uri\Rfc3986\Uri 当:
RFC 明确区分了这两种方法,包括 Unicode/IDNA 支持的差异。
一个值得留意的设计:内置 URI 类故意不实现 __toString(),因为松散比较(==)容易出错。
取而代之,你用 equals() 比较:
use Uri\Rfc3986\Uri;
use Uri\UriComparisonMode;
$u1 = new Uri("https://example.COM#foo");
$u2 = new Uri("https://EXAMPLE.COM");
var_dump($u1->equals($u2)); // true
var_dump($u1->equals($u2, UriComparisonMode::IncludeFragment)); // falseWHATWG 类似:
use Uri\WhatWg\Url;
use Uri\UriComparisonMode;
$a = new Url("https:////example.COM/");
$b = new Url("https://EXAMPLE.COM");
var_dump($a->equals($b)); // truePHP 8.5 的 URI 扩展看起来是个小功能,用一段时间后才会发现它挡掉了多少细微的 URL bug。
核心价值在于控制:
如果你曾经发布过一个"快速 URL 修复",后来在安全报告或生产事故中看到它,这个扩展值得尽早采用——从重定向和签名 URL 开始。