php用正则表达式匹配URL的简单方法

  在PHP的官网上看到的parse_url()函数的替代方案。结果和parse_url()函数差不多,是使用正则实现的。URI 是 Web上可用的每种资源 - HTML文档、图像、视频片段、程序等 - 由一个通用资源标志符(Uniform Resource Identifier, 简称"URI")进行定位。 对象分组:

  

复制代码 代码如下:

  ^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(\?([^#]*))?(#(.*))?

  12            3  4

  测试代码如下:

  

复制代码 代码如下:

  <?php

  $search = '~^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(\?([^#]*))?(#(.*))?~i';

  $url = 'http://www.glzy8.com/pub/ietf/uri/#Gonn';

  $url = trim($url);

  preg_match_all($search, $url ,$rr);

  printf("<p>输出URL数据为:</p><pre>%s</pre>\n",var_export( $rr ,TRUE));

  /*

  各分组如下

  $1 = http:

  $2 = http

  $3 = //www.nowamagic.net

  $4 = www.nowamagic.net

  $5 = /pub/ietf/uri/

  $6 = <undefined>

  $7 = <undefined>

  $8 = #Gonn

  $9 = Gonn

  */

  ?>

  上面的正则表达式可以获取URL中的任何一部分,下面的代码则简单一些:

  

复制代码 代码如下:

  <?php

  // 从 URL 中取得主机名

  preg_match("/^(http:\/\/)?([^\/]+)/i", "http://www.glzy8.com/index.html", $matches);

  $host = $matches[2];

  // 从主机名中取得后面两段

  preg_match("/[^\.\/]+\.[^\.\/]+$/", $host, $matches);

  echo "domain name is: {$matches[0]}\n";

  ?>