工作实在太忙,也没时间打理网站。最近公司额外交待了一些网站 SEO 方面的优化任务让我关注(这就是啥都要会、啥都要做的苦逼运维的真实写照了...)。

于是抽空看了下,至少看到了2个新消息:

①、百度已全面支持https网站,并倡导说使用https会优先收录;

②、将逐步取代实时推送,实时向百度推送新数据。

WordPress发布文章主动推送到百度,加快收录保护原创

对于第一点,个人认为现阶段https不管是从兼容性还是从速度上还是差强人意的。尤其是一些免费的SSL证书,虽然可以让我等屌丝网站瞬间提高逼格,营造一种高大上的赶脚。但是国内其他几家搜索引擎貌似还不能支持https的收录,所以我个人建议可以暂时先观望一下,等技术和时机成熟再来实现整站https。

对于第二点,我第一时间想到的就是百度WordPress数据化结构插件—baidusubmit可以删除,但后面发现其实这2个机制是可以共存的,不过依过往经验来看,如果同时使用,我个人建议关闭百度的数据化结构插件的实时推送功能,避免重复推送通知,造成收录困扰!

一、

先来看下百度对于主动推送的一些说明:

主动推送:最为快速的提交方式,建议您将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录。

主动推送支持多种途径:比如curl 、post、php以及ruby等。而且支持一次性提交多条网站页面地址,不过每个站点每天可推送的次数暂时限制在50次。

使用主动推送功能会达到怎样效果?
①、及时发现:可以缩短百度爬虫发现您站点新链接的时间,使新发布的页面可以在第一时间被百度收录
②、保护原创:对于网站的最新原创内容,使用主动推送功能可以快速通知到百度,使内容可以在转发之前被百度发现

——摘自百度官方:原文地址

二、PHP代码

WordPress发布文章主动推送到百度的代码非常简单复制以下代码:

/**
* WordPress发布文章主动推送到百度,加快收录保护原创
* 文章地址:http://zhangge.net/5041.html
*/
if(!function_exists('Baidu_Submit') && function_exists('curl_init')) {
    function Baidu_Submit($post_ID) {
        $WEB_SITE='zhangge.net'; //这里换成你的首选域名
        $WEB_TOKEN='xxxxxxxxx';  //这里换成你的网站的百度主动推送的token值
        //已成功推送的文章不再推送
        if(get_post_meta($post_ID,'Baidusubmit',true) == 1) return;
        $url = get_permalink($post_ID);
        $api = 'http://data.zz.baidu.com/urls?site='.$WEB_SITE.'&token='.$WEB_TOKEN;
        $ch  = curl_init();
        $options =  array(
            CURLOPT_URL => $api,
            CURLOPT_POST => true,
            CURLOPT_RETURNTRANSFER => true,
            CURLOPT_POSTFIELDS => $url,
            CURLOPT_HTTPHEADER => array('Content-Type: text/plain'),
        );
        curl_setopt_array($ch, $options);
        $result = json_decode(curl_exec($ch),true);
        //如果推送成功则在文章新增自定义栏目Baidusubmit,值为1
        if (array_key_exists('success',$result)) {
            add_post_meta($post_ID, 'Baidusubmit', 1, true);
        }
    }
    add_action('publish_post', 'Baidu_Submit', 0);
}

先将代码中的 “zhangge.net”替换为你网站首选域名,然后打开百度官方页面:http://zhanzhang.baidu.com/linksubmit/index,获取你网站的专属的token值,替换到代码中的 "xxxxxxxxx"。

最后将修改后的代码添加到主题目录下的 functions.php 函数模板并保存。

WordPress发布文章主动推送到百度,加快收录保护原创

现在发布新文章,文章地址将会被主动推送到百度。被成功推送的文章,将自动出现如下自定义栏目:

 

从而避免代码重复推送的尴尬,如果你需要更新文章再次推送数据,那么删除或修改这个自定义栏目即可再次被推送。

Ps:虽然,主动推送的各种方法都支持一次推送多条数据,从我个人的经验来看,对于老文章没必要再次推送,频繁推送容易导致百度“翻脸”!

三、其他说明

用心思考的童鞋,应该可以看出百度的目的应该是为了获取文章准确的发布时间,这一项改进很明显就是为了配合之前百度取消快照之后,新增的“文章发布时间"的改动:

WordPress发布文章主动推送到百度,加快收录保护原创

我个人认为,之前百度应该是通过分析文章中的时间戳来确认原创文章的发布时间。但是时间戳是可以作弊的,而百度蜘蛛的抓取也不是及时的,这样就带来了文章是否真实原创的争议!比如张戈博客发布一篇文章,蜘蛛还没来得及抓取,就被大站转走而且还不带来源链接,就会出现一种情况:大站的蜘蛛抓取频繁,第一时间就抓到了转载的文章,认为是原创,而真正的原创却由于后抓取被蜘蛛认为是伪原创!是个人都要吐血了吧?

现在有了主动推送就好多了,高质量原创文章发布,第一时间就会推送到百度,从而告知了最准确的原创来源,从而杜绝了抄袭者和原创者出现角色互换的尴尬!还在使用老版 baidusubmit 插件的朋友,可以赶紧试试张戈写的代码了!

最新补充:早上不经意看到百度官方推荐文章,果然不出我所料:

新的主动推送工具最大的亮点就是“快”。
这个工具直接将链接推送给百度,而原来的工具推送的是结构化数据,需要百度进一步解析和内部排序。天下功夫,唯快不破。高手对决中,1微秒决定胜负。快速推送带来的好处是两方面的:一是及时发现,可以缩短百度爬虫发现您站点新链接的时间,使新发布的页面可以在第一时间被百度收录;二是保护原创,对于网站的最新原创内容,使用主动推送功能可以快速通知到百度,使内容可以在转发之前被百度发现。

新的主动推送工具第二个特点就是“人性化”。
首先是密匙的人性化,同一个帐号下所有站点的密匙相同。这一点对于一个绑定了多个子域名的大站来说,是个福音,不用为每个子域名写个推送程序,节省时间成本和技术成本。第二个人性化是返回数据人性化,返回数据包含返回码和message,推送完后能立即知道推送结果,而老的工具推送后要登录后台才能查看推送结果。

另外,使用这个插件时必须确保推送的是最新、高质量的网页链接。
  刚才说新工具的最大亮点是快,之所以能快,是因为跳过了正常抓取时的好几个步骤。百度这样做,是希望能更加快速的抓取到高质量的网页。如果一个网站经常推送一些老的、垃圾页面的链接,百度会很生气的,会认为网站辜负了他的信任,直接后果是百度不再信任这个网站的推送,导致工具失效,是否有其它更恶劣的后果,比如降低网站评价,这个还有待进一步观察。所以,使用这个工具时一定要注意,老的、低质量的网页链接不要推送了。(Ps:为了测试我的代码,我连续推送了十几次老文章,也是醉了。。。)

然后这位仁兄还给出了主动推送和实时推送的对比清单:

不久,我又在百度官方WIKI看到了相关文章,已更新到上文当中 。