作者: wildhorde

百度百科也添加了nofollow代码

笔者在检测百度百科的源代码的时候发现,在参考资料处,百度也添加了nofollow代码。

很明显的在参考资料处添加了nofollow代码,nofollow代码的意思是告诉搜索引擎”不要追踪此网页上的链接”或”不要追踪此特定链接。曾经有很多站长靠百度百科为生,确实百度百科如果能做上去的话,效果很好,第一,能带来权重和排名,也许某一个关键词的排名做不上去,但是如果能在百度百科上面能带上链接的话,效果也不错;第二,就是流量,优化也是为了流量,而百度百科对于网站的流量效果还是很显著的,如果词做的好,一个词一天几百个ip也很正常。

现在百度彻底让seo在百度百科上消亡,去掉拓展阅读,参考资料也加了nofollow标签,链接的用户实在不大,可以说把seo在百度百科上面彻底封杀了,没用了,现在估计没多少seo去做百度百科了吧?那么多的广告链接,都是seo水军带来的,现在彻底没机会了。

虽然百度此举看似不利,但是也要从多个角度去分析,下面笔者就从好坏两个方面去分析:

坏处是:

①没有了seo参与的百度百科,它的内容方面会有爱好者去编辑吗?这一点很成疑,毕竟seo界为百度百科创造了很多丰富的内容,虽然是水军,但是天上的牛能飞,也是地下的水军在吹,这么多内容,绝对少不了水军的功劳,而现在让水军绝路了,内容建设方面,肯定会有所减弱。

②对于用户来说,拓展阅读处的链接点击率要比拓展阅读的点击率要高很多,而且很多是优质的阅读资源,现在百度一刀切,只能看到参考资料的内容,而参考资料的内容比较单一,很多不具可读性,效果没有拓展阅读好,从这一点上看,是不好的。

好处是:

①广告信息没有了。百度百科一度被水军做广告所占领,这一次彻底清除,肯定会让广告无处藏身,那样就是一个“干净”的百度百科了,广告的清除在一定程度上提升了用户体验度,也摘掉了百度百科全是广告的帽子,从这一点分析,还是有好处的。

②百度对于百度百科的把控更得心应手了,之前水军天天来淹,现在没有水军了,看seo还嚣张什么,把seo枪毙了自己把控多好,又一个百度自身产品回归百度怀抱。

百度百科是继百度经验之后,又一款百度对其添加nofollow代码的产品,百度能被seo利用的地方无非是百度百科、百度文库、百度知道、百度经验、百度贴吧,基本上就是这几类,除了这几类,其它的基本上做不了。而百度经验和百度百科已经加了nofollow代码了,现在几乎没有使用率了,笔者怀疑之后的百度文库和百度知道是否也会添加nofollow代码呢?

css实现网页变灰色效果

有时候你想让你的网页变成黑白效果。比如发生地震后,整个网站变灰色以表示对遇难者的悼念。这个用css滤镜就能实现。代码如下:

<style type=”text/css”>
<!–
html{
filter:progid:DXImageTransform.Microsoft.BasicImage(grayscale=1);
-webkit-filter: grayscale(1);
}
–>
</style>

将<!– –>中的代码插入css中或者复制全部贴到网页中即可。

WordPress主题制作函数全攻略

一套完整的WordPress模板应至少具有如下文件:

  • style.css: CSS(样式表)文件
  • index.php: 主页模板
  • archive.php: Archive/Category模板
  • 404.php: Not Found 错误页模板
  • comments.php: 留言/回复模板
  • footer.php: Footer模板
  • header.php: Header模板
  • sidebar.php: 侧栏模板
  • page.php: 内容页(Page)模板
  • single.php: 内容页(Post)模板
  • search.php : 搜索结果模板

当然,具体到特定的某款模板,可能不止这些文件,但一般而言,这些文件是每套模板所必备的。

基本条件判断Tag

  • is_home(): 是否为主页
  • is_single(): 是否为内容页(Post)
  • is_page(): 是否为内容页(Page)
  • is_category(): 是否为Category/Archive页
  • is_tag(): 是否为Tag存档页
  • is_date(): 是否为指定日期存档页
  • is_year(): 是否为指定年份存档页
  • is_month(): 是否为指定月份存档页
  • is_day(): 是否为指定日存档页
  • is_time(): 是否为指定时间存档页
  • is_archive(): 是否为存档页
  • is_search(): 是否为搜索结果页
  • is_404(): 是否为 “HTTP 404: Not Found” 错误页
  • is_paged() : 主页/Category/Archive页是否以多页显示

Header部分常用到的PHP函数

  • <?php bloginfo(’name’); ?>: 博客名称(Title)
  • <?php bloginfo(’stylesheet_url’); ?>: CSS文件路径
  • <?php bloginfo(’pingback_url’); ?>: PingBack Url
  • <?php bloginfo(’template_url’); ?>: 模板文件路径
  • <?php bloginfo(’version’); ?>: WordPress版本
  • <?php bloginfo(’atom_url’); ?>: Atom Url
  • <?php bloginfo(’rss2_url’); ?>: RSS 2.o Url
  • <?php bloginfo(’url’); ?>: 博客 Url
  • <?php bloginfo(’html_type’); ?>: 博客网页Html类型
  • <?php bloginfo(’charset’); ?>: 博客网页编码
  • <?php bloginfo(’description’); ?>: 博客描述
  • <?php wp_title(); ?> : 特定内容页(Post/Page)的标题

模板常用的PHP函数及命令

  • <?php get_header(); ?>: 调用Header模板
  • <?php get_sidebar(); ?>: 调用Sidebar模板
  • <?php get_footer(); ?>: 调用Footer模板
  • <?php the_content(); ?>: 显示内容(Post/Page)
  • <?php if(have_posts()) : ?>: 检查是否存在Post/Page
  • <?php while(have_posts()) : the_post(); ?>: 如果存在Post/Page则予以显示
  • <?php endwhile; ?>: While 结束
  • <?php endif; ?>: If 结束
  • <?php the_time(’字符串’) ?> : 显示时间,时间格式由“字符串”参数决定,具体参考PHP手册
  • <?php comments_popup_link(); ?>: 正文中的留言链接。如果使用 comments_popup_script() ,则留言会在新窗口中打开,反之,则在当前窗口打开
  • <?php the_title(); ?>: 内容页(Post/Page)标题
  • <?php the_permalink() ?>: 内容页(Post/Page) Url
  • <?php the_category(’, ‘) ?>: 特定内容页(Post/Page)所属Category
  • <?php the_author(); ?>: 作者
  • <?php the_ID(); ?>: 特定内容页(Post/Page) ID
  • <?php edit_post_link(); ?>: 如果用户已登录并具有权限,显示编辑链接
  • <?php get_links_list(); ?>: 显示Blogroll中的链接
  • <?php comments_template(); ?>: 调用留言/回复模板
  • <?php wp_list_pages(); ?>: 显示Page列表
  • <?php wp_list_categories(); ?>: 显示Categories列表
  • <?php next_post_link(’ %link ‘); ?>: 下一篇文章链接
  • <?php previous_post_link(’%link’); ?>: 上一篇文章链接
  • <?php get_calendar(); ?>: 日历
  • <?php wp_get_archives() ?>: 显示内容存档
  • <?php posts_nav_link(); ?>: 导航,显示上一篇/下一篇文章链接
  • <?php include(TEMPLATEPATH . ‘/文件名’); ?> : 嵌入其他文件,可为定制的模板或其他类型文件

与模板相关的其他函数

  • <?php _e(’Message’); ?>: 输出相应信息
  • <?php wp_register(); ?>: 显示注册链接
  • <?php wp_loginout(); ?>: 显示登录/注销链接
  • <!–next page–>: 将当前内容分页
  • <!–more–>: 将当前内容截断,以不在主页/目录页显示全部内容
  • <?php timer_stop(1); ?>: 网页加载时间(秒)
  • <?php echo get_num_queries(); ?> : 网页加载查询量

撞车之后,不要笨的跟猪一样!

1,对方全责提出私了1500,你死活不干,要求走保险,又是吵又是闹又是折腾,定损2200,修理厂要求2400,自掏200.
如果你同意私了,拿1500,报保险自己全责,车照样修好一文不掏白赚1500,第二年保费增加800,赚了700

2.撞伤一人,送医院,被家属打骂,垫医药费8000。回家洗洗脸上的血痕。回头家属要求加10000私了,否则不给你医药发票,保险公司说没发票不给你报销,哦或。悲剧。其实你可以不去医院,现场等待交警出具处理意见。垫医药费就说炒股亏了,现在还欠起外债,等家属告你,告完保险公司全赔,皆大欢喜,你甚至不用出现。

3.撞车了,后面堵起一排车狂按喇叭,对方说我全责,我们退到路边处理,于是停到路边,结果对方马上变脸,说你丫的全责,这时候才想起应该先手机照相。

4.老公指挥倒车,自己一激动,油门当刹车,把老公双腿撞断,打电话给保险公司老老实实的上报,保险公司告诉你,老公不陪。。。。。其实你可以换个朋友的车撞。。你懂

5.车子在4s保养,保养完了,高高兴兴去取车,哦或,倒车时油门又当刹车(为什么是又=。=!),撞的稀里哗啦,造成损失4000+,你郁闷的找保险公司,人家礼貌的告诉你,在修理厂发生的事故,俺们不陪。。。。其实你可以换个地方发生事故,比如小区内和某小树发生亲密接触,你懂。

6.大雨天,早上去happy的去车库取车,发现车库被淹了,顿时泪流满面,赶快上车发动,让自己的车车逃离苦海,一点火,哦或,发动机打不燃。车没逃离苦海,你也进了苦海,4s店告知,发动机进水,报销,损失5w,你兴冲冲的去找保险公司,别个怜悯的看着你,小姐,驾驶员强行打火导致发动机进水,俺们不陪。————你不点火,发动机是不会进水的哦亲。

7,在车上放了好多好多玩具,什么宝塔啊,香水瓶啊,小熊啊小猪啊。有一天差点撞到一个老太,一脚急刹车,香水瓶飞起来干到玻璃又弹到俺额头上。缝8针,玻璃费误工费医药费精神损失费共计3800,保险公司的接线员笑眯眯的告诉你,被车上物品撞坏不赔:如果车辆被车厢内或车顶装载的物品击伤,俺们还是不陪。

8,周末天气好爽,正在happy的飙车,左方一大货车突然一盘子甩到你道上和你kiss了一下,你只有一盘子打到花坛上,你小心肝扑通扑通的隔了5分钟才安静下来,一看大货车早没影了,马上打电话给保险员把大货车狂决一顿,并表示想要修车,保险员遗憾的告诉你把负全责的肇事人放跑了不赔:当与其他车辆发生碰撞时,责任在对方,如果放弃向第三方追偿的权利,也就放弃了向保险公司要求赔偿的权利哦亲。——————其实你可以说,太阳晃花了我的眼,让我上了花坛,什么大货车?没看到~没注意。。。

9,路上爆胎,左转右转稳住方向,不用打电话给保险公司了,别个不陪。

10,停在楼下,上楼看了一集康熙来了,下楼一看,4个轮子没了,几块板砖给俺垫着,不用打电话给保险了,别个不陪。

继续阅读

WordPress 首页摘要而RSS全文输出解决方案

说实话,我对于页面的整齐以及博客排版要求很高,常常要为了一篇文章的排版而多过写文章的时间,而且 现在Bloging还有个麻烦,就是Flickr被封我就不能用Flickr图片,但是我却很喜欢…非常喜欢Flickr的服务,以至于现在每次Blog都是博客中出现图片为我站点服务器图片,而连接地址引到Flickr上去。

最近 搬到WordPress平台,渐渐开始适应了,不过发现,因为我很喜欢引用图片来Blog,如果我文章图片较多的时候,会把博客首页页面拉得太长,影响打开速度和页面效果,所以我开始考虑在首页文章显示摘要,通常以2张图片为限:也就是博客内容除了文字以外,只显示2张截图,全文显示放置在文章页面里。要解决这个方案,我找到了编辑器中“More”的功能:

 

WordPress Test

但是WordPress有个问题,一旦使用More,在RSS中 将会输出文章摘要而不是全文内容了。我曾经也承诺过,除了我操作失误,否则Blog内不会出现摘要输出 以及 付费评论这2大博客的毒瘤。为了这个,询问了朋友和查阅Google,最后找到解决办法 一劳永逸的方法,具体办法如下:

1. 首先在文章中 使用More的代码,插入到你需要的位置;
2. 然后,修改WordPress 里面wp-includes文件夹中的post-template.php文件,使用任何代码编辑器打开,在里面找到以下If 代码:

 

if( preg_match(’/<!–more(.*?)?–>/’, $content, $matches) ){
$content = explode($matches[0], $content, 2);
if ( !empty($matches[1]) && !empty($more_link_text) )
$more_link_text = strip_tags(wp_kses_no_null(trim($matches[1])));
}

我们需要修改的就第一句话:

if ( preg_match(’/<!–more(.*?)?–>/’, $content, $matches ) ){

修改为(粗体字部分):

if ( preg_match(’/<!–more(.*?)?–>/’, $content, $matches)   && !is_feed() ){

如此一来,WordPress的More功能就不会影响到我们RSS的输出了。

(原文链接:http://blog.jooit.com/?p=731)

robot.txt写法

其实robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。

那么robots.txt语法到底有哪些呢?

robots.txt语法有三个语法和两个通配符。

三个语法:

1.首先要定义网站被访问的搜索引擎是那些。

User-agent:(定义搜索引擎)
语法:User-agent: * 或 搜索引擎的蜘蛛名称

例子:User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)
User-agent:*(定义所有搜索引擎)

2:屏蔽搜索引擎爬去语法

Disallow:(禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。

写法:DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录)
或 DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)

例如:Disallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)
Disallow:/help.html (禁止蜘蛛爬去help.html页面)

整套语法示范:
User-agent: *
Disallow:/目录1/ (禁止所有搜索引擎的蜘蛛爬取站点的目录1)
Disallow:/目录2/ (禁止所有搜索引擎的蜘蛛爬取站点的目录2)

3:允许搜索引擎爬去语法

Allow:(允许语法) 用来定义允许蜘蛛爬取的页面或子目录

例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面)

两个通配符:

匹配符”$”和 “*”
$ 通配符:匹配URL结尾的字符; * 通配符:匹配0个或多个任意字符;

例子1:
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下:
User-agent: *
Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)

例2:
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下:
User-agent: *
Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)

为wordpress创建有利于seo的robots.txt文件

如果您不想让 Google 或其他搜索引擎访问您网站中的某些内容,请用 robots.txt 文件指定搜索引擎抓取您的网站内容的方式。这是google管理员工具对robots.txt功能的一个描述。
robots.txt文件说白了就是告诉爬虫哪些网址是可以被收录那些是禁止收录的。对于大多数wordpress博主来说很少注意robots.txt,认为他无关紧要,其实不然,robots.txt在wordpress优化,网站seo方面有着很重要的作用。robots.txt不光可以保护网站隐私链接不被搜索到,而且可以控制网站内容的重复和抓取错误。下面我就写几种wordpress常用的robots.txt规则。

 

最简单的robots.txt规则:

User-agent: *
Disallow:

这是开放式的写法,Disallow:留空,是让搜索引擎收录所有链接。

安全性的robots.txt书写规则:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /?s=

有利于seo的robots.txt书写规则:(以本站为例)

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: */rss.xml
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */trackback/
Disallow: */feed/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*?*
Disallow: /?s=
Sitemap: http://www.example.com/sitemap.xml

先说所我为什么这么设置。google管理员工具在分析我网站抓取错误信息的时候,发现大量链接是http://www.example.com/xxxx/rss.xml的形式,为了减少抓取错误,我就让搜索不爬这些链接,Disallow: */rss.xml  ,如果你没遇到和我一样的问题这一条你可以不用加。同样,如果你的网站有大量抓取错误的无效链接,你可以在这里指定不抓取。

再有就是网站元重复太严重(标题重复,描述重复,关键词重复),这严重影响搜索引擎排名,我看中的是文章页排名,所以像标签页,作者文章归档,月份存档页,分页这些我选择Disallow。因为我的文章页面在google中的权重很高,流量几乎都是文章页面的,所以才这么设置。这个根据自己网站实际情况选择性的设置。

feed和trackback的条款是一定要的,可以说wordpress 80%以上的补充材料都是和它们有关。

 

wordpress官方robots.txt书写规则(国外)

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /author/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# digg mirror
User-agent: duggmirror
Disallow: /

Sitemap: http://www.example.com/sitemap.xml

对于自己网站情况还不太清楚的博主,我推荐用这种,没有风险,安全,有利于seo。具体内容请参考:wordpress codex

在你修改robots.txt文件时,可以用Google网站管理员工具检测一下robots.txt是否符合规范。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

WordPress的Robots.txt设置

为了避免搜索引擎对博客内容进行重复索引,可以用robots.txt限制搜索引擎机器人对某些页面的抓取。例如分类页面(category)、标签页面(tag)之类的是随最新文章变化的,对它们做索引就没有什么意义。

可以在web的根目录下放置一个如下内容的robot.txt文件(文件名全部为小写):

User-agent: *
Disallow: /wp-admin
Disallow: /tag
Disallow: /category/
Disallow: /*?*

User-agent: Mediapartners-Google
Allow: /

其中的“Disallow:/*?*”那句是让搜索引擎不去索引所有带“?”的网址。如果WordPress没有采用永久固定链接而用默认的“ /?p=xx”的方式的话就要删掉这句。

请注意末尾的两句,其含义是允许Google Adsense的机器人去抓取所有页面,这样才可以在所有页面上都放adsense广告。否则在禁止了索引的页面上只会显示公益广告而无法获得 adsense收入。曾经有人对该问题的回复是设置:

User-agent: Mediapartners-Google*
Allow: /

也就是后面加了个“*”,不知道是那人笔误还是怎样,这个“*”是不对的,但网络上以讹传讹,很多文章在说明robots.txt的设置时都说成 是:“User-agent: Mediapartners-Google*”。我们可以利用google的网站管理员工具中的“测试robots.txt”来进行测试,就会发现如果末 尾加了“*”的话结果是不正确的。上面的文字来自:蓝天博客

下面我们介绍什么是robot.txt文件及其语法:

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
语法:最简单的 robots.txt 文件使用两条规则:
• User-Agent: 适用下列规则的漫游器
• Disallow: 要拦截的网页

robots.txt文件的格式

”robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“:

“。

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条 User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中,加入”User-agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的Disallow和Allow行的限制。
Disallow:
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例如”Disallow:/help”禁止robot访问/help.html、 /helpabc.html、/help/index.html,而”Disallow:/help/”则允许robot访问/help.html、 /helpabc.html,不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url,在” /robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎 robot,该网站都是开放的。
Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以 Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。
使用”*”和”$”:
Baiduspider支持使用通配符”*”和”$”来模糊匹配url。
”$” 匹配行结束符。
”*” 匹配0或多个任意字符。

(本文转自乔大海的个人网站)

 

版权所有 © 2024 野人部落实验室

主题设计 Anders Noren返回顶部 ↑