锟斤拷
百科名片:锟斤拷,经常在搜索引擎和网站上看到的字符。是一种因微软漏洞造成的乱码。
简单解释锟届瀿锟斤拷雮傡锟斤拷直锟斤拷锟这些字句是毫无实际意义的,但它们却形象地表达出了一些莫名其妙的问题。这是一个很经典的乱码。相当
经典锟斤拷经典。最容易出现的地方就是搜索引擎。出现的原因我们上网的时候不用去关心网站采用了什么编码格式,但是页面中不时出现的乱码还是会让我们头疼。在这点上,Firefox的用户更是深有体会,用Firefox浏览网页看到乱码的机会要比IE多得多。 乱码主要与字符编码系统有关。例如一个网页中常出现的乱码“锟斤拷”(百度,Google),它就是新老编码系统转换中出现的。网友est专门写了一篇文章来考证问题来源:
锟斤拷Python代码Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER。那么U+FFFD的UTF-8编码出来,恰好是 '\xef\xbf\xbd'。如果这个'\xef\xbf\xbd',重复多次,例如 '\xef\xbf\xbd\xef\xbf\xbd',然后放到GBK/CP936/GB2312/GB18030的环境中显示的话就是“锟斤拷——锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)”。最新出现2011年2月2日零时出现,百度推出搜“红包”,每一次搜索都有惊喜 活动,就出现了。
签名档2012年8月31日又出现。通过IE内核的壳浏览器搜索网页,无论点开什么贴吧的超链接都会进入一个锟斤拷锟斤拷锟斤拷吧。抓包查看可能是百度bug。2012年12月27日,神一样的锟斤拷再度出现。在百度新闻首页的太原市地陷新闻图片中锟斤拷重复出现。
百度新闻截图
解决方法处理这个问题的办法是不要让wininet进行自动重定向(301 302之类),自己进行处理。这下更麻烦了,本来用wininet就是为了省事,没想到却要多写若干代码。还有一个可笑的事情是,wininet的ansi版本和unicode版本不同,后者自动地把url的path部分当成utf8处理,而前者不会。我有些工具是用delphi7写的,有些是用delphi 2010写的,对某些网站,后者则要调用以下这样的函数:InternetSetOption(hSession, 100{INTERNET_OPTION_CODEPAGE_PATH}, @CP_CHINA, sizeof(CP_CHINA));其中最新的常量,Delphi中还没有定义(CP_CHINA = 936)。这些问题的解决,只是把工具做的好一些。实际上没有什么意义,都是微软没有把事情做好。
-------------------------------------------------------------------------
百科竟然能百出来。。。