• =?utf-8?Q?[CDT]=20=E7=9F=A5=E8=AF=86=E5=88=86=E5=AD=90=EF=BD=9C=E4=B8=A

    From Mobot@21:1/5 to All on Fri Jun 21 20:41:51 2024
    CDT 档案
    标题:中文互联网内容真的正在衰退吗?
    作者:张天祁
    发表日期:2024.6.18
    来源:知识分子
    主题归类:网络审查
    CDS收藏:公民馆 版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明。

    “全球100万网站中,中文网站的比例只1.3%,英文59.3%”;

    “中文网页数量仅仅略高于尼语和越语”;

    “中文网页的数量年间下了70%”……

    这类关于中文互联网内容比低、迅速衰退的说法,在互联网上已经流行了很长时间。中国有超过10亿的网民,连互联网内容的一角都了,甚至还在继续倒退,这差感能让人
    深刻。这是真的吗?

    有缺陷的数

    这些说法的数都有同一个来源,监测网站W3Techs,它通过分析访问量最高的1000万个网站来确定互联网内容的语言分布。现在网上很多关于互联网语言多样性的讨论,就建立在W3Techs的数之上。
    按照W3Techs的数,英文内容始终是互联网的主流。

    然而法国学者丹尼尔·皮米恩塔(Daniel Pimienta)和他的合作者认同这个观点。皮米恩塔是FUNREDES(Fundación Redes y Desarrollo,网络与发展基金会)的创始人之一,他和合作者一直致力于研究互联网
    言的多样性和文化分布。联合国教科文组织曾经委托他制作关于互联网语言多样性的主题报告[1]。

    有趣的是,皮米恩塔当年踏入互联网语言多样性研究的契机,也是因为法国人对互联网英语内容比的高估。1995年,时任法国总统希拉克在一次峰会上表示,互联网几乎一个100%讲英语的领域。
    在皮米恩塔看来,这样的说法根本经起验证[2]。

    当时流行其他说法也可靠,比如一项1999年的研究提到英文内容互联网达到80%。但这项研究仅仅对3000个网站做了一次抽样,而没有多次得出数的特征,这在统计上是过关的,但这个
    在当时被引用[3]。

    互联网语言多样性的数其实一直很完善。1998年,研究人员首次采用基于搜索引擎的数方法研究互联网语言多样性。然而,到2007年,他们发现搜索引擎报告的可靠性下,只能去寻找新方
    。自2011 年以来,讨论互联网语言分布的政策制定者和语言学研究者,都得完全依赖W3Techs和InternetWorldStats,这两个数源都来自商业营销领域,用它们的数是一无奈之举。

    W3Techs的方法存在显著缺陷,尤其忽视了互联网的多语言特性。例如,许多网站同时使用多语言,但W3Techs通常只记录其中一主要语言,导致了对非主要语言内容的严低估。这样的统计方法
    致英语之外的互联网语言存在被大大低估。

    另外,W3Techs的计量是网站,没有详细到网页的程度。一些非英文网站会在其主页中出现英文摘要或少量英文,这可能会导致整个网站被算作英文网站。此外,许多英文网站的其他语言
    本也会被计算在内。

    中文互联网内容到底比多少?

    为了纠正这误解,皮米恩塔和他的合作者开发了一新的统计方法。他们的方法仅依赖于网站声明的语言,还结合了多个关键因素,包括互联网用户的语言偏好、同地区的网络流量、社交
    网络的订阅情况及各国互联网务的发展进度等。这综合考量使得研究结果更具代表性和准确性。

    尽管W3Techs等网站数显示,互联网上英文内容比超过50%,但这项研究表明,这一比例实际上大约只有20%。

    具体来说,现在英文到互联网内容的20.4%,中文到18.9%,西班牙语7%到9%,其他语言如阿拉伯语、地语、俄语、法语和葡萄牙语分别3%到4%。相比W3Techs的数,这项研究中地语和中文
    容的比都增加了超过10。按这项研究的计算标准,中文内容仅没有减少,而在全球范围内持续增长。

    比例上有所下的而是英文内容。从1998年到现在,英文内容的比例从已经从80%下到20%。但这并是因为英文内容消亡了,而是其他语言的内容显著增加,削弱了英文内容的相对比例,而中
    内容就处于增长之中[4]。

    按照皮米恩塔与合作者长期以来的跟踪。互联网的发展可以划分为几大阶段。最初,从1992年到2000年,网络主要围绕着英语内容构建。随后进入了第二阶段,从2000年到2010年,这一时期以欧洲语
    的兴起为特征,尽管英语然主导地。从2010年到2020年,互联网迈入了更加国际化的阶段,亚洲语言和阿拉伯语等非西方语言迅速发展。

    很难说皮米恩塔的统计就能代表互联网语言分布状况的真相。毕竟这方面的研究并多,研究团队的结果缺少交叉证,而且他们的计算标准本身也在迭代过程中。

    论文中也提到,互联网语言测量领域是两个偏差相当普的领域的交叉点:语言人口学和网络。在这两个领域中,对数并没有达成很好的共识。根资料来源的同,在一些数字上可能会出现
    很大的差异,比如在某个国家有多少人讲这语言,或者网页的总数到底是多少。

    但他的研究至少说明,过去普被引用的W3Techs数是有偏见的。中文的互联网内容比未必少到了和越语一个程度,中文互联网内容的迅速消亡也并非是一个定论。

    衰退的,只是中文互联网内容

    2005年,一商学院的学生正在为自己的学费发愁,考虑如何赚钱来填补学费。很快他有了一个主意,“百万美元主页”。这是一个一百万像素的广告页,每个像素一美元,以100个像素为一组售
    广告。一年之后,他真的成了百万富翁。

    到2019年,百万美元主页依然在运作,但上面40%广告的链接都指向无效网站,还有很多广告背后的网站已经多次变化,指向全新的域。百万美元网页仅展示了一个经典的商业案例,更展
    了早期互联网内容的衰退[5]。

    对于互联网内容来说,这样的衰退其实每天都在发生。今年5月,皮尤研究中心的一项新研究发现,截至 2023 年 10 月,2013 年至 2023 年间一度存在的所有网页中,有四分之一已无法访问。2013年的
    页有38%已经消失。哪怕是2023年的网页,到这一年的月份都有8%已经无法访问了。

    团队从互联网快照数库Common Crawl 的档案中随机收集了近 100 万个网页样本,对 2013 年到 2023 年每一年 Common Crawl 收集的页面进行抽样(每年大约 90,000 个页面),并检查这些页面是否然存在


    这项研究旨在调查有互联网上有多少内容已经无法访问。研究者无法访问的网站定义为在其主机务器上存在的网站,也就是我们熟悉的404错误还有它的变体。有些网页相比过去出现了面目
    全非的变化,其实也可以算作是消失了,但这类情况并是此次研究的点。

    具体到各个领域。政府网站有21%至少包含一个坏的链接。新闻网站页面上的所有链接中有5%无法访问,抽样的所有页面中23%至少包含一个坏的链接。按网站流量排 20% 的新闻网站中,约
    25% 的页面至少有一个坏的链接。近五分之一的推特帖子,在三个月左右的观察期内也可见[6]。

    在学术领域,也有很多数字化的论文从互联网上消失。数字化的学术论文通常有着唯一且变的DOI,以确保学术链接和引用的持久性,然而现在很多DOI背后的作品已经无法找到。

    伦敦伯克贝克大学文学、科技和出版研究员马丁·伊夫(Martin Eve)对超过70万篇带有DOI的数字学术论文进行调查,发现接近28%的论文没有出现在主要的数字档案库中,也就是说,超过200万学术论
    没有得到保存[7]。

    或许是互联网并没有实体,保存互联网信息的成本很难直观看到,我们就有了互联网信息可以持续存在的错觉。实际上无论从成本还是工作量上,互联网内容的存储从来都是一个难题。互联网内
    容永远在持续的增长中,无论是归档还是存储都要花钱,问题是这些钱谁来付?

    高质量信息更难找了

    普通人切身感到的互联网信息的衰退,有时候未必是信息存在了,而是我们搜到了。

    问题出在搜索引擎上,现在搜索引擎无法像过去一样在信息搜索上稳准狠。输入关键得到答案,这直观而清晰的互动体验正在减少。今天我们在搜索引擎输入关键,得到的往往是内容同质
    、信息、挂着各式广告信息的软文。

    2022年,一工程师发布了一篇为“谷歌搜索正在死亡”的文(Google Search Is Dying),表示谷歌的搜索结果一团糟,如果搜索菜谱、健康内容或者商品评论,排在最面的几个非广告结果都是格
    一致、内容的软文,正文还是会有大量的广告和链接[8]。

    这是搜索引擎商业模式所能避的问题。让内容搜索引擎的黄金置本身就是一项称为搜索引擎优化(SEO)的业务。这业务同于竞价排,是利用搜索引擎算法漏洞,通过大量关
    键、伪原创内容或相关链接来提网页排。为人熟知的小编体,就是这针对搜索引擎,刷关键骗点击量的产物。

    根市场研究公司 IBISWorld 的数,去年 SEO 业务价值 760 亿美元。搜索引擎优化已成为大多数网络营销的要组成部分,出现在显眼置的网站可以通过商品链接的返佣赚钱,其中一些甚至干脆
    就是诈骗网站[9]。

    为了保证内容的可靠,现在很多用户在搜索后面加上了 “reddit”,来搜索reddit论坛里的用户真实看法。要是reddit始终没有认真开发搜索功能,恐怕倒向reddit的用户会更多。

    在今年的欧洲信息检索会议(European Conference on Information Retrieval)上,四来自德国的研究者发布了一项为《谷歌在变坏吗?》(Is Google Getting Worse?)的研究,回应了网民对于搜索引擎的质疑
    这项研究的起点就是网民对于搜索引擎质量日渐下的抱怨,结果说明,网民的直觉是对的。

    研究团队利用一年时间,监测了Google、Bing和DuckDuckGo搜索结果的变化,发现所有搜索引擎在处理SEO内容上存在问题,远超过整个网络平均情况。越是靠的内容,越是做了更多优化而且有更多返
    链接,链接越多内容的杂性越差。其中联盟营销内容(为平台推广产品,获取点击或返佣的内容)仅网络产品评论的小部分,但它在搜索结果中主导地。仅是谷歌,所有搜索引
    均遭受垃圾信息的困扰[10]。

    搜索引擎运营商在尝试通过排算法更新来打击SEO和联盟营销内容。从搜索结果上看,Google的更新产生了明显但短暂的效果,从实验开始到结束,Google的联盟垃圾量有所减少。高质量的杂志和社
    交平台通常在多次抓取中稳定出现在谷歌搜索结果的列,而纯粹的产品评论农场和一些频繁的垃圾站点则相对短暂,常在Google排更新后消失。

    雅虎CEO、谷歌早期员工玛丽莎·梅耶尔(Marissa Mayer)表示,如果说谷歌搜索变糟了,那是因为整个网络都变糟了。在她刚为谷歌工作时,互联网只有3000万个网页,对所有网页进行爬取和编制
    引更为简。而现在谷歌面对的可能是上万亿个网页。在经济诱因的驱动下,虚假信息、骗取点击量的内容以及广告链接受监管地迅速增长[11]。

    AI技术进步后,互联网上这类垃圾信息越来越多。网络安全公司 Imperva 今年的一份“良机器人”报告表明,去年所有互联网流量中近一(49.6%)来自机器人,这是从2013年以来的最高水平。特
    是良机器人,现在所有流量的三分之一。

    Imperva应用安全总经理Nanhi Singh表示:“自动机器人将很快超过来自人类的互联网流量比例……随着更多人工智能工具的推出,机器人将变得无所在[12]。”

    随着互联网内容的膨胀,谷歌只能像打地鼠一样追着隐藏在数亿网站中的骗子们打。述论文作者说,这是一场持久战,而搜索引擎输掉了这场“与SEO垃圾内容之间的猫鼠游戏”。

    搜索引擎逐渐迷失是一个世界性的问题,对于中文互联网用户来说,高质量的数更为受限,比如一些行政公开数。

    中国公开数的透明度一度有着明显地上。2013后的几年里,国家统计局的统计指标(如人口数、经济统计数等指标)数量增加了 673%。《中人民共和国政府信息公开条例 》也在2019年进
    了修订,强调了“坚持以公开为常态、公开为例外 ”的信息公开原则。

    然而2015年达到顶峰后,信息公开又出现了下的趋势。

    同类型的信息公开程度同。法律法规是公民和企业生计相关的事项,因此相对透明。相,与内部工作流程相关的文件透明度较低。随着对安全的强调,普通人看到了越来越多健康、消费、
    价格、就业等相关数,但是更少看到能源、科技、创新、金等方面的公开信息。

    尤其是科技创新方面的信息,从2017年之后公开文件的比例就逐步下,到2022年的公开比例更是达到2009年来的低点。

    文件的保存程度也很堪忧。只有78%的政策文件链接在发布两年后然可用。失效的文件大部分与网站无法访问或网站更新有关。其中一些可能在其他地方可获取,但这只是一部分[13]。

    对于生活,这变化可能并没有带来什么显著的便利。但对于相对严肃的用户,比如科技行业的投资者,这些信息的缺失然会带来很多便。相比同样深受互联网垃圾和广告信息发达国家,
    这些高质量信息的差距,可能是中文互联网真正的短板。

    参考文献:
    [1]Pimienta, D., Prado, D., & Blanco, Á. (2009). Twelve years of measuring linguistic diversity in the Internet: balance and perspectives.

    [2]Pimienta, D. (2023). Reliably exploring the presence of languages on the Internet. Research Outreach.

    [3]Lavoie, B. F., & O’Neill, E. T. (1999). How “world wide” is the Web. Annual review of OCLC Research, 1999, 2003.

    [4]Pimienta, D., Blanco, Á., & de Oliveira, G. M. (2023). The method behind the unprecedented production of indicators of the presence of languages in the Internet. Frontiers in Research Metrics and Analytics, 8, 1149347.

    [5]BBC. (2019, April 1). Why there’s so little left of the early internet. BBC Future.

    [6]Pew Research Center. (2024, May 17). When online content disappears. Pew Research Labs.

    [7]Eve, M. P. J. (2024). Millions of research papers at risk of disappearing from the Internet. Nature.

    [8]Brereton, D. (2022, February 15). Google search is dying. DKB Blog.

    [9]Confino, P. (2024, January 22). ‘It’s the worst quality results on Google I’ve seen in my 14-year career’: Web search exec breaks down how ‘SEO parasites’ and AI-enabled spam are breaking the internet. Fortune.

    [10]Bevendorff, J., Wiegmann, M., Potthast, M., & Stein, B. (2024, March). Is Google Getting Worse? A Longitudinal Investigation of SEO Spam in Search Engines. In European Conference on Information Retrieval (pp. 56-71). Cham: Springer Nature
    Switzerland.

    [11]Montti, R. (2022, November 30). Ex-Googler Answers Why Google Search is Getting Worse. Search Engine Journal.

    [12]Griffin, A. (2024, April 17). Humans now share the web equally with bots, report warns amid fears of the ‘dead internet.’ The Independent.

    [13]Merics. (2024, February 15). Increasing challenge of obtaining information in  China. Merics.



    https://chinadigitaltimes.net/chinese/709113.html

    Fri, 21 Jun 2024 19:24:35 +0000

    --
    Mobot

    If you have any comments about this article, you can simply leave them by replying to this post. However, if you have any comments about this bot, please leave your message in the cn.fan group.

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)
  • From Mobot@21:1/5 to All on Mon Aug 12 20:38:32 2024
    CDT 档案
    标题:中国人到底能健康工作多少年?
    作者:冀思宇
    发表日期:2024.8.12
    来源:微信公众号“知识分子”
    主题归类:劳工权益
    CDS收藏:公民馆 版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明。



    图/Pixabay

    老龄化席全球,包括中国在内的许多国家都在调整养老与退休金政策,以应对新趋势带来的挑战。

    其中,提高领取养老金年龄、延长工作年限是最为常见的调整方式之一,也引发了少争议。在回应这些争议时,以下几个问题需要被纳入考量:中老年群体还能健康工作多少年?影中老年群
    体健康工作年限的因素有哪些?“一刀切”的年龄标准适用于所有人吗?

    利用北京大学中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)在2011年7月至2018年11月之间收集的多组数, 中科技大学智能健康住宅研究中心周迎教授团队的研究尝试回
    上述问题。研究使用的数样本共有23975受访者,包含11572男性(比48.27%)和12403女性(比51.73%)。8月1日,标题为《中国健康工作预期寿命的决定因素与平等现象》(Determinants and
    inequities in healthy working life expectancy in China)的论文发表在医学学术期刊_Nature Medicine_上。

    中国人到底能健康工作多少年? 

    健康工作预期寿命(Healthy Working Life Expectancy,HWLE)是一个要的人口指标,代表了人们从50岁开始可以预期健康工作的平均年数,该指标被广泛使用于评估人口的健康状况和工作能力。基于先
    研究,在周迎教授团队的研究中,健康工作预期寿命被定义为“从50岁起预期的健康(无确诊慢性病)且有偿工作(包括雇佣及自雇)的平均年数”。

    调查结果显示,中国人50岁时的健康工作预期寿命平均为6.87年;总预期寿命(Total Life Expectancy,编者注:代表一个人在特定年龄时可以预期活到的平均年数)为30.06年;工作预期寿命(Working Life
    Expectancy)为16.06年。此外,该研究还用工作预期寿命减去健康工作预期寿命来估测健康工作预期寿命(Unhealthy Working Life Expectancy),平均约为9.19年。也就是说,在中国人50岁时,平均预期可以
    工作16.06年,但是其中仅有小于一的时间是健康工作状态,有更长的时间可能会是伴随慢性病等健康问题继续工作。

    上文的数是基于总样本得出的,若分性别来看,在工作预期寿命相关数值上,男性和女性表现出了较大差异。简来说,中国50岁的男性的总预期寿命(28.23年)短于50岁的女性(32.18年),然
    ,男性工作预期寿命(17.54年)长于女性(14.74)年。两性别的健康工作预期寿命同样有明显的性别差异——男性约为8.06年,女性约为5.77年。



    图注:健康工作寿命预期与健康寿命预期、工作寿命预期和总寿命预期之间的差距。a–c,总人口(a)、男性(b)和女性(c)。差距1(Gap1)是健康工作寿命预期(HWLE)与总寿命预期(TLE)之
    的年数差异。差距2(Gap2)表示老年工人处于健康状态并继续工作的年数。差距3(Gap3)表示老年人健康但工作的年数。

    对于健康工作寿命预期中的性别差异,研究者还观察到,中国的女性公务员和企业员工通常在相对较年轻时就退出工作。该选择在很多情况下无关身体健康,原因可能包括女性的养老金领取年龄
    较低、适合的工作机会有限,或她们希望在退休后花更多时间照顾家庭中的孩子和老人。

    弱势群体更经常带病工作

    在上述论文中,从人口健康角度出发,研究者特别探讨了一些慢性疾病、生活方式与健康工作预期寿命之间的关系。

    对于50岁的人群来说,无论男性还是女性,患有高血压而继续工作都是最常见的状况,男性平均预期在高血压的状态下工作5.67年,女性则为4.85年。除了患有高血压的人群之外,患有血脂异常和
    尿病的人群也经常带病工作,在这情况下,男性平均预期工作年数长于女性。而对于女性来说,关节炎、消化系统疾病和心脏问题则更常导致她们的带病工作年数增加。随着年龄增长,关节
    成为70岁男性患有慢性病而继续工作的第二常见症状;70岁女性的消化系统疾病则是第三大症状。

    同居住地、教育程度、收入和职业背景下,人们因慢性疾病而健康工作的时间预期差异也很大。比如,农业劳动者因关节炎在健康状态下工作的年数长于其他职业群体,而公务员则在血脂
    异常的情况下工作年数更长。

    健康生活方式方面,该研究主要将体育活动习惯、抽烟习惯、饮酒习惯纳入考量。研究发现,在三方面都拥有健康习惯的人比那些只有少量健康习惯的人,健康工作预期寿命平均多了2.13年(男
    )和1.61年(女性)。此外,研究还发现,增加体育活动可以显著提高健康工作寿命,其中男性增加了2.56年,女性增加了1.92年。这些影在城乡居民和同职业群体之间也存在差异。

    除了上文讨论过的性别差异,同人群的健康工作预期寿命背后,还隐藏着因城乡、地域、职业等因素带来的平等现象。

    该研究揭示,健康但要继续工作的现象在乡村人口、农业劳动者和受教育程度低的人群中更为普;对于城市人口、企业职工和高学历或高收入中老年人群,健康但工作的时间普更长。人
    们开始出现健康问题的平均年龄大约在60岁,而他们停止工作的年龄在同群体间差异很大。

    首先是城乡差异。与城市人口同,农村居民和农业劳动者使面临持续的健康问题,会倾向于选择工作到较老的年龄。研究认为,这差异可能与中国城乡养老金制度的差异有关。中国的养
    老金政策总体上起步较晚,城市公务员和正式企业员工的养老金制度相对完善。

    其次,在地域差异方面,该研究指出,健康工作预期寿命差异可能与中国各地经济发展和健康状况的地理差异有关。比如以广东省为代表的中国方地区,拥有更高的就业率、经济竞争力和整体
    人口健康水平,该地区人口的总体预期寿命、健康工作预期寿命都更长。这些省份的医疗条件相对发达,社会保障政策也相对完善,对提劳动人口健康水平和促进经济发展起到了积极作用。



    图注:中国50岁人口的健康预期和寿命预期空间分布图。a–d,分别为总寿命预期(TLE)(a)、健康工作寿命预期(HWLE)(b)、健康工作寿命预期(UHWLE)(c)和健康非工作寿命预期(HNWLE)
    (d)。

    该研究还指出,弱势群体中存在更多在长期健康状态下工作的情况。在经济合作与发展组织(OECD)国家,最常见的健康问题包括高血压和关节炎;而在中国,血脂异常同样是一个容忽视的
    要健康问题。这些慢性病虽然如某些疾病致残,但会导致工人生产率低和请病假次数增加。此外,同职业群体由于工作要求和工作条件的同,各自面临独特的健康问题。

    最终,研究者在论文中提到:对于中国目平均而言,50岁以上人群在健康状况佳情况下的带病工作的时间甚至比健康状况良好的情况下的工作时间更长。且农村人口、农业劳动者和受教育程
    较低的50岁以上人群,在健康状况佳的情况下的带病工作的情况更为普。这就意味着,我们的政策需要专注于目标人群来解决普存在的公平现象,以促进健康或工作条件,并促进更具
    持性的养老金体系。延长退休,需要套的是延长健康工作寿命。

    论文原文:Li, Chenshuang, Lingling Wang, Lieyun Ding, and Ying Zhou. "Determinants and inequities in healthy working life expectancy in China." Nature Medicine (2024): 1-9.



    https://chinadigitaltimes.net/chinese/710517.html

    Mon, 12 Aug 2024 14:33:23 +0000

    --
    Mobot

    If you have any comments about this article, you can simply leave them by replying to this post. However, if you have any comments about this bot, please leave your message in the cn.fan group.

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)