<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>文本分析 on ZRJ | 学习笔记</title>
        <link>https://blog.zrj.me/tags/%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90/</link>
        <description>Recent content in 文本分析 on ZRJ | 学习笔记</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-CN</language>
        <lastBuildDate>Mon, 16 Jul 2012 20:14:29 +0800</lastBuildDate><atom:link href="https://blog.zrj.me/tags/%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>校长信箱的一些统计数字</title>
        <link>https://blog.zrj.me/posts/2012-07-16-%E6%A0%A1%E9%95%BF%E4%BF%A1%E7%AE%B1%E7%9A%84%E4%B8%80%E4%BA%9B%E7%BB%9F%E8%AE%A1%E6%95%B0%E5%AD%97/</link>
        <pubDate>Mon, 16 Jul 2012 20:14:29 +0800</pubDate>
        
        <guid>https://blog.zrj.me/posts/2012-07-16-%E6%A0%A1%E9%95%BF%E4%BF%A1%E7%AE%B1%E7%9A%84%E4%B8%80%E4%BA%9B%E7%BB%9F%E8%AE%A1%E6%95%B0%E5%AD%97/</guid>
        <description>&lt;p&gt;继上次文本分析走了各种弯路之后（见前几篇博文），时值周末，就回家休息了，昨晚回到宿舍，重新换个思路搞，这次的思路就没有那么天马行空了，拿 PHP 从数据库把 HTML 提出来，滤掉标签，中文分词，然后分月统计，事实证明，脚踏实地是管用的，昨晚写了一部分，后来熄灯了，今天早上又要实习，于是中午回来继续改改，就差不多了，放着跑了一个下午，也就三四个钟，就把结果跑出来了，可惜的是，分词统计出来的结果找不到什么亮点，大略扫了一眼，每个月排在前面的词，除了无意义的虚词像“的”，“是”，“了”，之类的以外，其他的热词也没有体现出什么意义来，像“你”，“请”，“有”，等，看来文本挖掘分析还有很多东西要学啊，看看百度指数，同样是热词统计，就可以显著的体现出当下的热点来。&lt;/p&gt;
&lt;p&gt;先来看一个收信数量折线图吧，是校长信箱每个月收到的信件的数量，时间已发送时间计。&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;http://zrj.me/wp-content/uploads/2012/07/%e6%af%8f%e6%9c%88%e6%94%b6%e4%bf%a1%e6%95%b0%e9%87%8f1.png&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;&lt;img src=&#34;https://blog.zrj.me/images/%e6%af%8f%e6%9c%88%e6%94%b6%e4%bf%a1%e6%95%b0%e9%87%8f1-1024x234.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
	
&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;可以看到峰值是在 2008 年的 4 月出现的，达到了 710 ，曲线也很明显可以看出寒暑假的期间是有迅速回落的，不过话虽这么说，从 05 到 08 大体还是一个稳定而缓慢的上升，图上那个 09 年 1 月的大幅下降很是引人注目，最低点数值达到了 58 ，收信数量是从 11 年开始逐步下滑的，这个估计跟每天限制收信的数量有关。&lt;/p&gt;
&lt;p&gt;接下来看看一些热词吧，首先看回复中出现的热词，统计区间是整个时间段，去掉一些没意义的虚词后排名如下：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;你 -&amp;gt; 3715次&lt;/li&gt;
&lt;li&gt;请 -&amp;gt; 3566次&lt;/li&gt;
&lt;li&gt;谢谢 -&amp;gt; 2753次&lt;/li&gt;
&lt;li&gt;有 -&amp;gt; 2698次&lt;/li&gt;
&lt;li&gt;学校 -&amp;gt; 2528次&lt;/li&gt;
&lt;li&gt;我 -&amp;gt; 2381次&lt;/li&gt;
&lt;li&gt;不 -&amp;gt; 2096次&lt;/li&gt;
&lt;li&gt;在 -&amp;gt; 1952次&lt;/li&gt;
&lt;li&gt;建议 -&amp;gt; 1586次&lt;/li&gt;
&lt;li&gt;可以 -&amp;gt; 1460次&lt;/li&gt;
&lt;li&gt;问题 -&amp;gt; 1424次&lt;/li&gt;
&lt;li&gt;考虑 -&amp;gt; 1075次&lt;/li&gt;
&lt;li&gt;学生 -&amp;gt; 1069次&lt;/li&gt;
&lt;li&gt;后勤 -&amp;gt; 951次&lt;/li&gt;
&lt;li&gt;学院 -&amp;gt; 842次&lt;/li&gt;
&lt;li&gt;应该 -&amp;gt; 793次&lt;/li&gt;
&lt;li&gt;同学 -&amp;gt; 738次&lt;/li&gt;
&lt;li&gt;中心 -&amp;gt; 733次&lt;/li&gt;
&lt;li&gt;教务处 -&amp;gt; 706次&lt;/li&gt;
&lt;li&gt;要求 -&amp;gt; 680次&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;没看出什么来。。来看看学生写信的热词吧，统计范围是标题和信件正文，区间是所有时间段：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;我 -&amp;gt; 91452次&lt;/li&gt;
&lt;li&gt;我们 -&amp;gt; 56992次&lt;/li&gt;
&lt;li&gt;在 -&amp;gt; 54794次&lt;/li&gt;
&lt;li&gt;校长 -&amp;gt; 50851次&lt;/li&gt;
&lt;li&gt;学生 -&amp;gt; 43748次&lt;/li&gt;
&lt;li&gt;有 -&amp;gt; 42475次&lt;/li&gt;
&lt;li&gt;不 -&amp;gt; 39727次&lt;/li&gt;
&lt;li&gt;也 -&amp;gt; 38385次&lt;/li&gt;
&lt;li&gt;都 -&amp;gt; 33188次&lt;/li&gt;
&lt;li&gt;就 -&amp;gt; 31014次&lt;/li&gt;
&lt;li&gt;一 -&amp;gt; 29665次&lt;/li&gt;
&lt;li&gt;学校 -&amp;gt; 28582次&lt;/li&gt;
&lt;li&gt;同学 -&amp;gt; 25168次&lt;/li&gt;
&lt;li&gt;和 -&amp;gt; 23780次&lt;/li&gt;
&lt;li&gt;一个 -&amp;gt; 22644次&lt;/li&gt;
&lt;li&gt;很 -&amp;gt; 22321次&lt;/li&gt;
&lt;li&gt;大 -&amp;gt; 21628次&lt;/li&gt;
&lt;li&gt;问题 -&amp;gt; 21331次&lt;/li&gt;
&lt;li&gt;深 -&amp;gt; 20900次&lt;/li&gt;
&lt;li&gt;这 -&amp;gt; 20705次&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;其实我还统计了每个月的热词的，不过也都是上面的类似，所以也没什么意思贴出来了，下面看看最长的几封信吧，先看回复写的最长的，前面有一篇引用报纸的略过：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;恳请校长重发06年的毕业致辞&lt;/p&gt;
&lt;p&gt;2009-7-5 23:16:00 尊敬的校长：    您好！每年校长的毕业致辞我都有收藏，但奇怪的是我却找不到06年的毕业致辞。学生恳请校长重发06年的毕业致辞，不知可否？    今天再回深大。很怀念。很感恩。只是仍然极度遗憾07年毕业时未能与校长合照。    此致        敬礼                                                                                                                                                      爱您的学生                                                                             2009.07.05 2009-8-1 14:56:00 那一次是脱口说的，无稿子。正在找录音整理。感谢你毕业三年还这样关心，整理后，在想法送达。祝你一切好。已整理，附上。     时光流驰    （ 毕业致辞 录音整理 2006-06-30）    今天，我们以优秀毕业生表彰大会，掀开深圳大学2006毕业周和毕业典礼的序幕。        举办毕业周，是学校对毕业制度的一个改进。过去的毕业仪式和学位授予仪式，匆忙而草率，喜庆的浓度不够，礼遇不足，也缺乏学术的庄重感、学业的成就感。改为一周，以学院为单位轮流举办隆重的毕业典礼，让每一位毕业生在热烈而盛大的注目礼下，接受证书和学位，让家长亲友分享各位的成功与快乐，让这一场景成为永恒的光荣。         我要特别提到普华永道，一个蜚声四海的著名会计师事务所，为了她聘用的一个本科毕业生法学院的薛冰同学接受优秀生的表彰，特地选派大使到会观礼。这彰显了什么？彰显出普华永道上下左右、彼此关爱、一荣俱荣的文化精神。我对这家企业深表敬意。        开心的花絮是，普华永道派来的两位女士，两位部门主管，正是荔园门下的往届师姐，一位学外语，一位学文学。我看着她们的笑容，与她们交谈，内心充满欢喜。还是那样青春靓丽，只是谈吐已大方，目光更柔和，应该是有家有业了。几年之后，各位一如这两位师姐，随着春去秋来，也将走进生活的成熟。        春去秋来，实在很快。刚刚发言的同学用了“白驹过隙”一词，想一想，真是这样。青春在快速地度过，生命在快速地前行。每念及此，常常想起英格丽.褒曼主演的一部电影和其中的一支歌曲，电影叫Casablanca，《卡萨布兰卡》，有人译作《北非谍影》，肤浅，远不如《卡萨布兰卡》；歌曲叫AS time goes by，《时光流驰》。不知道为什么，仅看题目，就有一股莫名的感动。        时光流驰，令人缅怀。这种缅怀，人过中年越发强烈。北京大学九十周年时，乐黛云教授送我一本纪念文集，扉页题辞是，“我们的青春都在这里消逝”。大学生活，确是一生的精彩段落。将来，等你们的生活熟透了，可能会在一个细雨敲窗的夜晚，追寻荔园的点点滴滴，会因一点清晰雀跃不已，也会因一滴模糊怅然不已。我至少也会重温2006届即2002级的两个故事。一个故事是烦恼的关于户口的故事。2002年秋天，新生报到，被要求不带户口。说来荒唐，2001级以前迁户口，2003级以后也迁户口，唯独2002级不让迁户口。这件事临到毕业招致了麻烦、焦虑和不安，直到昨天，仍有人从湛江给我电话。说到湛江求职，拿的是老家户口而不是深圳户口，当地怀疑身份，不肯安置，这段烦恼，他日想来，或许是茶余饭后的谈资，但今日面对，却事关安身与就业，我深感无奈与抱歉。另一个故事是喜悦的关于博士的故事。四年前的秋天，深圳大学开始冲刺学位三级跳的最后一级，博士学位授权，到今年春天，冲刺成功。2002级，参与了冲刺的全过程，见证了冲刺的全过程。这段风雨同舟的喜悦，是我心中永不褪色的风景。         时光流驰，也令人伤感。从前在校园读书，快意朝花夕拾，巴不得太阳即升即落。毕业了，顿悟烂漫时光已经飘过，湖边晨读、林下夜诵的光景逐渐远离，日益迫近的将是成家立业、生儿育女的苦乐年华。这是新的更富挑战的生活，收拾好心情，迎上去。     时光流驰，更令人倍感珍惜。孔夫子说五十而知天命。各位离这个数字，还有一半以上的距离。这距离，看上去很长，走起来很短。用心生活的，无不敬畏时光。曹植写诗给朋友，“惊风飘白日，忽然归西山”，不到26岁。曹丕写信给朋友，“已近老翁，但未白头耳”，不过30岁。子曰川上，“逝者如斯”。想做事业的，抓紧时间做，想有家室的，抓紧时间有，象祖狄那样“闻鸡起舞，枕戈待旦”；过去没有抓紧的，须用心抓紧，象陶渊明说的“悟以往之不谏，知来者之可追”；庶几心想事成。        愿时光眷顾各位。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;校长帮帮忙&lt;/p&gt;
&lt;p&gt;2007-8-30 13:51:00&lt;/p&gt;
&lt;p&gt;章校长：    您好!我现在急需您在06级新生大会上的演讲稿，有关自立，自律，自强，自信的那篇。能否找到？如果有麻烦您发给我邮箱：surexs303069@yahoo.com.cn    又给您添麻烦了，谢谢！    此致敬礼                                                                                                         学生                                                                             2007.8.30 2007-8-30 16:58:00 自觉 自信 自强                                 &amp;mdash;-致新同学（2006年9月11日深圳大学开学典礼） 各位同学、各位老师、各位来宾：     今天，我们在这里举行隆重的开学典礼和盛大的歌舞晚会，热烈祝贺6000多名新同学加盟深圳大学，成为特区大学的大学生，研究生，开始大学校园新生活。大学生活，是丰富的生活，是勤奋的生活。大学道路，是攀登的道路，是探索的道路。我们衷心希望全体新同学高扬自觉，满怀自信，奋力自强。自觉，是大学生应有的理性，应有的品质，应有的责任。自觉无处不在。对宇宙、对自然、对人生要自觉，自觉地体认，自觉地感悟。对自己要自觉，自觉地学习，自觉地锻炼，自觉地进取，自觉地维护校风、优化学风。对他人要自觉，自觉地谦让，自觉地关爱，自觉地宽容，自觉地帮助。对社会要自觉，“直杆能为栋，精钢不作钩”，自觉地主持公义，自觉地抨击邪恶，自觉地同情苦难，自觉地关怀国计民生。自觉常见细微。不在文山湖荔枝林乱丢乱扔，是自觉。不在息灯之后大声喧哗，是自觉。不在网络上通宵游戏，也是自觉。没有自觉，就没有修养；没有自觉，就没有规矩；没有自觉，就没有和谐；没有自觉，就没有进步。古人所谓“三省吾身”的坚持，贵在自觉；所谓“己所不欲勿施与人”的奉行，贵在自觉；所谓“不以物喜不以己悲”，“先天下之忧而忧，后天下之乐而乐”的境界，贵在自觉。我们践行八荣八耻，更是贵在自觉。我相信，你们一定能够尽心塑造并尽力展示具有高度自觉性的特区大学生研究生形象。自信，是大学生应有的豪气，应有的热情，应有的浪漫。青年李白“天生我才必有用，千金散尽还复来”，青年杜甫“为人性僻耽佳句，语不惊人死不休”，青年李贺“少年心事当拿云，谁念幽寒坐鸣呃”，青年毛泽东“自信人生二百年，会当水击三千里”，豪情万丈，豪气如虹。这股豪气，本质上是一股热爱生命的力量，是浪漫的生命热情的迸发。每个人都应该让自己的生命溢光流彩，都应该让自己的生命力淋漓尽致。任何境遇，不可轻言灰心；任何时候，不可轻言放弃。诸位正当青春年华，对自己未来的发展要信心百倍，特别是对自己的大学选择要信心百倍。既然选择了这所大学，就要对学校，尤其是对自己，充满自信。何况你们进入的深圳大学与深圳一样年轻，与深圳一样开放，与世界没有距离。办学二十三年，她在阳光和风雨中前进，在表扬和批评中前进，在期盼和催促中前进，用最短的时间建构起从学士、硕士到博士的人才培养大厦，展示出从院士、教授到各类专家的教学科研雄厚阵容，会聚了来自祖国四面八方和世界五大洲的20000多名青年学生。一个不可争辩的事实和趋势是，深圳大学越来越丰满，越来越精神。加上优越的城市背景和比邻港澳的优越地理，我预言，选择这里，海阔天空，从这里出发，你们一定能够满怀自信，笑傲人生。自强，是大学生应有的骨骼，应有的追求，应有的奋斗。自强，必须自立，必须学会独立地站起来，独立地应对人生，应对关系，应对困难，应对挫折。自强，必须自律，必须学会融入集体，融入秩序，自己管好自己，古人要求“克己复礼”，要求“慎独”，也就是这个意思。自强，必须志向坚定，目标清晰。所谓“立定脚跟，背后灵山飞不去；手持心印，眼前佛面即如来”。自强，必须自我思考，自我设计，自我规划。自强，必须自我充实，拥有实力，必须见诸行动，艰苦奋斗，必须付出心血和汗水。值得骄傲的是，在这条奋斗自强的道路上，深圳大学毕业生已经树立了一个又一个的榜样。这些榜样在校期间的共同特征是尊师重教，刻苦学习，善于独立思考，勇于标新立异，自觉而自信，自强而不息。古人说，“算事业须由人做”。我期待，你们尽早地确立理想和目标，思有所得，学有所成，朝着心中的方向，脚踏实地，一往无前。昨天，是教师节。我们收到了同学们千千万万的祝福。现在，我受全体教职员工的委托，把所有的祝福撒向你们，青春万岁。谢谢。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;再看看学生写的最长的：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;到底是什么错了呢？（转发此文，望能深思）&lt;/p&gt;
&lt;p&gt;2010-5-6 1:27:00&lt;/p&gt;
&lt;p&gt;五年多以前，我进入了全国重点名牌大学：武汉大学读书。我抱着最理想的热情，以为从此走上了一条报效祖国，报效父母的人生坦途，以为我的人生即将要大展宏图！三年以前，抱着对“我的大学”最大的疑惑和不解，我辞去了分团委副书记的职务，开始认真地大量阅读和思考我的人生，我的大学，我的未来。试图找到对周围一切我无法理解问题的解决方案。这一次的决定，也意味着我放弃了原来一直抱有的，通过“从政”来为国家民族做贡献的“远大理想”。一年半以前，我自以为已经看清了中国大学的本质，不愿意再继续自欺欺人地“学”下去，主动放弃了学校保研的名额，退出了用青春和热血换取一纸毫无真实内容和分量文凭的游戏，退出了中国虚伪可笑的“精英学历社会”。决心进入企业，踏踏实实地从事“实业”，站到中国经济第一线，为国家和社会以及自己作真实的努力和贡献。因为我不想用镀金的“文凭”和“文化”来糊弄我自己，也糊弄其他人。今天，在毕业工作一年多后，在我的工作和能力已经得到老板和同事的肯定，马上就要派我出国任职的时候，我却辞职了。我不想违心地接受这个光荣，我决心到远在大山中的一所规模很小的，志在探索中国新教育模式的私立学堂，试图通过投身中国最缺乏，最需要的教育，来实现我人生最大的价值：为我热爱的中国，为中国的孩子和未来，也为我自己，做一点真正有意义的事情，而不是日复一日地在无望的等待中浪费掉自己的生命。因为，中国真正缺的不是钱，我缺的也不是钱。中国缺文化，缺教育。我也一样！周围的人都认为我疯了，鬼迷心窍阿了。放弃了中国人从小就灌输的，从小就追求的“最正宗”、“最正确”、“最理所当然”的道路的确令人不解。我也在认真地思考我这样做的理由。在这里，把自己对家人和朋友质疑的回答写出来。你们也可以自己评析：到底是我疯了，还是这个社会疯了？一、我的梦想――“为中华之崛起而读书”每个人在成长的岁月里都会在心中有个榜样，特别是对一个男孩子来说，在内心总是对那些历史上的英雄颇有好感，我自己也不例外。从小学四年级开始，一套十本的《周恩来传》对我影响至深，从周恩来总理儿时求学到参加革命，从领导抗日、解放战争到后来纵横外交、文革风云，我把里面一个个的故事翻阅过很多次，品味一代伟人为人处事的风范。从那个时候开始，我打心眼里佩服这个为中国人民奉献了一生的好总理，我想，我也要做这样的一个好人，如果有可能，我也想去做一名像他一样的总理。这个朦胧的梦想伴随着我的整个中学时代，给予过我一种精神的感召，特别是周总理那句“为中华之崛起而读书”的名言很多次让我内心澎湃。我憧憬着自己的梦想，父母、老师告诉我要实现自己的梦想就要好好读书、考进大学，因为在大学里就可以学习更多人生的智慧，去实现自己的梦想。于是我在书中看别人对于大学的描写，听父亲对于自己当年因为成分问题而没有机会走进大学的遗憾和他内心由衷的向往，这是父辈对我最大的希冀。我一直感到幸运的是：自己一直非常喜欢读书，所以在应试教育的环境里一帆风顺。高中毕业，我幸运地走进了全国重点名牌大学――武汉大学。带着父辈对于自己的期望，也带着自己心中那个朦胧的“要做总理”的伟大梦想，我开始了自己的大学生活。爸爸在开学时给我的第一封信上写道：“你已经完成了我们家三代想上大学而不能的梦想，在大学的校园里，将会有更多优秀的老师和同学，同时会碰到很多的困难，孟子曰：夫天降将大任于斯人也，必先苦其心志、劳其筋骨、饿其体肤，空乏其身，行拂乱其所为，所以动心忍性，曾益其所不能。你要珍惜这来之不易的机会，发奋努力，好好读书。”我的内心感动于父亲的良苦用心，在书桌前的墙上，我郑重地贴上“为中华之崛起而读书”这个字幅，以勉励自己珍惜大学时光，不辜负家人的期望，不辜负自己的理想。走在武大美丽的校园里，路过那古朴典雅的民国建筑，我可以感受到这所百年名校里深厚的人文和历史底蕴，一种说不出的涌在心里的感觉。我想这么美丽的大学里，应该会有知识渊博的教授和意气奋发的青年学子，思想碰撞，砥砺智慧，探讨人生理想，我一定会度过充实而难忘的大学岁月，我也真正走上了一条报效祖国，报效父母的人生坦途，我的人生就要大展宏图。然而，没有想到的是从大一开始我就对这所美丽的大学有了很多的困惑。二、精神缺乏、游戏成风、学生忙着贴金、老师忙着项目――你认识这样的大学么？当我从那古朴典雅的建筑旁走过，再深入到自己的学习环境和学校其他地方后，我发现这个地方与我之前在书中读到的宁静的大学校园不同，这里各色人等纷纷扰扰，大小汽车进进出出，随处可见各式各样的商业海报或者广告，草坪上遛狗的大妈悠然自得。那种在中小学可以听到的琅琅书声在大学里却寥寥无几，大学怎么竟然不如小学？这些大学生们都不读书么？我很困惑。在正式开始上课之后，我更加见识了大学里很多人是怎么样上课的：早晨上课铃响了之后有很多人穿着拖鞋边吃早点慢悠悠地晃进教室，吃完早点后看看上面的老师，讲得没意思，于是爬着再补一觉。有的学生干脆一睡不起，大学里有句话是这样流传的：“一觉醒来一看表十点了，继续睡到十一点半，起来连早点、中饭一起吃了。”晚上十一点后，应该是夜深人静、正值休息的时候，如果你此时走进大学里的男生寝室，你绝对可以看到他们的夜生活才“刚刚开始”，打游戏、玩麻将或者是看武侠小说，好不热闹。鲜见一起读书、共同讨论人生智慧的场景，相反可以看到很多的大学生去网吧包夜，或者在寝室联机打游戏，他们的日常交流沟通内容就是游戏，以至于很多学生迫不得已，为了和同寝室的哥们“打成一片”而“学习”打游戏。游戏已经成为了大学里男生的主要“学习内容”，而且不少人发奋用功地学习了四年。当我第一次在高我一级的学长寝室楼里看到凌乱的宿舍，散发着异味，一抬头就会看到一个蓬松的脑袋和迷离的眼神，我的灵魂被震撼了！我的心中真的不敢相信，这就是武汉大学的学生？！空洞的眼神昭示着灵魂的无知和内心的空虚，在终日游戏的日子里打发自己的青春岁月！这是大学生么？！这些人就是“为中华之崛起”而努力学习的新一代？我的内心里有一个强烈的声音告诉我：我绝对不要成为这个样子！我的一个同学，从大一到大四，四年的时间，除了考试和教室见个面，其他时间全部在寝室打游戏或者看武侠，反正大学里也没有人管。后来因为挂科太多被学院劝退，家长过来求情延缓时间，但于事无补，游戏照打不误，直到大四时无法毕业。另外一个同学，也是因为打游戏挂科太多被劝退，母亲来到学院跪在学院领导面前说：“我自己在家里吃剩的菜叶在供他读书，求你们给他一次机会吧！”当时我听到学院领导讲到这样的事情的时候，我的内心很受震撼。父母吃菜叶供孩子在城市里打游戏，混日子？还要求情“给机会”？给他继续游戏的机会吗？都说可怜父母心，我想&lt;/p&gt;
&lt;/blockquote&gt;
</description>
        </item>
        <item>
        <title>今天上午文本分析的各种弯路</title>
        <link>https://blog.zrj.me/posts/2012-07-14-%E4%BB%8A%E5%A4%A9%E4%B8%8A%E5%8D%88%E5%88%86%E6%9C%AC%E5%88%86%E6%9E%90%E7%9A%84%E5%90%84%E7%A7%8D%E5%BC%AF%E8%B7%AF/</link>
        <pubDate>Sat, 14 Jul 2012 15:40:38 +0800</pubDate>
        
        <guid>https://blog.zrj.me/posts/2012-07-14-%E4%BB%8A%E5%A4%A9%E4%B8%8A%E5%8D%88%E5%88%86%E6%9C%AC%E5%88%86%E6%9E%90%E7%9A%84%E5%90%84%E7%A7%8D%E5%BC%AF%E8%B7%AF/</guid>
        <description>&lt;p&gt;昨晚看到有人因为章校长退休了，怕信箱不再，于是在爬数据，反正闲着没事干，于是我也爬，观察了一下 URL ，每个部门或者领导有一个这样的属于自己的 URL&lt;/p&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;http://www.szu.edu.cn/mailbox/list.asp?leader=%CA%A6%D4%BA%B0%EC%B9%AB%CA%D2&amp;amp;page=4
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;leader 字段后面是名字，编码是 gb2312 ，顺带一提，整个流程的编码都是 gb2312 。&lt;/p&gt;
&lt;p&gt;我们注意到那个 URL 是带分页，分页是列表，点进去是 URL 类似这样的详情页&lt;/p&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;http://www.szu.edu.cn/mailbox/view.asp?id=85465
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;这个页面的 id 字段是全局，就是说不管是哪个部门哪个领导，都是掺合在一起顺序递增的，呵呵，这么看来背后就是一张表，不过数据量也不大，截止到爬的时候就 18 万多，那么爬虫的代码就有两个思路了，一个是从分页的源码把信件的 id 找出来，然后根据 id 去爬，另外一个就是暴力，遍历 id 一个个爬，就代码的复杂度来说，当然是前者复杂一些，但是也不会差别特别大，而且好处是针对性强，而暴力的方法的好处自然就是数据量大，数据完整了，反正机器爬嘛，就暴力吧。爬虫代码很简单，php 写的，爬一条入库一条，为了不给学校服务器造成无谓的压力，代码就不放了，如果想写又没什么头绪的话，可以 google 一下 curl 的用法，根据 URL 把 HTML 代码下载回来，真的简单。从昨晚两点多左右去睡觉开始爬，到早上九点多完成，回来的 18 万条数据里面有 7 万左右是报该信件不存在的，估计是不公开信，有效的数据 10 万多，整个表 300 多 M 。&lt;/p&gt;
&lt;p&gt;然后自然就是从数据里找点有意思的东西了，想着统计一下回复率啊，回复集中时段啊，信件的平均长度，回复的平均长度之类的简单数据，然后还想找个分词器统计一下热词之类的，于是就开始悲催的走各种弯路。一开始想到数据量毕竟不小，如果用 php 来处理的话怕是时间有点久，于是就天真的想写存储过程来搞，google 一阵搜，找出来好久不写的存储过程语法规则，还有一些字符串常用函数，都是一些很基本的函数，就是找子串，分子串等，坑爹的是存储过程的解释器是没有语法提示的，如果你写过，他就告诉你，第几行第几行的出了错，但是又不说什么类型的错，于是排错就成了猜猜看的游戏，好吧，是自己的问题。另外一个问题就是存储过程是没有控制台之类的输出的，只能打到数据表里去调试，真是悲催啊。写了一段之后我就果断放弃了用存储过程过滤 HTML 标签获取正文的天真想法了。&lt;/p&gt;
&lt;p&gt;于是转向 PHP ，想到没有用过正则来干大文本，于是又天真了一次，google 一阵搜，重新温习了一下正则，好不容易回忆得七七八八，开始动手写，自然是写的磕磕碰碰的，不过好歹是写出了一半多，标题，时间，正文，回复状态啥的都提取出来了，但是又发现回复是可以转发的，于是又悲催了，而且发现虽然写出来的正则大部分可以，但是放到小部分的测试用例上还是不行，而且正则这东西就不是给人写的，写一会就头昏脑胀了，于是又被迫放弃用正则来搞长文本的天真想法，把写到一半的正则拿出来立个碑铭吧&lt;/p&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;/[sS]*&amp;lt;td align=&amp;#34;center&amp;#34; bgcolor=&amp;#34;#F0F0F0&amp;#34; width=&amp;#34;10%&amp;#34;&amp;gt;[xa0-xff]{8}&amp;lt;/td&amp;gt;s*&amp;lt;td width=&amp;#34;90%&amp;#34;&amp;gt;([xa0-xff]*)&amp;lt;/td&amp;gt;s*&amp;lt;/tr&amp;gt;s*&amp;lt;tr&amp;gt;s*&amp;lt;td align=&amp;#34;center&amp;#34; bgcolor=&amp;#34;#F0F0F0&amp;#34;&amp;gt;[xa0-xff]{6}&amp;lt;/td&amp;gt;s*&amp;lt;td&amp;gt;([xa0-xff]*)&amp;lt;/td&amp;gt;s*&amp;lt;/tr&amp;gt;s*&amp;lt;tr&amp;gt;s*&amp;lt;td align=&amp;#34;center&amp;#34; bgcolor=&amp;#34;#F0F0F0&amp;#34;&amp;gt;[xa0-xff]{8}&amp;lt;/td&amp;gt;s*&amp;lt;td&amp;gt;s*([-d]*)[sS]*&amp;lt;td align=&amp;#34;center&amp;#34; bgcolor=&amp;#34;#F0F0F0&amp;#34;&amp;gt;[xa0-xff]{8}&amp;lt;/td&amp;gt;s*&amp;lt;td height=&amp;#34;120&amp;#34;&amp;gt;([sSxa0-xff]*?)&amp;lt;/td&amp;gt;[sS]*&amp;lt;td align=&amp;#34;center&amp;#34; bgcolor=&amp;#34;#F0F0F0&amp;#34;&amp;gt;[xa0-xff]{8}&amp;lt;/td&amp;gt;/
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;于是准备还是用回当年分析课表的老办法，就是把长文本一点点从头截取，先截取前面几百个字符，把标题找出来，然后前面这段就可以删掉，接着迭代的取一段分析一段的，估计还更加容易成，后面还要找分词器，目前做到的就这些，路长着呢&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;历史评论&#34;&gt;历史评论
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;peter&lt;/strong&gt; (2014-03-07 21:35:30):&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;您好，我是深圳大学的11届校友冯鹏，在查找以前章校长的信箱，就找到你了。
在去年的时候，还可以访问章校长的邮箱的。地址是这个http://www.szu.edu.cn/mailbox/list.asp?leader=%D5%C2%D0%A3%B3%A4
，但是现在访问不了。我想找一个老章说过的内容，不知你那有他以前的信箱信件吗？谢谢您！&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;ZRJ&lt;/strong&gt; (2014-03-07 23:27:20):&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;电脑里找了一下，没有找到。。回校内用校内网应该可以重新打开吧。。&lt;/p&gt;
&lt;/blockquote&gt;
</description>
        </item>
        
    </channel>
</rss>
