核心要点:大多数人正在做着仅是心理安慰的无效努力,要想成为技术达人你应该这么做。
原文链接:https://www.kdnuggets.com/2018/11/get-hired-as-data-scientist.html
我还记得我哥哥决定卖出他的比特币的那一刻。2017年,星巴克。一个中年大妈向我们走来,她正在给人发放比特币的小册子,上面大大的字体写着,“比特币:通往提前退休之路”。
我很好奇,因此问她如何看待虚拟货币市场,结果她除了比特币并不知道其他虚拟货币。以太币?“没听过”。莱特币?“是便宜版的比特币吧?”
如今,即使一个啥都不懂的大妈都在跟你讲最新的技术趋势,那么这个技术估计也到顶点了,换句话说,泡沫来了。
动态 | 全新零知识证明论文被IEEE学术会议收录 或能抵抗量子计算机:由四位研究人员共同发表的论文透明多项式委托及其在零知识证明中的应用被第 41 届电气电子工程师学会安全隐私学术会议(IEEE S&P 2020)接受,其作者之一的Yupeng Zhang在推特上公开了该消息,他来自于德克萨斯州农工大学,另外三名作者来自于加州大学伯克利分校,分别是Jiaheng Zhang、Tiancheng Xie和Dawn Song (宋晓冬),宋晓冬教授也是区块链隐私计算平台Oasis Labs的创始人。据Yupeng Zhang介绍,该论文提出了一个全新且透明的零知识证明机制,可以提供非常快的验证时间,也不需要可信设置(trusted setup)。论文中介绍到,该零知识证明机制仅使用了轻量级的加密算法比如抗碰撞的哈希函数,所以也可能是量子安全的。[2019/12/26]
这当然不是一个新发现。每个人都知道,在投资领域,如果你的决策和周围每个人都一样,估计你也挣不到什么钱。奇怪的是,投资领域的这条规律,人们很少套用在自己身上。
声音 | Hedera创始人:量子计算只是加密技术的“千年虫问题”:据Decrypt今日消息,Hedera Hashgraph创始人Leemon Baird消除了人们关于量子计算对加密货币的影响的担忧,在2019年全球网络峰会上发表讲话时,他将其比喻为Y2K(千年虫问题),也就是程序员在世纪之交解决的日期格式化问题。[2019/11/8]
大多数人的努力都是无效的心理安慰
假设现在你的目标是入职某公司的数据科学家。如果你按照普遍的“我想要成为数据科学家”的行动点去做,大致意味着你得不到想要的工作。现在市场上到处都是有才能有经验的人,意味着,能力一般的、渴望转行成为数据科学家的人得不到太多的机会。如果你想避免成为平庸的大多数中的一员,为什么要做大多数人做的事情呢?
中科院自动化所副研究员:不认同量子计算对区块链产生威胁的说法:中科院自动化所副研究员袁勇表示:“总体上来说,我不太认同量子计算对区块链产生威胁(的说法)。”“首先,对方并没有以发展的眼光来看待问题。量子计算和区块链,或者说量子计算跟密码学一定会呈现共生演化的趋势,二者互相促进,不能用十年后的量子计算与现有的比特币密码体系相提并论。”袁勇还表示,“我相信密码学体系和区块链的技术一定会有相应的手段应对量子计算的威胁。量子计算对比特币有威胁,但它对传统银行体系的威胁更大。天塌下来有个子高的顶着,以体量来说,还轮不到比特币‘杞人忧天’。”[2018/3/21]
问题在于,大多数人踏上他们的“数据科学家”之旅时,并没有这么想过。我在SharpestMinds工作时,跟上百个有志成为数据科学家的职场人士聊过,80%说得都差不多:
第一步,学工具链。然后上点切分成小部分的MOOC课。读下职位描述,担心自己够不上条件。再上一个别的MOOC,或者从某个平台开始申请工作。没有回音。灰心失望,考虑上Master,继续申请工作。面临选择:继续重复2-7直到瞎猫撞上死耗子,还是放弃?如果这些事也发生在你身上,那么你可能也面临着一个“自我提升的泡沫”:你做着和其他人同样的努力,但期望一个不同的回报。你需要做的第一件事,就是停下来。
期望高回报,意味着不能走寻常路。但是为了避免做寻常事,你需要了解什么寻常事都有哪些。
例如:如果你需要通过MOOC来学习工具链,可以。但是不要陷入MOOC陷阱。MOOC本身就是针对大多数人设计的,仅靠重复在MOOC上学习很难在某个领域出类拔萃。同样的,如果已经有了四五个JupyterNotebook上面写满了sklearn/Pandas/seaborn/Keras的基本语句,你也没必要再新加一个了。
总的来说,首要原则是:如果下一步很明显是大家都去做的,那么就不要做。相反,你要去寻找没人在做的事,尽快去做。
推荐你做这些
这些有效的实践都有哪些?例如:
重复论文。对深度学习尤其有效。这么做的人比较少,相反,随便找一组数据用简单的ANN或者XGBoost做个分类算法多简单啊。你应该去ArXiv找一篇相关的、最感兴趣的论文,理解,然后重复该论文,最好选用一组新的数据。之后把整个经过总结成博文发布。不要停留在舒适区。当你开始一个新项目时,最好以学习新framework/libraries/tools为目标。如果你到了第六个JupyterNotebook还是以df=pd.read_csv(filename)开头,以f1=f1_score(y_true,y_pred)结尾的话,你也是时候换一下自己的策略了。学习无聊的内容。没人喜欢无聊。很多被公司迫切需要求职者具备的技能,比如Gitflow,Docker,用Flask建app,在AWS或GoogleCloud上用模型,都因为学起来无聊,被求职者忽略了。做烦人的事。1)去当地的datascienceMeetup分享一篇论文。或者至少要去参加当地的datascienceMeetup。2)去LinkedIn发私信。坦率,展示你的价值。不要一上来就要工作机会。提问尽量清晰。尝试与人建立关系,拓宽你的人际网络,这需要耐心。3)参加会议与关系网活动。4)开创学习小组。做“疯狂”的事。每个人都会用UCI数据库或者某些股市数据库来建自己的项目。不要这么做。学习获取数据,建立自己配置的数据库。实际中获取数据还是挺难的,公司会期望其工程师能够自己取得数据。你的目标应该是,成为痴迷于datascience的疯子,如果需要的话,建立自己的数据组自然必不可少。以上提到的每种策略,都是基于招聘单位每天面对的疑难杂症提出的。这里面没有新技术新概念,但却能保证你在datascience的工作市场上获得更多的关注,并成为一个能力全备的数据科学家。
每天结束时,记得提醒自己,训练技能是对自己的投资。这意味着,投资领域的经济学原理在此同样适用:如果你期望突出的回报,你需要做异于常人的事情。
如果你有关于如何优化machinelearning算法或datasciencetrajectory的问题,可以向我提问。给我发DM或者Twitter@jeremiecharris:)
作者介绍:
JeremieHarris是@SharpestMindsAI的合作创办者,兴趣领域包括物理,机器学习,哲学,创业。
相关阅读:
·TheMostinDemandSkillsforDataScientists·DiversityinDataScience:OverviewandStrategy·DataScientistInterviewsDemystified
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。