330 周的数据可视化:我的旅程和关键收获

  • 作者通过每周创建一个数据可视化项目提高了自己的数据科学技能,这是一个从2018年开始持续超过330周的习惯。

  • 作者利用多种渠道寻找数据集进行可视化,包括个人兴趣相关的数据集、可视化通讯、Kaggle、可靠的数据来源、ChatGPT的建议以及个人数据。

  • 在选择可视化工具方面,作者推荐使用Tableau,但也提到了Looker Studio、Power BI和编程包如Plotly和d3.js作为其他选项。

  • 通过每周的可视化工作,作者学到了最佳可视化实践、数据分析和故事叙述的重要性,并建立了一个展示其数据科学技能的作品集。

  • 作者建议数据可视化新手从简单的数据集开始,加入社区以获取灵感,选择自己感兴趣的话题进行可视化,并定期反思和改进自己的作品。

引言

作者自2018年起开始全职从事数据科学工作,每周都会制作一个数据可视化图表。如今,经过330多周,作者对此深感自豪,并撰写了这篇文章分享自己的旅程和关键经验。

如何开始

作者的导师引导他参加MakeOverMonday项目,这是一个全球数据爱好者的社区活动。作者每周一都会用一个小时来可视化这个社区提供的数据,并在Tableau Public上发布成果。

如何寻找数据集

最初,作者使用MakeOverMonday提供的数据集,但自2021年10月起开始自行寻找数据集。作者采用了多种方法,例如:基于个人兴趣查找数据、订阅Chartr和Statista等新闻通讯、使用Kaggle寻找灵感、以及利用个人数据进行分析。

选择可视化工具

作者主要使用Tableau来进行周度可视化工作,并对其定制性和直观性表示满意。此外,作者也使用过Looker Studio,并提到了Power BI和编程软件包如Plotly和d3.js作为其他可选工具。

数据可视化的里程碑

作者列举了一些关键时刻,如第一周的可视化、完成第100个可视化、以及在LinkedIn上发布有影响力的分析作品等。

学到的东西

这个长期项目帮助作者学习了最佳可视化实践、锻炼了数据分析和数据故事讲述能力,并为建立职业生涯提供了实用的作品集。

对新手数据可视化者的建议

作者建议新手从小项目开始,加入社区,与自己感兴趣的主题相关联,并定期反思改进。

结论

作者认为这段旅程见证了坚持不懈的力量,加强了技能,并将自己与一个充满活力的数据社区联系在一起。鼓励有兴趣的人也开始类似的旅程。


How consistent practice in data visualization enhanced my data science skills

持续的数据可视化练习如何提升了我的数据科学技能

I have been making one visualization weekly since I started my full-time data science job in 2018. Now, over 330 weeks later, I consider this an achievement I’m truly proud of. During coffee chats, people often ask me about it, which inspired me to write this article and share my journey and key takeaways.

自 2018 年我开始全职数据科学工作以来,我每周制作一个可视化。现在,经过 330 多周,我认为这是我非常自豪的成就。在咖啡聊天中,人们经常问我这个,这激励我写这篇文章,分享我的旅程和关键收获。

I will cover how I got started, how to find datasets to visualize, how to choose the right visualization tools, what I’ve learned, and tips for aspiring data visualizers.

我将介绍我如何开始,如何找到可视化的数据集,如何选择合适的可视化工具,我学到了什么,以及给有志于成为数据可视化者的人的建议。

When I began my first full-time job, my mentor, a Tableau guru, introduced me to the MakeOverMonday project.

当我开始我的第一份全职工作时,我的导师,一位 Tableau 专家,向我介绍了MakeOverMonday项目。

Welcome to Makeover Monday!

欢迎来到改造星期一!

Makeover Monday is your weekly learning and development appointment with yourself and hundreds of passionate data people. For free!

改造星期一是你每周与自己和数百名热情的数据人员进行学习和发展的约会。免费!

Join us every Monday to work with a given data set and create better, more effective visualizations and help us make information more accessible.

每周一加入我们,使用给定的数据集,创建更好、更有效的可视化,帮助我们使信息更易获取。

The Makeover Monday community comes together every week from around the globe and we would love for YOU to become part of it, too.

Makeover Monday 社区每周汇聚来自全球的人们,我们也希望您能成为其中的一部分。

It’s an amazing community, and I can’t recommend it enough if you’re looking for Tableau data visualization inspiration.

这是一个令人惊叹的社区,如果你在寻找 Tableau 数据可视化的灵感,我无法推荐得更多。

Since then, I’ve dedicated one hour every Monday to visualizing the dataset posted on MakeOverMonday. I publish my visualizations on Tableau Public and write a short blog post with data insights.

从那时起,我每周一都花一个小时来可视化发布在 MakeOverMonday 上的数据集。我将我的可视化作品发布在Tableau Public上,并撰写一篇简短的博客文章,分享数据洞察。

My Recent Weekly Visualization Selections (See more on my Tableau Public)

我最近的每周可视化选择(更多内容请见我的Tableau Public

Initially, I followed the datasets posted weekly by MakeOverMonday. However, the project paused for a year in September 2021. Running the community weekly is a huge commitment, so I completely understand the need for a break.

最初,我跟随 MakeOverMonday 每周发布的数据集。然而,该项目在 2021 年 9 月暂停了一年。每周运营社区是一项巨大的承诺,所以我完全理解需要休息的原因。

Therefore, starting in October 2021, I began finding my own datasets to visualize every week.

因此,从 2021 年 10 月开始,我开始寻找自己的数据集以每周进行可视化。

I soon realized finding a “visualizable” dataset each week can be challenging.

我很快意识到每周找到一个“可视化”的数据集可能很有挑战性。

Sometimes, I spend more than an hour searching for a dataset but only 15 minutes creating the actual visualization — I try to limit the visualization time to be within 30 minutes to make it more sustainable. Here are some approaches I adopted to find datasets:

有时,我花超过一个小时寻找数据集,但仅花 15 分钟创建实际的可视化——我尽量将可视化时间限制在 30 分钟以内,以使其更可持续。以下是我采用的一些寻找数据集的方法:

  1. Datasets related to my personal interests or experiences: My visualization ideas often stem from my interests or experiences. When I have a specific data question in mind, I search for relevant datasets online — data mining is also an important data science skill 🙂.

    与我个人兴趣或经历相关的数据集:我的可视化想法通常源于我的兴趣或经历。当我心中有一个具体的数据问题时,我会在网上搜索相关的数据集——数据挖掘也是一项重要的数据科学技能🙂。

    For example, I was curious about the busiest Caltrain stations during peak commute hours, so I found the dataset from Caltrain reports and created this visualization.

    例如,我对高峰通勤时段最繁忙的 Caltrain 车站感到好奇,因此我从 Caltrain 报告中找到了数据集并创建了这个可视化

    Caltrain Peak Time Passengers Flow Visualization

    Caltrain 高峰时段乘客流量可视化

  2. Visualization newsletters: I subscribe to newsletters like Chartr and Statista, which provide great visualization inspiration and interesting data topics. I enjoy analyzing what makes their visualizations effective and how I might create something different (or better).

    可视化通讯:我订阅了像ChartrStatista这样的通讯,它们提供了很好的可视化灵感和有趣的数据主题。我喜欢分析是什么让它们的可视化有效,以及我如何能创造出不同的(或更好的)东西。

    US Recorded Music Revenue Visualization (Inspiration from Chartr)

    美国录音音乐收入 可视化(灵感来自 Chartr

  3. Kaggle: When I lack ideas, I turn to Kaggle. It offers a wide range of datasets on various topics, and browsing through them often sparks new visualization ideas. Kaggle: 当我缺乏创意时,我会转向 Kaggle。它提供了各种主题的广泛数据集,浏览这些数据集常常激发新的可视化创意。

    US Airline On-time Rate Visualization (Dataset from Kaggle)

    美国航空公司准时率 可视化(数据集来自 Kaggle

  4. Other reliable data sources: Authorities like the US Bureau of Labor Statistics and market research companies like YouGov regularly post high-quality datasets. Many states and cities also have open data portals(for example) with amazing data availability.

    其他可靠的数据来源: 像美国劳工统计局这样的机构和YouGov这样的市场研究公司定期发布高质量的数据集。许多州和城市也有开放数据门户(例如示例),提供惊人的数据可用性。

    US Median Income by Sex and Race Visualization (Dataset from US Census Bureau)

    美国按性别和种族划分的中位收入 可视化 (数据集来自 美国人口普查局

  5. ChatGPT: I’ve also started asking ChatGPT for visualization ideas. While it’s a great brainstorming partner, it occasionally provides invalid links 😂.

    ChatGPT: 我也开始向 ChatGPT 请求可视化创意。虽然它是一个很好的头脑风暴伙伴,但有时会提供无效链接 😂。

  6. My personal data: As a data scientist, I like to collect data on myself. For example, I track my daily spending to better manage my finances. In the chart below, I looked at the health data exported from my Apple Watch, to understand how working from home has impacted my activity level.

    我的个人数据:作为一名数据科学家,我喜欢收集关于我自己的数据。例如,我跟踪我的日常开支,以更好地管理我的财务。在下面的图表中,我查看了从我的苹果手表导出的健康数据,以了解在家工作如何影响我的活动水平。

    My Apple Watch Health Data Visualization

    我的苹果手表健康数据可视化

In this article, I created my own dataset from past visualization blogs and analyzed my visualization habits using web scraping techniques and the OpenAI API. If you’re interested in my favorite topics and most-used chart types, check it out.

这篇文章中,我从过去的可视化博客中创建了自己的数据集,并使用网络爬虫技术和 OpenAI API 分析了我的可视化习惯。如果你对我最喜欢的话题和最常用的图表类型感兴趣,可以查看一下。

I use Tableau for my weekly visualizations, primarily because I used it for dashboarding and reporting at my first job. However, there are many other options available.

我使用 Tableau 进行每周的可视化,主要是因为我在第一份工作中使用它进行仪表板和报告。然而,还有许多其他可用的选项。

In my opinion, Tableau is the most customizable yet intuitive visualization tool. It’s ideal for creating visually attractive and creative visualizations. I am constantly impressed by the dashboards highlighted in Tableau Viz of the Day. Tableau also has an active community with plenty of tutorials and recommendations. Although enterprise licenses are expensive, Tableau offers a free Desktop App with most of the features needed for personal use.

在我看来,Tableau 是最具可定制性且直观的可视化工具。它非常适合创建视觉上吸引人和富有创意的可视化。我对 Tableau 中突出显示的仪表板 今日可视化 始终感到印象深刻。Tableau 还有一个活跃的社区,提供大量教程和推荐。尽管企业许可证很贵,但 Tableau 提供了一个免费的桌面应用程序,具备个人使用所需的大部分功能。

Previously, you could only save visualizations to Tableau Public, which was my biggest complaint about the free app, but the latest version allows local saving.

以前,您只能将可视化保存到 Tableau Public,这也是我对这个免费应用程序最大的抱怨,但最新版本允许本地保存。

At my current job, I’ve also used Looker. For personal visualizations, Looker Studio (formerly Google Data Studio) is another good option.

在我目前的工作中,我也使用过 Looker。对于个人可视化,Looker Studio(前身为 Google Data Studio)是另一个不错的选择。

Though they have similar names, Looker is an enterprise-level BI tool acquired by Google, while Looker Studio is a free BI tool that started as Google Data Studio and was renamed to Looker Studio.

尽管它们的名称相似,但 Looker 是谷歌收购的企业级商业智能工具,而 Looker Studio 是一个免费的商业智能工具,最初是谷歌数据工作室,后来更名为 Looker Studio。

It integrates easily with Google products like Google Sheets and offers a variety of chart types, including the Sankey chart, which can be challenging to create in Tableau. It is also very easy to get started with an intuitive UI (somewhat similar to Excel in my opinion).

它可以轻松与谷歌产品集成,如谷歌表格,并提供多种图表类型,包括桑基图,这在 Tableau 中可能很难创建。它的用户界面非常直观(在我看来有点类似于 Excel),也很容易上手。

However, it’s less customizable if you want to fully personalize your visualizations.

然而,如果您想完全个性化您的可视化,它的可定制性较低。

Other alternatives include Power BI and more flexible programming packages like Plotly and d3.js. Let me know your favorite visualization tool in the comments!

其他替代方案包括 Power BI 和更灵活的编程包,如 Plotly 和 d3.js。请在评论中告诉我你最喜欢的可视化工具!

  1. Week 1(2018–01–08): Started my first weekly visualization with MakeOverMonday.第 1 周(2018 年 1 月 8 日):开始了我的第一次每周可视化,使用 MakeOverMonday。

  2. Week 100 (2019–11–25): Finished my 100th weekly visualization.第 100 周 (2019 年 11 月 25 日): 完成了我的第 100 个每周可视化。

  3. Week 145 (2020–10–05): Published a Tableau dashboard to visualize the impact of a new work visa policy proposal and posted it on LinkedIn, leading to 543 LinkedIn reactions and 6000+ views to the dashboard.第 145 周 (2020 年 10 月 5 日): 发布了一个 Tableau 仪表板,以可视化新工作签证政策提案的影响,并将其发布在LinkedIn上,获得了 543 个 LinkedIn 反应和 6000+次仪表板浏览。

  4. Week 197(2021–10–04): Started finding datasets to visualize myself.第 197 周(2021 年 10 月 4 日): 开始寻找数据集以便自己进行可视化。

  5. Week 261 (2022–12–31): Finished 5-year streak of my weekly visualization journey and posted my achievement on Linkedin with 24k+ impressions of the post.第 261 周 (2022 年 12 月 31 日): 完成了我每周可视化旅程的 5 年历程,并在Linkedin上发布了我的成就,帖子获得了超过 24,000 次的浏览量。

  6. Week 338 (2024–06–17): Still keeping up with this habit today :) My goal is to reach at least the 7-year mark, so I have 365 visualizations to share (that is one per day for a whole year!).第 338 周 (2024–06–17): 今天仍然保持这个习惯 :) 我的目标是至少达到 7 年,所以我有 365 个可视化要分享(这就是整整一年每天一个!)。

Keeping up this weekly visualization journey for over 330 weeks has been incredibly rewarding. Here are my key takeaways:

坚持进行这个每周可视化的旅程超过 330 周是非常有意义的。以下是我的主要收获:

  1. Learning Best Visualization Practices: The best way to learn is by practicing. Reviewing my visualizations, I can see how my skills have evolved. For instance, I used to cram multiple charts into one visualization, but now I focus on keeping only the most relevant information to tell the story.学习最佳可视化实践:学习的最佳方式是通过实践。回顾我的可视化作品,我可以看到我的技能是如何发展的。例如,我曾经把多个图表挤在一个可视化中,但现在我专注于只保留最相关的信息来讲述故事。 Joining a community like MakeOverMonday is especially helpful, as you can see how others visualize the same dataset, sparking new ideas. 加入像 MakeOverMonday 这样的社区特别有帮助,因为你可以看到其他人如何可视化相同的数据集,从而激发新的想法。

  2. Practicing Data Analytics and Storytelling: In my weekly blog posts, I describe the dataset, showcase the visualization, and summarize the insights.实践数据分析和讲故事:在我的每周博客中,我描述数据集,展示可视化,并总结见解。 This process of forming a data question, finding a dataset, and creating a visualization is foundational to daily data science work, and doing it weekly hones my data storytelling skills. 形成数据问题、寻找数据集和创建可视化的过程是日常数据科学工作的基础,每周进行这一过程可以提高我的数据讲故事能力。

  3. Building a Portfolio: Posting weekly visualizations enriches my portfolio, showcasing my data science skills and helping advance my career. I have even had recruiters reach out on LinkedIn after seeing my portfolio site. I am planning to write another post to share tips on building a data science portfolio website. Please stay tuned!建立投资组合:每周发布可视化作品丰富了我的投资组合,展示了我的数据科学技能,并帮助我推进职业生涯。甚至有招聘人员在 LinkedIn 上看到我的投资组合网站后联系我。我计划再写一篇文章,分享关于建立数据科学投资组合网站的技巧。请继续关注!

Looking back at this journey, here are some tips I would like to share with people who would like to learn more about data visualization:

回顾这段旅程,我想与希望了解更多数据可视化的人分享一些建议:

  1. Start small: Begin with simple datasets and gradually take on more complex projects.从小开始:从简单的数据集开始,逐渐承担更复杂的项目。

  2. Join a community: Engaging with communities like MakeOverMonday can provide inspiration and feedback.加入一个社区: 参与像 MakeOverMonday 这样的社区可以提供灵感和反馈。

  3. Follow your interests: Think about the topics you are interested in and try to visualize them to make the process more enjoyable and fulfilling.追随你的兴趣:考虑你感兴趣的话题,并尝试将它们可视化,以使这个过程更加愉快和充实。

  4. Reflect and iterate: Regularly review your work and look for areas of improvement.反思和迭代:定期审查你的工作,寻找改进的地方。

This journey of creating weekly visualizations has been an incredible learning experience and a testament to the power of consistency. It has enhanced my skills, broadened my perspective, and connected me with a vibrant community of data enthusiasts.

这个每周创建可视化的旅程是一次令人难以置信的学习经历,也是对坚持不懈力量的证明。它提升了我的技能,拓宽了我的视野,并让我与一个充满活力的数据爱好者社区建立了联系。

If you’re passionate about data visualization or looking to improve your data storytelling skills, I encourage you to embark on a similar journey. Happy visualizing!

如果你对数据可视化充满热情,或者希望提高你的数据讲故事技巧,我鼓励你开始类似的旅程。祝你可视化愉快!

Continue Reading
All Articles
2024年11月7日
分享|Reverse-engineer Your Creativity With AI
该页面讨论了如何利用人工智能(AI)增强创造力,特别是在商业和设计领域。文章以咖啡店为例,探讨了相似性对消费者期望的重要性。通过模因分析,了解不同咖啡店的设计特点,可以帮助创业者在开店时做出更明智的选择。文章提到,人工智能可以通过分析成功案例来帮助企业家弥补经验不足,识别设计中的相似性和差异性,从而降低新业务的风险。此外,作者还介绍了一些使用AI进行数据分析的技术步骤,包括从网络抓取图像、将输出格式更改为JSON、进行演绎编码等。这些方法可以提高分析效率,帮助创业者做出更好的决策。
2024年12月6日
让 AI 相互辩论:我的 prompt 构建感想
该页面讨论了作者在构建一个AI辩论代理的过程中所进行的prompt工程。作者指出,现有的AI对话往往较为浅显,缺乏深度,认为这可能是由于缺乏有效的prompt设计以及真实数据的支持。因此,作者尝试通过研究和设计具体的prompt,以提升AI的辩论能力。 在prompt构建过程中,作者先从批判性思维的研究入手,利用AI工具收集资料,提炼出辩论中批判性思维的具体体现和步骤。随后,作者借鉴了CO-STAR框架,设定了上下文、目标、风格等要素,以帮助AI更好地进行辩论。 作者进行了多轮辩论,展示了正方关于“人性本善”的辩论回答,认为AI的输出逻辑性较强,但语言上仍显得有些机械。接下来,作者计划将prompt中的步骤拆分为不同模块,以便逐步处理,并反思辩论思维是否真的是线性过程,提出了引入反馈机制和评分模块的想法。 最后,作者分享了在这一过程中获得的学习经验,强调了在实际操作和研究中结合自身理解的重要性,以及元认知在专业技能提升中的作用。
© 2025 愚人哲
www.yrzhe.space